如何增加廣告點擊率,先要了解點擊率模型

2019-04-16

說到計算廣告，或者個性化推薦，甚至一般的互聯(lián)網(wǎng)產(chǎn)品，無論是運營、產(chǎn)品還是技術(shù)，最為關(guān)注的指標(biāo)，就是點擊率。業(yè)界也經(jīng)常流傳著一些故事，某某科學(xué)家通過建立更好的點擊率預(yù)測模型，為公司帶來了上億的增量收入。點擊率這樣一個簡單直接的統(tǒng)計量，為什么要用復(fù)雜的數(shù)學(xué)模型來刻畫呢？這樣的模型又是如何建立與評估的呢？北京網(wǎng)站設(shè)計公司快幫云在這一期就來談?wù)勥@個問題。

那么什么是點擊率模型呢？

計算機科學(xué)里，點擊模型（Click Model）是對用戶點擊行為的建模。根據(jù)用戶的歷史點擊信息，對用戶的興趣和行為進行建模，以對用戶的未來點擊行為進行預(yù)測，提高相關(guān)性。

在搜索引擎中，點擊模型是指對用戶的歷史點擊文檔進行建模，用來預(yù)測文檔相關(guān)性。

網(wǎng)頁SEO搜索排序傳統(tǒng)上基于人工設(shè)計的排序函數(shù)，如BM25等。近幾年，排序?qū)W習(xí)的引入大大的降低了融合大量特征的繁瑣程度，不過由于排序?qū)W習(xí)是監(jiān)督學(xué)習(xí)，因此需要大量的人工標(biāo)注人員對文檔進行標(biāo)注，這需要大量的人工成本，而且由于營銷型網(wǎng)站建設(shè)網(wǎng)頁的相關(guān)性會隨著網(wǎng)頁內(nèi)容的更新等發(fā)生變化，尤其是時效性類的新聞網(wǎng)頁，保持所有的人工標(biāo)注是最新的是不可行的。

用戶的點擊日志記錄了用戶對搜索結(jié)果滿意程度的重要信息，能夠提供對相關(guān)性預(yù)測價值非常高的信息。相比較人工標(biāo)注而言，點擊的獲得成本更低，而且點擊體現(xiàn)的總是最近的相關(guān)性。

一、為什么要建立一個點擊率模型？

無論是人工運營還是機器決策，我們都希望對某條廣告或內(nèi)容可能的點擊率有一個預(yù)判，以便判斷哪些條目應(yīng)該被放在更重要的位置上。這件事兒看起來并不難，比如說我有十條內(nèi)容，在歷史上呈現(xiàn)出來的點擊率各個不同，那么只需要根據(jù)歷史點擊率的統(tǒng)計做決策即可，似乎并沒有什么困難。

然并卵。直接統(tǒng)計歷史點擊率的方法，雖然簡單易操作，卻會碰到一個非常棘手的問題。首先，大家要建立一個概念：不考慮位置、時間等一系列環(huán)境因素，絕對的點擊率水平是沒有什么太大意義的。比方說，下面的一個廣告，分別被放在圖中的兩個位置上，統(tǒng)計得到前者的點擊率是2%，后者的點擊率是1%，究竟哪個廣告好一些呢？其實我們得不出任何結(jié)論。

于是，聰明的運營想到一個辦法，干脆我在不同的位置上分別統(tǒng)計點擊率，然后分別排序。這個思路從道理上來說無懈可擊，相當(dāng)于直接求解聯(lián)合分布；不過，其實用價值并不高：在每個位置上分別統(tǒng)計，大多數(shù)廣告或內(nèi)容條目的數(shù)據(jù)都太少，比如說100次展示，產(chǎn)生了一次點擊，這難道能得出1%點擊率的結(jié)論么？

那能不能再換一個思路，找到一些影響點擊率的一些關(guān)健因素，對這些因素分別統(tǒng)計？這實際上已經(jīng)產(chǎn)生了“特征”這樣的建模思路了。比如說，廣告位是一個因素，廣告本身是一個因素，用戶的性別是一個因素，在每個因素上分別統(tǒng)計點擊率，從數(shù)據(jù)充分性上是可行的。不過這又產(chǎn)生了一個新的問題：我知道了男性用戶的平均點擊率、廣告位S平均點擊率、某廣告A的平均點擊率，那么如何評估某男性用戶在廣告位S上看到廣告A的點擊率呢？直覺的方法，是求上面三個點擊率的幾何平均。不過這里面有一個隱含的假設(shè)：即這三個因素是相互獨立的。然而當(dāng)特征多起來以后，這樣的獨立性假設(shè)是很難保證的。

特征之間獨立性，經(jīng)常對我們的結(jié)論影響很大。比如說，中國的癌癥發(fā)病率上升，到底是“中國”這個因素的原因呢？還是“平均壽命”這個因素的原因呢？顯然這兩個因素有一些相關(guān)性，因此簡單的分別統(tǒng)計，往往也是行不通的。

那么怎么辦呢？這就要統(tǒng)計學(xué)家和計算機科學(xué)家出馬，建立一個綜合考慮各種特征，并根據(jù)歷史數(shù)據(jù)調(diào)整出來的點擊率模型，這個模型既要考慮各種特征的相關(guān)性，又要解決每個特征數(shù)據(jù)充分性的問題，并且還要能在大量的數(shù)據(jù)上自動訓(xùn)練優(yōu)化。這就是點擊率模型的意義，這是一項偉大的、光榮的、正確的、有著極大實用價值和戰(zhàn)略意義的互聯(lián)網(wǎng)+和大數(shù)據(jù)時代的重要工作。那位說了，有必要抬得這么高么？當(dāng)然有必要！因為這門手藝我也粗通一點兒，不吹哪行。

二、怎樣建立一個點擊率模型？

這個問題比較簡單，我們就不多談了。（想罵街的讀者，請稍安勿躁，繼續(xù)往下看。）

三、如何評估一個點擊率模型？

評估點擊率模型的好壞，有各種定性的或定量的、線上的或線下的方法。但是不論什么樣的評測方法，其本質(zhì)都是一樣，就是要看這個模型區(qū)別被點擊的展示與沒被點擊的展示之間的區(qū)別。當(dāng)然，如果能找到一個離線可以計算的量化指標(biāo)，是再好不過了。

這樣的指標(biāo)是有一個，就是如下圖所示的ROC曲線下的面積，術(shù)語上稱為AUC。（關(guān)于ROC和AUC的詳細介紹，請大家參考《計算廣告》第*章。）AUC這個數(shù)值越大，對應(yīng)的模型區(qū)別能力就越強。

好了，為了讓大家深入理解點擊率模型評測的關(guān)鍵，我們要談到一個常見的口水仗：有一天，有兩位工程師在閑談，一位叫小優(yōu)，一位叫小度。他們分別負責(zé)某視頻網(wǎng)站和某網(wǎng)盟廣告的點擊率建模。小優(yōu)說：最近可把我忙壞了，上線了個全新的點擊率模型，把AUC從0.62提高到0.67，效果真不錯！哪知道小度聽了哈哈大笑：這數(shù)據(jù)你也好意思拿出來說，我們的AUC早就到0.9以上了！

那么，是不是小度的模型比小優(yōu)真的好那么多呢？當(dāng)然不是，我們看看該視頻網(wǎng)站和網(wǎng)盟的廣告位分布，就一目了然了。

什么？你還沒有明白，那么我建議你自己好好把這個問題想清楚。不論你是運營還是產(chǎn)品，經(jīng)過了這樣的思考，你的數(shù)據(jù)解讀能力會上一個臺階。

好了，三個關(guān)鍵點說完了，我知道有的讀者還會對第二點表示沒看懂，那干脆我們就再多說一點兒，將2015年11月15日王超在計算廣告讀者微信群里所做的題為“點擊率預(yù)估趨勢淺析”的分享內(nèi)容整理發(fā)布在下面。沒有堅持到這里就把文章關(guān)掉的碼農(nóng)們，讓他們后悔一輩子去吧！

今天分享一下點擊率預(yù)估近年來的一些趨勢。主要結(jié)合劉鵬老師的一些指導(dǎo)，以及自身工作的一些經(jīng)驗，有偏頗的地方請大家多多指正。

在計算廣告第一版的書里，主要講到了經(jīng)典的點擊率預(yù)估模型邏輯回歸，特征工程，模型的評估等，相信對大多數(shù)場景來說這一步是必做的基線版本。后續(xù)可以在此基礎(chǔ)上做一些更細致的特征工程和模型工作。考慮到群里的朋友都已經(jīng)拿到了這本書，今天先跳過書里覆蓋的內(nèi)容，講一些目前書里沒有提及的部分。如果對書里內(nèi)容還不夠了解的朋友，建議第一步還是把書中基礎(chǔ)性的內(nèi)容仔細掌握。

文章內(nèi)容來源于網(wǎng)絡(luò)，侵刪

知識產(chǎn)權(quán)

工商財稅

數(shù)字化建設(shè)

資質(zhì)認證

人事服務(wù)

如何增加廣告點擊率,先要了解點擊率模型

推薦閱讀