色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

點(diǎn)擊模型:達(dá)觀數(shù)據(jù)提升算法精度的利器

1

在搜索、推薦、廣告引擎中,系統(tǒng)會(huì)通過復(fù)雜算法生成一個(gè)最終的結(jié)果列表。用戶在看到這個(gè)結(jié)果列表時(shí),未必都會(huì)對(duì)排序滿意,比如有時(shí)覺得排序的順序有問題,或者發(fā)現(xiàn)一些不符合喜好的item。如果從算法層面來調(diào)優(yōu),總會(huì)有按住葫蘆起了瓢的感覺,優(yōu)化了某些bad case的同時(shí),會(huì)帶來新的bad case,這種情況下,往往就需要點(diǎn)擊模型來在“近線端”進(jìn)行修正。通過用戶的點(diǎn)擊反饋,可以從算法的另一個(gè)層面,對(duì)結(jié)果進(jìn)行調(diào)優(yōu):將符合用戶偏好但位置靠后的item提取至前,或者將不符合用戶意圖的item降權(quán)減分。達(dá)觀數(shù)據(jù)在引擎架構(gòu)研發(fā)實(shí)踐中,大量使用到了點(diǎn)擊模型,通過與用戶的隱性交互,大幅提升了算法效果,積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 江永青)。

一、點(diǎn)擊模型概述

隨著大數(shù)據(jù)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)呈現(xiàn)暴發(fā)式增長(zhǎng),通過收集海量用戶行為數(shù)據(jù),尤其是點(diǎn)擊數(shù)據(jù),能夠更好地預(yù)測(cè)用戶行為和挖掘用戶需求。在機(jī)器學(xué)習(xí)領(lǐng)域的訓(xùn)練數(shù)據(jù)也不再僅僅是通過費(fèi)時(shí)費(fèi)力的人工標(biāo)注方式獲取,而是更多地基于點(diǎn)擊反饋進(jìn)行樣本收集,既減少了數(shù)據(jù)獲取成本,又保證了最新的時(shí)效性。

點(diǎn)擊模型通過獲取用戶的歷史點(diǎn)擊,為用戶行為進(jìn)行建模,在模擬出用戶的點(diǎn)擊偏好后,能夠最大程度優(yōu)化系統(tǒng)效果。用戶的點(diǎn)擊行為都有一定的規(guī)律性,遵循這些規(guī)律,基于如下的假設(shè),我們可以建立起用戶的點(diǎn)擊模型::

  • 用戶的瀏覽總是按某種順序查看的,第一眼容易看到的結(jié)果會(huì)獲得更多關(guān)注;
  • 用戶覺得標(biāo)題、圖片、摘要等初步滿足了需求的結(jié)果,才會(huì)有可能點(diǎn)擊查看;
  • 如果某一個(gè)結(jié)果項(xiàng)完全滿足了用戶的需求,則再看其他項(xiàng)的可能性會(huì)比較低;
  • 被點(diǎn)擊越多的結(jié)果,越可能是好結(jié)果;
  • 最后一次點(diǎn)擊的結(jié)果往往是最好的結(jié)果,其次是第一次點(diǎn)擊的結(jié)果;

等等。

二、點(diǎn)擊模型挑戰(zhàn)和難點(diǎn)

利用點(diǎn)擊行為的假設(shè),容易構(gòu)建出初步的點(diǎn)擊模型。但在實(shí)際應(yīng)用中,一個(gè)好的模型需要面臨和解決大量的挑戰(zhàn)和難點(diǎn),包括:

第一大問題是位置偏向(position bias。因?yàn)橛脩酎c(diǎn)擊會(huì)容易受到位置偏向的影響,排序在前的結(jié)果更容易獲得用戶的點(diǎn)擊,在實(shí)際的應(yīng)用中,一般會(huì)對(duì)點(diǎn)擊偏向作一些懲罰,比如排在前列的結(jié)果被用戶跳過了,將會(huì)比后面被跳過的結(jié)果降權(quán)更多;用戶進(jìn)行了翻頁(yè)操作,上一頁(yè)的結(jié)果都會(huì)獲得減分處理。

第二大問題是冷啟動(dòng)問題。即新項(xiàng)目、新廣告的點(diǎn)擊預(yù)測(cè)問題。經(jīng)常使用的方法是通過已有的點(diǎn)擊反饋數(shù)據(jù),挖掘?qū)W習(xí)出其中的規(guī)律,從而可以對(duì)新出現(xiàn)的項(xiàng)目,預(yù)測(cè)用戶對(duì)它們可能的點(diǎn)擊行為。

第三大問題是感知相關(guān)性。用戶對(duì)結(jié)果的點(diǎn)擊反饋很大程度是基于標(biāo)題、圖片、摘要等感官獲取,具有很強(qiáng)的第一主觀意識(shí),很多時(shí)候并不能正確反映結(jié)果的有效性,但點(diǎn)擊日志數(shù)據(jù)經(jīng)常并不能獲得用戶對(duì)展示項(xiàng)“真實(shí)”的滿意相關(guān)性數(shù)據(jù),因此在基于現(xiàn)有的“感觀性”數(shù)據(jù)之上,需要從其他方面進(jìn)行補(bǔ)充,比如用戶點(diǎn)擊結(jié)果后的后續(xù)操作(點(diǎn)擊商品后加購(gòu)物車,點(diǎn)擊書籍后加書架等),或者引入除點(diǎn)擊率外的滿意率等參數(shù)來構(gòu)建點(diǎn)擊模型。

第四大問題是稀疏性。在搜索排序中,點(diǎn)擊數(shù)據(jù)一般只覆蓋到排序結(jié)果的前面幾頁(yè),容易出現(xiàn)長(zhǎng)尾覆蓋不足的問題,推薦和廣告引擎中也經(jīng)常會(huì)有物品冷門而不會(huì)被點(diǎn)擊到。此外點(diǎn)擊數(shù)太少也容易導(dǎo)致點(diǎn)擊數(shù)據(jù)不可靠。因此除了使用一些平均值或預(yù)測(cè)值對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充外,經(jīng)常也要對(duì)稀疏數(shù)據(jù)進(jìn)行平滑處理。

第五大問題是點(diǎn)擊作弊。因?yàn)辄c(diǎn)擊行為容易生成,作弊者通常會(huì)使用模仿用戶點(diǎn)擊的行為進(jìn)行對(duì)系統(tǒng)進(jìn)行攻擊,比如使用機(jī)器人對(duì)某個(gè)位置進(jìn)行重復(fù)點(diǎn)擊等。像這種情況下就需要識(shí)別出作弊數(shù)據(jù),以免對(duì)系統(tǒng)結(jié)果產(chǎn)生人為的干擾。

第六大問題是Session收集。用戶的session信息非常關(guān)鍵,它記錄了用戶在進(jìn)入頁(yè)面、查看結(jié)果、點(diǎn)擊結(jié)果以及后繼的操作(比如翻頁(yè)、加購(gòu)物車等)。只有通過session信息才能把用戶的行為聯(lián)系起來,構(gòu)建出完整的模型,因此從海量數(shù)據(jù)中把每一個(gè)用戶所有session的操作都完整地挖掘出來非常重要(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 江永青)。

三、點(diǎn)擊模型的類型

針對(duì)點(diǎn)擊模型的研究非常多,很多種類的模型也被提出并應(yīng)用到了實(shí)踐中,現(xiàn)舉一些常見的點(diǎn)擊模型類型:

  • 位置模型(position model

位置模型考慮到每個(gè)用戶對(duì)每個(gè)item位置都會(huì)有一定的查看概率(Examination),只有查看到該item后用戶才會(huì)有一定概率點(diǎn)擊。因此某個(gè)用戶對(duì)某個(gè)位置的點(diǎn)擊概率計(jì)算如下:

2

其中的βp表示的是在位置p上被查看到的概率(與用戶無關(guān)),αu表示的是用戶u在查看到某個(gè)item后點(diǎn)擊的概率(與位置無關(guān))。αu和βp的值可以根據(jù)用戶歷史點(diǎn)擊記錄,通過平均值法、極大似然法等方法計(jì)算。

  • 瀑布模型(cascade model

瀑布模型考慮到在同一個(gè)排序列表里的item的位置依賴關(guān)系,它假設(shè)用戶從上至下依次查看頁(yè)面里的item,如果結(jié)果滿意就會(huì)進(jìn)行點(diǎn)擊,然后該session結(jié)束;否則跳過該項(xiàng)繼續(xù)向后查看。第i個(gè)位置的item點(diǎn)擊概率計(jì)算如下:

3

其中的ri表示第i個(gè)文檔被點(diǎn)擊的概率。

  • CCM模型

位置模型和瀑布模型都未考慮同一個(gè)session中不同排序結(jié)果之間的互相影響,考慮到如下情況:假如第一個(gè)和第二個(gè)item都非常符合用戶偏好,那后續(xù)item的查看概率及點(diǎn)擊概率將會(huì)減少;相反,如果前面幾個(gè)item效果非常差,則后面的item將獲得更高的查看和點(diǎn)擊機(jī)會(huì)。CCM模型假設(shè)用戶可以在對(duì)某一個(gè)item滿意后,也還會(huì)繼續(xù)查看后續(xù)結(jié)果;并且第j個(gè)排序結(jié)果的查看(Examination)和點(diǎn)擊(Click)會(huì)影響到對(duì)第j+1個(gè)排序結(jié)果的行為:

?4

  • 貝葉斯模型(DBN

貝葉斯模型引入了滿意度(satisfied rate)的概念,它考慮到用戶點(diǎn)擊了某一個(gè)item未必表示對(duì)它滿意,點(diǎn)擊代表了“感知相關(guān)性”,滿意則代表了“真實(shí)相關(guān)性”,貝葉斯模型很好地把這兩個(gè)相關(guān)性區(qū)分了開來。根據(jù)DBN的理論,具體模型圖及原理如下:

5

1? 貝葉斯模型

Ei表示用戶是否查看了第i個(gè)item;Ai 表示用戶是否被第i個(gè)item吸引;Si表示用戶點(diǎn)擊第i個(gè)item后是否對(duì)這個(gè)結(jié)果滿意;Ci表示用戶是否點(diǎn)擊了第i個(gè)item。因此每個(gè)操作的關(guān)系傳遞如下:

6

另外還有幾個(gè)重要的參數(shù):γ表示用戶對(duì)當(dāng)前第i個(gè)結(jié)果不滿意后,查看下一條結(jié)果的概率;au表示用戶對(duì)該結(jié)果的感知相關(guān)性,吸引用戶進(jìn)行點(diǎn)擊;su表示用戶點(diǎn)擊item后,對(duì)其滿意的相關(guān)性。au和su都存在一個(gè)Beta先驗(yàn)概率,指定γ后,可以通過EM算法計(jì)算出au和su的值。特別地,如果指定γ為1,表示用戶會(huì)一直向后查看item,直到找到滿意的結(jié)果為止,這時(shí)通過頁(yè)面最后一個(gè)點(diǎn)擊的位置,就能確定查看過的items(最后點(diǎn)擊位置以上)和未查看過的items(最后點(diǎn)擊位置以下),此時(shí)不用EM算法就能計(jì)算出au和su參數(shù)值,以α和β表示的相應(yīng)的先驗(yàn)概率,計(jì)算au和su的方法簡(jiǎn)化為:

7

點(diǎn)擊模型的相關(guān)性分?jǐn)?shù)可以簡(jiǎn)單計(jì)算為:ru = au * su,意義表示為用戶被結(jié)果吸引后,點(diǎn)擊查看并對(duì)其滿意的概率。

  • UBN模型

與CCM和DBN模型不同的是,UBN模型沒有采用瀑布模型的假設(shè),而是假設(shè)用戶對(duì)某個(gè)位置i上的結(jié)果查看的概率,不僅受到位置的影響,還受到在同一個(gè)session內(nèi)在之前某個(gè)位置點(diǎn)擊過的item的影響。引入γrd表示用戶在r-d位置點(diǎn)擊后,查看r位置item的概率:

8

其中Ci:j = 0表示Ci = Ci+1 = · · · = Cj = 0。

 

四、如何運(yùn)用點(diǎn)擊模型來提升算法效果

點(diǎn)擊模型經(jīng)常應(yīng)用于各類系統(tǒng)以提升算法效果,現(xiàn)就以搜索、推薦、廣告以及數(shù)據(jù)挖掘中的各種使用場(chǎng)景介紹:

  • 搜索系統(tǒng)

在搜索系統(tǒng)中,點(diǎn)擊模型可以有如下集成方式:直接用在排序中,如將點(diǎn)擊模型相關(guān)性分?jǐn)?shù)簡(jiǎn)單加權(quán)在“近線端”,可以直接調(diào)整結(jié)果的排序位置;也可以通過學(xué)習(xí)排序的方式,樣本獲取是將排序頁(yè)面的被點(diǎn)擊item作為正樣本,展示了但未點(diǎn)擊的item作為負(fù)樣本,每天積累起足夠多的訓(xùn)練樣本。通過選取豐富的特征,可以使用分類器學(xué)習(xí)出合適的排序模型。這些豐富的特征包括查詢?cè)~在文檔中的詞頻信息、查詢?cè)~的IDF信息、文檔長(zhǎng)度、網(wǎng)頁(yè)的入鏈數(shù)量、網(wǎng)頁(yè)的pageRank值、査詢?cè)~的Proximity值等等,能夠充分體現(xiàn)查詢Query和文檔之間的聯(lián)系。在用戶下一次查詢時(shí),可以通過分類器來預(yù)估新的排序結(jié)果。

  • 推薦系統(tǒng)

推薦系統(tǒng)在計(jì)算推薦結(jié)果時(shí),也大量使用到了點(diǎn)擊模型。比如協(xié)同過濾算法中,如果沒有顯性的評(píng)分機(jī)制,就需要收集點(diǎn)擊的行為來作為正向的評(píng)分。不同類型的點(diǎn)擊(如查看、加購(gòu)物車、加關(guān)注等)可以生成不同維度的二維相似度矩陣,最后推薦的結(jié)果由這些矩陣計(jì)算生成的中間結(jié)果加權(quán)得到。推薦系統(tǒng)也可以在“近線端”進(jìn)行調(diào)權(quán),如用戶“不喜歡”過的物品,下次就不會(huì)再推薦展示;或者通過點(diǎn)擊反饋實(shí)時(shí)調(diào)整切換算法,對(duì)不同的用戶調(diào)整使用不同的算法引擎,達(dá)到最大的效果收益。

  • 廣告引擎

廣告引擎中使用最多的就是CTR預(yù)估了。CTR預(yù)估使用到LR模型,因?yàn)樗惴ê?jiǎn)單,運(yùn)算速度快,輸出0~1的概率值,正好符合廣告引擎的需求。廣告選取的特征也很豐富,在用戶層面包括用戶的性別、年齡、地域等,廣告層面則包括廣告大小、廣告類別、廣告文本、廣告所屬的行業(yè)等。廣告引擎使用的樣本也是基于點(diǎn)擊反饋收集,用戶點(diǎn)擊的廣告作為正樣本,用戶查看了但未點(diǎn)擊的廣告作為負(fù)樣本。收集到足夠多的樣本后,使用LR訓(xùn)練出一個(gè)最優(yōu)的模型。在用戶查詢廣告時(shí),LR模型通過用戶和候選廣告的特征,預(yù)測(cè)出各候選廣告被用戶點(diǎn)擊的概率,這個(gè)計(jì)算出的預(yù)估概率是廣告引擎中十分重要的分?jǐn)?shù)結(jié)果,對(duì)廣告排名展現(xiàn)起了決定性的作用。

9

2 Logistic Regression模型

五、點(diǎn)擊模型系統(tǒng)架構(gòu)

一般來說,點(diǎn)擊模型需要大量采集用戶點(diǎn)擊位置、頁(yè)面瀏覽時(shí)長(zhǎng)、頁(yè)面關(guān)閉、點(diǎn)擊次數(shù)等交互信息。采集的大量數(shù)據(jù)在進(jìn)行數(shù)據(jù)清洗,以及反作弊處理后,才能得到有效的點(diǎn)擊數(shù)據(jù),為后續(xù)數(shù)據(jù)分析挖掘提供支持(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 江永青)。

  • 數(shù)據(jù)采集模塊

點(diǎn)擊模型數(shù)據(jù)采集是非常重要的模塊,因?yàn)樗性紨?shù)據(jù)都是從這導(dǎo)入。在移動(dòng)端和pc端的采集還略有不同,目前移動(dòng)端主要使用的是SDK采集,將SDK植入在APP內(nèi),由業(yè)務(wù)端調(diào)用接口上報(bào)采集數(shù)據(jù);而pc端一般是將js植入到頁(yè)面中,用戶的每一次重要的行為都會(huì)觸發(fā)數(shù)據(jù)上報(bào)。移動(dòng)端和PC端數(shù)據(jù)匯集打通后,才能發(fā)揮數(shù)據(jù)的最大價(jià)值。上報(bào)的數(shù)據(jù)通過數(shù)據(jù)采集模塊進(jìn)入系統(tǒng)后,因?yàn)榇嬖诖罅康母袷讲缓戏ǖ臄?shù)據(jù)、損壞的數(shù)據(jù)等,需要進(jìn)行煩瑣的數(shù)據(jù)清洗階段。去除掉這些臟數(shù)據(jù)后,比較正常的數(shù)據(jù)才會(huì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行下一步的處理。

  • 數(shù)據(jù)挖掘模塊

在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)反作弊和數(shù)據(jù)挖掘處理時(shí),由于數(shù)據(jù)量過于巨大,通常都會(huì)使用集群運(yùn)算。通過反作弊算法排除掉偽造數(shù)據(jù)后,使用數(shù)據(jù)挖掘模塊對(duì)點(diǎn)擊展現(xiàn)數(shù)據(jù)進(jìn)行處理,最終生成各種巨大潛在價(jià)值的數(shù)據(jù)結(jié)果。這些結(jié)果不僅包括點(diǎn)擊模型,還有其他豐富的數(shù)據(jù)產(chǎn)品,包括數(shù)據(jù)關(guān)聯(lián)信息、數(shù)據(jù)預(yù)測(cè)、數(shù)據(jù)報(bào)表等。

  • 系統(tǒng)集成

點(diǎn)擊數(shù)據(jù)挖掘的成果又會(huì)回饋到引擎架構(gòu)中,優(yōu)化系統(tǒng)的算法,提升整體效果。而新的點(diǎn)擊模型作用下的用戶點(diǎn)擊結(jié)果又會(huì)在下一次的數(shù)據(jù)采集中被收集到,形成了閉環(huán)的回路。整個(gè)閉環(huán)圖如下所示:

10

3 點(diǎn)擊模型系統(tǒng)架構(gòu)

 

六、點(diǎn)擊模型反作弊

?

點(diǎn)擊模型對(duì)結(jié)果的排序起了至關(guān)重要的作用,因此也是容易受到攻擊的部分。攻擊的目的無非是兩種,一個(gè)是提高目標(biāo)物品的排名(推舉攻擊),另一種是降低目標(biāo)物品的排名(打壓攻擊)。用戶對(duì)系統(tǒng)的攻擊一般是通過點(diǎn)擊插入偽造數(shù)據(jù)產(chǎn)生的,因此基本的對(duì)策也是對(duì)用戶惡性點(diǎn)擊結(jié)果的識(shí)別和反作弊。

  • 基于規(guī)則的識(shí)別

傳統(tǒng)的反作弊是基于規(guī)則的識(shí)別,比如cookie去重、IP防作弊:通過記錄監(jiān)測(cè)cookie、ip的重復(fù)行為,防止同一用戶/設(shè)備在某個(gè)時(shí)間段內(nèi)多次點(diǎn)擊同一個(gè)位置;有效期設(shè)置:限制某個(gè)展現(xiàn)/點(diǎn)擊的有效期,在有效期內(nèi)的轉(zhuǎn)化屬于合理收益,超過有效期的操作會(huì)作廢棄處理;黑名單處理:在某些周期性的作弊行為,超過一定范圍后可以標(biāo)記為黑名單,用來長(zhǎng)期過濾,以免其持續(xù)性攻擊系統(tǒng)?;谝?guī)則的反作弊可以有很多種方法,因業(yè)務(wù)而異,需要對(duì)具體攻擊行為而作出相應(yīng)的對(duì)策。

  • 分類方法

然而現(xiàn)如今的攻擊手段已經(jīng)非常多樣化了,簡(jiǎn)單的基于規(guī)則的反作弊不足以有效的識(shí)別攻擊者,因此需要更復(fù)雜的基于機(jī)器學(xué)習(xí)的方法來區(qū)分真實(shí)點(diǎn)擊和偽造點(diǎn)擊。比如使用有監(jiān)督學(xué)習(xí)的方法,通過人工標(biāo)注點(diǎn)擊,或者人造偽造記錄來訓(xùn)練分類器。由于點(diǎn)擊數(shù)據(jù)樣本類型多、數(shù)量大、維度高,因此使用的記錄特征都是用聚合方法生成的,這些特征不是普通的記錄屬性,而是包含了各種統(tǒng)計(jì)量的信息特征。通過有監(jiān)督學(xué)習(xí)這種方法,能夠識(shí)別出大量不能通過規(guī)則辨別的攻擊行為。

  • 聚類方法

聚類方法主要用于識(shí)別系統(tǒng)中的多個(gè)用戶聯(lián)合起來進(jìn)行攻擊的情景。這些攻擊的用戶群一般攻擊行為都會(huì)很相似很異常,而且經(jīng)常會(huì)攻擊很多個(gè)item。在反作弊模塊中,通過聚類把正常行為和異常行為聚類區(qū)分出來,然后將異常行為的點(diǎn)擊、評(píng)分等操作從計(jì)算點(diǎn)擊模型的數(shù)據(jù)集合中移除。聚類方法尤其能夠有效地阻止“群托”這類攻擊者行為。

  • 信息論方法

通過樣本的信息變化來檢測(cè)作弊者也是一個(gè)有效的方法??梢詸z測(cè)一段時(shí)間內(nèi)某些物品的一些評(píng)分值來探測(cè)異常,如描述物品隨時(shí)間變化的樣本均值、物品評(píng)分值分布變化的樣本熵等。通過在有限的時(shí)間窗口內(nèi)觀察各種信息值的變化,比較容易探測(cè)到攻擊者的行為。

使用機(jī)器方法能有效識(shí)別出大部分基于規(guī)則無法解決的問題,增加攻擊者的作弊難度,然而點(diǎn)擊反作弊是一個(gè)與惡意攻擊者斗智斗勇的過程,簡(jiǎn)單的一兩個(gè)方法并不能完全解決作弊的問題,經(jīng)常會(huì)使用多種方法組合到一起,如基于規(guī)則的方法首先排除掉大部分簡(jiǎn)單攻擊,然后后端再組合多種機(jī)器學(xué)習(xí)方法識(shí)別出更復(fù)雜的作弊記錄。因?yàn)楣粽叩墓舴椒ㄒ恢倍荚诔掷m(xù)升級(jí),所謂“道高一尺,魔高一丈”,反作弊也要不斷改進(jìn)策略才能有效地阻止作弊者。

七、點(diǎn)擊模型效果評(píng)估

評(píng)估搜索、推薦、廣告效果的好壞有很多指標(biāo),包括通過點(diǎn)擊位置計(jì)算的MRR、MAP分?jǐn)?shù),由點(diǎn)擊的結(jié)果計(jì)算的準(zhǔn)確率、召回率、長(zhǎng)尾覆蓋率等。在搜索、廣告和推薦引擎的研發(fā)過程中,達(dá)觀數(shù)據(jù)一直進(jìn)行著充分縝密的數(shù)據(jù)評(píng)估,以保證每一次算法升級(jí)后的效果。以MRR和MAP分?jǐn)?shù)評(píng)估為例,這兩種分?jǐn)?shù)的計(jì)算方式一直是信息檢索領(lǐng)域評(píng)估算法好壞的重要指標(biāo):

  • MAPmean average precision

MAP為每個(gè)查詢的相關(guān)排序結(jié)果賦予一個(gè)評(píng)價(jià)數(shù)字,然后對(duì)這些數(shù)字進(jìn)行平均。比如q1對(duì)應(yīng)相關(guān)的d排名是1,2,5,7(假設(shè)q1有4個(gè)相關(guān)d),那么對(duì)于q1的ap(average precision)的計(jì)算就是(1/1+2/2+3/5+4/7)/4 = ap1,對(duì)于q2的排序結(jié)果結(jié)果中與之相關(guān)的d的排名是2,3,6(假設(shè)q2有5個(gè)相關(guān)d),那么對(duì)于q2的ap就是(1/2+2/3+3/6+0+0)/5 = ap2,那么這個(gè)排序算法的MAP就是(ap1+ap2)/2;

在達(dá)觀搜索引擎中,對(duì)原系統(tǒng)和使用點(diǎn)擊模型后的MAP分?jǐn)?shù)對(duì)比如下:

11

4 使用點(diǎn)擊模型的map分?jǐn)?shù)比較

  • MRRmean reciprocal rank

MRR的評(píng)估假設(shè)是基于唯一的一個(gè)相關(guān)結(jié)果,比如q1的最相關(guān)是排在第3位,q2的最相關(guān)是在第4位,那么MRR=(1/3+1/4)/ 2。

在達(dá)觀搜索引擎中,對(duì)原系統(tǒng)和使用點(diǎn)擊模型后的MRR分?jǐn)?shù)對(duì)比如下:

12

5 使用點(diǎn)擊模型后的mrr分?jǐn)?shù)比較

由效果圖可以看到,使用點(diǎn)擊模型后系統(tǒng)的性能得到了近30%的大幅度提升。除此之外,使用NDCG、F值、長(zhǎng)尾覆蓋率等評(píng)估方式,都能看到點(diǎn)擊模型的應(yīng)用會(huì)對(duì)系統(tǒng)帶來一定的效果收益。在搜索引擎、智能推薦、廣告系統(tǒng)中,使用點(diǎn)擊模型后,系統(tǒng)的效果都會(huì)得到令人滿意的提高。

八、結(jié)語(yǔ)

在大數(shù)據(jù)公司里,點(diǎn)擊模型都是搜索、推薦、廣告系統(tǒng)使用的利器,對(duì)優(yōu)化算法型,達(dá)到“千人千面”的個(gè)性化效果都是必不可少的。點(diǎn)擊模型在數(shù)據(jù)挖掘領(lǐng)域是熱門研究問題,隨著大數(shù)據(jù)發(fā)展出現(xiàn)了各種新技術(shù)和解決方案。達(dá)觀數(shù)據(jù)在大數(shù)據(jù)領(lǐng)域有著豐富的行業(yè)經(jīng)驗(yàn),能夠通過所掌握的點(diǎn)擊模型等先進(jìn)技術(shù),幫助合作企業(yè)充分發(fā)揮大數(shù)據(jù)所蘊(yùn)藏的潛力。