色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

達(dá)觀數(shù)據(jù)推薦系統(tǒng)實(shí)踐—實(shí)時(shí)演算用戶動(dòng)態(tài)數(shù)據(jù)? 提升運(yùn)營(yíng)效率

本文曾在infoq大數(shù)據(jù)微信群和數(shù)據(jù)猿直播平臺(tái)上進(jìn)行過(guò)分享,是對(duì)分享內(nèi)容最直觀的表達(dá),同時(shí)對(duì)推薦結(jié)構(gòu)和算法解釋的也很詳盡。

隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展、互聯(lián)網(wǎng)信息的爆炸式增長(zhǎng)和種類的紛繁復(fù)雜,導(dǎo)致用戶常常在面臨信息選擇時(shí)感到無(wú)所適從。這種選擇多樣性不但沒(méi)有產(chǎn)生經(jīng)濟(jì)效益,反而降低了用戶滿意度。同時(shí),互聯(lián)網(wǎng)上的各種物品又存在長(zhǎng)尾(long tail)現(xiàn)象,指大部分商品屬于冷門而沒(méi)有展示的機(jī)會(huì)。Chris Anderson在2006年出版的《長(zhǎng)尾理論》一書中指出,傳統(tǒng)的80/20原則(80%的銷售額來(lái)自于20%的熱門品牌)在互聯(lián)網(wǎng)時(shí)代下回面臨更多挑戰(zhàn)。主流的商品基本上代表的是大部分用戶的需求,但是長(zhǎng)尾的商品代表的則是一小部分個(gè)性化需求。

1

圖1:用戶面臨信息選擇時(shí)的無(wú)所適從

近年來(lái),推薦系統(tǒng)被證明是一種解決“信息過(guò)載”和“長(zhǎng)尾物品”問(wèn)題的有效工具。推薦系統(tǒng)基于知識(shí)發(fā)現(xiàn)的相關(guān)技術(shù)來(lái)解決人們?cè)谶x擇商品、信息或者服務(wù)是的問(wèn)題,尤其是基于海量用戶行為數(shù)據(jù)的最近鄰協(xié)同過(guò)濾方法獲得普遍應(yīng)用。但是數(shù)據(jù)量的急劇增長(zhǎng)也給推薦系統(tǒng)帶來(lái)了一些挑戰(zhàn),包括如何開發(fā)高質(zhì)量的推薦系統(tǒng)、如何快速響應(yīng)用戶行為變化和高并發(fā)請(qǐng)求、如何解決數(shù)據(jù)稀疏情況下的高覆蓋問(wèn)題等。

 

技術(shù)是慢慢沉淀的。達(dá)觀數(shù)據(jù)(35285.cn)推薦團(tuán)隊(duì)在智能推薦和數(shù)據(jù)挖掘領(lǐng)域深耕多年,不僅多次獲得國(guó)際頂級(jí)數(shù)據(jù)挖掘比賽冠軍,而且自主研發(fā)的達(dá)觀推薦引擎也為企業(yè)帶來(lái)了極大的經(jīng)濟(jì)效益。本文從系統(tǒng)架構(gòu)、推薦算法、效果評(píng)估和優(yōu)化等方面分享達(dá)觀數(shù)據(jù)在高質(zhì)量推薦系統(tǒng)研發(fā)方面積累的一些經(jīng)驗(yàn)。(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)

 

1.????? 系統(tǒng)架構(gòu)

從圖中的系統(tǒng)框架圖可以看出,整個(gè)推薦系統(tǒng)從下往上依次可分為:基礎(chǔ)層、模型層、算法層、組合層和應(yīng)用層。在具體的業(yè)務(wù)場(chǎng)景中,這種層次結(jié)構(gòu)和實(shí)際的數(shù)據(jù)流向是對(duì)應(yīng)。從最底層的數(shù)據(jù)存儲(chǔ),經(jīng)過(guò)一層一層的數(shù)據(jù)加工,最終在頂層的應(yīng)用層,匯總成最優(yōu)化的推薦結(jié)果,按照指定格式對(duì)外提供服務(wù)。

2

圖2:達(dá)觀數(shù)據(jù)推薦系統(tǒng)架構(gòu)

 

  • 基礎(chǔ)層,主要包括數(shù)據(jù)生成、傳輸、預(yù)處理和存儲(chǔ)。

 

數(shù)據(jù)的采集有多種方式,包括HTTP方式的上報(bào)、服務(wù)器日志打印、SDK采集、爬蟲爬取、FTP拉取等。為了保證后續(xù)使用的數(shù)據(jù)一致性,需要通過(guò)不同的管道方式進(jìn)行傳輸,將原始的數(shù)據(jù)匯總到一起,并生成統(tǒng)一的規(guī)范化格式,如用戶多種ID的歸一。

 

數(shù)據(jù)不僅包括基本的用戶和物品數(shù)據(jù),還包括各樣各樣的用戶行為數(shù)據(jù),如用戶的注冊(cè)、登錄、瀏覽、點(diǎn)擊、購(gòu)買、收藏、打分、評(píng)論等。

 

另外,在原始的數(shù)據(jù)源中會(huì)混雜各種各樣的噪音數(shù)據(jù),一方面是在數(shù)據(jù)采集和上報(bào)的過(guò)程中,出現(xiàn)一些異常數(shù)據(jù),另一方面也包括系統(tǒng)上線運(yùn)行時(shí)所產(chǎn)生的作弊數(shù)據(jù)。所以在數(shù)據(jù)存儲(chǔ)前需要進(jìn)行深度清洗。

 

數(shù)據(jù)采集和上報(bào)的異常數(shù)據(jù),需要結(jié)合數(shù)據(jù)庫(kù)表結(jié)構(gòu)和實(shí)際場(chǎng)景做過(guò)濾,如空值檢查、數(shù)值異常、類型異常、數(shù)據(jù)去重。另外,對(duì)于 “人為”的噪音數(shù)據(jù),如刷點(diǎn)擊、刷榜單等行為,這些關(guān)鍵數(shù)據(jù)會(huì)嚴(yán)重影響后續(xù)算法的效果,需要有一些反作弊策略進(jìn)行清除或者降權(quán),如進(jìn)行session分析,結(jié)合cookie、ip、行為發(fā)生的時(shí)間和次數(shù)等一些規(guī)則進(jìn)行過(guò)濾。

 

  • 模型層,主要是包括生成用戶和物品畫像以及建立各種底層的數(shù)據(jù)模型。

 

用戶畫像包括兩方面信息,一是通過(guò)多種方式采集到基本人口統(tǒng)計(jì)學(xué)信息,二是通過(guò)對(duì)海量用戶行為數(shù)據(jù)進(jìn)行深入分析和挖掘,從多個(gè)維度來(lái)描述用戶的基礎(chǔ)屬性、標(biāo)簽及興趣點(diǎn)等,如對(duì)品牌、標(biāo)簽和類別的偏好,清晰并且準(zhǔn)確地勾勒出用戶的輪廓概貌。這些數(shù)據(jù)幫助企業(yè)更好了解用戶行為路徑,明確用戶流失情況和原因,為應(yīng)用方的產(chǎn)品功能優(yōu)化決策提供可靠參考依據(jù)。

3

圖3:用戶畫像

 

物品畫像除了包括基本信息,對(duì)于服裝而言如名稱、類別、標(biāo)簽、品牌、尺寸、適合年齡和性別等,還包括各種維度的指數(shù)數(shù)據(jù),如衡量新商品的潛力指數(shù)、衡量商品歷史銷量的吸金指數(shù)以及全局熱門指數(shù)等。

 

其它模型包括基于歷史商品銷售數(shù)據(jù)的銷量預(yù)測(cè)模型、基于流失用戶數(shù)據(jù)的預(yù)流失模型等。

 

  • 算法層,包括各種推薦算法以及多種強(qiáng)規(guī)則策略。

 

推薦算法是將物品推薦給用戶的紐帶,基于各種各樣的算法生成待推薦的物品集合,作為最終的候選集輸入到組合層。其中應(yīng)用最廣泛的是基于內(nèi)容的推薦和協(xié)同過(guò)濾。

 

  • 基于內(nèi)容的推薦

 

主要過(guò)程是將推薦物品的信息特征和待推薦對(duì)象的特征相匹配的過(guò)程,從而得到待推薦的物品集合。整個(gè)流程包括三個(gè)階段。

 

首先是進(jìn)行內(nèi)容分析,對(duì)于非結(jié)構(gòu)化信息,需要在預(yù)處理階段抽取相關(guān)的結(jié)構(gòu)化信息,以便于下一階段的處理。數(shù)據(jù)對(duì)象經(jīng)過(guò)特征抽取技術(shù)的分析,目的是將原始信息空間轉(zhuǎn)換到想要的物品描述格式,如將網(wǎng)頁(yè)表示成特征向量。這樣的描述格式作為特征學(xué)習(xí)和過(guò)濾組件的輸入。

 

然后,在特征學(xué)習(xí)階段,根據(jù)對(duì)海量用戶行為數(shù)據(jù)的分析挖掘,獲取用戶偏好的數(shù)據(jù)特征,如對(duì)類別、品牌的偏好,并泛化這些特征,最終構(gòu)建用戶特征信息。泛化策略一般是通過(guò)機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)的,它可以從用戶喜好的或不喜歡的物品中推斷出一個(gè)用戶的興趣模型。

4

圖4:基于內(nèi)容的推薦系統(tǒng)的層次結(jié)構(gòu)

 

最后,過(guò)濾組件將推薦對(duì)象和待推薦對(duì)象在特征空間上進(jìn)行匹配,從而推薦出內(nèi)容上很相關(guān)的物品。匹配算法很多是借鑒了信息檢索領(lǐng)域中的技術(shù),如K最近鄰KNN和Rocchio的相關(guān)性反饋方法。

5

圖5:KNN方法

K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。在推薦系統(tǒng)中,基于向量空間模型計(jì)算推薦對(duì)象和待推薦對(duì)象之間的相似度,取相似度最高的N個(gè)作為最終的推薦結(jié)構(gòu)。KNN方法雖然從原理上也依賴于極限定理,但在決策時(shí),只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN方法較其他方法更為適合。

 

Rocchio方法的主要思想是,首先將評(píng)分文檔分成兩組:67,分別對(duì)應(yīng)喜歡和不喜歡的文檔;然后計(jì)算這些分類的初始向量。當(dāng)前查詢?cè)~8像文檔一樣表示為多維單詞向量,然后重復(fù)地增加相關(guān)文檔的加權(quán)初始向量,并減去代表不相關(guān)文檔的加權(quán)向量,這樣逐步優(yōu)化9,最終得到一組相關(guān)文檔。調(diào)整89的計(jì)算公式如下:

12

變量13、1415用于精細(xì)調(diào)整“移動(dòng)”到更加相關(guān)文檔的過(guò)程。實(shí)驗(yàn)表明,正反饋比負(fù)反饋更有價(jià)值,甚至僅考慮正反饋會(huì)更好一些。

 

基于內(nèi)容的推薦方法,優(yōu)點(diǎn)是能保證推薦內(nèi)容的相關(guān)性,并且根據(jù)內(nèi)容特征可以解釋推薦結(jié)果,而且對(duì)新物品的推薦是也能有很好的考慮,也不需要專業(yè)的領(lǐng)域知識(shí)。另一個(gè)重要的優(yōu)勢(shì),是基于內(nèi)容的推薦能很好的解決推薦系統(tǒng)的“冷啟動(dòng)”問(wèn)題,因?yàn)檫@類推薦算法不需要依賴用戶行為的積累,當(dāng)待推薦的物品是新出現(xiàn)時(shí),基于內(nèi)容的推薦算法往往是最有效的方法。缺點(diǎn)是由于內(nèi)容高度匹配,導(dǎo)致推薦結(jié)果的驚喜度較差,而且對(duì)新用戶不能提供可靠的推薦結(jié)果。對(duì)稀疏數(shù)據(jù)、復(fù)雜屬性的處理等問(wèn)題的推薦結(jié)果不夠理想。

 

  • 協(xié)同過(guò)濾

6-1

圖6:協(xié)同過(guò)濾技術(shù)總覽

 

主要思想是基于群體智慧,利用已有大量用戶群過(guò)去行為數(shù)據(jù)來(lái)預(yù)測(cè)當(dāng)前用戶最可能感興趣的東西。這種方法克服了基于內(nèi)容方法的一些弊端,最重要的是可以推薦一些內(nèi)容上差異較大但是又是用戶感興趣的物品。構(gòu)成CF(Collaborative Filtering)的兩種主要技術(shù):基于領(lǐng)域的方法和隱語(yǔ)義模型。

 

基于領(lǐng)域的方法重點(diǎn)關(guān)注物品之間的關(guān)系或者用戶之間的關(guān)系,基于物品的方法是根據(jù)用戶對(duì)和他感興趣的物品相似的物品評(píng)分,來(lái)對(duì)該用戶的偏好物品建立模型。隱語(yǔ)義模型采用的是另外一種方法,把物品和用戶映射到相同的隱語(yǔ)義空間。這個(gè)空間試圖通過(guò)描述物品和用戶兩種實(shí)體在因子上的特征來(lái)解釋評(píng)分,而這些因子是根據(jù)用戶的反饋?zhàn)詣?dòng)判斷出來(lái)的。

 

用隱語(yǔ)義模型來(lái)進(jìn)行協(xié)同過(guò)濾的目標(biāo)是揭示隱藏的特征,這些特征能解釋觀測(cè)到的評(píng)分。該模型包括pLSA(Probability?Latent?Semantic?Analysis)模型、神經(jīng)網(wǎng)絡(luò)模型、LDA(Latent Dirichlet Allocation)模型,以及由用戶-物品評(píng)分矩陣的因子分解推導(dǎo)出的模型(也叫基于SVD的模型,Singular Value Decomposition)。由于矩陣因子分解技術(shù)在線上業(yè)務(wù)的準(zhǔn)確性和穩(wěn)定性的突出表現(xiàn),已經(jīng)成為協(xié)同過(guò)濾算法的首選。達(dá)觀數(shù)據(jù)的推薦系統(tǒng)也大量使用了這種技術(shù),并做了諸多性能和效果優(yōu)化。

 

CF模型視圖捕捉用戶和物品之間的交互作用,正式這些交互作用產(chǎn)生了不同的評(píng)分值。設(shè)15-1為總體評(píng)分值,未知評(píng)分17的基準(zhǔn)預(yù)測(cè)18綜合考慮了用戶和物品兩個(gè)因子

19

參數(shù)1718表示用戶30和物品22的與評(píng)分平均值的偏差。我們可以通過(guò)解決最小二乘法的問(wèn)題來(lái)估計(jì)1718的值

23

在上述這個(gè)公式中,第一項(xiàng)24用來(lái)尋找與已知評(píng)分?jǐn)?shù)據(jù)擬合得最好2021的。正則化項(xiàng)25通過(guò)對(duì)參數(shù)的復(fù)雜性增加懲罰因子來(lái)避免過(guò)擬合問(wèn)題。這個(gè)最小二乘法問(wèn)題可以通過(guò)隨機(jī)梯度下降(SGD,Stochastic gradient descent)算法有效地解決。

 

矩陣因子分解模型把用戶和物品兩方面的信息映射到一個(gè)維度為的聯(lián)合隱語(yǔ)義空間中,因此用戶-物品之間的交互作用被建模為該空間的內(nèi)積。例如,如果物品是電影,因子變量將會(huì)用來(lái)度量如喜劇或悲劇、情節(jié)的數(shù)量或者面向兒童的等級(jí)等這些明顯的維度,以及如性格發(fā)展深度或者“突變”等隱式維度,甚至是無(wú)法解釋的維度。

 

相應(yīng)地,每一個(gè)物品22都有一個(gè)26維向量27相關(guān),每一個(gè)用戶都與一個(gè)26維向量28相關(guān)。給定一個(gè)物品22,29向量的維度值代表了該物品擁有這些因子的程度。例如,某部電影的搞笑因子程度為5,而恐怖因子程度為1。取值大小反應(yīng)了物品擁有這些因子的積極或者消極程度。給定一個(gè)用戶30,31的維度值代表了用戶對(duì)這些因子的偏好程度。如某用戶對(duì)搞笑因子的偏好程度為1,而對(duì)恐怖因子的偏好程度為0.01。同樣地,這些值的大小反映了用戶對(duì)這些因子的消極或者積極的評(píng)價(jià)。

32

為了學(xué)習(xí)模型中的參數(shù),也就是2021、3129,我們可以最小化以下正則化的平方誤差

33

常量34控制了正則化程度,一般通過(guò)交叉驗(yàn)證來(lái)獲得。

 

考慮隱式反饋信息可以增加預(yù)測(cè)準(zhǔn)確度,這些隱式反饋信息提供了用戶愛好的額外信息。這對(duì)于那些提供了大量隱式反饋但是僅僅提供少量顯式反饋的用戶尤為重要。這就出現(xiàn)了一些根據(jù)用戶評(píng)分的物品來(lái)對(duì)用戶的某個(gè)因子(比如,電影評(píng)分記錄中用戶對(duì)喜劇電影的喜愛程度)建模的方法,這里談一下SVD++,這種方法能夠提供比SVD更好的準(zhǔn)確度。

 

為了達(dá)到上述目的,我們?cè)黾恿说诙€(gè)物品因子集合,即為每一個(gè)物品22關(guān)聯(lián)一個(gè)因子變量35。這些新的物品因子向量根據(jù)用戶評(píng)分的物品集合來(lái)描述用戶的特征。模型如下:

36

例如,如果一個(gè)用戶30對(duì)37中的一些物品有某種類型的隱式偏好(如他買過(guò)它們),對(duì)38中的物品又另一種類型的偏好(如他贊過(guò)它們),就可以使用下面的模型:

39

在處理用戶行為數(shù)據(jù)的過(guò)程中,需要考慮時(shí)間因素的影響,畢竟用戶的偏好是隨著時(shí)間變化的。比如,用戶會(huì)改變對(duì)特定導(dǎo)演或者演員的看法。矩陣分解的方法也能很好地對(duì)時(shí)間效應(yīng)進(jìn)行建模。得到擴(kuò)展模型time SVD++如下:

40

每一次迭代的時(shí)間復(fù)雜度仍然與輸入大小呈線性關(guān)系,而運(yùn)行時(shí)間大概是SVD++算法的兩倍,原因是更新時(shí)序參數(shù)需要額外的花費(fèi)。重要的是,收斂速度并沒(méi)有受時(shí)序參數(shù)化的影響。

 

在算法層,經(jīng)過(guò)多種推薦算法的處理,最終生成了候選的推薦物品集合,作為組合層的輸入數(shù)據(jù)。

 

  • 組合層,主要是對(duì)算法層的結(jié)果數(shù)據(jù)進(jìn)行重排序。

 

推薦系統(tǒng)需要面對(duì)的應(yīng)用場(chǎng)景往往存在非常大的差異,例如熱門/冷門的內(nèi)容、新/老用戶,時(shí)效性強(qiáng)/弱的結(jié)果等,這些不同的上下文環(huán)境中,不同推薦算法往往都存在不同的適用場(chǎng)景。不存在一個(gè)推薦算法,在所有情況下都勝過(guò)其他的算法。而融合方法的思想就是充分運(yùn)用不同分類算法各種的優(yōu)勢(shì),取長(zhǎng)補(bǔ)短,組合形成一個(gè)強(qiáng)大的推薦框架。

7-1

圖7、重排序流程

 

 

由于排序過(guò)程牽涉到各種維度的參數(shù)數(shù)據(jù),導(dǎo)致調(diào)參費(fèi)時(shí)費(fèi)力,而且很可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。而機(jī)器學(xué)習(xí)方法不僅有成熟的理論基礎(chǔ),而且很容易融合多種特征,通過(guò)不斷的迭代來(lái)進(jìn)行參數(shù)優(yōu)化,可有效解決數(shù)據(jù)稀疏、過(guò)擬合等問(wèn)題。

 

對(duì)于已標(biāo)注的訓(xùn)練集,首先選定LTR(Learn To Rank)方法,確定損失函數(shù),以最小化損失函數(shù)為目標(biāo)進(jìn)行優(yōu)化即可得到排序模型的相關(guān)參數(shù),這就是學(xué)習(xí)過(guò)程。預(yù)測(cè)過(guò)程將待預(yù)測(cè)結(jié)果輸入學(xué)習(xí)得到的排序模型中,即可得到結(jié)果的相關(guān)得分,利用該得分進(jìn)行排序即可得到待預(yù)測(cè)結(jié)果的最終順序。(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)

 

關(guān)于排序模型,有很多模型可以選擇,如LR(Logistic regression)、DT(Decision Tree)、SVM(Support Vector Machine)。LR主要適用于特征數(shù)很多、樣本量很大的情況。如果是樣本量很大,但是特征比較少的情況時(shí),建議使用DT。主要是因?yàn)樵谔卣鲾?shù)較少時(shí),對(duì)應(yīng)的問(wèn)題往往是非線性的,DT可以發(fā)揮自身的優(yōu)勢(shì)。另外,SVM在解決非線性分類問(wèn)題時(shí)效果也非常好。

 

經(jīng)過(guò)多個(gè)推薦算法的處理,最終得到待推薦物品的結(jié)合,使用少量維度的特征進(jìn)行排序過(guò)于簡(jiǎn)單,效果也大打折扣。基于推薦算法得到的相關(guān)特征,結(jié)合物品和用戶的特征進(jìn)行組合,可以得到各種特征,并且有些特征是正相關(guān)有些是負(fù)相關(guān),需要不斷優(yōu)化。借助機(jī)器學(xué)習(xí)方法得到了最終的物品排序,呈現(xiàn)給用戶。

 

5)應(yīng)用層,主要是按照不同的推薦類型,將推薦結(jié)果通過(guò)API調(diào)用的方式返回,包括個(gè)性化推薦、相關(guān)推薦和熱門推薦。

2.????? 近實(shí)時(shí)響應(yīng)用戶行為反饋

高質(zhì)量推薦系統(tǒng)的一大特點(diǎn)是能在高并發(fā)的情況下,快速響應(yīng)用戶行為反饋。用戶的信息訴求受很多因素影響,如時(shí)間、場(chǎng)景、心情等。用戶心情有低落有興奮、在地鐵上還是在辦公室。達(dá)觀數(shù)據(jù)推薦系統(tǒng)采用三層結(jié)構(gòu),根據(jù)用戶點(diǎn)擊反饋實(shí)時(shí)挖掘用戶興趣,最快最準(zhǔn)的滿足用戶信息訴求。

8-1

圖8:推薦系統(tǒng)三層體系

受制于硬件資源和時(shí)效性因素,推薦系統(tǒng)的性能也面臨諸多考驗(yàn),體系結(jié)構(gòu)也需要優(yōu)化到極致。數(shù)據(jù)量急劇增加,每天采集到的物品數(shù)據(jù)、用戶數(shù)據(jù)以及海量的行為數(shù)據(jù),對(duì)計(jì)算資源都是極大的挑戰(zhàn),而且數(shù)據(jù)變化很快。hadoop集群的運(yùn)算能力也是有限的,分布式計(jì)算的時(shí)效性也跟不上用戶實(shí)時(shí)的信息訴求。

 

達(dá)觀數(shù)據(jù)推薦系統(tǒng)三層體系借鑒了信息檢索領(lǐng)域思想,采取online-nearline-offline的結(jié)構(gòu)。主要思想是讓最珍貴的資源留給高價(jià)值的user和item。Online模塊采用負(fù)載均衡,負(fù)責(zé)及時(shí)響應(yīng)API請(qǐng)求,并返回推薦結(jié)果,保證高可靠高并發(fā)。Offline基于hadoop集群對(duì)海量數(shù)據(jù)進(jìn)行深入挖掘,承擔(dān)高負(fù)荷的算法。Nearline模塊主要是填補(bǔ)Online和Offline之間的空白。作為Offline的補(bǔ)充,保證快速響應(yīng)點(diǎn)擊反饋數(shù)據(jù)。作為Online的補(bǔ)充運(yùn)行一些輕量級(jí)的算法。

 

三層體系協(xié)同工作,保證了推薦系統(tǒng)的高可靠、高并發(fā)的性能;同時(shí)高負(fù)荷和輕量級(jí)的算法并舉,秒級(jí)響應(yīng)用戶行為反饋,保證了推薦結(jié)果的精準(zhǔn)。(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)

3.????? 推薦系統(tǒng)效果評(píng)估

推薦系統(tǒng)有各種維度上的指標(biāo)進(jìn)行衡量,可以定性描述,也可以定量計(jì)算。常用的評(píng)價(jià)指標(biāo)有以下幾種:

1) 用戶滿意度。個(gè)性化推薦系統(tǒng)的主體是用戶,這個(gè)指標(biāo)是對(duì)推薦系統(tǒng)好壞最直接的回答。這部分?jǐn)?shù)據(jù)一般是通過(guò)問(wèn)卷調(diào)查的方式獲得。

2)準(zhǔn)確率。推薦物品本身是對(duì)用戶興趣的預(yù)測(cè),這個(gè)指標(biāo)可以衡量實(shí)際結(jié)果和用戶期望結(jié)果直接您的偏差。一般通過(guò)離線數(shù)據(jù)計(jì)算得到,常用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)計(jì)算。

3)覆蓋率。反應(yīng)了推薦的物品在“長(zhǎng)尾問(wèn)題”上的效果。覆蓋率的計(jì)算方法一般是看推薦出來(lái)的物品占全部物品的比例。

4)多樣性。用戶的口味一般不是簡(jiǎn)單的一兩種,而是非常廣泛的,推薦結(jié)果也需要覆蓋到用戶多種口味想。多樣性描述了推薦物品之間的不相似性。不同的物品相似度度量函數(shù)可以定義不同的多樣性。

5)新穎性。主要表現(xiàn)的是推薦的物品是用戶沒(méi)有了解過(guò)的。一般通過(guò)推薦結(jié)果的平均流行度進(jìn)行衡量,因?yàn)橄鄬?duì)冷門的物品會(huì)讓用戶覺得新穎。

 

在實(shí)際的業(yè)務(wù)場(chǎng)景中,衡量推薦系統(tǒng)也有很多更具體的指標(biāo)。

1)在帶有用戶行為反饋的場(chǎng)景下,通過(guò)采集用戶“點(diǎn)贊”或者“不感興趣”的反饋,總體衡量推薦結(jié)果的效果。

2)在很多場(chǎng)景中,并沒(méi)有和用戶交互的操作。有多種指標(biāo)可以應(yīng)用到線上業(yè)務(wù),如推薦點(diǎn)擊率、推薦帶來(lái)的pv、uv和登錄uv、轉(zhuǎn)化率、付費(fèi)數(shù)量和金額等等。

3)還有很多反應(yīng)用戶粘性的指標(biāo),如用戶停留時(shí)長(zhǎng),用戶平均點(diǎn)擊物品數(shù)、用戶進(jìn)入站點(diǎn)的次數(shù)等等

 

推薦系統(tǒng)效果的好壞有多種維度,結(jié)合到實(shí)際的業(yè)務(wù)場(chǎng)景,一般是選取主要的幾個(gè)指標(biāo)進(jìn)行量化,通過(guò)不斷的迭代和AB測(cè)試來(lái)優(yōu)化推薦系統(tǒng)。

 

達(dá)觀數(shù)據(jù)推薦系統(tǒng)的技術(shù)實(shí)踐不僅在國(guó)際大賽上屢獲殊榮,在工業(yè)界也給企業(yè)帶來(lái)了實(shí)實(shí)在在的價(jià)值。個(gè)性化推薦點(diǎn)擊率提升了3倍、付費(fèi)金額提升了60%……推薦系統(tǒng)不僅極大的改善了用戶體驗(yàn),滿足了用戶的信息訴求,同時(shí)也增加了用戶粘性、減少了用戶流失,提升了企業(yè)經(jīng)濟(jì)效益。

9-1

圖9:達(dá)觀數(shù)據(jù)推薦系統(tǒng)效果

4.????? 效果調(diào)優(yōu)

為了提升推薦系統(tǒng)的效果,首先需要“對(duì)癥下藥”,也就是推薦出來(lái)的物品集合可以追溯來(lái)源,找到問(wèn)題。在設(shè)計(jì)推薦系統(tǒng)的時(shí)候,對(duì)推薦結(jié)果進(jìn)行“埋點(diǎn)”,帶上推薦策略的標(biāo)識(shí)。然后在推薦效果的時(shí)候,對(duì)各個(gè)推薦策略分別統(tǒng)計(jì)結(jié)果,對(duì)比數(shù)據(jù)可以看出各個(gè)算法的優(yōu)劣。最后,根據(jù)推薦統(tǒng)計(jì)結(jié)果,優(yōu)化對(duì)應(yīng)的推薦策略,進(jìn)行分流測(cè)試,驗(yàn)證優(yōu)化方法的有效性。

10-1

圖10:不同推薦策略的效果統(tǒng)計(jì)

 

和搜索引擎一樣,在推薦系統(tǒng)中也存在一個(gè)問(wèn)題:position bias。推薦結(jié)果在最終展現(xiàn)給用戶的時(shí)候,不可避免的會(huì)有先后之分,好的位置有好的曝光機(jī)會(huì)。但是最好的位置不代表有最好的推薦效果,比如推薦點(diǎn)擊率。即使有更高的推薦點(diǎn)擊率也不代表就一定是好的推薦結(jié)果。所以需要去除position bias,進(jìn)行點(diǎn)擊反饋調(diào)權(quán)。

 

首先需要基于歷史數(shù)據(jù),分析每個(gè)位置的推薦效果數(shù)據(jù),這個(gè)時(shí)候就可以看出各個(gè)位置的推薦系統(tǒng)的差異。然后在推薦的時(shí)候,基于推薦物品數(shù)據(jù)和每個(gè)位置的推薦效果數(shù)據(jù),對(duì)最終的推薦結(jié)果順序進(jìn)行調(diào)整。從下圖可以看出,使用點(diǎn)擊反饋之前點(diǎn)擊率在11.5%左右,加上點(diǎn)擊反饋之后,點(diǎn)擊率在14%左右,提升了20%。

11-1

圖11:點(diǎn)擊反饋調(diào)權(quán)對(duì)推薦點(diǎn)擊率的影響

 

6、結(jié)束語(yǔ)

本文介紹了達(dá)觀數(shù)據(jù)推薦系統(tǒng)的一些實(shí)踐經(jīng)驗(yàn),從框架圖的五個(gè)層次詳細(xì)說(shuō)明了推薦系統(tǒng)的整個(gè)流程。同時(shí)分享了達(dá)觀數(shù)據(jù)在高質(zhì)量推薦的性能優(yōu)化、快速響應(yīng)用戶行為反饋、推薦效果評(píng)估和優(yōu)化等方面的成果。推薦系統(tǒng)不僅可以有效解決信息過(guò)載和長(zhǎng)尾物品兩個(gè)方面的問(wèn)題,提供了極佳的用戶體檢,滿足了用戶的信息需求,也幫助了企業(yè)充分挖掘其中蘊(yùn)含的商機(jī),提升經(jīng)營(yíng)業(yè)績(jī)。達(dá)觀數(shù)據(jù)一直致力于為企業(yè)提供優(yōu)質(zhì)的大數(shù)據(jù)服務(wù),經(jīng)過(guò)多年的積極探索,目前在推薦系統(tǒng)研發(fā)和效果提升方面已經(jīng)積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。達(dá)觀數(shù)據(jù)也會(huì)不斷嘗試新技術(shù),持續(xù)不斷地給企業(yè)提供更加優(yōu)質(zhì)、穩(wěn)定、可靠的推薦系統(tǒng)服務(wù)。

 

作者:于敬,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人&推薦系統(tǒng)負(fù)責(zé)人,主要負(fù)責(zé)智能推薦系統(tǒng)的研發(fā)工作。同濟(jì)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)碩士,之前在盛大創(chuàng)新院、盛大文學(xué)、騰訊文學(xué)從事智能推薦、用戶畫像及建模、數(shù)據(jù)挖掘和分析等相關(guān)工作。