移動(dòng)互聯(lián)網(wǎng)的興起讓我們能夠更加簡單和方便地獲取信息,但更多的選擇也帶來更多的困擾——面對(duì)這些層出不窮的信息和服務(wù)帶來的困擾,個(gè)性化推薦技術(shù)迅速崛起。達(dá)觀數(shù)據(jù)在這方面做了很多提升推薦質(zhì)量、推薦效率和系統(tǒng)可靠性的工作,并為企業(yè)客戶提供了包括私有化部署、SaaS等靈活的接入方式。目前,達(dá)觀數(shù)據(jù)個(gè)性化推薦引擎已經(jīng)服務(wù)幾百家企業(yè),對(duì)改善用戶體驗(yàn)、增加用戶停留時(shí)長和粘性、提高用戶轉(zhuǎn)化都有顯著的效果。
互聯(lián)網(wǎng)越發(fā)展,越需要個(gè)性化推薦
隨著互聯(lián)網(wǎng)時(shí)代的到來,新聞資訊行業(yè)中,有三大核心特點(diǎn)日漸突出。
一是資訊更新極其頻繁且層出不窮,全國各地乃至全球,每時(shí)每刻都在產(chǎn)生五花八門、包羅萬象的資訊,諸如娛樂八卦、國內(nèi)國際民生、前沿技術(shù)解讀、行業(yè)動(dòng)態(tài)等等。不僅種類繁多,而且數(shù)量極大。日積月累,數(shù)據(jù)量更是到了令人咋舌的地步。
二是用戶群體十分龐大,移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,讓人們史無前例的感受到了獲取信息是是如此的簡單快捷。手指一觸,便能打開信息的大門。用戶瀏覽新聞資訊時(shí),用戶行為也多種多樣,包括點(diǎn)擊、深度閱讀、轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、不喜歡、收藏等。
三是用戶興趣變化也很劇烈,用戶閱讀口味隨著一天當(dāng)中時(shí)間段的不同、心情的差異,對(duì)新聞資訊也有明顯的閱讀便好。所以在新聞資訊的業(yè)務(wù)場(chǎng)景中,信息過載和物品長尾的問題尤其嚴(yán)重。
當(dāng)個(gè)人所接受的信息超過了個(gè)人所能有效處理的范圍,會(huì)導(dǎo)致無所適從,這種現(xiàn)象稱為“信息過載”;同時(shí),如此多樣豐富的信息中,大部分是冷門信息,沒有曝光的機(jī)會(huì),這就是物品的“長尾問題”。對(duì)于處于移動(dòng)互聯(lián)網(wǎng)的今天,這兩個(gè)問題異常突出。在大量的實(shí)踐中發(fā)現(xiàn),個(gè)性化推薦能夠有效解決上述兩個(gè)問題。在新聞資訊行業(yè)中,個(gè)性化推薦引擎不僅隨處可見,而且個(gè)性化推薦的內(nèi)容被放置在非常醒目的流量入口位置。這和新聞資訊的實(shí)際業(yè)務(wù)場(chǎng)景密不可分。
新聞資訊中的個(gè)性化推薦是根據(jù)用戶的歷史行為數(shù)據(jù)進(jìn)行深層興趣點(diǎn)挖掘,讓每一個(gè)用戶都感覺到有一個(gè)私人的貼身管家在照顧自己,從大量的新聞資訊中找出自己最感興趣的推薦給他。這樣的話,不僅滿足了用戶本質(zhì)的信息訴求,改善了用戶體驗(yàn),顯著提升了用戶粘性和停留時(shí)長。同時(shí)大量的新聞資訊也有了曝光的機(jī)會(huì),找到自己的受眾群體,避免了流量的浪費(fèi)。最終對(duì)于企業(yè)而言,也最大化了自身利益。
達(dá)觀數(shù)據(jù)個(gè)性化推薦技術(shù)實(shí)現(xiàn)
如何在海量數(shù)據(jù)中挖掘用戶的興趣偏好、如何保證推薦結(jié)果的精準(zhǔn)性、如何快速準(zhǔn)確的響應(yīng)用戶興趣的變化?這些對(duì)于企業(yè)都是巨大的挑戰(zhàn)。達(dá)觀數(shù)據(jù)在這方面做了很多提升推薦質(zhì)量、推薦效率和系統(tǒng)可靠性的工作,下面結(jié)合我們的實(shí)踐做一些介紹。
在新聞資訊行業(yè)中,如何進(jìn)行精準(zhǔn)個(gè)性化推薦呢?首先從新聞資訊信息說起。新聞資訊自身有很多豐富的信息,一般包括標(biāo)題、分類、標(biāo)簽、發(fā)布時(shí)間、作者、是否原創(chuàng)、字?jǐn)?shù)等信息。同時(shí)結(jié)合用戶歷史行為數(shù)據(jù),可以生成“動(dòng)態(tài)信息”以評(píng)估文章本身的質(zhì)量或者熱門程度。這些動(dòng)態(tài)信息可以是全局的,也可以是細(xì)分維度的,比如基于一段時(shí)間的用戶點(diǎn)擊行為得到新聞資訊的點(diǎn)擊次數(shù),從高得到低排序得到點(diǎn)擊維度上的熱門排行榜。當(dāng)然,如果將用戶的各種行為進(jìn)行加權(quán)計(jì)算處理,可以得到新聞資訊的全局熱門榜單。同時(shí),也可以動(dòng)態(tài)生成每篇資訊的點(diǎn)擊數(shù)、分享數(shù)、收藏?cái)?shù)、點(diǎn)贊數(shù)等用以生成資訊畫像,用于后續(xù)的推薦算法中。
快速解決冷啟動(dòng)問題
當(dāng)一個(gè)用戶到來時(shí),如果這個(gè)用戶之前沒有任何行為數(shù)據(jù),這時(shí)的推薦就要面臨用戶“冷啟動(dòng)”問題。解決方法也有很多,首先可以考慮基于用戶的人口統(tǒng)計(jì)學(xué)信息進(jìn)行推薦,包括性別、地域、職業(yè)、婚否等,比如上海的話推薦一些上海的新聞資訊、男生推薦一些體育資訊、職業(yè)是互聯(lián)網(wǎng)行業(yè)的話推薦一些科技資訊等。其次可以引導(dǎo)用戶選擇自己的興趣標(biāo)簽和分類,比如對(duì)娛樂感興趣的話可以推薦一些明星八卦。當(dāng)然還可以在新用戶啟動(dòng)時(shí),推薦各種各樣的高質(zhì)量新聞資訊,讓用戶用自己的手進(jìn)行投票,然后實(shí)時(shí)更新推薦結(jié)果迎合用戶的閱讀興趣。
以往因?yàn)榧夹g(shù)的原因,為一個(gè)新用戶建立冷啟動(dòng)模型可能需要好幾天,但結(jié)合我們前面說的這些方法,我們現(xiàn)在已經(jīng)可以在幾秒內(nèi)就迅速為新用戶建立模型。(下接用戶圖)
如果用戶是一個(gè)老用戶,也就是用戶有歷史行為數(shù)據(jù),那么還可以結(jié)合這些數(shù)據(jù)挖掘用戶的興趣偏好,形成用戶畫像。用戶畫像通過對(duì)海量的用戶行為數(shù)據(jù)進(jìn)行深入的分析和挖掘,從多個(gè)維度來描述用戶的基礎(chǔ)屬性、標(biāo)簽及興趣點(diǎn)等,清晰并且準(zhǔn)確地勾勒出用戶的輪廓概貌。這些數(shù)據(jù)幫助應(yīng)用方更好了解用戶行為路徑,明確用戶流失情況和原因,為應(yīng)用方的產(chǎn)品功能優(yōu)化決策提供可靠參考依據(jù)。
多維度結(jié)合,立體預(yù)測(cè)用戶行為
用戶畫像中有多種維度衡量用戶的興趣偏好,比如偏好的新聞資訊列表、偏好的類別列表、偏好的標(biāo)簽列表、偏好的新聞作者列表、興趣相似的用戶列表等。
用戶偏好生成過程中,還需要考慮兩個(gè)因素:行為類型和興趣周期。在新聞資訊閱讀過程中,用戶行為類型有很多。用戶看到了一篇新聞,可能是用戶感興趣的,就點(diǎn)擊了,然后看了一點(diǎn)覺得很不錯(cuò),就沉浸下來進(jìn)入深度閱讀階段直到看完整篇資訊,最后覺得寫得太好了,不僅點(diǎn)贊還收藏了這篇文章。像深度閱讀、點(diǎn)贊、收藏等和用戶興趣的正向的行為,生成偏好時(shí)應(yīng)當(dāng)加強(qiáng),最后在推薦時(shí)要多推薦一些類似文章。像不喜歡、不點(diǎn)擊等和用戶興趣反向的行為,生成偏好時(shí)應(yīng)當(dāng)削弱,推薦時(shí)也要盡可能少推薦。
另外一點(diǎn)就是興趣周期,一般來說分三個(gè)層次,分別是長期興趣、短期興趣和實(shí)時(shí)興趣,對(duì)應(yīng)的時(shí)間間隔的不同。一般長期興趣是取最近3個(gè)月或者半年的用戶行為數(shù)據(jù)進(jìn)行分析挖掘生成,短期興趣則是最近一周時(shí)間間隔內(nèi),而實(shí)時(shí)興趣則是最近N分鐘之內(nèi)的行為挖掘。長期興趣主要處理用戶一直存在的興趣偏好,短期興趣主要是處理用戶正在變化的或者正在養(yǎng)成的興趣,而實(shí)時(shí)興趣主要是迎合用戶的獵奇心理,當(dāng)然實(shí)時(shí)興趣也會(huì)是長期興趣和短期興趣的持續(xù)。
了解用戶的心理之后,還有一些具體的事項(xiàng)也需要注意。比如,在一次推薦結(jié)果中,推薦的數(shù)量一般是8到10個(gè),除了考慮用戶興趣之外,還需要權(quán)衡推薦結(jié)果的多樣性、時(shí)效性等,比如避免推薦同一個(gè)作者、類別或者標(biāo)簽下的多篇新聞,新文章要優(yōu)先推薦等。
機(jī)器學(xué)習(xí),顯著提升推薦效率
簡單的生成用戶偏好的方法是基于概率統(tǒng)計(jì),也可以基于機(jī)器學(xué)習(xí)中的分類、聚類等生成。比如用戶點(diǎn)擊了10篇新聞資訊,有7篇是關(guān)于科技的,2篇是關(guān)于汽車的,1篇是娛樂的,則可以得到用戶對(duì)科技、汽車、娛樂三個(gè)類別的偏好程度分別是0.7、0.2、0.1。
有了用戶的偏好和偏好程度數(shù)據(jù),就可以“投其所好”,就可以基于內(nèi)容進(jìn)行推薦了,主要形式有“含有相同標(biāo)簽的其它資訊”、“同分類的其它資訊”、“相同作者的其它資訊”等。比如用戶偏好體育,那就推薦時(shí)增加體育類新聞的曝光。如果用戶偏好C羅,那就推薦時(shí)增加C羅新聞的數(shù)量。
個(gè)性化推薦中很重要的一種方法是基于相似用戶的推薦,相似用戶的思想體現(xiàn)的是“物以類聚,人以群分”,基于群體智慧,利用已有大量用戶群過去行為數(shù)據(jù)來預(yù)測(cè)當(dāng)前用戶最可能感興趣的東西。具體來說,找到和你興趣偏好相似的用戶,把這部分用戶喜歡看的新聞資訊推薦給你。比如小達(dá)在推薦系統(tǒng)相關(guān)的文章,小達(dá)和小觀是相似用戶,就可以這篇推薦系統(tǒng)相關(guān)的文章推薦給小觀。相似用戶的計(jì)算,主要是看用戶喜好文章的重合程度。
新聞序號(hào) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
小達(dá) | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 0 |
小觀 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 |
小數(shù) | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 1 |
小據(jù) | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
舉個(gè)例子,上表中第一行對(duì)應(yīng)的新聞編號(hào),共有9篇新聞資訊。第二行到第五行的第一列對(duì)應(yīng)用戶名稱,后面各列表示用戶對(duì)各篇新聞是否喜歡,1表示喜歡,0表示不喜歡。從上表可以看出,小達(dá)和小觀共同喜歡的新聞?dòng)?篇,和小數(shù)共同喜歡的有2篇,和小據(jù)共同喜歡的有1篇。所以,相對(duì)小數(shù)和小據(jù),小達(dá)和小觀的閱讀口味更加接近,二者喜歡看的新聞資訊互推的話,推薦準(zhǔn)確度就會(huì)高很多。當(dāng)然,在實(shí)際業(yè)務(wù)場(chǎng)景中,計(jì)算用戶相似度的時(shí)候影響的因素非常多。比如過于冷門的資訊會(huì)導(dǎo)致相似用戶很稀疏,需要過濾或者降權(quán)處理;過于熱門的資訊會(huì)導(dǎo)致很多用戶都有相似度,并不能實(shí)際反應(yīng)用戶的實(shí)際閱讀興趣,也需要過濾或者降權(quán)處理。
上述基于領(lǐng)域的相似用戶的計(jì)算方法,具有很好的解釋性。同樣也適用于計(jì)算新聞資訊的相似度,也就是看各個(gè)物品之間被用戶喜歡的共同用戶數(shù)量。除此之外,還有一些方法把新聞資訊和用戶映射到相同的隱語義空間中,對(duì)應(yīng)一些無法解釋的東西稱為隱含因子。對(duì)于新聞資訊而言,隱含因子可以用來衡量新聞是正面還是負(fù)面的、正常新聞還是三俗的等多種維度。
模型融合,進(jìn)一步提升推薦效果
綜上所述,生成個(gè)性化推薦結(jié)果的方式有很多種。俗話說“尺有所短、寸有所長”,如果能把每種方式的優(yōu)點(diǎn)都結(jié)合起來,就能得到更好的效果。在算法設(shè)計(jì)中,這個(gè)環(huán)節(jié)就是“模型融合”,將多個(gè)單一推薦算法的結(jié)果進(jìn)行融合。
融合方式有很多,已經(jīng)有一些完全自動(dòng)化并且智能的融合機(jī)制,比如LR(Logistic Regression),該方法綜合用戶維度特征(如人口統(tǒng)計(jì)學(xué)信息、興趣偏好)、資訊維度特征(如標(biāo)簽、類別、作者)和用戶的行為數(shù)據(jù)(如點(diǎn)擊、點(diǎn)贊、收藏)等多種數(shù)據(jù),來預(yù)測(cè)用戶對(duì)新聞資訊的感興趣程度,也就是一個(gè)介于0到1之間的數(shù)值,越接近于1表示表示用戶越感興趣。
模型融合的方式現(xiàn)在已經(jīng)普遍應(yīng)用在機(jī)器學(xué)習(xí)的各個(gè)分支中,但是不同的融合方式效果有顯著的差別。我們達(dá)觀數(shù)據(jù)在具體的實(shí)踐中使用的是獨(dú)立開發(fā)的“雙層疊加算法”,這一算法具有較強(qiáng)的普適性,已經(jīng)在數(shù)百家知名企業(yè)的業(yè)務(wù)中得以應(yīng)用。
相關(guān)閱讀
達(dá)觀數(shù)據(jù)推薦算法實(shí)現(xiàn):協(xié)同過濾之item embedding
“想你所想”之個(gè)性化推薦:實(shí)踐與優(yōu)化
達(dá)觀數(shù)據(jù)推薦系統(tǒng)實(shí)踐—實(shí)時(shí)演算用戶動(dòng)態(tài)數(shù)據(jù) 提升運(yùn)營效率