隨著互聯網的爆炸增長以及供應商提供的物品的數量越來越多,用戶身邊充斥著海量信息,在這種狀況下推薦系統應運而生。推薦系統本質上是從海量的信息中為用戶尋找其感興趣的信息的技術手段,通過算法推薦達到節(jié)省用戶時間、提升用戶滿意度、為公司創(chuàng)造更多的商業(yè)價值的目的。要想達到這個目的的前提條件是:讓用戶信任推薦系統。這種信任體現在推薦系統首先要能提供符合用戶喜好的商品,能牢牢抓住用戶的興趣點,其次要能為推薦出來的物品進行合理說明,即給出推薦理由。而目前的推薦系統都面臨在某些情形下無法精準推薦,以及無法為推薦出來的商品進行合理化解釋的問題,總結為以下3個問題:
問題1:數據稀疏問題
在實際推薦過程中,用戶和物品的交互信息往往是非常稀疏(sparse)的。以淘寶為例,平均每天的在線商品數超過8億件,而一個用戶曾經瀏覽過、點擊過、購買過或有過其他行為的商品可能平均只有幾百件,用這幾百件已知數據去預測8億商品里用戶可能感興趣的商品,往往因為樣本數量過少造成準確率不高。
同樣的情況在推薦物料較多的情況下顯得尤為突出,國外大型電商平臺亞馬遜也遇到相似的問題,即用戶評價過的物品數量相對網站中總物品數量可謂是冰山一角,這就導致了用戶項目評分矩陣的數據極端稀疏,在計算用戶或物品的最近鄰時準確率就會比較低,從而使得推薦系統的推薦質量急劇下降。
達觀智能推薦解決方案:引入知識圖譜 場景化解決數據稀疏問題
針對場景建立知識圖譜是電商領域常見的圖譜應用方式,因為知識圖譜(knowledge graph)可以很好的組合和利用輔助信息,輔助信息可以豐富對用戶和物品的描述、增強推薦算法的挖掘能力,從而有效地彌補交互信息的稀疏或缺失。
圖 1 達觀智能推薦系統引入知識圖譜
知識圖譜由若干個三元組(h、r、t)組成,其中h和t代表一條關系的頭結點和尾節(jié)點,r代表關系,結點(node)代表實體(entity)或者概念(concept),邊(edge)代表實體/概念之間的各種語義關系(relation)。
圖 2 知識圖譜三元組示例
上圖展示的三元組表達了“張藝謀導演了活著”這樣一條事實,其中h=張藝謀、t=活著、r=導演。
在實際推薦過程中,我們可以通過人工、規(guī)則或者模型的方式,為商品關聯相應的消費場景。比如“沙灘褲”、“沙灘鞋”、“泳衣”、“防曬霜”同屬于“沙灘”的使用場景,當用戶搜索或點擊到該場景下的幾個關鍵詞,如“沙灘褲”、“沙灘鞋”后,達觀智能推薦系統推測該用戶的使用場景可能是去沙灘度假,在該場景下會為他相應地推薦“泳衣”、“防曬霜”等沙灘度假常用物品,這樣即使用戶-物品間有較少的交互數據,也可以根據已有數據進行深層探索。
圖 3 達觀智能推薦引入知識圖譜:場景化解決數據稀疏問題
問題2:冷啟動問題
推薦系統冷啟動主要分為物品冷啟動、用戶冷啟動、系統冷啟動三大類。
推薦系統的主要目標是將大量的物品推薦給可能喜歡的海量用戶, 這里涉及到物品和用戶兩類對象。
在任何一個平臺上物品和用戶都是不斷增長變化的,所以一定會頻繁面對新物品和新用戶, 推薦系統冷啟動問題指的就是對于新注冊的用戶或者新上架的物品, 該怎么給新用戶推薦物品讓用戶滿意,怎么將新物品分發(fā)出去,推薦給喜歡它的用戶。
另外,如果是全新場景,初期用戶很少,用戶行為也不多,常用的協同過濾、深度學習等依賴大量用戶行為的算法不能很好的訓練出精準的推薦模型, 怎么讓推薦系統很好的運轉起來,讓推薦變得越來越準確,這個問題就是系統冷啟動問題。
達觀智能推薦解決方案:引入知識圖譜 知識化解決冷啟動問題
知識圖譜借助自身可拓展的特性,在新用戶進入平臺時,可攜帶該用戶的自身屬性(eg:手機IMEI、地理位置)、角色屬性(eg:職位、職級)等其他信息,形成定制化的用戶背景。比如同樣都是P3職級產品崗位的兩個用戶,當老用戶在平臺上瀏覽《產品迭代流程》文檔時,達觀智能推薦系統可以在新用戶沒有任何喜好偏向時,將其相似性背景化,同樣為他推薦《產品迭代流程》文檔。
圖 4 達觀智能推薦引入知識圖譜:背景化解決冷啟動問題
問題3:可解釋性不強
推薦的可解釋性,是指在為用戶提供推薦的同時,給出推薦的理由。人類是一個非常好奇的物種,不滿足于只知道結論,一定會對引起結論的原因感興趣,往往會想知道個中緣由。小孩從會說話時起就會問各種為什么。對社會和環(huán)境的好奇,才會引起人類的探索欲,從而更好地理解和認知這個世界,這可能也是生物進化的自然選擇。
在現實生活中,我們經常會為朋友做推薦或者讓別人幫我們推薦,比如推薦旅游地、推薦電影、推薦書籍、推薦餐廳等?,F實生活中的推薦,大家都會給出推薦原因,比如推薦餐廳,我們會說這家環(huán)境好、好吃、衛(wèi)生等等,那如果網上沖浪時推薦的商品、資訊或內容都能給出推薦理由的話,將會大大增加用戶對平臺的信任度和依賴度。
目前在推薦系統里我們常用到的一些算法被人詬病的問題是其不透明性,不可解釋性。以深度學習為例,這是一種端到端的學習,接受大樣本作為訓練輸入,所習得的模型本質上是神經網絡結構的參數,其學習和預測的過程是不透明的,也被叫做黑盒問題,即模型究竟學到了什么有效特征,使得它做出這樣一個判斷,這個過程缺乏可解釋性,而如果不能回答Why的問題,解釋這些系統如何產生特定的結果,AI系統的可信度就會降低,尤其針對一些高價值場景(理財、醫(yī)療等等),若為用戶推薦的結果無法進行解釋,用戶是很難采用其推薦結果的。
達觀智能推薦解決方案:引入知識圖譜 關聯化解決可解釋性不強問題
知識圖譜的三元組結構決定了當我們選擇其中任何一個節(jié)點都可以給出與之相關節(jié)點的解釋說明,這種關聯化可以實現長鏈條的推薦解釋問題。
達觀智能推薦系統結合知識圖譜將為同一內容創(chuàng)建多種外部關聯,讓推薦結果有據可循、有理可依。如果一個用戶曾經觀看過電影《活著》,那他可能還會喜歡電影《紅高粱》,推薦理由為:您可能還想觀看同導演作品《紅高粱》;也可能他會喜歡電影《奪冠》,推薦理由為:您可能還想觀看同主演作品《奪冠》。
圖 5 達觀智能推薦引入知識圖譜:關聯化解決可解釋性不強問題
圖 6 達觀智能推薦系統支持展示推薦理由
? ??達觀智能推薦系統? ?
推薦系統結合知識圖譜已成為未來的發(fā)展方向,達觀智能推薦系統結合團隊深耕多年的強大圖譜能力已成為該賽道中的強勢黑馬。
目前,達觀智能推薦已廣泛服務于電商、銀行、廣電、運營商、傳媒、政企、互聯網等行業(yè),與屈臣氏、安利、阿迪達斯、招商銀行、民生銀行、華夏銀行、陜西廣電、山東廣電、人民網、澎湃新聞等企業(yè)達成合作,在各行各業(yè)都積累了豐富的業(yè)務經驗與實踐經驗。
在服務客戶過程中,達觀智能推薦團隊將根據業(yè)務方需求持續(xù)深度優(yōu)化推薦效果,幫助客戶實現目標需求,從測試、優(yōu)化到維護,提供全方位服務,助力企業(yè)實施精細化運營,持續(xù)提升用戶體驗。