色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

知識(shí)圖譜增強(qiáng)下的智能推薦系統(tǒng)與應(yīng)用-于敬

隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,尤其是移動(dòng)互聯(lián)網(wǎng)的興起,新產(chǎn)生的信息呈現(xiàn)爆炸式的增長(zhǎng)。為了更好地解決信息獲取中的信息過(guò)載(Information Overload)和長(zhǎng)尾問(wèn)題(Long Tail),推薦系統(tǒng)應(yīng)運(yùn)而生,目前基本上已經(jīng)成為了各種產(chǎn)品的標(biāo)配功能。推薦系統(tǒng)是信息過(guò)濾系統(tǒng)的一個(gè)分支,它可以自動(dòng)地挖掘用戶(hù)和物品之間的聯(lián)系。具體來(lái)說(shuō),它試圖基于用戶(hù)本身的多維度屬性數(shù)據(jù)(如年齡、地域、性別等)以及行為數(shù)據(jù)的反饋(如點(diǎn)擊、收藏、點(diǎn)贊、購(gòu)買(mǎi)等),結(jié)合物品自身屬性數(shù)據(jù)(如標(biāo)題、標(biāo)簽、類(lèi)別、正文等),以預(yù)測(cè)用戶(hù)對(duì)待推薦物品的評(píng)分或偏好。從用戶(hù)的角度來(lái)看,推薦系統(tǒng)是基于用戶(hù)個(gè)人的興趣偏好進(jìn)行千人千面的自動(dòng)推薦,則有助于緩解信息過(guò)載問(wèn)題。從物品的角度來(lái)看,其自身屬性及對(duì)應(yīng)的交互行為差異,通過(guò)各種推薦方式是可以觸達(dá)到對(duì)其更感興趣的用戶(hù)群體中,緩解了曝光不足帶來(lái)的長(zhǎng)尾問(wèn)題。從企業(yè)的角度來(lái)看,推薦系統(tǒng)帶來(lái)了更好的產(chǎn)品交互方式,達(dá)到了沉浸式體驗(yàn)的效果,從而進(jìn)一步提升了用戶(hù)的黏性,并最終大幅度提升了轉(zhuǎn)化收益。


圖1 達(dá)觀智能推薦系統(tǒng)

在智能推薦ToB企業(yè)服務(wù)領(lǐng)域,達(dá)觀數(shù)據(jù)已經(jīng)有了10余年的推薦技術(shù)沉淀和上千家客戶(hù)的行業(yè)應(yīng)用實(shí)踐經(jīng)驗(yàn)。早在2012年的時(shí)候,由達(dá)觀數(shù)據(jù)創(chuàng)始人陳運(yùn)文博士帶領(lǐng)團(tuán)隊(duì)參加了在倫敦舉辦的EMI數(shù)據(jù)黑客競(jìng)賽并獲得了國(guó)際冠軍,該競(jìng)賽主要是圍繞音樂(lè)推薦場(chǎng)景,如何基于用戶(hù)聽(tīng)歌行為等數(shù)據(jù)進(jìn)行分析挖掘來(lái)對(duì)預(yù)測(cè)用戶(hù)興趣偏好并進(jìn)行歌曲推薦。經(jīng)過(guò)激烈鏖戰(zhàn),由他們開(kāi)發(fā)的智能推薦系統(tǒng)對(duì)500萬(wàn)聽(tīng)歌用戶(hù)的數(shù)據(jù)進(jìn)行建模,根據(jù)每個(gè)用戶(hù)的個(gè)性化興趣偏好從數(shù)十萬(wàn)首歌曲庫(kù)中為每個(gè)用戶(hù)生成千人千面的歌曲推薦結(jié)果,推薦精度力克包括來(lái)自劍橋大學(xué)、牛津大學(xué)、密歇根大學(xué)等等的300多支參賽隊(duì)伍,一舉獲得冠軍。達(dá)觀智能推薦基于前沿的人工智能和大數(shù)據(jù)分析挖掘技術(shù),經(jīng)過(guò)多年的產(chǎn)品打磨和持續(xù)的行業(yè)應(yīng)用探索,累計(jì)服務(wù)客戶(hù)數(shù)量達(dá)到了上千家。(http://35285.cn/products/recommend/)

基于過(guò)濾思想的推薦方法

經(jīng)過(guò)多年的推薦系統(tǒng)理論發(fā)展,已經(jīng)產(chǎn)生了三代主要的推薦系統(tǒng)。第一代推薦系統(tǒng)(1995-2005),主要包括三種方法:基于內(nèi)容過(guò)濾的方法、基于協(xié)同過(guò)濾的方法和混合方法,技術(shù)上主要是規(guī)則統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。第二代推薦系統(tǒng)(2003-2014),主要是基于時(shí)間、位置、用戶(hù)組評(píng)分等特征上下文,對(duì)這一代推薦系統(tǒng)的研究目前仍在進(jìn)行中。第三代推薦系統(tǒng)的研究更側(cè)重在基于表示學(xué)習(xí)的語(yǔ)義模型以及在推薦過(guò)程中會(huì)有較多的關(guān)于知識(shí)組件的使用。

01基于協(xié)同過(guò)濾的推薦方法

協(xié)同過(guò)濾方法(Collaborative Filtering,CF)是一種傳統(tǒng)的推薦方法,體現(xiàn)的是群體智慧,它基于用戶(hù)的興趣偏好和與物品的歷史交互行為進(jìn)行推薦。這種方法可以分為基于記憶的方法和基于模型的方法。而基于記憶的方法可以分為兩類(lèi):基于用戶(hù)的(User-based CF)和基于物品的(Item-based CF)?;趦?nèi)存的方法最流行的算法是KNN算法,該算法使用了一些傳統(tǒng)的相似性度量,如 Pearson、Spearman、Cosine、Jaccard 等。另一方面,在基于模型的方法中,最常用的是矩陣分解(MF)及其變體(NMF、SVD)。目前,又出現(xiàn)了一些新的基于模型的協(xié)同過(guò)濾方法,如貝葉斯、基于聚類(lèi)的、基于規(guī)則的和基于圖的推薦方法。

協(xié)同過(guò)濾主要存在兩個(gè)問(wèn)題:當(dāng)用戶(hù)與物品之間的交互很少時(shí)用戶(hù)數(shù)據(jù)的稀疏性,以及冷啟動(dòng)問(wèn)題(新用戶(hù)和新物品)。另外就是是傳統(tǒng)的推薦技術(shù)沒(méi)有利用推薦場(chǎng)景中的諸多語(yǔ)義信息、關(guān)鍵字關(guān)系和層次結(jié)構(gòu)。

02基于內(nèi)容過(guò)濾的推薦方法

基于該方法的推薦系統(tǒng)通過(guò)學(xué)習(xí)和用戶(hù)過(guò)去偏好的物品在內(nèi)容特征方面比較相似的新物品進(jìn)行推薦。這類(lèi)方法可以分為基于案例推理(case-based reasoning)和基于屬性(attribute-based)的技術(shù)?;诎咐评淼募夹g(shù)主要是推薦與用戶(hù)過(guò)去喜歡的物品高度相關(guān)的物品。相比之下,基于屬性的技術(shù)基于將物品屬性與用戶(hù)屬性相匹配來(lái)進(jìn)行推薦結(jié)果生成。大多數(shù)基于內(nèi)容過(guò)濾的推薦系統(tǒng)使用的模型包括:關(guān)鍵字匹配或向量空間模型(VSM)、基于詞頻-逆文檔頻率(TF-IDF)加權(quán)、主題建模等。

基于內(nèi)容過(guò)濾的推薦方法,推薦出來(lái)的物品具有較高的文本相關(guān)性,同時(shí)可以很好的解釋推薦結(jié)果,但是推薦出來(lái)的結(jié)果往往驚喜度較差,同時(shí)文本特征較為稀疏時(shí)也會(huì)影響相關(guān)性的計(jì)算。

03基于人口統(tǒng)計(jì)信息過(guò)濾的推薦方法

該方法的主要思想是具有某些共同個(gè)人屬性(性別、年齡、國(guó)家等)的用戶(hù)也具有共同偏好這一事實(shí)?;诖耍@些系統(tǒng)可以通過(guò)根據(jù)人口統(tǒng)計(jì)屬性對(duì)用戶(hù)進(jìn)行分類(lèi)來(lái)生成推薦結(jié)果。當(dāng)物品的信息量很有限時(shí),這些方法特別有用。該方法的一個(gè)優(yōu)點(diǎn)是它不需要用戶(hù)對(duì)基于內(nèi)容和協(xié)同過(guò)濾方法所必需的物品進(jìn)行評(píng)分或者有交互反饋。

然而,這種類(lèi)型的推薦方式的主要問(wèn)題,一是由于涉及安全和隱私問(wèn)題,為用戶(hù)收集完整的信息是不切實(shí)際的;二是該方法向相關(guān)人口統(tǒng)計(jì)群體的用戶(hù)推薦相同的商品,個(gè)性化程度受限。

04基于上下文感知過(guò)濾的推薦方法

該類(lèi)推薦系統(tǒng)結(jié)合場(chǎng)景上下文信息進(jìn)行推薦。這種方法假設(shè)當(dāng)前推薦場(chǎng)景的上下文是用一組預(yù)定義的可觀察屬性定義的,其結(jié)構(gòu)不會(huì)隨著時(shí)間的推移而發(fā)生顯著變化。所謂的上下文信息主要包括時(shí)間、位置或者其他人(如朋友、親戚或同事)。這些上下文信息為推薦結(jié)果的生成提供了額外的信息,相對(duì)于僅考慮用戶(hù)或者物品自身信息,會(huì)有更多的補(bǔ)充。

05基于知識(shí)過(guò)濾的推薦方法

該類(lèi)推薦系統(tǒng)主要是基于領(lǐng)域知識(shí)考慮如何推薦以滿(mǎn)足用戶(hù)的興趣偏好。這些系統(tǒng)應(yīng)該使用三種類(lèi)型的知識(shí):關(guān)于用戶(hù)的知識(shí)、關(guān)于物品的知識(shí)以及關(guān)于物品與用戶(hù)需求之間對(duì)應(yīng)關(guān)系的知識(shí)。總體上來(lái)說(shuō),該方法主要是依靠知識(shí)圖譜來(lái)為推薦系統(tǒng)更多的輔助信息以提升推薦精準(zhǔn)度。后面會(huì)展開(kāi)來(lái)詳細(xì)介紹。

06混合過(guò)濾的推薦方法

這些系統(tǒng)通常將協(xié)同過(guò)濾與內(nèi)容過(guò)濾或協(xié)同過(guò)濾與任何其他推薦方法相結(jié)合進(jìn)行推薦。結(jié)合的目標(biāo)是利用每種方法的優(yōu)勢(shì)以提高整體系統(tǒng)性能和推薦效果。目前,一些關(guān)于混合方法的工作包括基于深度學(xué)習(xí)方法、貝葉斯網(wǎng)絡(luò)、聚類(lèi)、潛在特征和圖結(jié)構(gòu)等等。

近年來(lái),基于深度神經(jīng)網(wǎng)絡(luò)的方法,如 DNN 、Wide & Deep、DeepFM在排序?qū)W習(xí)(Learn to Rank,LTR)方面取得了令人矚目的表現(xiàn)。這些方法遵循嵌入(Enmbedding)和多層感知機(jī)(Multilayer Perceptron,MLP)范式,其中大規(guī)模稀疏特征首先嵌入到低維向量中,然后連接在一起輸入多層感知器以學(xué)習(xí)特征之間的非線(xiàn)性關(guān)系。先進(jìn)的LTR方法發(fā)現(xiàn)了從用戶(hù)的歷史行為中提取用戶(hù)興趣以進(jìn)行排名的有效性。具體來(lái)說(shuō),DIN(Deep Interest Network)使用注意力機(jī)制從用戶(hù)對(duì)候選物品的歷史行為中學(xué)習(xí)用戶(hù)興趣的表示。DIEN(Deep Interest Evolution Network)使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)捕捉用戶(hù)興趣的演變。DMT(Method Deep Multifaceted Transformers)利用多個(gè)轉(zhuǎn)換器對(duì)用戶(hù)的不同行為序列進(jìn)行建模。

總體上來(lái)說(shuō),推薦算法是推薦系統(tǒng)的核心元素。基于協(xié)同過(guò)濾的推薦方式是以交互數(shù)據(jù)中用戶(hù)或物品的相似性對(duì)用戶(hù)興趣偏好進(jìn)行建模,而基于內(nèi)容過(guò)濾的推薦方法則主要是利用物品的內(nèi)容特征?;趨f(xié)同過(guò)濾的推薦系統(tǒng)已被廣泛應(yīng)用,因?yàn)樗鼈兛梢杂行У夭东@用戶(hù)偏好,并且可以在多種場(chǎng)景中可以快速方便的實(shí)現(xiàn),而無(wú)需像基于內(nèi)容過(guò)濾的推薦系統(tǒng)中提取各種特征。然而,基于協(xié)同過(guò)濾的推薦方法存在數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題。為了解決這些問(wèn)題,已經(jīng)提出了很多類(lèi)型的混合推薦系統(tǒng)來(lái)統(tǒng)一交互級(jí)相似性和內(nèi)容級(jí)相似性。在這個(gè)過(guò)程中,也探索了多種類(lèi)型的輔助信息,例如物品屬性、評(píng)論數(shù)據(jù)、用戶(hù)的社交網(wǎng)絡(luò)等等。實(shí)踐證明,混合推薦系統(tǒng)通??梢垣@得更好的推薦結(jié)果,并且近年來(lái)越來(lái)越受歡迎。

知識(shí)圖譜概述

知識(shí)圖譜(Knowledge Graph,KG)是一種描述實(shí)體或概念并使用不同類(lèi)型的語(yǔ)義關(guān)系將它們連接起來(lái)的結(jié)構(gòu)。2012 年,Google提出術(shù)語(yǔ)“知識(shí)圖譜”來(lái)指代語(yǔ)義知識(shí)在網(wǎng)絡(luò)搜索中的使用,目的是提高搜索引擎的能力,增強(qiáng)用戶(hù)的搜索體驗(yàn)。在“知識(shí)圖譜”一詞流行之前,DBPedia和其他鏈接數(shù)據(jù)集是由語(yǔ)義Web技術(shù)和Berners-Lee提出的鏈接數(shù)據(jù)設(shè)計(jì)問(wèn)題生成的。如今,KG已經(jīng)在業(yè)界獲得了廣泛關(guān)注并進(jìn)行了大規(guī)模的系統(tǒng)應(yīng)用。

在過(guò)去的數(shù)年中,越來(lái)越多的語(yǔ)義數(shù)據(jù)遵循關(guān)聯(lián)數(shù)據(jù)原則,通過(guò)將來(lái)自不同主題領(lǐng)域的各種信息(如人、書(shū)籍、音樂(lè)、電影和地理位置)連接到一個(gè)統(tǒng)一的全球數(shù)據(jù)空間中來(lái)發(fā)布。這些異構(gòu)的數(shù)據(jù)相互聯(lián)系,形成了一個(gè)巨大的信息資源庫(kù),稱(chēng)為知識(shí)庫(kù)。已經(jīng)構(gòu)建了幾個(gè)典型的知識(shí)庫(kù),包括YAGO、NELL、DBpedia、DeepDive等學(xué)術(shù)項(xiàng)目,以及微軟的Satori、谷歌的Knowledge Graph等商業(yè)項(xiàng)目。使用來(lái)自知識(shí)庫(kù)的異構(gòu)連接信息有助于深入了解單個(gè)領(lǐng)域的數(shù)據(jù)難以發(fā)現(xiàn)的問(wèn)題。

以下是部分知識(shí)庫(kù)介紹:

  1. Freebase是一個(gè)非常實(shí)用的并且可拓展的元組數(shù)據(jù)庫(kù)系統(tǒng),旨在成為世界知識(shí)的公共存儲(chǔ)庫(kù)。它的設(shè)計(jì)靈感來(lái)自廣泛使用的信息社區(qū),如語(yǔ)義網(wǎng)和維基百科。Freebase 中的數(shù)據(jù)是結(jié)構(gòu)化的,通過(guò)協(xié)作創(chuàng)建的方式生成。它支持高度多樣化和異構(gòu)的數(shù)據(jù),并具有高可擴(kuò)展性。Freebase 目前包含125000000+ 元組、4000+類(lèi)型和 7000+屬性。MQL (Metaweb Query Language)作為一種對(duì)數(shù)據(jù)執(zhí)行查詢(xún)和操作的語(yǔ)言,通過(guò)基于HTTP協(xié)議的圖查詢(xún)(graph-query)API可以實(shí)現(xiàn)對(duì)Freebase的讀寫(xiě)操作。MQL為Freebase中的元組數(shù)據(jù)提供了易于使用的面向?qū)ο蟮慕涌?,它的產(chǎn)生旨在促進(jìn)通過(guò)協(xié)作方式創(chuàng)建基于 Web 的面向數(shù)據(jù)的應(yīng)用程序。
  2. DBpedia是從111種語(yǔ)言的維基百科版本中提取結(jié)構(gòu)化數(shù)據(jù)來(lái)構(gòu)建的一個(gè)大規(guī)模多語(yǔ)言知識(shí)庫(kù)。從英文版維基百科中抽取的最大DBpedia知識(shí)庫(kù)包含4億多條事實(shí)數(shù)據(jù),用于描述370萬(wàn)種事物。從其它的110個(gè)維基百科版本中抽取的DBpedia知識(shí)庫(kù)總共包含14.6億事實(shí)數(shù)據(jù),描述1000萬(wàn)種額外事物。DBpedia將27種不同語(yǔ)言版本的維基百科信息框(infoboxes)映射到一個(gè)單一的共享本體中,該本體由320個(gè)類(lèi)和1650 個(gè)屬性組成。這些映射是通過(guò)世界范圍內(nèi)的眾包工作創(chuàng)建的,從而可以很好的融合來(lái)自不同維基百科版本的知識(shí)。該項(xiàng)目定期發(fā)布所有DBpedia知識(shí)庫(kù)以供下載,并通過(guò)本地DBpedia章節(jié)的全球網(wǎng)絡(luò)提供對(duì)111種語(yǔ)言版本中的14 種語(yǔ)言版本的SPARQL查詢(xún)?cè)L問(wèn)。除了定期發(fā)布之外,該項(xiàng)目還維護(hù)一個(gè)實(shí)時(shí)知識(shí)庫(kù),該知識(shí)庫(kù)會(huì)在維基百科中的頁(yè)面發(fā)生更改時(shí)進(jìn)行更新。DBpedia設(shè)置了2700萬(wàn)個(gè)RDF鏈接,指向30多個(gè)外部數(shù)據(jù)源,從而使來(lái)自這些源的數(shù)據(jù)能夠與DBpedia數(shù)據(jù)一起使用。
  3. YAGO是由德國(guó)馬普研究所研制的鏈接數(shù)據(jù)庫(kù)。YAGO主要集成了Wikipedia、WordNet和GeoNames三個(gè)來(lái)源的數(shù)據(jù)。YAGO建立在實(shí)體和關(guān)系之上,目前包含超過(guò) 100 萬(wàn)個(gè)實(shí)體和 500 萬(wàn)個(gè)事實(shí),1.2億條三元組知識(shí),包括 Is-A 層次結(jié)構(gòu)以及實(shí)體之間的非分類(lèi)關(guān)系,事實(shí)已自動(dòng)從Wikipedia中提取并與 WordNet統(tǒng)一。YAGO將WordNet的詞匯定義與Wikipedia的分類(lèi)體系進(jìn)行了融合集成,使得YAGO具有更加豐富的實(shí)體分類(lèi)體系。YAGO還考慮了時(shí)間和空間知識(shí),為很多知識(shí)條目增加了時(shí)間和空間維度的屬性描述。

知識(shí)圖譜本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu),是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò)。通俗來(lái)講,就是把不同種類(lèi)的信息連接在一起得到的一個(gè)語(yǔ)義關(guān)系網(wǎng),知識(shí)圖譜以結(jié)構(gòu)化的方式描述客觀世界,沉淀背景知識(shí),將信息知識(shí)表示成更接近人類(lèi)認(rèn)識(shí)世界的形式,已經(jīng)被廣泛應(yīng)用于搜索引擎、智能推薦、智能問(wèn)答、語(yǔ)言理解、決策分析等領(lǐng)域。


圖2 達(dá)觀知識(shí)圖譜功能展示

達(dá)觀知識(shí)圖譜,是達(dá)觀數(shù)據(jù)公司面向各行業(yè)知識(shí)圖譜應(yīng)用而推出的新一代產(chǎn)品,其整合了知識(shí)圖譜的設(shè)計(jì)、構(gòu)建、編輯、管理、應(yīng)用等全生命周期實(shí)現(xiàn),基于客戶(hù)的多源異構(gòu)數(shù)據(jù)整合構(gòu)建知識(shí)中臺(tái),可以實(shí)現(xiàn)從業(yè)務(wù)場(chǎng)景出發(fā)到生成圖譜、再到實(shí)現(xiàn)基于圖譜的應(yīng)用,顯著提高了各行業(yè)中知識(shí)圖譜的落地效率和效果。

知識(shí)圖譜和推薦系統(tǒng)

傳統(tǒng)的推薦系統(tǒng)更多的是將用戶(hù)和物品之間的顯式或隱式反饋?zhàn)鳛檩斎?,這帶來(lái)了兩個(gè)問(wèn)題:

  1. 在實(shí)際場(chǎng)景中,用戶(hù)和物品之間的交互信息特別稀疏。例如,一個(gè)在線(xiàn)購(gòu)物應(yīng)用可能包含數(shù)十萬(wàn)的商品,而用戶(hù)實(shí)際購(gòu)買(mǎi)的商品數(shù)量可能僅有數(shù)百。使用如此少量的行為反饋數(shù)據(jù)來(lái)預(yù)測(cè)大量未知信息會(huì)顯著增加算法過(guò)擬合的風(fēng)險(xiǎn)。
  2. 對(duì)于新用戶(hù)和新物品的推薦,由于缺乏歷史交互信息,系統(tǒng)推薦的精準(zhǔn)度就會(huì)受到極大的負(fù)面影響。解決稀疏性和冷啟動(dòng)問(wèn)題的一種常見(jiàn)方法是在推薦算法的輸入中引入額外的輔助信息,例如用戶(hù)屬性、項(xiàng)目屬性和上下文信息等等。

近年來(lái),將知識(shí)圖譜作為輔助信息引入推薦系統(tǒng)已經(jīng)成為了工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。KG一方面可以提供豐富的領(lǐng)域知識(shí)作為補(bǔ)充信息來(lái)克服協(xié)同過(guò)濾和基于內(nèi)容過(guò)濾的推薦方法所面臨的問(wèn)題;另一方面,推薦系統(tǒng)可以使用 KG 中存在的語(yǔ)義關(guān)系來(lái)提高其準(zhǔn)確性并增加推薦物品的多樣性。具體來(lái)說(shuō),KG 推薦利用了代表用戶(hù)的實(shí)體、要推薦的物品及其交互之間的聯(lián)系。推薦系統(tǒng)使用各種連接來(lái)識(shí)別目標(biāo)用戶(hù)可能感興趣的物品集合。因此,復(fù)雜的關(guān)系表示為基于KG的推薦系統(tǒng)提供了額外的有價(jià)值的信息,以在節(jié)點(diǎn)之間應(yīng)用推理來(lái)發(fā)現(xiàn)新的連接。相反,一般來(lái)說(shuō),基于特征向量的經(jīng)典推薦方法會(huì)忽略這種連接,這可能會(huì)導(dǎo)致整體的推薦性能欠佳,尤其是在數(shù)據(jù)稀疏的情況下。

融入知識(shí)圖譜的推薦系統(tǒng)

KG是一個(gè)異質(zhì)圖,節(jié)點(diǎn)表示實(shí)體,邊緣表示實(shí)體之間的關(guān)系。物品及其屬性可以映射到 KG 中,以表征物品之間的相互關(guān)系。此外,用戶(hù)及其信息也可以集成到KG中,這就使得用戶(hù)和物品之間的關(guān)系以及用戶(hù)偏好可以更準(zhǔn)確地捕獲。

一般來(lái)說(shuō),基于KG的推薦方法,第一步需要構(gòu)建KG,可以是物品知識(shí)圖譜(Item Knowledge Graph,IKG),也可以是用戶(hù)物品知識(shí)圖譜(User-Item Knowledge Graph,UIKG)。

  1. 關(guān)于IKG。在IKG中,物品和他們關(guān)聯(lián)的實(shí)體(如物品屬性)作為節(jié)點(diǎn),而邊可以表示物品的屬性級(jí)關(guān)系(如品牌、類(lèi)別等),也可以表示為用戶(hù)相關(guān)的關(guān)系(如“都瀏覽”、“都購(gòu)買(mǎi)”)。
  2. 關(guān)于UIKG。在UIKG中,用戶(hù)、物品和他們相關(guān)的實(shí)體都是節(jié)點(diǎn),邊可以表示用戶(hù)和物品之間的關(guān)系(如點(diǎn)擊、收藏、購(gòu)買(mǎi)等)。

以IKG的構(gòu)建為例,物品首先映射到外部 KG 以找到它們的關(guān)聯(lián)實(shí)體,然后從 KG 中提取關(guān)聯(lián)實(shí)體的多跳鄰居,并形成推薦系統(tǒng)的子圖。當(dāng)然也可以不需要依賴(lài)外部KG,可以基于所提供的數(shù)據(jù)中的輔助信息來(lái)構(gòu)建KG。

可解釋的推薦系統(tǒng)是近年來(lái)的另一個(gè)熱門(mén)研究方向。一方面,在推薦結(jié)果呈現(xiàn)的實(shí)現(xiàn)如果可以向用戶(hù)提供適當(dāng)?shù)耐扑]解釋?zhuān)瑒t用戶(hù)可以相對(duì)更好地接受推薦結(jié)果。另一方面,也可以更深入地了解推薦算法。與傳統(tǒng)的推薦系統(tǒng)相比,基于知識(shí)圖譜的推薦系統(tǒng)呈現(xiàn)了連接用戶(hù)和物品的多種實(shí)體和關(guān)系,并且能夠很好地展示推理過(guò)程。

基于知識(shí)圖譜的推薦方法,按照如何應(yīng)用知識(shí)圖譜數(shù)據(jù),可以分為三類(lèi),分別是基于嵌入的方法、基于連接的方法和基于傳播的方法。

01基于嵌入的方法

基于嵌入(Enbedding-based)的方法主要思想是使用KG中大量的事實(shí)知識(shí)來(lái)進(jìn)一步地豐富用戶(hù)和物品的多維度表示,其中主要包括兩大基礎(chǔ)模塊,一個(gè)是圖嵌入模塊,用于學(xué)習(xí)KG中實(shí)體和關(guān)系的表示,也就是需要應(yīng)用知識(shí)圖嵌入(Knowledge Graph Embedding,KGE)算法將KG編碼為低秩嵌入,KGE算法可以分為兩類(lèi):平移距離模型,如TransE、TransH、TransR、TransD等,以及語(yǔ)義匹配模型,如 DistMult。

另外一個(gè)是推薦模塊,基于學(xué)習(xí)到的特征用于預(yù)測(cè)用戶(hù)對(duì)物品的偏好?;谶@兩個(gè)模塊在整個(gè)推薦框架中的關(guān)聯(lián)方式的差異,基于嵌入的方法可以進(jìn)一步細(xì)分為兩階段學(xué)習(xí)的方法、聯(lián)合學(xué)習(xí)的方法和多任務(wù)學(xué)習(xí)的方法。該類(lèi)方法面臨的挑戰(zhàn)包括如何使用合適的KGE方法以獲得實(shí)體的嵌入表示以及如何將學(xué)習(xí)到的實(shí)體嵌入表示集成到推薦模塊中。

圖3 DKN框架

(1)兩階段學(xué)習(xí)方法

兩階段學(xué)習(xí)方法是指分別對(duì)圖嵌入模塊和推薦模塊進(jìn)行訓(xùn)練。第一步,使用KGE算法學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示,接著,將預(yù)訓(xùn)練好的圖相關(guān)嵌入連同其它的用戶(hù)特征和物品特征輸入到推薦模型進(jìn)行用戶(hù)興趣預(yù)測(cè)。圖3是用于新聞推薦的DKN(Deep Knowledge-aware Network)兩階段學(xué)習(xí)框架圖。在第一階段,提取新聞標(biāo)題中的實(shí)體并將其映射到 Satori KG以挖掘新聞之間的知識(shí)級(jí)關(guān)系。DKN 通過(guò)將用KCNN學(xué)習(xí)到的句子的文本嵌入表示和通過(guò)TransD將新聞內(nèi)容中的實(shí)體的知識(shí)級(jí)嵌入二者結(jié)合來(lái)對(duì)新聞進(jìn)行建模。為了捕捉用戶(hù)對(duì)新聞的動(dòng)態(tài)興趣,通過(guò)引入注意力機(jī)制,聚合用戶(hù)的歷史點(diǎn)擊新聞的嵌入來(lái)學(xué)習(xí)用戶(hù)的表示。

兩階段學(xué)習(xí)方法易于實(shí)現(xiàn),其中 KG 嵌入通常被視為后續(xù)推薦模塊的額外特征。另一個(gè)好處是可以在沒(méi)有交互數(shù)據(jù)的情況下學(xué)習(xí) KG 嵌入,因此,大規(guī)模交互數(shù)據(jù)集不會(huì)增加計(jì)算復(fù)雜度。此外,由于KG通常是穩(wěn)定的,一旦學(xué)習(xí)好了嵌入表示,就沒(méi)有必要頻繁更新嵌入表示。但是,通過(guò) KGE 模型優(yōu)化的實(shí)體嵌入更適合于圖內(nèi)應(yīng)用,例如 KG補(bǔ)全。由于 KGE 模塊和推薦模塊是松耦合的,因此學(xué)習(xí)到的嵌入也可能不適合后續(xù)的推薦任務(wù)。

圖4 CKE推薦系統(tǒng)流程

(2)聯(lián)合學(xué)習(xí)法
另一個(gè)趨勢(shì)是以端到端(end-to-end)的訓(xùn)練方式聯(lián)合學(xué)習(xí)(Joint Learning)圖嵌入模塊和推薦模塊。這樣,推薦模塊可以指導(dǎo)圖嵌入模塊中的特征學(xué)習(xí)過(guò)程。CKE(Collaborative Knowledge Base Embedding)統(tǒng)一CF框架中的各種類(lèi)型的輔助信息,包括物品的屬性級(jí)特征、文本特征和視覺(jué)特征。屬性級(jí)特征用TransR編碼以從KG中學(xué)習(xí)結(jié)構(gòu)知識(shí),而文本特征和視覺(jué)特征用自動(dòng)編碼器進(jìn)行提取。這三個(gè)特征學(xué)習(xí)模塊的目標(biāo)函數(shù)加上推薦模塊共同學(xué)習(xí)模型參數(shù)。

聯(lián)合學(xué)習(xí)方法可以進(jìn)行端到端的訓(xùn)練,并且可以使用 KG 結(jié)構(gòu)對(duì)推薦系統(tǒng)進(jìn)行正則化。然而,在實(shí)際應(yīng)用過(guò)程中,需要對(duì)不同目標(biāo)函數(shù)的組合進(jìn)行微調(diào)。

圖5? MKR框架及交叉壓縮單元示例

(3)多任務(wù)學(xué)習(xí)法
最近的一個(gè)研究方向是采用多任務(wù)學(xué)習(xí)(Multi-Task Learning)的策略,在KG相關(guān)任務(wù)的指導(dǎo)下訓(xùn)練推薦任務(wù)。動(dòng)機(jī)是用戶(hù)-物品交互二分圖中的物品及其在 KG 中的關(guān)聯(lián)實(shí)體可能共享相似的結(jié)構(gòu)。因此,物品和實(shí)體之間低級(jí)特征的轉(zhuǎn)移有助于促進(jìn)推薦系統(tǒng)的改進(jìn)。MKR(Multi-task feature learning approach for Knowledge graph enhanced Recommendation)由一個(gè)推薦模塊和一個(gè)KGE模塊組成。這兩個(gè)模塊不是將 KG 嵌入輸入到推薦模塊中,而是獨(dú)立的,并通過(guò)交叉壓縮單元進(jìn)行連接以共享知識(shí)。推薦模塊被訓(xùn)練以估計(jì)用戶(hù)對(duì)候選物品的偏好,而KGE模塊被訓(xùn)練來(lái)估計(jì)給定頭部實(shí)體和三元組中的尾部實(shí)體表示。具體來(lái)說(shuō),推薦模塊基于MLP以獲得最終用戶(hù)表示。最終的物品表示由L層交叉壓縮單元及其在KG中的相關(guān)實(shí)體來(lái)進(jìn)行細(xì)化。使用非線(xiàn)性函數(shù)估計(jì)用戶(hù)對(duì)候選物品的偏好程度。

通過(guò)應(yīng)用多任務(wù)學(xué)習(xí)策略,有助于防止推薦系統(tǒng)過(guò)擬合,提高模型的泛化能力。然而,與聯(lián)合學(xué)習(xí)方法類(lèi)似,它需要努力在一個(gè)框架下集成不同的任務(wù)。
綜上,盡管兩階段學(xué)習(xí)方法易于實(shí)現(xiàn),但學(xué)習(xí)到的實(shí)體嵌入可能不適合推薦任務(wù),聯(lián)合學(xué)習(xí)方法通過(guò)端到端訓(xùn)練學(xué)習(xí)優(yōu)化的實(shí)體嵌入,多任務(wù)學(xué)習(xí)方法通過(guò)從KG相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)進(jìn)一步提高模型的泛化能力。但是,它需要大量的實(shí)驗(yàn)來(lái)找到不同目標(biāo)函數(shù)的最佳組合。

02基于連接的方法

基于連接(Connection-based)的方法利用圖中的連接模式來(lái)指導(dǎo)推薦。相關(guān)的大多數(shù)工作都使用UIKG來(lái)挖掘圖中實(shí)體之間的關(guān)系。探索KG中的連接信息有兩種主要方法。第一個(gè)方向是利用圖中的元結(jié)構(gòu),包括元路徑和元圖,來(lái)計(jì)算實(shí)體之間的相似度?;谠Y(jié)構(gòu)的相似性可以作為用戶(hù)和物品表示的約束,也可以用于預(yù)測(cè)用戶(hù)對(duì)交互歷史中相似用戶(hù)或相似物品的興趣偏好。第二種解決方案是將用戶(hù)-物品對(duì)或物品-物品對(duì)之間的連接模式編碼為向量,可以集成到推薦框架中。這種方法也叫基于路徑嵌入的方法。這種方法的挑戰(zhàn)包括:1)如何為不同的任務(wù)設(shè)計(jì)合適的元路徑;2)如何對(duì)實(shí)體之間的連接模式進(jìn)行建模。

(1)基于元結(jié)構(gòu)的方法

基于元結(jié)構(gòu)(Meta-structure based)的方法的一種實(shí)現(xiàn)是利用不同元路徑中實(shí)體的連接相似性作為圖譜正則化項(xiàng)來(lái)約束用戶(hù)和物品的表示。其動(dòng)機(jī)是基于元路徑的實(shí)體相似度越高,則在潛在空間中越接近。
目標(biāo)函數(shù)如式(1)所示:

其中LRec表示推薦系統(tǒng)的目標(biāo)函數(shù),常見(jiàn)的選擇是矩陣分解。相似性約束LSim指導(dǎo)用戶(hù)嵌入和物品嵌入的學(xué)習(xí)。為了度量圖中實(shí)體之間的連接相似性,通常使用PathSim, 如式(2)所示:

其中Pm~n是實(shí)體m和n之間的一條路徑。通常使用三種類(lèi)型的實(shí)體相似性,具體如下:(a)用戶(hù)-用戶(hù)相似度,目標(biāo)函數(shù)如式(3)所示:

其中||Ui-Uj||F表示矩陣 Frobenius 范數(shù),??=[?1,?2,…..?L]表示每個(gè)元路徑的權(quán)重,U=[u1,u2,…,um]表示所有用戶(hù)的潛在向量,S[1-(i,j)]表示用戶(hù)i和j在元路徑中的相似度得分。如果用戶(hù)共享基于元路徑的高相似性,則用戶(hù)-用戶(hù)相似性會(huì)迫使用戶(hù)的嵌入在潛在空間中接近。

(b)物品-物品相似度,目標(biāo)函數(shù)如式(4)所示:

其中?V=[v1,v2,…,vn]表示所有物品的潛在向量.與用戶(hù)-用戶(hù)相似度類(lèi)似,如果物品的基于元路徑的相似度很高,則物品的低秩表示應(yīng)該是接近的。

(c)用戶(hù)-物品相似度,目標(biāo)函數(shù)如式(5)所示:

如果基于元路徑的相似度很高,則用戶(hù)-物品相似度項(xiàng)將迫使用戶(hù)和物品的潛在向量彼此接近。

除了以上三種相似度的方法以外,基于元結(jié)構(gòu)的方法也可以利用實(shí)體相似度來(lái)預(yù)測(cè)用戶(hù)對(duì)未評(píng)分物品的興趣,這可以作是KG中的偏好融合。
綜上,上述方法首先從交互矩陣及其基于元結(jié)構(gòu)的相互相似性中學(xué)習(xí)用戶(hù)和物品的潛在向量,然后基于增強(qiáng)的表示進(jìn)行預(yù)測(cè)。也可以直接使用相似用戶(hù)評(píng)分的加權(quán)集合來(lái)預(yù)測(cè)對(duì)未評(píng)分項(xiàng)目的偏好?;谠Y(jié)構(gòu)的方法是可以解釋的,因?yàn)檫@些手動(dòng)設(shè)計(jì)的元結(jié)構(gòu)通過(guò)匹配候選物品與交互物品或目標(biāo)用戶(hù)之間的元結(jié)構(gòu)來(lái)為推薦系統(tǒng)提供更多參考信息。

基于元結(jié)構(gòu)的方法易于實(shí)現(xiàn),大多數(shù)工作都是基于模型復(fù)雜度相對(duì)較低的MF技術(shù)。然而,元路徑或元圖的選擇需要領(lǐng)域知識(shí),并且這些元結(jié)構(gòu)對(duì)于不同的數(shù)據(jù)集可能會(huì)有很大差異。此外,在某些特定場(chǎng)景下可能不適合應(yīng)用基于元結(jié)構(gòu)的方法。例如,在新聞推薦任務(wù)中,屬于一個(gè)新聞的實(shí)體可能屬于不同的域,這使得元路徑設(shè)計(jì)變得困難。

(2)基于路徑嵌入的方法

基于元結(jié)構(gòu)的方法的一個(gè)問(wèn)題是連接模式?jīng)]有明確建模,這使得很難學(xué)習(xí)用戶(hù)-物品對(duì)和連接模式之間的相互影響。但是,基于路徑嵌入的方法可以顯式地學(xué)習(xí)連接模式的嵌入。通過(guò)學(xué)習(xí)連接UIKG中的用戶(hù)-物品對(duì)或IKG 中的物品-物品對(duì)的路徑的顯式嵌入,以便直接建模用戶(hù)-物品或物品-物品關(guān)系。以UIKG中的關(guān)系建模為例,假設(shè)KG中有K條連接ui和Vj的路徑,路徑p的嵌入表示為hp,則可以通過(guò)式(6)獲得ui和Vj之間交互的最終表示:

其中g(shù)(?)是從每個(gè)路徑嵌入中匯總信息的函數(shù),常見(jiàn)的選擇是最大池化操作或加權(quán)求和操作。然后,ui和Vj的偏好可以通過(guò)式(7)建模:

其中f(?)是映射用戶(hù)-物品對(duì)之間的交互表示以及用戶(hù)-物品對(duì)嵌入到偏好分?jǐn)?shù)的函數(shù)。

推薦結(jié)果可以通過(guò)檢查每個(gè)元路徑的權(quán)重來(lái)解釋。較高的元路徑權(quán)重意味著目標(biāo)用戶(hù)和候選物品之間的這種關(guān)系在做出決策時(shí)更重要。

基于路徑嵌入的方法將用戶(hù)-物品對(duì)或物品-物品對(duì)的連接模式編碼為潛在向量,從而可以考慮目標(biāo)用戶(hù)、候選物品和連接模式的相互影響.此外,大多數(shù)模型能夠通過(guò)計(jì)算合適的路徑并選擇顯著路徑來(lái)自動(dòng)挖掘連接模式,而無(wú)需預(yù)定義的元結(jié)構(gòu)的幫助。因此,它很可能捕捉到富有表現(xiàn)力的連接模式。但是,如果圖中的關(guān)系很復(fù)雜,則圖中可能的路徑數(shù)量可能會(huì)增長(zhǎng)到很大。隨意實(shí)際上,不可能利用大規(guī)模 KG 中每個(gè)實(shí)體對(duì)的所有路徑,這可能會(huì)阻礙模型的性能。
綜上,基于連接的方法在很大程度上依賴(lài)于連接模式。但是元路徑的表示能力是有限的,這阻礙了傳統(tǒng)的基于元結(jié)構(gòu)的方法的性能。基于路徑嵌入的方法進(jìn)一步克服了基于元結(jié)構(gòu)的方法的另一個(gè)缺點(diǎn),即需要領(lǐng)域知識(shí)和人工配置路徑。這些方法枚舉可能的路徑并顯式建模用戶(hù)-物品對(duì)或物品-物品對(duì)之間的關(guān)系。然而,基于路徑嵌入的方法在一定程度上犧牲了可擴(kuò)展性,因?yàn)檫@些模型相對(duì)復(fù)雜,在枚舉路徑和學(xué)習(xí)表示時(shí)需要更多的計(jì)算。

03基于傳播的方法

基于嵌入的方法利用知識(shí)圖譜中的語(yǔ)義關(guān)系來(lái)豐富用戶(hù)和物品的表示,但難以捕捉實(shí)體之間的高階關(guān)系?;谶B接的方法使用圖中的連接信息來(lái)指導(dǎo)推薦,但是,通過(guò)將復(fù)雜的用戶(hù)物品連接模式分解為單獨(dú)的線(xiàn)性路徑,不可避免地會(huì)丟失信息。為了充分利用 KG 中的信息,基于傳播的方法集成實(shí)體和關(guān)系的表示以及高階連接模式,以實(shí)現(xiàn)更個(gè)性化的推薦?;趥鞑サ姆椒ǖ闹饕敕ㄊ乔度雮鞑?,其中常見(jiàn)的實(shí)現(xiàn)方式是基于 GNN 技術(shù)。這些方法通過(guò)聚合KG 中多跳鄰居的嵌入表示來(lái)細(xì)化實(shí)體表示。然后,可以使用用戶(hù)和潛在項(xiàng)目的豐富表示來(lái)預(yù)測(cè)用戶(hù)的偏好。

根據(jù)在消息傳播過(guò)程中細(xì)化的實(shí)體類(lèi)型產(chǎn)的差異可以進(jìn)一步的進(jìn)行細(xì)分為三類(lèi)。這種方法的挑戰(zhàn)包括:

  1. 如何為不同的鄰居分配適當(dāng)?shù)臋?quán)重
  2. 如何在不同的關(guān)系邊上傳播消息
  3. 如何提高模型的可擴(kuò)展性

(1)用戶(hù)嵌入表示的細(xì)化
根據(jù)用戶(hù)的交互歷史細(xì)化用戶(hù)嵌入表示。先是構(gòu)建IKG使用多個(gè)關(guān)系將交互物品和候選物品連接起來(lái)。則用戶(hù)可以表示為他們交互物品及其多跳鄰居的組合。具體來(lái)說(shuō),交互歷史中的物品被選為傳播過(guò)程的種子。然后,沿圖中的鏈接提取多跳三元組集合S[k-ui](k=1,2,…,H),其中S[1-ui]是三元組集(eh,r,et),頭部實(shí)體是用戶(hù)ui的交互過(guò)的物品列表。學(xué)習(xí)用戶(hù)表示ui的過(guò)程可以表述為如下兩步:

(a)通過(guò)聚合三元組集合S[k-ui](k=1,2,…,H)的每一層中的實(shí)體來(lái)計(jì)算用戶(hù)的嵌入表示o[k-u]。

(b)合并o[k-u](k=1,2,…,H),得到最終的用戶(hù)嵌入表示ou。

由于傳播過(guò)程是從用戶(hù)交互過(guò)的物品開(kāi)始,到遠(yuǎn)鄰結(jié)束,這個(gè)過(guò)程可以看作是在IKG中逐層向外傳播用戶(hù)的偏好。因此,這些方法可以解釋為沿著 KG 中的路徑從歷史興趣中傳播用戶(hù)的偏好。

在這些方法中,邊權(quán)重在IKG 中是明確的。因此,可以選擇連接候選物品和交互項(xiàng)目的顯著路徑,并作為推薦結(jié)果的解釋。盡管這些工作同時(shí)利用了實(shí)體嵌入和高階連接信息,但只有用戶(hù)嵌入表示在傳播過(guò)程中得到更新。

(2)物品表示的細(xì)化
上面介紹了通過(guò)在圖中向外聚合實(shí)體來(lái)優(yōu)化用戶(hù)嵌入表示。另一種方式是通過(guò)聚合項(xiàng)目Vj的多跳鄰居N[k-u](k=1,2,…,H)在IKG中向內(nèi)的嵌入表示來(lái)學(xué)習(xí)候選物品Vj的高階表示。在向內(nèi)傳播過(guò)程中,采用圖注意力機(jī)制,其中不同鄰居的權(quán)重是由用戶(hù)和關(guān)系來(lái)確定的。主要是考慮到用戶(hù)對(duì)不同的關(guān)系是有不同的偏好的,從而可以確定KG的信息流。

每一輪傳播過(guò)程表示為如下兩步:

(a)通過(guò)式(8)聚合實(shí)體ei的近鄰:

(b)使用h—1階鄰居嵌入和自嵌入更新實(shí)體的h階表示,如式(9)所示:

其中e[0-i]代表實(shí)體的初始表示,e[h-i]代表實(shí)體的h階表示,它是實(shí)體初始表示和來(lái)自h跳鄰居的表示的混合。聚合函數(shù)將N個(gè)鄰居映射到向量∈Rd,更新函數(shù)g(?)是一個(gè)非線(xiàn)性函數(shù):Rd???Rd?→?Rd。通過(guò)迭代地重復(fù)這個(gè)過(guò)程H次,候選物品的表示則包含了來(lái)自H跳鄰居的信息。

綜上,通過(guò)IKG中的向內(nèi)傳播來(lái)細(xì)化物品的嵌入表示。然而,類(lèi)似于在 KG 中向外聚合的用戶(hù)細(xì)化,只有一種類(lèi)型的實(shí)體被細(xì)化。

(3)用戶(hù)和物品表示的細(xì)化
在UIKG中的傳播過(guò)程中,用戶(hù)、物品及其關(guān)聯(lián)實(shí)體都連接在一個(gè)圖中,用戶(hù)-物品對(duì)之間的交互作為一種關(guān)系。用戶(hù)嵌入和物品嵌入可以在傳播過(guò)程中使用其對(duì)應(yīng)的鄰居進(jìn)行細(xì)化,如式 (8) 和 (9) 所示。

與IKG中的傳播類(lèi)似,UIKG中邊的權(quán)重也是由用戶(hù)確定的。因此,這些模型可以通過(guò)檢查連接目標(biāo)用戶(hù)和候選物品的顯著路徑來(lái)為推薦結(jié)果提供解釋。由于用戶(hù)被合并為一種類(lèi)型的節(jié)點(diǎn),因此解釋更加直觀,因?yàn)槊總€(gè)交互物品的貢獻(xiàn)都是可用的。通過(guò)將用戶(hù)納入KG,可以更大程度地探索高階連接模式。缺點(diǎn)是圖中的關(guān)系越多,會(huì)帶來(lái)不相關(guān)的實(shí)體,可能會(huì)誤導(dǎo)用戶(hù)在聚合過(guò)程中的偏好。
綜上,基于傳播的方法通常計(jì)算成本高。隨著圖變大,模型變得難以收斂。為了提高效率,可以使用更快的圖卷積運(yùn)算,并且通常在每一層中應(yīng)用鄰域采樣。但是,隨機(jī)抽樣不可避免地會(huì)導(dǎo)致信息丟失,無(wú)法充分挖掘圖中的知識(shí)。

04基于KG的推薦方法總結(jié)

通過(guò)上述基于嵌入方法、基于連接方法和基于傳播方法的介紹,可知基于嵌入的方法是最靈活的方法。一方面,使用KGE模塊對(duì)KG進(jìn)行編碼相對(duì)容易,并且學(xué)習(xí)到的嵌入可以自然地融入到用戶(hù)表示或項(xiàng)目表示中。而在基于連接的方法中,在圖中定義元路徑或元圖可能很繁瑣。對(duì)于基于傳播的方法,需要仔細(xì)設(shè)計(jì)聚合和更新部分。另一方面,基于嵌入的方法適用于大多數(shù)應(yīng)用場(chǎng)景,因?yàn)橥獠恐R(shí)通常在不同的任務(wù)中可用。相反,在基于元結(jié)構(gòu)的方法中,元路徑對(duì)于不同的應(yīng)用場(chǎng)景通常是多種多樣的,并且不能泛化到新的數(shù)據(jù)集。此外,對(duì)于特定場(chǎng)景,如新聞推薦,很難定義元路徑并應(yīng)用基于元結(jié)構(gòu)的方法。同時(shí),基于路徑嵌入的方法和基于傳播的方法都不適用于具有大規(guī)模數(shù)據(jù)集的推薦場(chǎng)景,因?yàn)樵诿杜e路徑和鄰居時(shí)計(jì)算復(fù)雜度可能會(huì)變得很大。此外,路徑的質(zhì)量和數(shù)量對(duì)于基于連接的方法至關(guān)重要,因此,稀疏數(shù)據(jù)集可能無(wú)法提供足夠的路徑來(lái)挖掘此類(lèi)方法的關(guān)系和模型興趣。然而,基于嵌入的方法和基于連接的方法都未能充分探索KG中的信息。近年來(lái),隨著GNN技術(shù)的發(fā)展,基于傳播的方法已成為一種新的研究趨勢(shì)。此外,基于連接的方法和基于傳播的方法都可以用KG中的路徑來(lái)解釋?zhuān)谇度氲姆椒ń忉屍饋?lái)不太直觀。

基于KG推薦的可解釋性

KG中包含有大量的輔助信息可以用于推薦結(jié)果的解釋?zhuān)饕幸韵聨追N方法:

01關(guān)系嵌入的注意機(jī)制

這種方法主要應(yīng)用于基于嵌入的方法。注意力機(jī)制應(yīng)用于KG中實(shí)體之間關(guān)系的嵌入。從不同關(guān)系的注意力權(quán)重,可以得到每類(lèi)物品屬性對(duì)目標(biāo)用戶(hù)的意義。因此,這種技術(shù)可以為推薦提供偏好級(jí)別的解釋。

02定義元路徑或者元圖

所選物品與目標(biāo)用戶(hù)或交互物品之間的關(guān)系可以分解為若干元路徑或元圖的組合。通過(guò)將元路徑或元圖轉(zhuǎn)換為可理解的規(guī)則,系統(tǒng)可以提供解釋。

03路徑嵌入的注意機(jī)制

對(duì)于路徑嵌入方法,連接目標(biāo)用戶(hù)和候選物品的特定路徑的權(quán)重可通過(guò)注意力機(jī)制獲得。每條路徑的權(quán)重可以代表每條路徑對(duì)用戶(hù)的相對(duì)重要性。因此,可以根據(jù)圖中的顯著路徑來(lái)提供解釋。

04UIKG中的強(qiáng)化學(xué)習(xí)

通過(guò)使用強(qiáng)化學(xué)習(xí)技術(shù)在UIKG中訓(xùn)練代理,可以挖掘連接用戶(hù)物品對(duì)的實(shí)際路徑。它可以直接顯示KG中的推理過(guò)程,而不是為已經(jīng)選擇的推薦結(jié)果尋找事后解釋。因此,推理過(guò)程對(duì)于目標(biāo)用戶(hù)來(lái)說(shuō)是精確且值得信賴(lài)的。

05提取邊緣權(quán)重

基于傳播的方法需要在聚合過(guò)程中為每種類(lèi)型的鄰居分配用戶(hù)特定的權(quán)重。邊權(quán)重控制圖中實(shí)體之間的信息流,可以反映KG中每種關(guān)系的重要性。此外,KG中實(shí)體之間的邊權(quán)重也可以從注意力權(quán)重或?qū)W習(xí)關(guān)系矩陣中獲得。因此,可以通過(guò)找到連接候選物品和目標(biāo)用戶(hù)的顯著路徑或多跳鄰居中的交互物品來(lái)生成解釋。

未來(lái)展望?

通過(guò)前面的介紹可以知道,基于KG的推薦系統(tǒng)在推薦精準(zhǔn)度和推薦結(jié)果可解釋性方面具有諸多優(yōu)勢(shì)。在學(xué)術(shù)界和工業(yè)界也已經(jīng)提出了很好的模型以充分利用KG中的輔助信息進(jìn)行個(gè)性化精準(zhǔn)推薦。但是在一些方向上依然還有很多工作值得深入研究,主要體現(xiàn)在:

01?動(dòng)態(tài)推薦

盡管具有GNN或GCN架構(gòu)的基于KG的推薦系統(tǒng)取得了良好的性能,但訓(xùn)練過(guò)程非常耗時(shí)。因此這樣的模型可以被視為靜態(tài)偏好推薦。然而,在某些場(chǎng)景下,例如在線(xiàn)購(gòu)物、新聞推薦等,用戶(hù)的興趣會(huì)很快受到社交事件等的影響。在這種情況下,使用靜態(tài)偏好建模的推薦可能不足以理解實(shí)時(shí)興趣。為了捕捉動(dòng)態(tài)偏好,利用動(dòng)態(tài)圖網(wǎng)絡(luò)可能是一種解決方案。

02?跨域推薦

在跨領(lǐng)域推薦的也有一些研究進(jìn)展,主要是交互數(shù)據(jù)在各個(gè)領(lǐng)域是不平衡的。例如,在亞馬遜平臺(tái)上,圖書(shū)子集大于其他域。通過(guò)遷移學(xué)習(xí)技術(shù),可以共享來(lái)自具有相對(duì)豐富數(shù)據(jù)的源域的交互數(shù)據(jù),以便在目標(biāo)域中進(jìn)行更好的推薦。

03?知識(shí)增強(qiáng)語(yǔ)言表示

為了提高各種 NLP 任務(wù)的性能,有一種趨勢(shì)是將外部知識(shí)集成到語(yǔ)言表示模型中,使知識(shí)表示和文本表示可以相互提煉。將知識(shí)增強(qiáng)文本表示策略應(yīng)用于基于文本的推薦任務(wù)中,可以更好地進(jìn)行表示學(xué)習(xí),以提供更準(zhǔn)確的推薦。

參考文獻(xiàn)
[1] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. 2008: 1247-1250.

[2] Lehmann J, Isele R, Jakob M, et al. Dbpedia–a large-scale, multilingual knowledge base extracted from wikipedia[J]. Semantic web, 2015, 6(2): 167-195.[3] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web. 2007: 697-706.

[4] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[J]. Advances in neural information processing systems, 2013, 26.

[5] Wang Z, Zhang J, Feng J, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the AAAI conference on artificial intelligence. 2014, 28(1).

[6] Lin Y, Liu Z, Sun M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Twenty-ninth AAAI conference on artificial intelligence. 2015.

[7] Ji G, He S, Xu L, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers). 2015: 687-696.

[8] Yang B, Yih W, He X, et al. Embedding entities and relations for learning and inference in knowledge bases[J]. arXiv preprint arXiv:1412.6575, 2014.

[9] Zou X. A survey on application of knowledge graph[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1487(1): 012016.

[10] Q. Guo et al., “A Survey on Knowledge Graph-Based Recommender Systems,” in IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 8, pp. 3549-3568, 1 Aug. 2022, doi: 10.1109/TKDE.2020.3028705.

[11] Chicaiza J, Valdiviezo-Diaz P. A comprehensive survey of knowledge graph-based recommender systems: Technologies, development, and contributions[J]. Information, 2021, 12(6): 232.

[12] Choudhary S, Luthra T, Mittal A, et al. A survey of knowledge graph embedding and their applications[J]. arXiv preprint arXiv:2107.07842, 2021.

[13] Gao Y, Li Y F, Lin Y, et al. Deep learning on knowledge graph for recommender system: A survey[J]. arXiv preprint arXiv:2004.00387, 2020.

[14] Wang H, Zhang F, Xie X, et al. DKN: Deep knowledge-aware network for news recommendation[C]//Proceedings of the 2018 world wide web conference. 2018: 1835-1844.

[15] Zhang F, Yuan N J, Lian D, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016: 353-362.

[16] Wang H, Zhang F, Zhao M, et al. Multi-task feature learning for knowledge graph enhanced recommendation[C]//The world wide web conference. 2019: 2000-2010.

 

作者簡(jiǎn)介

于敬,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,搜索推薦圖譜產(chǎn)品團(tuán)隊(duì)的總負(fù)責(zé)人。同濟(jì)大學(xué)計(jì)算機(jī)碩士,上海市青年科技啟明星、上海市五一勞動(dòng)獎(jiǎng)?wù)?、上海市職工?yōu)秀創(chuàng)新成果獎(jiǎng)、ACM CIKM算法競(jìng)賽國(guó)際冠軍等獎(jiǎng)項(xiàng)榮譽(yù)獲得者。國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)員、中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員、上海計(jì)算機(jī)學(xué)會(huì)(SCS)會(huì)員。曾先后在盛大創(chuàng)新院、盛大文學(xué)和騰訊文學(xué)從事技術(shù)研發(fā)工作,在智能推薦、搜索引擎、機(jī)器學(xué)習(xí)、大數(shù)據(jù)技術(shù)等領(lǐng)域有豐富的研究和工程經(jīng)驗(yàn),擁有十余項(xiàng)授權(quán)專(zhuān)利。