NLP將推薦打造成“精裝房”
相信大家對推薦系統(tǒng)一定不陌生,尤其是打開淘寶時,首頁的“猜你喜歡、便宜好貨”、購物車下面“你可能還喜歡”、商品詳情“店鋪推薦”……推薦系統(tǒng)已成為各大app標(biāo)配。但什么是NLP(Natural Language Processing)技術(shù)呢?可能有的人會感到陌生,NLP也就是人們常說的自然語言處理或者叫文本語義理解——研究如何讓計算機讀懂人類語言。
推薦系統(tǒng)和NLP是什么關(guān)系呢?如果用熟悉的房子裝修做比喻,普通的推薦系統(tǒng)相當(dāng)于“毛坯房”,NLP相當(dāng)于裝修材料,有了NLP的推薦系統(tǒng)就是“精裝房”?!懊鞣俊币材茏?,但是不夠舒服,映射到推薦系統(tǒng),就是效果有點差強人意,體驗不夠完美。
NLP如何“裝修”推薦系統(tǒng)?
觸及到文本信息大概率會用到NLP,推薦又是和內(nèi)容打交道,與NLP交匯甚多,下面我們詳細(xì)說下NLP在推薦系統(tǒng)中應(yīng)用。
?
1.構(gòu)建物品畫像
?在達(dá)觀服務(wù)的客戶中,大家經(jīng)常反饋的問題是,想嘗試接入推薦系統(tǒng),但是物品信息可能不多,標(biāo)題有,但標(biāo)簽和類別都沒有,這時候還能接入推薦系統(tǒng)嗎?當(dāng)然可以。NLP可以通過分析物品標(biāo)題、正文、描述等信息提取標(biāo)簽、賦予主題詞和分類等。
?
輸出:標(biāo)簽+分類+關(guān)鍵詞
? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.審核物品質(zhì)量
現(xiàn)今很多APP注冊門檻低,內(nèi)容大多來自于用戶上傳,這樣一不留神就因出現(xiàn)低俗內(nèi)容導(dǎo)致“網(wǎng)站被關(guān)”,對于推薦而言,有必要對被推薦數(shù)據(jù)進(jìn)行審核過濾。對于視頻或者圖片,目前采取人工審核較多,對于文字就方便很多,目前市場上涉黃、涉政、反動、廣告等審核比較成熟,但也難免有漏網(wǎng)之魚,人工復(fù)核也很有必要。
反過來,推薦也可以審核文章質(zhì)量,通過推薦可以知道產(chǎn)品的點擊率、點擊率、閱讀/播放時長等數(shù)據(jù),可以篩選出用戶喜歡的內(nèi)容。推薦有試探機制,對于新上線的內(nèi)容,會選擇部分用戶推薦,如果效果不好會減少推薦力度,反之加大,很好的在節(jié)約成本的前提下最大化挖掘內(nèi)容信息。
?
典型代表:梨視頻、小紅書
過程:機器全部初審->人工部分精審->智能分發(fā)
3.NLP連接搜索和推薦
以前的搜索系統(tǒng)更多是千人一面,但是隨著信息豐富,當(dāng)你只需要10個結(jié)果,但是輸入“蘋果”標(biāo)題滿足這個要求的結(jié)果上萬個,之后如何從10萬個中挑選10個給用戶展示就可以用到NLP和推薦技術(shù)了。需要將搜索詞和產(chǎn)品標(biāo)題、標(biāo)簽、描述等信息進(jìn)行匹配,匹配的程度越高,會認(rèn)為相關(guān)性越大,同時基于用戶日常點擊、購買等行為進(jìn)行結(jié)果推薦??此剖莻€很簡單的過程,但是細(xì)節(jié)很多,對標(biāo)題分詞進(jìn)行準(zhǔn)確、模糊、單詞匹配就不是一件容易的事,由于可用的信息太多,需要對不同特征進(jìn)行歸一處理。
?
典型代表:谷歌、虎撲識貨
功能:谷歌打造千人千面搜索;識貨在搜索結(jié)果不足頁面引入基于搜索詞推薦功能
?
4.基于文本生成創(chuàng)意展示
在閑暇之余,用戶傾向于看到更容易理解的內(nèi)容,在用戶沒有明確意圖的時候,給用戶一個推薦理由往往可以達(dá)到事半功倍的效果,例如:當(dāng)用戶買了蘋果手機后,可以推薦ipods,同時給出“ipods與蘋果手機更匹配哦”;在好友推薦的時候,可以給出“她和你都是天蝎座”……同時,NLP可以提取出一些簡短信息,用于向用戶展示。
?
典型代表:大眾點評
輸出:摘要標(biāo)題+商戶文案+內(nèi)容聚合
示例
5.滿足業(yè)務(wù)需求
在推薦結(jié)果中,不同客戶都會加入一些業(yè)務(wù)規(guī)則,例如:
1)對于資訊行業(yè),現(xiàn)在很多文章標(biāo)題都差不多,防止用戶感覺重復(fù),在推薦時,標(biāo)題相似度大于80%的內(nèi)容不一起推薦,這里會用到文本相似度計算
2)業(yè)務(wù)范圍較廣的APP會進(jìn)入地域頻道,在推薦時,上海頻道只推薦上海新聞、合肥頻道只推薦合肥新聞,這里會用到地域標(biāo)簽提取
3)某個關(guān)鍵詞的內(nèi)容屏蔽不推薦,這里會用到關(guān)鍵詞與標(biāo)題的文本進(jìn)行匹配和分詞技術(shù)
?
業(yè)務(wù)規(guī)則使得結(jié)果更符合企業(yè)要求,同時也加大了推薦廠商的門檻。
?典型代表:澎湃新聞
功能:地域推薦,標(biāo)題相似度處理
對于推薦中NLP,難點在于物品中結(jié)構(gòu)化文本數(shù)據(jù)太少且文本內(nèi)容信息量不確定。NLP研究難度大,看似容易,但是其底層涉及到分詞、詞性標(biāo)注等一系列基礎(chǔ)工作。達(dá)觀數(shù)據(jù)作為專注于NLP技術(shù)研發(fā)與應(yīng)用的人工智能企業(yè),在推薦系統(tǒng)中深度融合的NLP語義理解技術(shù),從推薦用戶意圖理解、用戶滿意度、推薦效果等方面為客戶提供更智能的推薦系統(tǒng)。