色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

“想你所想”之個(gè)性化推薦:實(shí)踐與優(yōu)化

在當(dāng)今 DT 時(shí)代,每天都在產(chǎn)生著海量的數(shù)據(jù),移動(dòng)互聯(lián)網(wǎng)的興起更是讓我們體驗(yàn)到獲取信息是如此的簡單和方便。

同時(shí),更多的選擇也帶來更多的困擾,面對(duì)層出不窮的信息和服務(wù)帶來的困擾,使得個(gè)性推薦迅速崛起,并且大放異彩,在金融、電商、視頻、資訊、直播、招聘、旅游等各個(gè)領(lǐng)域都能看到推薦系統(tǒng)的存在。

達(dá)觀數(shù)據(jù)憑借多年在推薦系統(tǒng)方面的技術(shù)積累和優(yōu)質(zhì)的大數(shù)據(jù)服務(wù),已經(jīng)有數(shù)百家公司接入達(dá)觀推薦系統(tǒng),覆蓋多個(gè)行業(yè),實(shí)現(xiàn)企業(yè)經(jīng)營業(yè)績的大幅提升。本次分享結(jié)合達(dá)觀數(shù)據(jù)個(gè)性化推薦引擎在各個(gè)行業(yè)的從業(yè)經(jīng)驗(yàn),圍繞以下內(nèi)容展開:

  1. 個(gè)性化推薦應(yīng)用場景和價(jià)值
  2. 用戶畫像和個(gè)性化推薦算法
  3. 推薦系統(tǒng)優(yōu)化方法

1.個(gè)性化推薦應(yīng)用場景和價(jià)值

首先,我們先來說說個(gè)性化推薦應(yīng)用場景和價(jià)值。

1

個(gè)性化推薦產(chǎn)生的初衷是為了解決信息過載和物品長尾的問題。信息過載是在信息時(shí)代信息過于豐富的一種現(xiàn)象,也就是人所接受的信息超過了個(gè)人所能接受、處理或有效利用的范圍,導(dǎo)致的一種無所適從的問題。

同時(shí),如此多樣豐富的信息中,大部分是屬于冷門而沒有曝光的機(jī)會(huì)。對(duì)于處于移動(dòng)互聯(lián)網(wǎng)的今天,這些問題尤其突出。

對(duì)用戶而言,每天面對(duì)海量的資訊、商品、視頻、音樂等各種服務(wù)時(shí),如何快速找到自己感興趣的內(nèi)容確實(shí)是件耗費(fèi)時(shí)間和精力的事情,尤其是在沒有明確意圖的情況下。

而對(duì)于企業(yè)而言,手握海量資源,而只有一小部分曝光在用戶面前,大部分都石沉大海,資源浪費(fèi)的同時(shí),還留不住用戶。在當(dāng)前各種產(chǎn)品同質(zhì)化的今天,如何討好并留住用戶,挖掘數(shù)據(jù)中存在的價(jià)值,對(duì)企業(yè)也是一種極大的挑戰(zhàn)。

越來越多的事實(shí)證明,個(gè)性化推薦系統(tǒng)是解決上述問題的有效工具。

美國最大的視頻網(wǎng)站 YouTube 曾做過實(shí)驗(yàn)比較個(gè)性化推薦和熱門視頻的點(diǎn)擊率,結(jié)果顯示個(gè)性化推薦的點(diǎn)擊率是后者的兩倍。

美國著名視頻網(wǎng)站 Netflix 曾舉辦過全球的推薦系統(tǒng)比賽,懸賞 100 萬美元,希望參賽選手能將其推薦算法的預(yù)測準(zhǔn)確度提升至少 10%。

號(hào)稱“推薦系統(tǒng)之王”的電子商務(wù)網(wǎng)站亞馬遜曾宣稱,亞馬遜有 35% 的銷售來自于推薦系統(tǒng)。其最大優(yōu)勢就在于個(gè)性化推薦系統(tǒng),該系統(tǒng)讓每個(gè)用戶都能有一個(gè)屬于自己的在線商店,并且在商店中能招到自己最感興趣的商品。

日常生活當(dāng)中,當(dāng)我們打開各種各樣的 app 和網(wǎng)頁,首先進(jìn)入視野的很多都是個(gè)性化推薦。對(duì)于企業(yè)而言,推薦系統(tǒng)可以幫助讓更多的資源得到曝光,也改善了用戶體驗(yàn)、增加了用戶的停留市場和粘性,最終也會(huì)提高轉(zhuǎn)化。

最后總結(jié)下,推薦系統(tǒng)的核心價(jià)值主要包括:

  1. 描述物品的特點(diǎn),并與用戶的個(gè)性化偏好進(jìn)行匹配,幫用戶便捷的篩選出感興趣的內(nèi)容
  2. 進(jìn)行有效的信息過濾以解決用戶的過載問題,面對(duì)陌生領(lǐng)域時(shí)提供參考意見
  3. 根據(jù)用戶反饋迅速捕捉用戶的興趣,以及興趣的變化,需求不明確時(shí),作用戶的“貼心助手”
  4. 選擇合適的場景、時(shí)機(jī)、表現(xiàn)方式進(jìn)行推薦,滿足用戶的好奇心
?

2.用戶畫像和個(gè)性化推薦算法

個(gè)性化推薦的兩個(gè)關(guān)鍵點(diǎn):用戶畫像和個(gè)性化推薦算法

目前普遍存在的兩種個(gè)性化推薦結(jié)果生成方法。一是依靠人工編輯進(jìn)行推薦,這種方式不僅需要大量的人力成本,費(fèi)時(shí)費(fèi)力,最終推薦出來的結(jié)果是千篇一律,并沒有考慮到用戶個(gè)性化的差異,也沒有考慮用戶反饋。

二是通過一定邏輯生成的熱門榜單。這種方式極易導(dǎo)致馬太效應(yīng),一些熱門物品會(huì)會(huì)一直霸占榜單,也容易造成刷單,畢竟占據(jù)著更好的流量入口,需要引入反作弊機(jī)制才能保證推薦結(jié)果的公平公正。

高質(zhì)量的個(gè)性化推薦系統(tǒng)其實(shí)包括三大部分:

  1. 基于海量用戶行為數(shù)據(jù),挖掘多種多樣的高質(zhì)量推薦候選集
  2. 對(duì)用戶實(shí)時(shí)興趣進(jìn)行精準(zhǔn)定位,秒級(jí)更新結(jié)果滿足個(gè)性化需求
  3. 基于高性能分布式計(jì)算框架,快速迭代算法生成多維度用戶畫像進(jìn)行千人千面的推薦

個(gè)性化推薦精準(zhǔn)性的非常至關(guān)重要的影響因素是用戶畫像的生成。

2

用戶畫像通過對(duì)海量的用戶行為數(shù)據(jù)進(jìn)行深入的分析和挖掘,從多個(gè)維度來描述用戶的基礎(chǔ)屬性、標(biāo)簽及興趣點(diǎn)等,清晰并且準(zhǔn)確地勾勒出用戶的輪廓概貌。這些數(shù)據(jù)幫助應(yīng)用方更好了解用戶行為路徑,明確用戶流失情況和原因,為應(yīng)用方的產(chǎn)品功能優(yōu)化決策提供可靠參考依據(jù)。

下圖是一個(gè)小說類客戶的用戶畫像生成流程。

3

通過多種方式收集到用戶數(shù)據(jù),包括用戶各種行為數(shù)據(jù),結(jié)合書籍、用戶、作者等基礎(chǔ)數(shù)據(jù),首先進(jìn)行數(shù)據(jù)預(yù)處理和用戶歸一化處理,然后進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與特征抽取,最后基于機(jī)器學(xué)習(xí)中的分類、聚類等方法進(jìn)行智能挖掘分析,形成了用戶各個(gè)維度的屬性信息。

有了用戶畫像之后,接下來就交給個(gè)性化推薦算法了,這里主要聊下基于內(nèi)容的推薦和協(xié)同過濾。

?? ?1)基于內(nèi)容的推薦。

這個(gè)算法適合于待推薦物品帶有豐富語義信息的場景,如標(biāo)題、標(biāo)簽、類別、作者等信息。但是想直播這個(gè)行業(yè),直播內(nèi)容是和主播當(dāng)前的播放狀態(tài)緊密相關(guān)的,而且內(nèi)容變化也較頻繁,就不適宜使用此算法。在資訊媒體、視頻等行業(yè)效果還是客觀的。

基于內(nèi)容的推薦主要過程是將推薦物品的信息特征和待推薦對(duì)象的特征相匹配的過程,從而得到待推薦的物品集合。匹配算法很多是借鑒了信息檢索領(lǐng)域中的技術(shù),如 K 最近鄰 KNN 和 Rocchio 的相關(guān)性反饋方法。主要是以含有相同標(biāo)簽的其它物品、同類別的其它物品等形式出現(xiàn)。

這種方法能保證推薦內(nèi)容的相關(guān)性,并且根據(jù)內(nèi)容特征可以解釋推薦結(jié)果。缺點(diǎn)是由于內(nèi)容高度匹配,導(dǎo)致推薦結(jié)果的驚喜度較差,另外用戶的反饋數(shù)據(jù)也沒有使用。

?? ?2)協(xié)同過濾算法

主要思想是基于群體智慧,利用已有大量用戶群過去行為數(shù)據(jù)來預(yù)測當(dāng)前用戶最可能感興趣的東西。這種方法克服了基于內(nèi)容方法的一些弊端,最重要的是可以挖掘物品之間隱含的相關(guān)性,推薦一些內(nèi)容上差異較大但又是用戶感興趣的物品。

4

對(duì)于基于用戶的協(xié)同過濾,首先計(jì)算用戶之間的距離,得到與當(dāng)前用戶距離最近的 N 個(gè)用戶,將這些用戶喜歡的 item 進(jìn)行合并和評(píng)分預(yù)測,得到推薦結(jié)果?;谖锲返膮f(xié)同過濾則是計(jì)算物品間的距離進(jìn)行評(píng)分預(yù)測得到推薦結(jié)果

基于領(lǐng)域的方法重點(diǎn)關(guān)注物品之間的關(guān)系或者用戶之間的關(guān)系,基于物品的方法是根據(jù)用戶對(duì)和他感興趣的物品相似的物品評(píng)分,來對(duì)該用戶的偏好物品建立模型。

隱語義模型采用的是另外一種方法,把物品和用戶映射到相同的隱語義空間。這個(gè)空間試圖通過描述物品和用戶兩種實(shí)體在潛在因子上的特征來解釋評(píng)分,而這些因子是根據(jù)用戶的反饋?zhàn)詣?dòng)判斷出來的。

用隱語義模型來進(jìn)行協(xié)同過濾的目標(biāo)是揭示隱藏的特征,這些特征能解釋觀測到的評(píng)分。該模型包括 pLSA(Probability Latent Semantic Analysis)模型、神經(jīng)網(wǎng)絡(luò)模型、LDA(Latent Dirichlet Allocation)模型,以及由用戶 – 物品評(píng)分矩陣的因子分解推導(dǎo)出的模型(也叫基于 SVD 的模型,Singular Value Decomposition)。

計(jì)算用戶 – 用戶距離和物品 – 物品距離有很多方法,在實(shí)際業(yè)務(wù)中會(huì)有很多的變形,比如對(duì)熱門物品的降權(quán),不然會(huì)引入一些噪聲數(shù)據(jù),因?yàn)橄鄬?duì)一些不那么熱門的物品更能表征用戶的偏好信息

由于矩陣因子分解技術(shù)在線上業(yè)務(wù)的準(zhǔn)確性和穩(wěn)定性的突出表現(xiàn),已經(jīng)成為協(xié)同過濾算法的首選。

5

首先,對(duì)于 user-item 關(guān)系矩陣,也叫評(píng)分矩陣,表示用戶對(duì)每個(gè) item 的評(píng)分,比如 1 表示 1 分,5 表示 5 分,分?jǐn)?shù)越高就表示越喜歡。

通過用戶的操作行為數(shù)據(jù)我們就得了這樣一個(gè)矩陣,通過矩陣分解的方式就得到了兩個(gè)矩陣,分別是物品 – 潛在因子矩陣和潛在因子 – 用戶矩陣,我們的目標(biāo)是預(yù)測用戶對(duì)未打分的物品的喜好程度,也就是圖中除了黃色格子之外的數(shù)據(jù)。

6

對(duì)于未知的評(píng)分,可以使用分解后兩個(gè)矩陣相乘,就得到圖中空白處的評(píng)分?jǐn)?shù)據(jù),進(jìn)行排序和過濾,最終就可以得到用戶對(duì)物品的喜好程度,也就得到最終的推薦結(jié)果。

原始的 SVD 并沒有考慮到用戶和物品自身的差異(bias),進(jìn)行升級(jí),我們來看看 SVD++ 是怎么的形式。

7

相對(duì)于之前的方式這里引入了 b ui,也就是用戶本身的 bias 和物品本身的 bias。對(duì)于用戶的 bias,有的用戶傾向于打高分,有的傾向于打低分。物品的 bias,比如有的電影出自于大導(dǎo)演、大公司等傾向于得到高分,有的比較小眾容易得低分。在計(jì)算中,這些 bias 信息都需要包含進(jìn)來

通過對(duì)算法的升級(jí),就可以使用各種各樣的用戶、物品的 bias 信息,包括用戶和物品的 profile,同時(shí)各種屬性也可以進(jìn)行組合,如用戶性別、年齡信息。

最終的模型求解問題就轉(zhuǎn)化為求解最優(yōu)化問題,這個(gè)最小二乘法問題可以通過隨機(jī)梯度下降算法有效地解決。

8

這里是達(dá)觀數(shù)據(jù)推薦系統(tǒng)的架構(gòu)圖,從基礎(chǔ)層的數(shù)據(jù)傳輸、存儲(chǔ)和運(yùn)算,到模型層的用戶畫像、物品畫像等的挖掘生成,然后到多種推薦算法的計(jì)算得到部分初選的推薦候選集,最后交由融合層的機(jī)器學(xué)習(xí)模型進(jìn)行重排序,生成最終的推薦結(jié)果返回給用戶。整個(gè)流程在數(shù)十家客戶上都取得了卓越的推薦效果,覆蓋資訊、視頻、直播、電商等多個(gè)行業(yè)。

接下來,聊聊個(gè)性化推薦的優(yōu)化,當(dāng)然推薦系統(tǒng)的優(yōu)化方法有很多種,今天挑選了三個(gè),都和當(dāng)前火熱的深度學(xué)習(xí)有

3.推薦系統(tǒng)優(yōu)化方法

達(dá)觀數(shù)據(jù)接入了數(shù)百家客戶,數(shù)據(jù)量的規(guī)模之大是可想而知,對(duì)于性能的要求非常高,尤其在高并發(fā)的推薦場景中?;谟布杀竞托阅艿木C合考慮,達(dá)觀個(gè)性化推薦引擎除了使用內(nèi)存和 redis 作為緩存之外,也引入了 LevelDB。

LevelDB 是 Google 的兩位大神 Jeff Dean 和 Sanjay Ghemawat 發(fā)起的開源項(xiàng)目,簡而言之,LevelDb 是能夠處理十億級(jí)別規(guī)模 Key-Value 型數(shù)據(jù)持久性存儲(chǔ)的 C++ 程序庫。LevelDb 是一個(gè)持久化存儲(chǔ)的 KV 系統(tǒng),和 Redis 這種內(nèi)存型的 KV 系統(tǒng)不同,LevelDb 不會(huì)像 Redis 一樣狂吃內(nèi)存,而是將大部分?jǐn)?shù)據(jù)存儲(chǔ)到磁盤上。

LevelDB 在隨機(jī)寫,順序讀 / 寫方面具有很高的性能,但是隨機(jī)讀的性能很一般。換句話說,LevelDB 很適合應(yīng)用在查詢較少,而寫很多的場景。

個(gè)性化推薦引擎需要盡可能快的響應(yīng)用戶的每一次操作,以適應(yīng)用戶短期興趣的變化,進(jìn)而提高推薦效果的精準(zhǔn)性。各種推薦算法生成候選集、多算法融合、返回結(jié)果的時(shí)候,牽涉到頻繁的讀取操作。

在高并發(fā)量的場景下,當(dāng)內(nèi)存或者 redis 不足以完全支撐線上業(yè)務(wù)時(shí),使用 LevelDB 將會(huì)對(duì)性能有不錯(cuò)的提升。畢竟 LevelDb 在寫的時(shí)候?qū)?nèi)存要求不高,讀的時(shí)候則根據(jù)性能要求的不同需要對(duì)應(yīng)的內(nèi)存。

談到效果優(yōu)化,業(yè)界都達(dá)成了一個(gè)共識(shí):case-by-case 查看推薦結(jié)果,也就是說需要具體問題具體分析。只有通過這種方式發(fā)現(xiàn)問題,才能更好地優(yōu)化推薦效果。

下面分析幾個(gè)常見的優(yōu)化方法:

?? ?1)推薦結(jié)果多樣化的優(yōu)化。

在實(shí)際的推薦場景中,抓住了用戶的喜好,但推薦出來滿屏的“相似”結(jié)果會(huì)帶來極差的用戶體驗(yàn)。如何在保證用戶興趣的前提下又能讓推薦結(jié)果的多樣性更好呢?

物品信息中很重要的一個(gè)特征是標(biāo)簽。好的推薦系統(tǒng)不僅體現(xiàn)在精準(zhǔn)性,還有多樣性和驚喜度方面的要求。對(duì)物品信息進(jìn)行深層度的挖掘分析,進(jìn)而對(duì)標(biāo)簽進(jìn)行拓展,也是一種實(shí)現(xiàn)上述要求行之有效的方法。

其實(shí)使用 word2vec 就可以解決這類問題。

9

Google 于 2013 年開源推出了一個(gè)用于獲取 word vector 的工具包 word2vec,它包含了對(duì)兩種模型的訓(xùn)練,如下圖。在訓(xùn)練每種模型的時(shí)候又分 HS 和 NEG 兩種方法。(具體的數(shù)學(xué)原理可以參考相關(guān)論文)

在 Word2Vec 的訓(xùn)練過程中,每個(gè) word vectors 都被要求為相鄰上下文中的 word 的出現(xiàn)作預(yù)測,所以即使隨機(jī)初始化 Word vectors,但是這些 vectors 最終仍然能通過預(yù)測行為捕獲到 word 之間的語義關(guān)系,從而訓(xùn)練到較好的 word vectors。

10

這是僅有一個(gè)詞的 CBOW 模型。Word2Vec 盡量讓具有相同上下文的 word 的向量相似,從而獲得較好的 vector representation 的相似性。這種相似性有時(shí)候是線性的,臨近的結(jié)果會(huì)與相似,即 Word2vec 可以學(xué)習(xí)到詞與詞之間語義上的聯(lián)系。

另外,由于 Word2Vec 采用了非常多的方法簡化網(wǎng)絡(luò)結(jié)構(gòu),簡化訓(xùn)練流程,導(dǎo)致 Word2Vec 可以很輕易的訓(xùn)練超大的訓(xùn)練集。一個(gè)優(yōu)化后的單機(jī)實(shí)現(xiàn)版的 Word2Vec 算法可以在一天時(shí)間內(nèi)訓(xùn)練 100 bililion words。

word2vec 可以把對(duì)文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,來表示文本語義上的相似度?;诘玫降南蛄?,也就得到了可以擴(kuò)展的詞。

從圖中可以看出,基于 word2vec 訓(xùn)練好的模型,輸入“美食”,返回了相似程度最高的十個(gè)詞及相似權(quán)重,從結(jié)果上看都是和美食相關(guān)的?;谶@些相似詞召回相關(guān)推薦結(jié)果,不僅可以保證語義上的相關(guān)性,也可以大大改善推薦結(jié)果的多樣性。

?? ?2)item embedding

20 16 年 Oren Barkan 以及 Noam Koenigstein 借鑒 word2vec 的思想,提出 item2vec,通過淺層的神經(jīng)網(wǎng)絡(luò)結(jié)合 SGNS(skip-gram with negative sampling) 訓(xùn)練之后,將 item 映射到固定維度的向量空間中,通過向量的運(yùn)算來衡量 item 之間的相似性。

詞的上下文即為鄰近詞的序列,很容易想到,詞的序列其實(shí)等價(jià)于一系列連續(xù)操作的 item 序列,因此,訓(xùn)練語料只需將句子改為連續(xù)操作的 item 序列即可,item 間的共現(xiàn)為正樣本,并按照 item 的頻率分布進(jìn)行負(fù)樣本采樣。

11

Oren Barkan and Noam Koenigstein 以 SVD 作為 baseline,SVD 的隱類以及 item2vec 的維度都取 40,用 Microsoft Xbox Music service 收集的 user-artists 數(shù)據(jù)集,對(duì)結(jié)果進(jìn)行聚類,同一個(gè)顏色的節(jié)點(diǎn)表示相同類型的音樂人。

圖 a 是 item2vec 的聚合效果,圖 b 是 SVD 分解的聚合效果,很顯然 item2vec 的聚合效果更勝一籌。