色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

達(dá)觀數(shù)據(jù)于敬:個(gè)性化推薦系統(tǒng)實(shí)踐

號(hào)稱(chēng)“推薦系統(tǒng)之王”的電子商務(wù)網(wǎng)站亞馬遜曾宣稱(chēng),亞馬遜有20%~30%的銷(xiāo)售來(lái)自于推薦系統(tǒng)。其最大優(yōu)勢(shì)就在于個(gè)性化推薦系統(tǒng),該系統(tǒng)讓每個(gè)用戶(hù)都能有一個(gè)屬于自己的在線商店,并且在商店中能招到自己最感興趣的商品。美國(guó)著名視頻網(wǎng)站Netflix曾舉辦推薦系統(tǒng)比賽,懸賞100萬(wàn)美元,希望能將其推薦算法的預(yù)測(cè)準(zhǔn)確度提升10%。美國(guó)最大的視頻網(wǎng)站YouTube曾做過(guò)實(shí)驗(yàn)比較個(gè)性化推薦和熱門(mén)視頻的點(diǎn)擊率,結(jié)果顯示個(gè)性化推薦的點(diǎn)擊率是后者的兩倍。

達(dá)觀數(shù)據(jù)擁有雄厚的研發(fā)推薦系統(tǒng)的技術(shù)積累,曾在ACM、CIKM、KDD、Hackathon等國(guó)際競(jìng)賽的獲獎(jiǎng),在內(nèi)容推薦,文本挖掘、廣告系統(tǒng)等方面申請(qǐng)有超過(guò)三十項(xiàng)國(guó)家發(fā)明專(zhuān)利。本文從數(shù)據(jù)處理、用戶(hù)行為建模到個(gè)性化推薦,分享達(dá)觀數(shù)據(jù)在個(gè)性化推薦系統(tǒng)方面積累的一些經(jīng)驗(yàn)。(達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)

 

  • 1.數(shù)據(jù)收集及預(yù)處理

推薦系統(tǒng)的本質(zhì)其實(shí)就是通過(guò)一定的方式將用戶(hù)和喜歡的物品聯(lián)系起來(lái)。物品和用戶(hù)自身?yè)碛斜姸鄬傩孕畔⑦M(jìn)行標(biāo)識(shí)。

  • 1)物品屬性

物品表示推薦系統(tǒng)的客體,在不同的應(yīng)用場(chǎng)景下,物品指代不同的待推薦事物。比如,在書(shū)籍推薦中,物品表示書(shū)籍;在電商推薦中,物品表示商品;在電影推薦中,物品表示電影;在社交網(wǎng)絡(luò)推薦中,物品表示人。商品有多種屬性標(biāo)識(shí)自己是什么。

1

商品屬性

  • 2)用戶(hù)屬性

用戶(hù)表示推薦系統(tǒng)的主體,自身屬性包括人口統(tǒng)計(jì)學(xué)信息以及從用戶(hù)行為數(shù)據(jù)中挖掘分析得到的偏好等。

2

用戶(hù)屬性

  • 3)用戶(hù)行為

用戶(hù)的每一次的行為操作無(wú)不反應(yīng)用戶(hù)內(nèi)心的本質(zhì)需求,包括頁(yè)面瀏覽、點(diǎn)擊、收藏、購(gòu)物、搜索、打分、評(píng)論等,這些數(shù)據(jù)是個(gè)性化推薦系統(tǒng)的最重要的數(shù)據(jù)。根據(jù)用戶(hù)自身獨(dú)有的行為數(shù)據(jù),可以為每一個(gè)用戶(hù)生成特有的畫(huà)像。

3

用戶(hù)行為分析

  • 4)數(shù)據(jù)處理

在數(shù)據(jù)采集的過(guò)程中,難免會(huì)出現(xiàn)一些臟數(shù)據(jù),在使用數(shù)據(jù)前需要進(jìn)行清洗。過(guò)濾掉關(guān)鍵字段為空、數(shù)值異常、類(lèi)型異常等數(shù)據(jù);用戶(hù)id包括cookie、手機(jī)號(hào)、email、注冊(cè)id等,需要進(jìn)行映射得到用戶(hù)唯一id;以及數(shù)據(jù)去重等操作。另外,還有“人為”的臟數(shù)據(jù),如作弊、刷單等行為,這些數(shù)據(jù)也需要清除,否則會(huì)嚴(yán)重影響后續(xù)算法的效果。達(dá)觀數(shù)據(jù)在反作弊方面也做了很多工作,可有效篩選各種行為上的作弊情況。

  • 2.用戶(hù)行為建模

基于用戶(hù)歷史行為的進(jìn)行挖掘分析,得到刻畫(huà)用戶(hù)本質(zhì)需求的一組屬性集合,即得到用戶(hù)模型,個(gè)性化推薦的準(zhǔn)確性很大程度上依賴(lài)于對(duì)用戶(hù)屬性刻畫(huà)的準(zhǔn)確性。達(dá)觀數(shù)據(jù)采用了多種方式進(jìn)行量化,主要包括顯式用戶(hù)偏好分析和隱式用戶(hù)興趣點(diǎn)挖掘。

  • 1)顯式用戶(hù)偏好分析

結(jié)合用戶(hù)歷史行為和物品信息,可以得到每種行為下的用戶(hù)偏好數(shù)據(jù),包括偏好的維度及偏好程度,如偏好的物品、品牌、類(lèi)別、標(biāo)簽等。再將各種行為的偏好數(shù)據(jù)合并,最終得到用戶(hù)在物品、品牌、類(lèi)別、標(biāo)簽等各個(gè)維度上的偏好程度。合并不同維度的數(shù)據(jù)時(shí),需要考慮到不同的行為類(lèi)型反應(yīng)用戶(hù)偏好程度是不同的。比如購(gòu)買(mǎi)行為比點(diǎn)擊行為更能反映用戶(hù)的偏好,則由購(gòu)買(mǎi)行為計(jì)算得到的偏好數(shù)據(jù)在合并時(shí)賦予的權(quán)重要高一些。要保證各種行為的各個(gè)維度的數(shù)據(jù)具有可比性,需要進(jìn)行歸一化,而且同緯度的要采用相同的歸一化方法。

  • 2)隱式用戶(hù)興趣點(diǎn)挖掘

除了結(jié)合物品信息進(jìn)行分析計(jì)算得到的顯式偏好外,還有一部分隱式興趣點(diǎn)需要挖掘,這部分主要用于細(xì)分用戶(hù)群體,進(jìn)行有針對(duì)性的進(jìn)行更有效的推薦。劃分群體的準(zhǔn)則要根據(jù)具體的業(yè)務(wù)需求而定,比如是否是高價(jià)值用戶(hù)、是否價(jià)格敏感、是否對(duì)大牌情有獨(dú)鐘、大神用戶(hù)和小白用戶(hù)的區(qū)分、喜歡熱門(mén)流行還是偏小眾的等等。借助機(jī)器學(xué)習(xí)中的分類(lèi)(如SVM)和聚類(lèi)(如k-means)算法可有效解決用戶(hù)群體的劃分問(wèn)題,牽涉到的訓(xùn)練和測(cè)試數(shù)據(jù)需要先根據(jù)一些規(guī)則粗略得到候選集,在結(jié)合人工標(biāo)記的進(jìn)行篩選。除了可以從行為數(shù)據(jù)中抽取特征外,也可以從物品和用戶(hù)的屬性數(shù)據(jù)中抽取特征。經(jīng)過(guò)模型的訓(xùn)練、預(yù)測(cè)和后處理,從而將用戶(hù)劃分到不同的群體。

  • 3)協(xié)同過(guò)濾的基石

在個(gè)性化推薦中,應(yīng)用很廣泛的是基于用戶(hù)的協(xié)同過(guò)濾算法。這個(gè)算法最重要一點(diǎn)是相似用戶(hù)的計(jì)算。

4

相似度計(jì)算方法對(duì)推薦效果的影響

相似度的計(jì)算很多種方法,如余弦相似度、皮爾遜相關(guān)度等,曾經(jīng)使用mahout做過(guò)的一個(gè)不同相似度度量方法下的對(duì)比測(cè)試結(jié)果,測(cè)試中score的計(jì)算使用的是絕對(duì)差值的平均,越小越好。本次測(cè)試結(jié)果表明,在基于用戶(hù)的協(xié)同過(guò)濾中,使用皮爾遜相關(guān)度的計(jì)算方法,推薦效果最好。

其實(shí)不同的相似度計(jì)算方法有各自的優(yōu)缺點(diǎn),適用不同的應(yīng)用場(chǎng)景,可以通過(guò)對(duì)比測(cè)試進(jìn)行選取。在實(shí)際業(yè)務(wù)中,相似度的計(jì)算方法都有很多變種,比如是否考慮去除冷門(mén)物品和熱門(mén)物品的影響。畢竟過(guò)于冷門(mén)和過(guò)于熱門(mén)的物品對(duì)衡量用戶(hù)間的相似度時(shí)區(qū)分度不好,這時(shí)就需要進(jìn)行剪枝。這種基于K近鄰的選取相似用戶(hù)的方法,相似度的閾值設(shè)置對(duì)結(jié)果影響很大,太大的話召回物品過(guò)多,準(zhǔn)確度會(huì)有下降。

  • 4)時(shí)間維度上的考量

在處理各個(gè)維度的偏好數(shù)據(jù)時(shí),需要考慮用戶(hù)行為的有價(jià)值程度是隨時(shí)間衰減的,即行為發(fā)生時(shí)間距當(dāng)前的時(shí)間越近,得到的數(shù)據(jù)越能表征用戶(hù)將來(lái)的行為。畢竟用戶(hù)的口味隨著時(shí)間的推移是會(huì)變化的,所以時(shí)間越近權(quán)重越高。

另外,還需要考慮偏好和興趣點(diǎn)數(shù)據(jù)的在時(shí)間上的持續(xù)和變化過(guò)程,即需要刻畫(huà)用戶(hù)的口味呈現(xiàn)的時(shí)間規(guī)律。為了解決這個(gè)問(wèn)題,我們根據(jù)不同的時(shí)間間隔來(lái)界定,分長(zhǎng)期、短期、近期和實(shí)時(shí)四個(gè)時(shí)間維度。長(zhǎng)期的覆蓋了用戶(hù)幾乎一直不變的興趣,短期的覆蓋了用戶(hù)變化中的興趣,而近期則反映了用戶(hù)的“嘗鮮”的特點(diǎn)。這三種興趣是離線計(jì)算的,還要考慮用戶(hù)的實(shí)時(shí)興趣,我們通過(guò)很短的時(shí)間間隔進(jìn)行近線挖掘分析,從而快速適應(yīng)用戶(hù)當(dāng)前的信息需求。

通過(guò)上述過(guò)程,最終就為每個(gè)用戶(hù)生成了各個(gè)維度上的偏好和興趣點(diǎn)數(shù)據(jù)。

5

  • 3.個(gè)性化推薦的實(shí)踐經(jīng)驗(yàn)

以用戶(hù)模型和物品屬性數(shù)據(jù)為載體,結(jié)合多種推薦算法和效果優(yōu)化策略,個(gè)性化推薦系統(tǒng)將用戶(hù)最感興趣的物品精準(zhǔn)推薦給當(dāng)前用戶(hù)。不同算法有自己的應(yīng)用場(chǎng)景,所以根據(jù)業(yè)務(wù)需要、數(shù)據(jù)的豐富程度、效果衡量指標(biāo)等選擇合適的推薦算法,然后根據(jù)推薦結(jié)果進(jìn)行不斷迭代,最終完成符合預(yù)期效果的個(gè)性化推薦系統(tǒng)。

6

個(gè)性化推薦流程

  • 1)基于內(nèi)容的推薦

主要過(guò)程是將用戶(hù)的信息特征和物品對(duì)象的特征相匹配的過(guò)程,從而得到待推薦的物品集合。通過(guò)用戶(hù)模型中的類(lèi)別、標(biāo)簽、品牌等各維度的偏好數(shù)據(jù),在全量物品列表中尋找與之匹配的用戶(hù)感興趣的物品列表,并給出用戶(hù)感興趣的程度。根據(jù)挖掘的興趣點(diǎn),對(duì)部分用戶(hù)進(jìn)行有針對(duì)性的推薦,為其“量身定制”推薦結(jié)果,滿足其特有的需求。基于內(nèi)容的推薦方法,優(yōu)點(diǎn)是能保證推薦內(nèi)容的相關(guān)性,并且根據(jù)內(nèi)容特征可以解釋推薦結(jié)果,而且對(duì)新物品的推薦是也能有很好的考量。缺點(diǎn)是由于內(nèi)容高度匹配,導(dǎo)致推薦結(jié)果的驚喜度較差,而且對(duì)新用戶(hù)不能提供可靠的推薦結(jié)果。

  • 2)基于協(xié)同過(guò)濾的推薦

協(xié)同過(guò)濾方法主要基于群體智慧,認(rèn)為相似的用戶(hù)對(duì)新物品的喜好也是相似的,相似的物品對(duì)于同一用戶(hù)來(lái)說(shuō),喜好程度也是相似的。這種方法克服了基于內(nèi)容方法的一些弊端,最重要的是可以推薦一些內(nèi)容上差異較大但是又是用戶(hù)感興趣的物品。大致分為兩類(lèi):基于近鄰的方法和基于模型的方法。前者在數(shù)據(jù)預(yù)測(cè)中直接使用已有數(shù)據(jù)進(jìn)行預(yù)測(cè),將用戶(hù)的所有數(shù)據(jù)加載到內(nèi)存中進(jìn)行運(yùn)算?;谀P偷姆椒▌t是通過(guò)數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后為用戶(hù)預(yù)測(cè)新的物品,主要包括:pLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)、SVM(Support Vector Machines)、SVD(Singular Value Decomposition)等。

基于用戶(hù)模型中的相似用戶(hù)列表和偏好的物品列表,分別使用基于用戶(hù)的和基于物品的協(xié)同過(guò)濾,將相似用戶(hù)喜歡的物品和相似的物品加入到推薦的候選集當(dāng)中。同時(shí),推薦權(quán)重的計(jì)算會(huì)考量相似度的大小及物品自身的質(zhì)量分。

  • 3)基于知識(shí)的推薦

當(dāng)用戶(hù)的行為數(shù)據(jù)較少同時(shí)又有明確的需求時(shí),協(xié)同過(guò)濾和基于內(nèi)容的推薦效果不盡人意,但是基于知識(shí)的推薦可以幫助我們解決這類(lèi)問(wèn)題。這種方法不需要用戶(hù)行為數(shù)據(jù)就能推薦,所以不存在冷啟動(dòng)問(wèn)題。推薦結(jié)果主要依賴(lài)兩種形式,一是用戶(hù)需求跟物品之間相似度,一種是明確的推薦規(guī)則。實(shí)際應(yīng)用主要是以強(qiáng)規(guī)則為主。

  • 4)補(bǔ)足策略

當(dāng)用戶(hù)歷史數(shù)據(jù)比較局限或者在冷啟動(dòng)的時(shí)候,導(dǎo)致待推薦物品的數(shù)量不足沒(méi)有達(dá)到預(yù)定要求時(shí),根據(jù)用戶(hù)模型的數(shù)據(jù),結(jié)合挖掘的各種榜單進(jìn)行補(bǔ)足,如全局熱門(mén)、分類(lèi)熱門(mén)等。

  • 5)多算法融合

單一算法有各自的優(yōu)缺點(diǎn),并不能滿足實(shí)際的線上需求。為了提供最優(yōu)質(zhì)的個(gè)性化推薦服務(wù),保證推薦結(jié)果的多樣性、新穎性和驚喜度,需要融合多個(gè)推薦算法,進(jìn)行混合推薦。常見(jiàn)的混合方法有以下幾種:

? ?a.加權(quán)式混合

主要是對(duì)每個(gè)算法賦予不同的權(quán)重,通過(guò)將多個(gè)推薦算法的結(jié)果進(jìn)行加權(quán)組合在一起,最后排序得到推薦結(jié)果。

7

不同推薦算法的結(jié)果需要?dú)w一化在相同的范圍內(nèi),并且各個(gè)算法的權(quán)重之和為1。

? ?b.交叉式混合

主要是直接將不同的推薦算法的結(jié)果組合在一起推薦給用戶(hù),從而每個(gè)推薦算法的優(yōu)質(zhì)結(jié)果都會(huì)被展示給用戶(hù)。

8

? c.切換式混合

主要是根據(jù)不同應(yīng)用場(chǎng)景決定使用哪一種推薦算法,應(yīng)用場(chǎng)景改變的話則切換推薦算法。例如在新聞推薦時(shí),首先使用基于內(nèi)容的推薦,當(dāng)找不到合適的內(nèi)容時(shí),接著使用協(xié)同過(guò)濾算法進(jìn)行跨內(nèi)容的推薦,最后使用樸素貝葉斯分類(lèi)器找到與用戶(hù)長(zhǎng)期興趣匹配的結(jié)果。

?d.串聯(lián)混合

主要是將不同的推薦算法進(jìn)行排序,后面的推薦算法對(duì)前面的不斷優(yōu)化,最終得到一個(gè)多級(jí)優(yōu)化下的推薦結(jié)果。

?e.分級(jí)混合

主要是先界定不同的算法的好壞,優(yōu)先使用好算法的推薦結(jié)果,得不到結(jié)果時(shí)再使用次好的,依次類(lèi)推。

達(dá)觀數(shù)據(jù)在實(shí)踐中充分利用了各種混合方法來(lái)提高推薦效果,并取得了優(yōu)異的成效。例如基于加權(quán)式和分級(jí)混合的流程是,首先通過(guò)權(quán)重的大小來(lái)衡量每種推薦算法結(jié)果的好壞,產(chǎn)生待推薦的物品集合,在合并的時(shí)候,將優(yōu)先使用好的推薦算法的結(jié)果。實(shí)踐中則是各種指標(biāo)綜合權(quán)衡,整個(gè)過(guò)程也要復(fù)雜很多。(達(dá)觀數(shù)據(jù) 于敬 陳運(yùn)文)

  • 6)重排序

排序?qū)W習(xí)(Learning To Rank, LTR)一直是機(jī)器學(xué)習(xí)中的熱門(mén)研究領(lǐng)域。由于排序過(guò)程牽涉到各種維度的參數(shù)數(shù)據(jù),導(dǎo)致調(diào)參費(fèi)時(shí)費(fèi)力,而且很可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。而機(jī)器學(xué)習(xí)方法不僅有成熟的理論基礎(chǔ),而且很容易融合多種特征,通過(guò)不斷的迭代來(lái)進(jìn)行參數(shù)優(yōu)化,可有效解決數(shù)據(jù)稀疏、過(guò)擬合等問(wèn)題。著名的Netflix 公司就在他們的推薦系統(tǒng)中全面應(yīng)用了LTR 技術(shù)。

9

排序?qū)W習(xí)的流程

對(duì)于已標(biāo)注的訓(xùn)練集,首先選定LTR方法,確定損失函數(shù),以最小化損失函數(shù)為目標(biāo)進(jìn)行優(yōu)化即可得到排序模型的相關(guān)參數(shù),這就是學(xué)習(xí)過(guò)程。預(yù)測(cè)過(guò)程將待預(yù)測(cè)結(jié)果輸入學(xué)習(xí)得到的排序模型中,即可得到結(jié)果的相關(guān)得分,利用該得分進(jìn)行排序即可得到待預(yù)測(cè)結(jié)果的最終順序。LTR分按點(diǎn)(pointwise)、按對(duì)(pairwise) 和按表(listwise) 三種方法,涉及到的常見(jiàn)模型有LR(Logistic Regression)、SVM、DT(Decision Tree)。

關(guān)于排序模型的選擇,LR 算法主要適用于特征數(shù)很多、樣本量很大的情況。如果是樣本量很大,但是特征比較少的情況時(shí),建議使用DT的算法。主要是因?yàn)樵谔卣鲾?shù)較少時(shí),對(duì)應(yīng)的問(wèn)題往往是非線性的,此DT算法可以發(fā)揮自身的優(yōu)勢(shì)。另外,SVM在解決非線性分類(lèi)問(wèn)題是效果也非常好。相對(duì)于另外兩種方法,按表的方法往往更加直接,它專(zhuān)注于自己的目標(biāo)和任務(wù),直接優(yōu)化排序結(jié)果,因此往往效果也是最好的。

經(jīng)過(guò)多個(gè)推薦算法的處理,最終得到待推薦物品的結(jié)合,使用少量維度的特征進(jìn)行排序過(guò)于簡(jiǎn)單,效果也大打折扣?;谕扑]算法得到的相關(guān)特征,結(jié)合物品和用戶(hù)的特征進(jìn)行組合,可以得到各種特征,并且有些特征是正相關(guān)有些是負(fù)相關(guān),需要不斷優(yōu)化。借助機(jī)器學(xué)習(xí)方法得到了最終的物品排序,呈現(xiàn)給用戶(hù)。

  • 4.結(jié)束語(yǔ)

本文從構(gòu)建用戶(hù)模型到個(gè)性化推薦,介紹了達(dá)觀數(shù)據(jù)的一些實(shí)踐經(jīng)驗(yàn)。個(gè)性化推薦系統(tǒng)能有效解決信息過(guò)載和長(zhǎng)尾物品兩個(gè)方面的問(wèn)題,不僅提供了極佳的用戶(hù)體檢,滿足了用戶(hù)的信息需求,也幫助了企業(yè)挖掘其中蘊(yùn)含的無(wú)限商機(jī)。達(dá)觀數(shù)據(jù)一直致力于為企業(yè)提供優(yōu)質(zhì)的大數(shù)據(jù)服務(wù),經(jīng)過(guò)多年的摸索,目前在個(gè)性化推薦系統(tǒng)研發(fā)和效果提升方面已經(jīng)積累了豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。當(dāng)然新技術(shù)也在不斷出現(xiàn),深度學(xué)習(xí)的興起也給個(gè)性化推薦效果的提升帶來(lái)了更大的契機(jī)和想象空間,達(dá)觀數(shù)據(jù)也在這方面進(jìn)行不斷探索,后續(xù)有機(jī)會(huì)再跟大家一起分享。(達(dá)觀數(shù)據(jù) 于敬)