怎樣評價推薦系統(tǒng)的結(jié)果質(zhì)量？

分類：產(chǎn)品介紹
發(fā)表：2020-03-31

推薦系統(tǒng)是互聯(lián)網(wǎng)發(fā)展至今最常見也重要的技術之一。如今各類APP、網(wǎng)站、小程序等所有提供內(nèi)容的地方，背后都有推薦系統(tǒng)在發(fā)揮作用。

開發(fā)好一套真正優(yōu)秀的推薦系統(tǒng)非常有價值，但也非常艱巨。達觀數(shù)據(jù)是國內(nèi)推薦系統(tǒng)主要第三方供應商，一直在摸索中前進。在想辦法開發(fā)出強大的推薦系統(tǒng)服務好客戶時，也一直在思考推薦系統(tǒng)的評估方法。

眾所周知業(yè)界有一句俗話：“沒有評價就沒有進步”，其意思是如果沒有一套科學的評價推薦系統(tǒng)效果的方法，那就找不到優(yōu)化改進的方向，打造優(yōu)秀的推薦系統(tǒng)就無從談起。

筆者在幾年前寫過《怎樣量化評價搜索引擎的結(jié)果質(zhì)量》一文并首發(fā)于InfoQ（也可見知乎?https://zhuanlan.zhihu.com/p/30910760）。和搜索引擎相比，移動互聯(lián)網(wǎng)時代的推薦系統(tǒng)應用面更廣闊，評價指標也更復雜。

評價指標像一把尺子，指引著我們產(chǎn)品優(yōu)化的方向。到底怎樣才能科學合理的評價推薦系統(tǒng)的結(jié)果質(zhì)量？從各類文獻資料和網(wǎng)上文章里能看到數(shù)十種評估公式，讓人眼花繚亂。這些指標各自有什么優(yōu)缺點，應該怎樣取舍？本文從我們的實踐經(jīng)驗出發(fā)，對此進行一些深入的分析，期望對大家有所裨益（達觀數(shù)據(jù) 陳運文）。

針對不同的推薦場景，一定要因地制宜的選擇合適的評估方法

推薦場景是制定評價指標時最為關鍵的，脫離了推薦場景來談評測指標就像無水之魚。所謂“推薦場景”，與所推薦的內(nèi)容類型、展現(xiàn)方式、推薦所滿足的用戶需求，都有莫大的關系，而且這種關系體現(xiàn)的有時還很微妙。

例如同樣都是推薦視頻，但在推薦電影（典型的長視頻）、和推薦短視頻（一般只有幾秒鐘長度），其背后所面對的用戶需求完全不同。前者展示的是電影海報、名稱、評分、主演和故事梗概，用戶查看這些內(nèi)容的目的是盡快挑選出一部適合觀賞的電影，因此推薦系統(tǒng)強調(diào)的是如何更快更準的給出優(yōu)質(zhì)結(jié)果。而后者的短視頻推薦（例如常見的抖音快手等）用戶在瀏覽過程中目的性不強，而且因為時長短，決策成本低，用戶瀏覽目的是為消磨時間，推薦系統(tǒng)的目的是讓用戶在這個app上停留的時間足夠長，粘性足夠大。

對前面這個場景來說，用戶在推薦頁（注意不是在播放頁）停留的時間越長，滿意度一定是越低的，誰都不愿意傻傻的在一堆電影名稱+海報的挑選頁面花費太多的時間，如果挑了十幾分鐘還沒能找出一部接下來值得觀看的電影，用戶一定會對推薦系統(tǒng)的印象大打折扣。但對后者來說，推薦的過程本身就在不斷觀賞短視頻，為了滿足用戶kill time的需求，多樣性、新穎性等更重要。

pic_002

如果從評估方法的角度來看，推薦電影等長視頻時更多要看在足夠短的時間里推出了滿足用戶持續(xù)觀看的電影，而且用戶看后認為是“高分好片”、1個多小時的觀影時間花的值得，是最理想的指標。而對后者來說，黏住用戶，增加瀏覽時長，同時照顧到平臺上短視頻制作方的曝光和健康生態(tài)，則對推薦系統(tǒng)來說是關鍵考核因素。

用這個簡單例子我們達觀想為各位讀者們解釋的是，一定要從產(chǎn)品的場景來深刻理解推薦的作用，才能更好的選擇評估方法，才能讓那些茫茫多的推薦評估公式找到合適的用武之地。

影響推薦系統(tǒng)評估方式的幾類因素

場景的細微差異，決定著評估方法應該有所不同。俗話說“什么樣的場合穿什么樣的衣服”，西裝也好運動服也好，都有適配的場合。根據(jù)我們對場合細微差異的理解，有以下幾個因素在發(fā)揮作用：

因素一：推薦展示槽位是固定數(shù)量，還是不斷延展的信息Feed流

固定槽位數(shù)量的推薦，更接近搜索引擎或者定向廣告的結(jié)果。因為展示數(shù)量有限，且可能還有先后次序（類似搜索結(jié)果從上到下排列），對推薦結(jié)果的準確率要求高，這類場景稱為Top-N推薦。此時推薦結(jié)果前N條結(jié)果的點擊率CTR（Click-Through-Rate）是常見指標（點擊/曝光）。

如果推薦結(jié)果有明顯的先后順序（如app上從上到下展示結(jié)果），那么往往還可以把位置衰減因素予以考慮，例如NDCG(Normalized Discounted Cumulatie Gain)，MRR(Mean Reciprocal Rank)，或MAP（meanaverage precision）都融入了位置因素）

pic_003 — 右側(cè)紅框為常見的Top-N推薦結(jié)果

常見的展示推薦/廣告

pic_004 — 右側(cè)紅框為常見的Top-N推薦結(jié)果

常見的展示推薦/廣告

還有一類是展示型的推薦，和經(jīng)典的效果廣告非常類似，區(qū)別只在于收費方式，如上圖。這種情況下推薦系統(tǒng)可以借用廣告系統(tǒng)的常見評價方式，例如AUC，ROC等指標。

而如果是在移動APP上常見的Feed流推薦，因為推薦展示槽位數(shù)量很多（甚至可視為無限多），用戶滑屏又可輕易實現(xiàn)，此時位置先后因素并沒有特別重要，常用曝光點擊率（點擊量/曝光次數(shù)）來衡量推薦質(zhì)量，此外PV點擊率（點擊量/總PV）、UV點擊率（點擊量/總UV）也是Feed流中常用方法。此時首屏首條結(jié)果并不像Top-N推薦那么重要，因此評估指標也不同。

因素二：推薦背后的商業(yè)模式是以電商交易型、還是廣告收益型的

很多推薦系統(tǒng)用于電商平臺上，目的是更好的促成買賣雙方交易，例如各大電商網(wǎng)站、外賣生活類APP等。推薦最核心目的是促成交易（例如用戶完成商品購買，或者用戶點播觀看某部電影，或用戶開始閱讀某本小說）；此時推薦帶來的交易筆數(shù)占總交易的比例、或者交易總金額與GMV的比例，就是最直接的評價指標。

因為從推薦激發(fā)購物者興趣，到用戶完成訂單，有漫長的操作鏈條，所以還可以分解動作以更好的衡量每個環(huán)節(jié)的效果。例如加購物車率（通過推薦引導的加購物車數(shù)量/推薦曝光總數(shù)），商品詳情頁閱讀率（通過推薦引導進入商品詳情頁數(shù)量/推薦曝光總數(shù)）等。

而有一些平臺是以廣告點擊、曝光等作為主要收入來源的，例如常見的各類新聞資訊類APP，或者短視頻類、免費閱讀（漫畫、小說）類APP，廣告作為主要收入來源，那么期望推薦系統(tǒng)能更好的擴大用戶在APP上停留的時間，提高用戶點擊數(shù)等，這些意味著平臺能獲得更多的廣告收入，因為無論是CPM或CPC計費的廣告形式，用戶越活躍，翻閱次數(shù)越多，平均收益就越高。

這種情況下，推薦系統(tǒng)爭取滿足的用戶需求是消磨時間、或“閑逛”的場景，此時用戶平均停留時長、推薦引導下的成功閱讀次數(shù)等，則更符合需求。

因素三：推薦評估是離線進行，還是在線實時完成

離線評估和在線評估因為數(shù)據(jù)準備的條件不同，適合采取的手段也不同。離線數(shù)據(jù)采集通常很難做到完全細致全面的情況下（例如大量用戶的隱式反饋數(shù)據(jù)很難完整記錄，因為性能代價太大），離線評估方法會有所不同。

典型的離線評估例如有著名的Netflix Prize競賽、以及KDD Cup、Kaggle上的一些大數(shù)據(jù)算法競賽，這些比賽數(shù)據(jù)集固定，采用靜態(tài)的評估方法，MSE（Mean Absolute Error）平均絕對誤差、RMSE（Root Mean Squared Error）均方根誤差，或者R-Squared（R方）來計算：

pic_005

例如在電影、電視劇的推薦中，用戶-物品評分矩陣（User-Item-Rating）就是常用于離線評估，在學術界尤其常見。因為高校、學術界很難接觸真實線上環(huán)境，用離線評估是比較方便來評估算法好壞的，也算是學術界的無奈吧。

但我們都知道用戶真正給產(chǎn)品評分的顯式數(shù)據(jù)（Explicit Feedbacks）是非常稀缺的，有時我們不得不拍出一些評分映射關系，例如分享映射為幾分、點贊映射為幾分等，來近似的生成評估矩陣并計算上述這些靜態(tài)指標。

pic_006 在線實時計算各類推薦效果指標

而在線評估的好處時可以隨時進行AB test分流測試，效果好壞一目了然，工程師們很喜歡。其難點有以下兩個：

線上環(huán)境極為復雜，會受到很多其他因素的干擾，未必真正能反映推薦算法效果的好壞。例如一些指標很容易受攻擊和作弊。另外一些運營活動也會干擾效果。尤其當抽取比對的流量占比過小時，數(shù)據(jù)抖動很大，AB test的結(jié)果未必真能體現(xiàn)實際效果。
第二個難點是評估數(shù)據(jù)往往體現(xiàn)的是最終結(jié)果，而不是中間某個模塊的直接好壞。如果想用AB 測試傳導到內(nèi)部更深層次的算法模塊，往往需要在工程架構(gòu)上做大量開發(fā)，把內(nèi)部參數(shù)傳遞出來才行。例如通過在線評估雖然可以很容易的計算推薦排序策略（Ranking Strategy）孰優(yōu)孰劣，但如想分析之前的召回策略（Recall Strategy）哪個更有效，通過在線評估就困難的多。向前的參數(shù)傳導需要在大數(shù)據(jù)工程架構(gòu)上下功夫，這也是達觀智能推薦一直致力于的。

還有個恐怕是一線算法工程師常常會遇到的難題，就是離線評估的結(jié)果和在線測試的結(jié)果南轅北轍。離線測下來效果頂呱呱的算法，上線后可能石沉大海一點浪花也看不到。這也恰好證明了正確選擇評估方法是多么重要。

因素四：推薦系統(tǒng)當前的目標是最大化運營指標，還是考慮生態(tài)平衡和來源多樣性

推薦的內(nèi)容如果都來源于平臺自身，那么往往只需重點考慮平臺關鍵運營指標最大最優(yōu)，例如達成更多的交易提升GMV，或者讀者的留存率更高，或者提升整個平臺用戶的活躍度等就行。

但還有一類復雜的情況，一些平臺的待推薦內(nèi)容來自各個UGC或PGC，這些內(nèi)容提供者依賴平臺的推薦來進行內(nèi)容曝光并獲利。在這種情況下，平臺要從自身生態(tài)平衡、系統(tǒng)長期健康的角度來出發(fā)，需要考慮出讓一些推薦曝光機會給到長尾UGC或PGC，以避免出現(xiàn)被少量頂部內(nèi)容渠道綁架導致的“客大欺店”的問題，同時扶植更多的中小內(nèi)容創(chuàng)作者能讓生態(tài)更健康繁榮。畢竟大樹之下寸草不死一定不是平臺樂意看到的現(xiàn)象。此時推薦系統(tǒng)作為最重要的指揮棒，其評價指標中一定需要將內(nèi)容來源覆蓋率（Source Coverage）、多樣性（Novelty）等指標。

經(jīng)濟學中的基尼系數(shù)(Ginicoefficient)，也可以作為輔助的指標用來評價生態(tài)的健康程度。推薦系統(tǒng)的初衷就是消除馬太效應，使各種物品都能被展示給某類人群。但研究表明主流的推薦算法（比如協(xié)同過濾）都是具有馬太效應的?；嵯禂?shù)就是用來評測推薦系統(tǒng)馬太效應強弱的。如果Gini1 是從初始用戶行為中計算出的物品流行度的基尼系數(shù)，Gini2 是從推薦列表中計算出的物品流行度的基尼系數(shù)，如果 Gini2 > Gini1則說明推薦算法具有馬太效應。

因素五：推薦結(jié)果要迎合人性，還是引導人性

推薦系統(tǒng)本質(zhì)上是讓計算機系統(tǒng)通過大規(guī)模數(shù)據(jù)挖掘來“揣摩”人性。但略微深刻一些來說，人性是最為復雜、矛盾的東西。既有理性的一面，又有感性的一面。

推薦系統(tǒng)一味地迎合人性，會顯得“媚俗”，最終也會被用戶唾棄。例如人性都有獵奇、貪婪的一面，而且人性通常是沒有耐心的——這也證明了為什么幾秒鐘的短視頻越來越受歡迎，連續(xù)劇為什么要有“倍速”功能，以及標題驚悚的短文章總是比內(nèi)容深刻篇幅長的文章在推薦的時候指標更好看。

人是從眾的動物，內(nèi)心總是關心同類們在看些什么。大量基于協(xié)同過濾思想的算法，滿足了相關需求。如果充分迎合，會發(fā)現(xiàn)大量人群喜歡看的往往是偏低俗、快餐式的內(nèi)容。如果不加干預，黃賭毒、標題黨、危言聳聽、獵奇刺激的內(nèi)容、或者廉價低劣的商品往往會充斥在推薦結(jié)果中。

但想要引導人性，倡導更有質(zhì)量的內(nèi)容，是推薦系統(tǒng)要肩負的責任，這個時候的評價指標一定不能只單純看重點擊率、轉(zhuǎn)化率等量化指標，因為如果只用這些指標來優(yōu)化算法，最終結(jié)果一定是低劣內(nèi)容會充斥著版面，降低整個平臺的格調(diào)。

在推薦系統(tǒng)評估時大家往往語焉不詳?shù)摹绑@喜度”（Serendipity）、“新穎性”（Novelty）等，往往就是在人性揣測的方面進行探索。這些指標計算時最大的難點是評價指標偏主觀，很難直接使用在線行為計算。一般只能用事后問卷或者用戶對內(nèi)容的評價評分、轉(zhuǎn)發(fā)等行為來間接佐證?；蛘咭?日或者N日留存率等來判斷用戶對推薦結(jié)果整體的滿意度。（達觀數(shù)據(jù) 陳運文）

實戰(zhàn)中推薦評估指標設置的常用方法

方法一：為不同的細分人群來設置不同的評價指標

基于用戶的整體式評估，會讓推薦算法導向滿足“大多數(shù)人口味”的推薦結(jié)果，但這背離了千人千面的個性化的初衷。我們期望社群里不同的人都能通過推薦來形成滿意的體驗。小眾的人群偏好往往會淹沒在整體數(shù)據(jù)中，我們一線的算法工程師經(jīng)常有體會，就是某個新的推薦算法上線后，看整體指標明顯好很多了，但是你的領導/客戶可能來投訴，說感覺推給他的東西感覺沒以前好了。個體和群體經(jīng)常存在類似的矛盾。某個推薦算法可能對整體有利，但對其中另一類人未必如此。

理想的做法是將其中的人群進行細分，例如電商網(wǎng)站中既有價格敏感型的大眾用戶，也有追求品質(zhì)的高端用戶。在計算指標時如果劃分不同人群來計算，更能體現(xiàn)推薦效果作用后的具體差異。例如我們期望新用戶能迅速完成交易并沉淀下來，那么針對這群人的推薦指標，下單率和次日或7日留存就非常重要。而針對高端人群的則有所不同。個體的差異性和小眾品味要得到更大程度的重視。

方法二：按不同的推薦位置來制定不同的指標

在同一個推薦APP或產(chǎn)品里，不同位置的推薦需要針對性的設置推薦評價指標。前文中提到的不同位置、不同場景，推薦指標制定規(guī)則可以有所不同。例如首頁首屏的banner推薦（Top-N推薦），信息流Feed推薦，內(nèi)容詳情頁下面的相關推薦（常用precision-recall或者F1-score）來計算。還有在搜索無結(jié)果頁、購物車頁面，退出確認頁等等，不同的位置一定需要因地制宜的選擇適合的評價指標。

方法三：綜合幾種不同的評估指標來獲得整體數(shù)據(jù)指標

每個指標都有局限性，推薦系統(tǒng)需要平衡很多因素 ( 商業(yè)、用戶體驗、技術實現(xiàn)、資金、人力等 ) ，怎么做好平衡是一種哲學。通?？梢园褞讉€因素加權求和來作為整體指標。

指標的選擇和產(chǎn)品主打定位有關系。例如一個特別強調(diào)內(nèi)容快速新鮮的APP，那么結(jié)果的時效性就應該占更大的權重。而一個強調(diào)格調(diào)品味的APP，單篇閱讀時長就顯得更可貴。而強調(diào)社群活躍度的平臺，用戶對內(nèi)容的分享率，互動率等，在整體指標中要更突出。（達觀數(shù)據(jù) 陳運文）

在產(chǎn)品運營的不同階段，傾向性不同指標的選擇也應該有所不同。產(chǎn)品上線前期可能要照顧用戶體驗，大力拓展新用戶。當用戶量足夠多后，可能會側(cè)重商業(yè)變現(xiàn) ( 推薦的付費視頻，在列表中插入較多廣告等 ) ，想辦法通過推薦讓產(chǎn)品盡快盈利。如果是電商類推薦，要細致的考慮用戶購買前和購買后的差異，以及標品和非標品的差異。購買前往往可以多推薦同類產(chǎn)品以更好的讓用戶進行比選。當購買動作完成后，尤其是耐用消費品，再繼續(xù)推薦就適得其反了。

pic_007 各類推薦算法和指標的靈活選擇

關于作者

陳運文：達觀數(shù)據(jù)創(chuàng)始人&CEO，復旦大學計算機博士，國家“萬人計劃”專家，第九屆上海青年科技英才，任復旦大學、上海財經(jīng)大學校外研究生導師。在人工智能領域擁有豐富研究成果，在IEEE Transactions、SIGKDD等國際頂級學術期刊和會議上發(fā)表數(shù)十篇高水平科研成果論文，譯有人工智能經(jīng)典著作《智能Web 算法》（第2 版），曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最頂尖數(shù)據(jù)挖掘競賽的冠亞軍榮譽。曾擔任盛大文學首席數(shù)據(jù)官、騰訊文學高級總監(jiān)、百度核心技術研發(fā)工程師。在機器學習、自然語言處理、搜索推薦等領域有豐富的研究和工程經(jīng)驗。

下一篇:如何利用社會化聆聽挖掘有價值的商業(yè)情報（上篇）

上一篇:4招有效解決推薦系統(tǒng)冷啟動難題

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

針對不同的推薦場景，一定要因地制宜的選擇合適的評估方法

影響推薦系統(tǒng)評估方式的幾類因素

因素一：推薦展示槽位是固定數(shù)量，還是不斷延展的信息Feed流

因素二：推薦背后的商業(yè)模式是以電商交易型、還是廣告收益型的

因素三：推薦評估是離線進行，還是在線實時完成

因素四：推薦系統(tǒng)當前的目標是最大化運營指標，還是考慮生態(tài)平衡和來源多樣性

因素五：推薦結(jié)果要迎合人性，還是引導人性

實戰(zhàn)中推薦評估指標設置的常用方法

方法一：為不同的細分人群來設置不同的評價指標

方法二：按不同的推薦位置來制定不同的指標

方法三：綜合幾種不同的評估指標來獲得整體數(shù)據(jù)指標

推薦指標小結(jié)

關于作者

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

針對不同的推薦場景，一定要因地制宜的選擇合適的評估方法

影響推薦系統(tǒng)評估方式的幾類因素

因素一：推薦展示槽位是固定數(shù)量，還是不斷延展的信息Feed流

因素二：推薦背后的商業(yè)模式是以電商交易型、還是廣告收益型的

因素三：推薦評估是離線進行，還是在線實時完成

因素四：推薦系統(tǒng)當前的目標是最大化運營指標，還是考慮生態(tài)平衡和來源多樣性

因素五：推薦結(jié)果要迎合人性，還是引導人性

實戰(zhàn)中推薦評估指標設置的常用方法

方法一：為不同的細分人群來設置不同的評價指標

方法二：按不同的推薦位置來制定不同的指標

方法三：綜合幾種不同的評估指標來獲得整體數(shù)據(jù)指標

推薦指標小結(jié)

關于作者

達觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

因素二：推薦背后的商業(yè)模式是以電商交易型、還是廣告收益型的

因素三：推薦評估是離線進行，還是在線實時完成

因素四：推薦系統(tǒng)當前的目標是最大化運營指標，還是考慮生態(tài)平衡和來源多樣性

因素五：推薦結(jié)果要迎合人性，還是引導人性