本文整理自11月23日達(dá)觀大講堂上復(fù)旦大學(xué)計算機(jī)學(xué)院教授、博導(dǎo),上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室副主任,復(fù)旦大學(xué)社會計算研究中心主任盧暾教授《以人為中心的推薦系統(tǒng)模擬——大模型驅(qū)動的Agent建模方法》的主題分享。
隨著互聯(lián)網(wǎng)和數(shù)字化技術(shù)的迅猛發(fā)展,推薦系統(tǒng)已經(jīng)成為了許多在線平臺和應(yīng)用程序中不可或缺的一部分。傳統(tǒng)的推薦系統(tǒng)主要基于機(jī)器學(xué)習(xí)和協(xié)同過濾等方法,通過分析用戶行為和項(xiàng)目特征來提供個性化的推薦。然而,隨著數(shù)據(jù)規(guī)模和復(fù)雜性的增加,傳統(tǒng)方法在面對大量用戶和項(xiàng)目,特別滿足用戶良好推薦體驗(yàn)上,存在較大局限性。因此,以人為中心的推薦系統(tǒng)逐漸引起了研究者和工程師們的關(guān)注。大模型驅(qū)動的Agent建模方法是實(shí)現(xiàn)以人為中心的推薦系統(tǒng)的一種重要方式。這種方法借助于強(qiáng)大的大規(guī)模語言模型,如GPT等,構(gòu)建智能代理(Agent)。其可以對用戶的查詢和上下文進(jìn)行深入理解,并利用大規(guī)模數(shù)據(jù)和深度學(xué)習(xí)技術(shù)提供高質(zhì)量的推薦結(jié)果。這種建模方法通過模擬人類決策和個性化需求,可以更好地理解用戶的行為和意圖,從而提供更加智能和貼近用戶期望的推薦。并且,通過將用戶放在推薦系統(tǒng)的核心位置,這種方法可以有效地解決傳統(tǒng)推薦系統(tǒng)中的一些挑戰(zhàn),并提供更加個性化和滿足用戶需求的推薦體驗(yàn)。
面臨的問題和挑戰(zhàn)
1. 復(fù)雜交織的期望價值目標(biāo)
推薦系統(tǒng)需要滿足用戶的多樣化和動態(tài)化需求。用戶的期望價值目標(biāo)包括個性化、多樣性、時效性等方面的要求。然而,這些目標(biāo)之間可能存在沖突,如個性化推薦可能導(dǎo)致信息過濾的問題,多樣性推薦又可能降低了個性化程度。因此,實(shí)現(xiàn)這些復(fù)雜交織的目標(biāo)是一個巨大的挑戰(zhàn)。
2. 數(shù)據(jù)主導(dǎo)與支配的機(jī)制算法
推薦系統(tǒng)的核心在于對海量數(shù)據(jù)的處理和分析。傳統(tǒng)方法主要依賴于機(jī)器學(xué)習(xí)和協(xié)同過濾等技術(shù),但這些方法容易受限于數(shù)據(jù)的稀疏性和冷啟動問題。此外,數(shù)據(jù)主導(dǎo)的算法往往會優(yōu)先考慮熱門和流行的項(xiàng)目,導(dǎo)致長尾項(xiàng)目的推薦效果不佳。因此,如何設(shè)計有效的算法來平衡數(shù)據(jù)驅(qū)動和用戶需求之間的關(guān)系,是推薦系統(tǒng)領(lǐng)域需要解決的難題。
3. 極化的正反饋閉環(huán)放大效應(yīng)
推薦系統(tǒng)中的正反饋效應(yīng)是一把雙刃劍。當(dāng)用戶接收到與自己興趣相符的推薦時,會更愿意進(jìn)行交互和消費(fèi),進(jìn)而形成正向的反饋循環(huán)。然而,這種正反饋循環(huán)也可能導(dǎo)致信息過濾和輿論偏見的問題,使用戶陷入“信息繭房”。如何在推薦過程中平衡正反饋效應(yīng),增強(qiáng)推薦的多樣性和廣度,是推薦系統(tǒng)需要面對的挑戰(zhàn)之一。
4. 多環(huán)節(jié)無處不在的各種偏差
推薦系統(tǒng)涉及多個環(huán)節(jié),包括數(shù)據(jù)收集、特征提取、模型訓(xùn)練和結(jié)果展示等。每個環(huán)節(jié)都可能引入各種偏差,如數(shù)據(jù)采樣偏差、特征選擇偏差、算法偏差等。這些偏差可能導(dǎo)致推薦結(jié)果的不準(zhǔn)確性和不公平性。解決這些偏差問題需要綜合考慮數(shù)據(jù)質(zhì)量、算法可解釋性和結(jié)果評估等方面的因素。
基于大模型Agent 的微觀推薦系統(tǒng)框架RAH
1.微觀層面臨的問題挑戰(zhàn)
在微觀層面上,以人為中心的推薦系統(tǒng)在個性化需求多樣性、興趣演化時效性、隱私保護(hù)和解釋透明度等方面面臨著諸多挑戰(zhàn)。解決這些挑戰(zhàn)需要結(jié)合用戶行為研究、隱私保護(hù)技術(shù)和解釋性算法等多個領(lǐng)域的知識。通過不斷創(chuàng)新和改進(jìn),以人為中心的推薦系統(tǒng)將能夠更好地滿足用戶的個性化需求,并提供具有良好用戶體驗(yàn)的推薦服務(wù)。
2.解決方法與啟示
- 以人為中心的推薦:對推薦系統(tǒng)進(jìn)行改進(jìn),考慮用戶的需求,提升用戶的滿意度
- 大語言模型增強(qiáng)的推薦系統(tǒng):基于大模型構(gòu)建推薦系統(tǒng),利用世界知識理解物品特征,利用推理能力實(shí)現(xiàn)個性化篩選和精細(xì)排序
- 大語言模型驅(qū)動的智能體:明確大模型智能體的定義,提出設(shè)計框架,實(shí)現(xiàn)適配具體領(lǐng)域和場景的智能體
3.以人為中心的推薦框架RAH
RAH (Recsys-Assistant-Human) 是一個基于大模型Agent的推薦框架,旨在解決推薦系統(tǒng)中以人為中心的問題,例如降低用戶負(fù)載、緩解推薦偏見、增強(qiáng)用戶控制。RAH框架從人類用戶的視角出發(fā),核心思想就是增加個人助手Assistant,用于在推薦場景中協(xié)助人類用戶。進(jìn)一步說,在這個框架中,個人助手基于大語言模型的知識儲備和推理能力,從用戶行為中學(xué)習(xí)和理解用戶的個性;然后,個人助手再根據(jù)用戶的個性提供定制的操作。
在這個RAH框架下,個人助手能夠代理用戶并協(xié)助用戶優(yōu)化推薦系統(tǒng)、緩解偏見和增強(qiáng)用戶對推薦結(jié)果和個人隱私的控制。每個助手都由幾個基于LLM的智能體組成:
(1)?感知智能體:理解和解釋推薦信息,包括Item特征和用戶反饋的含義。
(2)?學(xué)習(xí)智能體:從用戶行為中分析用戶個性,并將它們存儲在個性庫中。
(3)?行動智能體:根據(jù)學(xué)到的個性執(zhí)行操作,例如為用戶過濾不喜歡的項(xiàng)目。
(4)?評判智能體:驗(yàn)證執(zhí)行的操作是否與用戶的偏好一致,并分析調(diào)整以減少差異。
(5)?反思智能體:審查和優(yōu)化積累的個性,例如解決重復(fù)和沖突等問題。
此外,我們通過添加學(xué)習(xí)-行動-評判循環(huán)和反思機(jī)制來增強(qiáng)我們提出的助手與用戶的一致性。在學(xué)習(xí)-行動-評判循環(huán)中,學(xué)習(xí)、行動和評判智能體合作處理用戶操作,不斷改進(jìn)對用戶個性的理解。這個迭代循環(huán)會一直持續(xù)下去,直到行動智能體準(zhǔn)確地反映學(xué)到的個性。同時,反思機(jī)制使用反思智能體定期修訂學(xué)到的個性,減少累計個性中存在的冗余和沖突。在我們的實(shí)驗(yàn)中,我們使用真實(shí)世界數(shù)據(jù)在三個推薦領(lǐng)域評估RAH框架。首先,我們發(fā)現(xiàn)學(xué)習(xí)-行動-評判循環(huán)和反思機(jī)制顯著增強(qiáng)了個人助手與用戶個性的對齊程度。第二個實(shí)驗(yàn)表明這些代理操作可以協(xié)助用戶調(diào)優(yōu)推薦系統(tǒng),減少了用戶的交互次數(shù),降低用戶的操作負(fù)擔(dān)。此外,在第三部分實(shí)驗(yàn),我們研究了使用經(jīng)過對用戶個性學(xué)習(xí)的助手來代理用戶對低流行度Item的反饋,緩解選擇偏見,從而減輕系統(tǒng)中的偏見。最后,我們研究發(fā)現(xiàn)了RAH框架在解決與用戶控制相關(guān)的問題時的潛力,包括通過二次過濾來幫助用戶控制推薦結(jié)果,以及調(diào)整推薦系統(tǒng)對用戶敏感數(shù)據(jù)的可見性來控制個人隱私。
預(yù)訓(xùn)練大模型驅(qū)動的宏觀模擬系統(tǒng)SimuLine
1.宏觀層面臨的問題挑戰(zhàn)
以人為中心的推薦系統(tǒng)在宏觀層面面臨著社會影響、公平性、信息多樣性和隱私安全等方面的挑戰(zhàn)。解決這些挑戰(zhàn)需要從技術(shù)、政策和法律等多個角度進(jìn)行思考和創(chuàng)新。推薦系統(tǒng)的發(fā)展應(yīng)注重用戶的長期利益和社會效益,在個性化推薦的同時保持公平、多樣和可持續(xù)的推薦環(huán)境。
2.解決方法與啟示
- 基礎(chǔ)工作:合成數(shù)據(jù)生成For Synthetic Data。學(xué)習(xí)數(shù)據(jù)分布,并面向特殊推薦場景或需求生成數(shù)據(jù)集
- 方向一:面向模型訓(xùn)練的模擬器For Model Training of RecSys。通過框架定義數(shù)據(jù)分布學(xué)習(xí),將靜態(tài)數(shù)據(jù)增強(qiáng)為動態(tài)生成的多輪交互數(shù)據(jù),進(jìn)而實(shí)現(xiàn)面向用戶多輪交互效用的推薦算法優(yōu)化
- 方向二:面向推薦系統(tǒng)社會影響的模擬器For Social Impact of RecSys。針對推薦系統(tǒng)長期交互過程中所產(chǎn)生的特定社會問題,基于Agent based Modeling 等建模方法設(shè)計有針對性的模擬框架,重現(xiàn)研究所關(guān)注的相關(guān)現(xiàn)象,并使用模擬數(shù)據(jù)予以解釋
3.宏觀模擬系統(tǒng)SimuLine
SimuLine是一個基于預(yù)訓(xùn)練大模型的推薦宏觀模擬系統(tǒng),旨在解決推薦系統(tǒng)中面臨的問題和挑戰(zhàn),并提供更準(zhǔn)確、全面和多樣化的推薦體驗(yàn)。該系統(tǒng)通過強(qiáng)大的模擬能力和大規(guī)模數(shù)據(jù)驅(qū)動,為用戶提供個性化、實(shí)時和多維度的推薦結(jié)果。其核心是一個預(yù)訓(xùn)練的大模型,具備深度學(xué)習(xí)技術(shù)和自然語言處理能力。這個模型經(jīng)過大量數(shù)據(jù)的訓(xùn)練,能夠理解和捕捉用戶的興趣偏好、行為模式和語義信息。它能夠?qū)τ脩暨M(jìn)行精確建模,并從海量數(shù)據(jù)中挖掘潛在的關(guān)聯(lián)和推薦機(jī)會。該系統(tǒng)還具備強(qiáng)大的模擬能力,可以模擬用戶的興趣演化和行為變化。SimuLine考慮到用戶的興趣和需求是動態(tài)變化的,可能受到季節(jié)性、時事熱點(diǎn)或個人發(fā)展等因素的影響。因此,該系統(tǒng)能夠模擬用戶在不同場景和時間段的興趣變化,及時調(diào)整推薦策略,提供與用戶當(dāng)前興趣相關(guān)的推薦結(jié)果。此外,SimuLine注重推薦的多維度性。它不僅考慮用戶的個人興趣,還將其他因素融入推薦過程,如社交關(guān)系、地理位置、時效性需求等。這使得推薦結(jié)果更加全面和多樣化,能夠滿足不同用戶的個性化需求。SimuLine還關(guān)注隱私保護(hù)和用戶參與。系統(tǒng)采取嚴(yán)格的隱私保護(hù)措施,對用戶的個人信息和行為數(shù)據(jù)進(jìn)行安全處理。同時,該系統(tǒng)提供用戶參與推薦過程的機(jī)制,例如用戶可以主動指定偏好、提供反饋和評價推薦結(jié)果,從而增強(qiáng)用戶對推薦算法的參與感和信任度。
?
未來展望:技術(shù)發(fā)展與治理趨勢
在大模型時代,復(fù)雜系統(tǒng)模擬的發(fā)展對于“以人為中心的推薦系統(tǒng)”變得更加重要。這是因?yàn)榇竽P筒粌H能夠處理和分析海量數(shù)據(jù),還能通過深度學(xué)習(xí)技術(shù)理解人類行為和需求,從而提供更準(zhǔn)確、個性化的推薦服務(wù)。”以人為中心的推薦系統(tǒng)”的主題突出了用戶體驗(yàn)和參與的重要性。隨著大模型的興起,可以更好地理解用戶的興趣、偏好和行為模式,從而根據(jù)個體的需求進(jìn)行更精準(zhǔn)的推薦。這種個性化的推薦有助于提高用戶滿意度,并增強(qiáng)他們對推薦系統(tǒng)的信任。此外,大模型可幫助推薦系統(tǒng)更好地理解和模擬人類行為的復(fù)雜性。它們能夠捕捉到用戶的動態(tài)興趣演化、情感變化和社交互動等方面的特征。通過模擬復(fù)雜系統(tǒng)中的各種因素和相互作用,這些模型能夠更準(zhǔn)確地預(yù)測用戶的行為和需求,為其提供更加個性化的推薦。然而,在利用大模型進(jìn)行復(fù)雜系統(tǒng)模擬時,也需要注重“以人為中心”的原則。這意味著系統(tǒng)應(yīng)該確保用戶的隱私和數(shù)據(jù)安全,并提供可解釋性的推薦結(jié)果。用戶應(yīng)該有權(quán)選擇參與推薦過程,并對推薦結(jié)果進(jìn)行反饋和調(diào)整。此外,公平性也是一個重要的考慮因素,推薦系統(tǒng)應(yīng)該避免偏見和歧視,確保每個用戶都能獲得公正和中立的待遇。因此,在實(shí)現(xiàn)這些目標(biāo)的同時,也需要關(guān)注用戶體驗(yàn)、隱私保護(hù)、參與機(jī)制和公平性等方面,以確保推薦系統(tǒng)真正以人為中心,并提供積極的社會影響。
感謝上述兩個工作的共同作者:張光平、舒鈺博、張鵬、尚笠、顧寧(復(fù)旦),李東勝(MSRA)
相關(guān)論文:
[1] Yubo Shu, Haonan Zhang, Hansu Gu, Peng Zhang, Tun Lu, Dongsheng Li, Ning Gu. (2023) RAH! RecSys-Assistant-Human: A Human-Centered Recommendation Framework with LLM Agents, arXiv:2308.09904.
[2] Guangping Zhang, Dongsheng Li, Hansu Gu, Tun Lu, Li Shang. Ning Gu. (2023) Simulating News Recommendation Ecosystem for Fun and Profit. arXiv preprint arXiv:2305.14103.