本文整理自7月7日世界人工智能大會“AI生成與垂直大語言模型的無限魅力”論壇上中國工程院院士、復(fù)旦大學(xué)金融科技研究院院長柴洪峰《大模型賦能金融科技思考與展望》的主題分享,從金融垂直模型構(gòu)建、金融知識圖譜與大模型融合以及金融大模型的監(jiān)管三個方面進行介紹。
隨著金融科技的蓬勃發(fā)展,金融行業(yè)正經(jīng)歷著一場革命性的變革。金融垂直領(lǐng)域模型構(gòu)建與金融數(shù)據(jù)的結(jié)合成為推動金融科技創(chuàng)新和發(fā)展的重要動力。通過整合跨學(xué)科研究和系統(tǒng)方法,能夠探索金融系統(tǒng)的整體性和復(fù)雜性,超越單點技術(shù)突破,從而推動金融科技的突破性進展。大數(shù)據(jù)、人工智能和機器學(xué)習(xí)等技術(shù)的發(fā)展,使人們能更快速、高效地獲取、分析、存儲、共享和整合各種異構(gòu)數(shù)據(jù)。
然而,金融垂直領(lǐng)域的大模型應(yīng)用仍面臨一些挑戰(zhàn)。金融數(shù)據(jù)和知識的私密性限制了共享和構(gòu)建大規(guī)模數(shù)據(jù)集的能力。此外,金融數(shù)據(jù)的多模態(tài)特性增加了模型處理和建模的復(fù)雜性。為了克服這些難題,加強產(chǎn)學(xué)研的合作勢在必行,共同構(gòu)建更強大的金融垂直領(lǐng)域基礎(chǔ)模型,提升大模型對多模態(tài)數(shù)據(jù)的表達能力。
一、構(gòu)建金融垂直領(lǐng)域模型
金融數(shù)據(jù)與通用大模型的結(jié)合
金融科技的崛起正在改變金融行業(yè)的面貌,實現(xiàn)金融科技突破對于推動金融領(lǐng)域的創(chuàng)新和發(fā)展至關(guān)重要。而整體思維和系統(tǒng)認知是實現(xiàn)金融科技突破的首要前提,金融系統(tǒng)是一個開放復(fù)雜巨系統(tǒng),已經(jīng)很難依靠“點”上的技術(shù)突破實現(xiàn)整體提升。所以需要將跨學(xué)科的研究和系統(tǒng)方法作為解決重大關(guān)鍵問題的首選項。
系統(tǒng)認知就是要從系統(tǒng)要素構(gòu)成、互作機理和耦合作用來探索問題的解決途徑。金融與實體經(jīng)濟是一個生命共同體,金融領(lǐng)域的科學(xué)突破必須突破單要素思維,從資源利用、運作效力、系統(tǒng)彈性和可持續(xù)性的整體維度進行思考。
數(shù)據(jù)科學(xué)和信息技術(shù)是金融領(lǐng)域的戰(zhàn)略性關(guān)鍵技術(shù),數(shù)據(jù)科學(xué)和分析科技的進步為金融領(lǐng)域的研究和知識應(yīng)用提供了重要的突破機遇。大數(shù)據(jù)、人工智能、機器學(xué)習(xí)等技術(shù)的發(fā)展提供了更快速的收集、分析、存儲、共享和集成異構(gòu)數(shù)據(jù)的能力和高級分析方法。數(shù)據(jù)科學(xué)和信息技術(shù)能夠極大提高對復(fù)雜問題的解決能力,在動態(tài)變化條件下,自動整合數(shù)據(jù)并進行實時建模,促進形成數(shù)據(jù)驅(qū)動的智慧管控。
人機混合智能技術(shù)將成為推動金融領(lǐng)域進步的創(chuàng)新驅(qū)動技術(shù)。人機混合智能技術(shù)包括自然語言處理、機器學(xué)習(xí)、計算機視覺、語音識別和智能推薦等多個領(lǐng)域。這些技術(shù)的發(fā)展使得人和機器間的交互變得更加智能化,人機混合智能在金融領(lǐng)域的應(yīng)用也越來越多,最新的大模型技術(shù),如ChatGPT、MOSS、ChatGLM等,是和目前的金融垂直領(lǐng)域結(jié)合的熱點。
金融數(shù)據(jù)底座的構(gòu)建可以包括各類金融實時數(shù)據(jù),各類需解析的文檔數(shù)據(jù)、各類非結(jié)構(gòu)化數(shù)據(jù)以及信息高度濃縮文本。通過龐大的金融垂直類數(shù)據(jù)為金融大模型提供數(shù)據(jù)支撐。
對于金融垂直領(lǐng)域大模型的構(gòu)造需要解決的關(guān)鍵問題有如下三點:
- 多源、異構(gòu)金融數(shù)據(jù)金融數(shù)字底座構(gòu)建、金融數(shù)據(jù)安全共享使用。
- 金融數(shù)據(jù)底座與大模型的融合技術(shù),解決通用大模型在垂直領(lǐng)域知識匱乏、知識關(guān)聯(lián)問題,同時實現(xiàn)模型根據(jù)數(shù)據(jù)實時更新、不斷迭代。
- 基于金融科技底座的大模型對于金融科技多領(lǐng)域的應(yīng)用賦能,展現(xiàn)金融垂直領(lǐng)域涌現(xiàn)能力。
然而目前大模型在金融垂直領(lǐng)域仍未挖掘出涌現(xiàn)效應(yīng),一方面是由于金融數(shù)據(jù)及知識的私密性導(dǎo)致難以共享,無法構(gòu)建一個龐大的數(shù)據(jù)集,對此可以增強產(chǎn)學(xué)研的聯(lián)動性,共同構(gòu)建更強的金融垂直領(lǐng)域基座模型。另一方面由于金融數(shù)據(jù)模態(tài)更多,難以進行統(tǒng)一的處理建模,而如今的大模型對此種多模態(tài)的表達能力仍有待加強。
二、關(guān)于知識圖譜與大模型的融合
知識驅(qū)動與數(shù)據(jù)驅(qū)動的交互
在過去的研究中,我們構(gòu)建金融知識圖譜系統(tǒng),其過程多為從研報、財報等各類非結(jié)構(gòu)化文本信息中抽取多源異構(gòu)知識,通過實體對齊、實體消歧等知識融合方法完善龐大復(fù)雜的金融知識圖譜,并通過分布式圖數(shù)據(jù)庫存儲圖數(shù)據(jù),便于后續(xù)分布式圖算法的開發(fā)與應(yīng)用,這些已構(gòu)建的金融知識圖譜在大模型時代仍有其不可替代的應(yīng)用。
知識圖譜是過去對顯示知識的一種符號化表達,大模型是新興對隱性知識的表達。在大模型時代,也不能完全摒棄已構(gòu)建的海量知識圖譜,知識圖譜能夠指導(dǎo)大模型對行業(yè)進行正確精準(zhǔn)的認知,提高其理解、推理決策的能力,同時知識圖譜及專家知識庫解決問題的范式需要基于統(tǒng)計學(xué)習(xí)的大模型范式相融合,才能更好推動領(lǐng)域內(nèi)涌現(xiàn)能力的出現(xiàn),我們需要把以知識圖譜為代表的知識驅(qū)動方法,基于利用靜態(tài)以及動態(tài)的知識圖譜,與以大模型為代表的數(shù)據(jù)驅(qū)動方法進行持續(xù)交互,運用多種模式,以達到知識圖譜與大模型的完美結(jié)合。以人機結(jié)合方式解決現(xiàn)實中的復(fù)雜問題,在認知的過程中,通過人機協(xié)同挖掘一些很難由人類或計算機單獨發(fā)現(xiàn)的新知識。
? ?三、關(guān)于金融大模型的監(jiān)管? ? ?
從安全角度解決大模型的部署問題
金融數(shù)據(jù)和垂直領(lǐng)域大模型密切相關(guān),存在數(shù)據(jù)安全、大模型安全可信和倫理等問題,同時金融領(lǐng)域也涉及敏感信息和決策,因此對于金融大模型的監(jiān)管必不可少:
- 建立監(jiān)管框架與標(biāo)準(zhǔn),確保大模型在金融領(lǐng)域的應(yīng)用符合法規(guī)與道德要求,通過政產(chǎn)學(xué)研的合作制定相關(guān)的政策和指南。
- 對于金融大模型的部署與使用,需要協(xié)同共治,提升透明度,保證數(shù)據(jù)質(zhì)量和可解釋性的機制。這可以幫助用戶與監(jiān)管機構(gòu)理解模型的決策依據(jù),并確保其不帶有偏見或歧視性。
- 監(jiān)管機構(gòu)還應(yīng)加強對于金融大模型的審查和風(fēng)險評估,對于關(guān)鍵人物和系統(tǒng),應(yīng)建立審查和測試的機制,確保其性能和安全性。
具體來講可分為數(shù)據(jù)安全與版權(quán)安全兩個方面:
數(shù)據(jù)安全:
- 大模型的復(fù)雜性和規(guī)模增加了攻擊者進行攻擊的可能性。同時,大模型的訓(xùn)練過程涉及更多的數(shù)據(jù)和計算資源,這也無惡意攻擊者提供了更多的機會來入侵和篡改數(shù)據(jù)模型。目前大模型極易通過對抗攻擊、后門攻擊、模型竊取等手段而遭受威脅,需要尋找有效的方法規(guī)避風(fēng)險。
- 大模型在輔助金融場景知識問答的過程中,由于無法對用戶身份進行識別,容易產(chǎn)生高等級或機密信息泄露等風(fēng)險,需要對大模型訓(xùn)練過程中的數(shù)據(jù)安全等級做嚴格的界定。
版權(quán)安全:
在金融垂直領(lǐng)域大模型開源的情況下,被惡意竊取并進行微調(diào)的現(xiàn)象時有發(fā)生,可利用特定的數(shù)據(jù)進行輸入,模型識別到這一特定的輸入,就會給出不同于正常類的輸出,通過這一行為來判斷模型的歸屬問題。最后,柴院士表示,站在新的歷史起點上,在新的歷史方位和發(fā)展格局中,復(fù)旦大學(xué)金融科技研究院將針對金融科技發(fā)展的科學(xué)問題,聚焦國家重點關(guān)鍵性、基礎(chǔ)性、牽引性戰(zhàn)略需求任務(wù),發(fā)揮產(chǎn)學(xué)研協(xié)同優(yōu)勢,攻關(guān)金融為實體經(jīng)濟服務(wù)的關(guān)鍵技術(shù),對上海國際金融中心、科創(chuàng)中心建設(shè)貢獻復(fù)旦力量。
作者介紹
柴洪峰
中國工程院院士、復(fù)旦大學(xué)金融科技研究院院長、教授,博士生導(dǎo)師