本文整理自達(dá)觀數(shù)據(jù)董事長兼CEO陳運(yùn)文在2024WAIC世界人工智能大會期間接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者董靜怡采訪內(nèi)容
“過去談概念,現(xiàn)在更多談怎么落地?!?月6日,安永數(shù)據(jù)智能咨詢服務(wù)合伙人陳劍光在達(dá)觀主辦的2024世界人工智能大會的“知識改變世界——垂直大模型重新定義知識管理”的主題論壇上表示。真正的落地,更多是靠垂直模型?,F(xiàn)場嘉賓普遍反映,大模型在垂直行業(yè)中的落地已經(jīng)從最初局限在特定行業(yè)拓展到各行各業(yè)。
不過,我國垂直大模型在企業(yè)場景中的應(yīng)用尚處于探索階段,市場上的大模型解決方案存在同質(zhì)性問題,缺乏針對不同行業(yè)特點(diǎn)和需求的定制化服務(wù),這在一定程度上限制了大模型的創(chuàng)新性和應(yīng)用效果,許多企業(yè)仍在尋求大模型的最佳落地方案。
高質(zhì)量的垂直行業(yè)訓(xùn)練數(shù)據(jù)缺乏,也成為制約大模型訓(xùn)練效果和應(yīng)用性能的關(guān)鍵因素。
達(dá)觀數(shù)據(jù)董事長兼CEO陳運(yùn)文在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,雖然各行各業(yè)擁抱AI的態(tài)度比較積極,很多企業(yè)仍面臨數(shù)據(jù)缺乏和數(shù)據(jù)基座沒有打好的問題,尤其是中小企業(yè)。
垂直大模型的發(fā)展和應(yīng)用,是一個(gè)復(fù)雜而多維的過程。它不僅需要技術(shù)的創(chuàng)新和突破,更需要對行業(yè)的深刻理解和知識的有效整合。
垂直模型的落地之困
垂直大模型是專門針對特定行業(yè)或領(lǐng)域開發(fā)的人工智能模型,它們結(jié)合了行業(yè)知識和場景化處理能力,以實(shí)現(xiàn)更精準(zhǔn)和高效的知識管理與應(yīng)用。
以達(dá)觀為例,達(dá)觀垂直大模型是“混合模型+垂直知識+場景應(yīng)用”,它兼容了多種基座模型。
目前,垂直大模型在金融、檔案管理、法律審查等領(lǐng)域有所應(yīng)用。例如,國泰君安證券利用大模型提供智能投顧服務(wù),上海市檔案館使用大模型進(jìn)行檔案的數(shù)字化和智能化管理。
不過,整體來看,大模型在各行業(yè)的應(yīng)用場景和范式還相對有限,一方面,大模型目前主要應(yīng)用于一些常見的場景,如文本分類、情感分析、機(jī)器翻譯等,而在一些特定的業(yè)務(wù)場景或新興領(lǐng)域中的應(yīng)用還不夠廣泛。
另一方面,市場上的大模型解決方案存在較高的同質(zhì)性,缺乏針對不同行業(yè)特點(diǎn)和需求的定制化服務(wù),導(dǎo)致應(yīng)用效果和創(chuàng)新性不足。
如何更貼近行業(yè)?高質(zhì)量的訓(xùn)練數(shù)據(jù)是一大問題,缺乏足夠豐富和高質(zhì)量的垂直行業(yè)訓(xùn)練數(shù)據(jù),限制了大模型的訓(xùn)練效果和應(yīng)用性能。
“垂類模型更多關(guān)注細(xì)分行業(yè)專有數(shù)據(jù),既包括與個(gè)人相關(guān)的用戶數(shù)據(jù),還包括企業(yè)資產(chǎn)行業(yè)數(shù)據(jù)?!敝锌剖锕庵悄苡?jì)算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東表示。
但這些數(shù)據(jù)并不容易獲得。在一些細(xì)分行業(yè)中,例如工業(yè)領(lǐng)域,獲取數(shù)據(jù)相對困難,不僅數(shù)據(jù)量較少,而且往往很難在企業(yè)之間共享。
中小企業(yè)更是一片數(shù)據(jù)洼地。陳運(yùn)文向記者表示,許多中小型企業(yè)在過去缺乏統(tǒng)一的文檔資料管理系統(tǒng),這些企業(yè)的文檔資料通常分散在員工的個(gè)人電腦中,難以進(jìn)行大模型的賦能。
“首要目標(biāo)是建立一個(gè)集中的文檔管理庫,將所有員工的文檔資料集中存儲。在此基礎(chǔ)上,可以構(gòu)建大型模型和上層的智能化應(yīng)用系統(tǒng)?!标愡\(yùn)文向記者表示,“這是一個(gè)逐步的過程,首先需要打好基礎(chǔ)?!?/p>
下一步則是知識的深度挖掘。陳運(yùn)文向記者表示,如果垂直模型與專業(yè)知識的結(jié)合僅限于表面層次,這是不充分的。只有當(dāng)這種結(jié)合達(dá)到深層次時(shí),垂直模型才具有真正的價(jià)值。行業(yè)知識的深度挖掘能夠帶來更深遠(yuǎn)的意義和應(yīng)用潛力。
這時(shí)候仍需要人的力量實(shí)現(xiàn)對模型的微調(diào)?!耙祟悓<襾韨魇诮?jīng)驗(yàn),大模型要做定向的修改去吸收這些經(jīng)驗(yàn),最后開發(fā)出針對性的產(chǎn)品。”陳運(yùn)文表示。
亟需產(chǎn)業(yè)鏈合作參與
如何進(jìn)一步提升行業(yè)模型的能力?中國工程院院士、復(fù)旦大學(xué)金融科技研究院院長柴洪峰認(rèn)為,關(guān)鍵在于發(fā)現(xiàn)大模型在垂直行業(yè)中的涌現(xiàn)效應(yīng)。
以金融行業(yè)為例,他認(rèn)為,可以打造金融數(shù)據(jù)基座,構(gòu)建一個(gè)廣泛的數(shù)據(jù)基礎(chǔ),為大模型提供充足的訓(xùn)練材料,以提高模型在金融等垂直領(lǐng)域的應(yīng)用效能。這也符合涌現(xiàn)效應(yīng)突破需要的大數(shù)據(jù)、大參數(shù)和大計(jì)算尺度的要求。
但并不是完全依靠“大力出奇跡”?!凹纫揽俊罅Τ銎孥E’的規(guī)律,又要用該規(guī)律在不同領(lǐng)域,用不同的算法來產(chǎn)生這種協(xié)同?!辈窈榉灞硎尽?/p>
此外,柴洪峰提出了大模型在工程落地中的創(chuàng)新可能。他表示,將大模型與知識圖譜結(jié)合,知識圖譜提供可預(yù)期和可信的決策支持,這是“對外服務(wù)”;大模型則產(chǎn)生“幻覺”,即發(fā)現(xiàn)專家可能未意識到的新知識或洞見,通過不斷的迭代優(yōu)化,可以轉(zhuǎn)化為新的知識圖譜,從而擴(kuò)展現(xiàn)有的知識體系,這是“對內(nèi)發(fā)現(xiàn)”。
“可以用上述方式進(jìn)行集成創(chuàng)新,實(shí)現(xiàn)知識的對外服務(wù)和對內(nèi)發(fā)現(xiàn)的結(jié)合?!辈窈榉灞硎?,由此進(jìn)一步促進(jìn)知識生產(chǎn)力的提升。
最后,他提出了合作的重要性,“通過軟硬一體、供需統(tǒng)籌、產(chǎn)學(xué)研協(xié)同,創(chuàng)新管理合作模式,實(shí)現(xiàn)人才密度、科研強(qiáng)度、創(chuàng)新速度的有效集成,推動金融大模型技術(shù)的研發(fā)與應(yīng)用,加速行業(yè)智能化和數(shù)字化轉(zhuǎn)型。”柴洪峰表示。
而在實(shí)際應(yīng)用中,上下游的聯(lián)動、各行各業(yè)的跨界合作已經(jīng)變得非常普遍。大模型的出現(xiàn)導(dǎo)致了人工智能價(jià)值鏈的重塑,意味著價(jià)值鏈上的各個(gè)環(huán)節(jié)正在重新定義它們的角色和貢獻(xiàn),明確了生態(tài)系統(tǒng)中每個(gè)部分應(yīng)該提供的價(jià)值,例如數(shù)據(jù)的收集、模型的訓(xùn)練、應(yīng)用的開發(fā)等。
百川智能副總裁鄧江在圓桌論壇上感嘆,過去接觸的行業(yè)相對有限,主要是金融等少數(shù)幾個(gè)行業(yè),然而隨著大模型的興起,目前已經(jīng)與來自各行各業(yè)的優(yōu)秀企業(yè)和合作伙伴建立聯(lián)系。
“不跨界合作很難贏。因?yàn)樯a(chǎn)里面的各種角色都掌握了局部信息、片段信息,或者他擁有局部的優(yōu)勢。如果這個(gè)優(yōu)勢分散,產(chǎn)生不了最大的價(jià)值?!睆?fù)旦大學(xué)金融科技研究院常務(wù)副院長、計(jì)算機(jī)科學(xué)技術(shù)學(xué)院副院長吳杰表示。
這也重塑了每個(gè)參與者的思維,即需要有全局視角。鄧江表示,在基礎(chǔ)研發(fā)中,除了提升模型的能力外,還需要考慮不同行業(yè)的需求和實(shí)際情況,將這些能力應(yīng)用到實(shí)際的產(chǎn)業(yè)鏈中,以實(shí)現(xiàn)更高效的運(yùn)作。
“最終要選擇好在哪個(gè)產(chǎn)業(yè)鏈上作為優(yōu)先突破的方向,讓模型首先適配該產(chǎn)業(yè)鏈上所有生態(tài)伙伴的需求,這是大家要去思考的一個(gè)很重要問題?!编嚱硎尽?/p>
如今,生態(tài)系統(tǒng)中的各個(gè)部分,變得更加緊密地聯(lián)系在一起,形成了一種推動整個(gè)行業(yè)發(fā)展的力量。通過開放合作和深入研究,解決復(fù)雜問題,并克服應(yīng)用落地的最后障礙。