本文整理自7月6日世界人工智能大會“垂直大模型重新定義知識管理”論壇上達觀數(shù)據(jù)董事長兼CEO陳運文《垂直大模型與知識管理前沿發(fā)展與應用》的主題分享,分享達觀在垂直大模型和知識管理方面的前沿應用和思考,以下為分享內(nèi)容:
達觀數(shù)據(jù)是一家專注于做智能文本處理的企業(yè),根植在上海張江科學城。從2015年創(chuàng)辦,到現(xiàn)在為止經(jīng)歷了很多年,也逐步建立起達觀文檔資料智能化處理全套產(chǎn)業(yè)鏈。
我們從底層,把各種各樣企業(yè)文檔資料匯總在一起,用數(shù)據(jù)基座管理起來。中間開發(fā)了很多AI能力,對這些文檔資料做自動化處理。上面我們在構(gòu)建各種各樣應用系統(tǒng),從基座到能力,再到應用,逐步形成了從下至上的三個層次工作。我也很榮幸在過去幾年,達觀成功成為行業(yè)首家國家級專精特新“小巨人”企業(yè),目前在國內(nèi)智能文本處理企業(yè)里面,我們市占率和案例數(shù)量也是領先的。
今天看到大模型時代,我們自己對這樣的詞有一個全新的解讀,就是知識。我們解讀了知和識。什么是知?今天把大量文檔資料、語料匯集分析形成一個知識庫,這是我們所有智能的來源所在。什么是識?我們用大模型技術(shù)對這些匯集起來的大量數(shù)據(jù)資料進行辨識和分析,進行理解,最后形成應用源源不斷的智能來源。
在我們過去發(fā)展過程當中,思考達觀定位在哪里?我們總結(jié)為垂直大模型,行業(yè)知識和場景化的文檔處理,三個部分。我們講垂直大模型是什么?是針對我們落地來用的,我們都知道所有這些模型最終在產(chǎn)業(yè)界落地的時候,是需要在一個、一個細分領域發(fā)揮作用。
我們針對垂直領域開發(fā)垂直產(chǎn)品,并且吸引垂直行業(yè)的合作伙伴一起幫我們營造大模型落地工作,這是我們達觀的使命。另外知識,尤其是行業(yè)知識對我們來說非常重要,我們就要聚集特定數(shù)據(jù)開發(fā)特定功能,并且做特定任務的優(yōu)化工作。場景化的文檔資料處理是我們最后落地的環(huán)節(jié),待會兒我會詳細給大家介紹一下我們場景化文檔處理工作。因為我們相信所有的工作最后都要落地,落地就需要相應的文檔處理功能來承載。
也給大家匯報一下,達觀“曹植”大模型在過去一年的發(fā)展。在去年世界人工智能大會上,我們第一次宣布“曹植”大模型。在過去一年中,自己在我們模型上也做了很多探索。參數(shù)規(guī)模逐步提升,目前現(xiàn)在主力模型參數(shù)規(guī)模已達到700億。另外,我們在垂直領域,發(fā)現(xiàn)垂直語料和專業(yè)語料混合能起到比較好的實踐作用。我們既需要模型有通識的知識,也需要垂直領域的專業(yè)知識,這種方式混合出來的模型性價比非常高,而且在專業(yè)領域的效能會更好一些。
指令微調(diào)領域,在過去一年時間當中,我們構(gòu)建了一個比較好的指令微調(diào)數(shù)據(jù)級。我們有30%通用指令,大量常見日常常識和工作指令;20%是NLP任務指令,像抽取、分類等等,現(xiàn)在已經(jīng)積累了100萬微調(diào)指令;50%是垂直領域指令,這是垂直領域大幅度提升工作效能的關鍵。這三個結(jié)合在一起,能夠比較好實現(xiàn)達觀“曹植”大模型在垂直領域更好深耕。我們也很榮幸通過國家網(wǎng)信辦第三批生成式人工智能服務備案,現(xiàn)在達觀的“曹植”屬于持證上崗的狀態(tài)。
我們再介紹一下模型特點,我們模型強調(diào)多模型混合,兼容多種基座模型。我們覺得整個大模型生態(tài),應該是一個兼容并包的生態(tài)。在實踐過程當中,我們也積極探索能夠把我們模型和其他行業(yè)里面非常優(yōu)秀的基座模型融合在一起,比如說不久以前與百川智能也簽了戰(zhàn)略合作協(xié)議,我們很希望能夠與行業(yè)里面非常優(yōu)秀的基座模型相結(jié)合,取長補短,共同開發(fā)出垂直應用的產(chǎn)品。
我們垂直模型中開發(fā)了一個混合專家的架構(gòu),能夠把不同領域里面非常優(yōu)秀的模型融合在一起發(fā)揮作用。因為我們面向的是垂直產(chǎn)業(yè)端,垂直產(chǎn)業(yè)端有很多任務。有些任務是要做專業(yè)數(shù)據(jù)分析,有的任務是要做專業(yè)報告寫作。這些任務之間是可以用不同模型,甚至有的是模型,有的是知識圖譜,或者用業(yè)務規(guī)則的方式融合在一起,更好發(fā)揮作用。今天我們也非常有幸邀請到百川智能的鄧江副總裁,待會兒一起參加達觀的圓桌,跟大家來做分享。
在我們整個實踐過程當中,在過去一年,我們的思考是,智能的知識庫是實現(xiàn)AI落地應用的關鍵環(huán)節(jié)。在垂直領域里面,有多少垂直專業(yè)知識、垂直業(yè)務能力能夠開發(fā)出優(yōu)秀的垂直大模型應用系統(tǒng)。我們自己非常自豪在過去一年時間中,開發(fā)了達觀優(yōu)秀知識管理系統(tǒng)。今天也給大家正式宣布一下,基于我們垂直大模型和行業(yè)專業(yè)知識,開發(fā)了達觀知識管理5.0版本,今天正式發(fā)布。
在開發(fā)我們智能知識管理系統(tǒng)的過程當中,其實也看到,作為今天垂直領域大模型應用的一個基礎,需要開發(fā)各種各樣原生的功能,其實非常重要。讓這些功能真正變得好用、易用,我覺得才是垂直大模型落地的關鍵。
圍繞知識管理,我們開發(fā)了很多功能。我們覺得這些功能每一個點看上去都很細小,但合在一起對我們每個組織、每個單位來說,就是一個大幅度提升工作效能非常好的方式。
1文檔匯集管理
很多單位在今天落地人工智能的時候,首當其沖要解決的問題并不是要搞一個高精尖的技術(shù),而是怎么樣把單位各種各樣散落在各個地方的文檔資料集中管理起來,因為知識沉淀在這些文檔資料里面。很多單位的報告、資料、研發(fā)文檔、技術(shù)報告、項目管理報告等等,它們可能散落在單位各種郵箱里面、OA辦公系統(tǒng)、管理信息系統(tǒng)當中,現(xiàn)在需要能夠把這些散落在我們很多人電腦里,或者很多系統(tǒng)里的文檔資料匯總在一起,挖掘這些資料背后的知識,我覺得這個非常重要。
2自適應路由問答應用
大模型做問答是現(xiàn)在非常熱門的一個方向,在問答領域里面,我們發(fā)現(xiàn)在一個單位內(nèi)部,其實問答的答案來自于很多地方,只是一個簡單的文檔問答很難滿足需求。我們開發(fā)了自適應路由問答應用,能夠讓計算機統(tǒng)一一個問答入口,但是背后走不同分支找答案。有的答案是在各種各樣知識庫里面,所以我們需要有知識庫的問答。當我們知識庫問答用相應技術(shù)去處理的時候,讓計算機給我們問題找答案,并且可以把答案相關參考文檔能夠很好幫你找出來。在這種嚴肅專業(yè)領域里面,文檔資料是否能找到它的溯源,是否能夠真實可靠是非常重要的。
這個地方還有一個細節(jié),我們在開發(fā)企業(yè)級文檔問答的時候發(fā)現(xiàn)非常重要。我們文檔問答時,它的答案是否有權(quán)限,這是往往會被忽略的問題。在一個單位里面,它的文檔資料其實有很多種、很多部門、很多方面以及很多層級。不同的人對不同文檔有不同的權(quán)利去訪問。但是大模型在學習這些文檔的時候,我們出這些問題答案的時候,一定要重視有些答案來自一些文檔。比如有些單位有些重要的合同,合同重要的信息存在文檔里面。如果有些人事沒有權(quán)限訪問,當他問來自這些合同問題的時候,這些答案不應該被大模型顯示出來,所以就權(quán)限管理方向,在企業(yè)級問答里面是一個很重要的話題,我們也開發(fā)了相應技術(shù),能夠非常好實現(xiàn)對問答檔案權(quán)限管控工作。
3垂直文檔知識問答
我們可以針對一個比較長的報告、資料、文書,針對里面所蘊含的知識做這個問答的工作,比如可以選擇特定上傳文檔,針對這個文檔內(nèi)容對它形成文檔內(nèi)容分析工作,并且可以針對所上傳的文檔,從里面進行特定知識問答和管理工作。今天運用大模型的歸納能力,可以非常好地針對這個文檔形成大綱、思維導圖,形成對這個文檔和其他文檔之間關聯(lián)關系的分析工作。
4Text-to SQL
很多企業(yè)的數(shù)據(jù)其實沉淀在各種各樣數(shù)據(jù)報表、BI系統(tǒng),或者底層結(jié)構(gòu)化關系數(shù)據(jù)庫當中。我們這邊開發(fā)了Text-to SQL,能夠把自然語言的問題轉(zhuǎn)化成SQL去完成。如果問一個公司的保費收入等情況,相應數(shù)據(jù)其實在各種后臺數(shù)據(jù)報表當中。今天計算機要變成一個SQL語句,從里面讀取相關數(shù)據(jù),并且展示成相關內(nèi)容。
5垂直文本寫作
實現(xiàn)很多專業(yè)化文檔寫作,比如標書、債券募集書、審計報告、企業(yè)運營周報等等,這些是非常專業(yè)的報告。我們這個寫作工作就是讓AI自動去完成,同時右邊有非常結(jié)構(gòu)化的表格數(shù)據(jù)來做交叉印證。很多專業(yè)報告寫作既要有優(yōu)美的文字,同時也需要有非常嚴謹?shù)臄?shù)據(jù),把這兩種方式相結(jié)合,才能寫出專業(yè)可用的報告。這是我們在垂直領域?qū)I(yè)報告寫作方面做的產(chǎn)品探索,我們認為也是非常好的一個落地場景應用。
另外,我們也介紹自己的創(chuàng)新功能。這些點看上去不大,但是其實非常有效。
1文檔自動歸類
很多單位里面不是說沒有一個所謂傳統(tǒng)知識庫,它們傳統(tǒng)知識庫只是一個網(wǎng)盤,這個網(wǎng)盤里面匯集了大量資料和文檔,這些資料和文檔往往比較散亂。今天我們可以讓大模型自動閱讀文檔資料,可以對文檔形成多級標簽體系,打上各種各樣業(yè)務標簽,能夠?qū)ξ臋n資料進行自動化歸類工作。我們每個人電腦里面如果工作時間久了,是會有很多的文檔,這些文檔可能就“沉睡”在我們硬盤里面,今天我們可以讓計算機幫你把這些文檔資料井井有條地分類歸納好,分門別類地放到各種目錄當中去,打好各種標簽。這些對個人來說,以及對單位來說都是非常重要的事情。
2文檔知識推薦
根據(jù)每個用戶的興趣、需求、歷史行為,從大量文檔資料當中篩選出相關知識點推薦給你。大家知道達觀智能化推薦系統(tǒng)在行業(yè)中也是聲名鵲起,服務了很多大型企業(yè),為它們構(gòu)建個性化推薦相關功能。今天我們也把大模型和個性化推薦結(jié)合在一起,以前是人去找知識,以后是知識去找人,知識去找到合適的人,并推薦給他。
3文檔智能命名
智能命名工作是什么意思?我們在很多企業(yè)里面落地的時候發(fā)現(xiàn),很多單位文檔資料命名方式相對來說比較隨意。大家一定見過很多文檔叫1.PDF、通知.DOC、AA.tax等等,這些文檔資料命名方式在新建的時候比較隨意。我們還見過新建1.DOC,新建2.DOC。這么多文檔資料的文件名,今天也可以讓AI自動幫你做一個重寫工作,更加有條理,能夠把文檔資料內(nèi)容,計算機自動做理解后更新到文檔名上,避免文檔名大量重復和不方便事后管理工作,這些文檔命名的方式也是我們在拓展的應用。
4文檔知識提取
這在專業(yè)領域,尤其在金融領域里面非常有價值。很多資料和報告中有很多結(jié)構(gòu)化的信息,我們讓計算機自動解讀出來,把里面結(jié)構(gòu)化重要信息提煉出來以后,可以形成針對這個文檔的知識卡片,方便我們快速定位和分析內(nèi)容。
5文檔去重檢測
我們在很多企業(yè)檔案庫、知識庫構(gòu)建過程當中,我們也可以讓計算機自動去找到重復的知識,分析工作,以及生成文檔目錄大綱相關工作,自動提取PDF大綱,方便瀏覽和定位。
6文檔問答對提取
很多單位說要構(gòu)建企業(yè)自動化問答對,把一個文檔資料里面這些知識點自動形成相應問答知識庫,方便人員來定位。
7專業(yè)文檔審核
我們在證券領域做了很多,把投行規(guī)則、證監(jiān)會文件指導要求沉淀到審核規(guī)則當中,提升我們文檔質(zhì)量控制工作。這邊可以看到大模型可以給出很多結(jié)論、原因、審核要求,以及相應規(guī)范,幫我們?nèi)烁脺p輕我們寫作質(zhì)量的控制工作。
不管是在銀行業(yè),或者在證券業(yè),還是在其他涉及資金管理方面,銀行流水自動化核查工作都是我們今天在金融領域做大模型落地時很重要的一個環(huán)節(jié)。我們通過流水透視、欺詐挖掘、異常交易分析等等,可以更好從海量數(shù)據(jù)資料當中找到我們?nèi)搜酆茈y歸納出來的規(guī)律,進行分析挖掘工作。
現(xiàn)在炙手可熱的Agent相關技術(shù),我們把達觀RPA和大模型相結(jié)合,讓RPA來實現(xiàn)雙手的工作,讓大模型實現(xiàn)大腦的工作,結(jié)合在一起打造我們智能化數(shù)字員工。大家知道Agent一定是未來我們白領生產(chǎn)力創(chuàng)造的很重要技術(shù)途徑。最后Agent長什么樣?怎么樣才能夠提升它的專業(yè)度?這正是我們在探索的,目前我們探索了一些工作。
在今天RPA相關領域中,有很多聚集的Agent可以做很多專業(yè)領域工作。我們把大模型結(jié)合進去以后,可以更好進行任務調(diào)度、流程開發(fā)和任務執(zhí)行工作,這些我們都在積極探索相關工作。相信未來垂直大模型和知識庫結(jié)合以后,再加上今天RPA很多流程化的執(zhí)行任務,可以把人從大量復雜日常工作當中解脫出來,我們認為這也是未來一個重要方向。
剛才大家也見證了我們與復旦大學、燧原科技、國泰君安證券,形成了一個非常好的金融垂直大模型產(chǎn)學研用發(fā)展鏈路。復旦大學負責模型研究工作,燧原科技提供強大的智能化算力,達觀數(shù)據(jù)開發(fā)了非常接地氣落地產(chǎn)品工作,最后在國泰君安證券場景應用當中,希望能做出很多應用探索工作。
最后,達觀作為一家國內(nèi)智能文本處理專業(yè)廠商,希望我們的技術(shù)能夠賦能千行百業(yè)。我們今天的技術(shù)與一千年以前的活字印刷術(shù)是一樣的,用新的科技手段帶來文字資料處理的效率革命。我們相信這些技術(shù)能夠在我們?nèi)粘^k公領域里面大放異彩,為我們每個人日常、每個單位未來工作提供智能化源源不斷動力,期待我們未來提供更多、更優(yōu)質(zhì)的產(chǎn)品為大家服務。