2023年8月27日,在第十七屆全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS 2023)上,達(dá)觀數(shù)據(jù)聯(lián)合中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)發(fā)起和倡導(dǎo)的開(kāi)放知識(shí)圖譜社區(qū)聯(lián)盟項(xiàng)目OpenKG 、螞蟻集團(tuán)、同濟(jì)大學(xué)、天津大學(xué)、浙江大學(xué)等核心參編單位發(fā)布了《語(yǔ)義增強(qiáng)可編程知識(shí)圖譜(Semantic-enhanced Programmable Graph)白皮書(shū)》,達(dá)觀數(shù)據(jù)副總裁王文廣、 資深人工智能專家賀夢(mèng)潔參與白皮書(shū)編寫(xiě)。語(yǔ)義增強(qiáng)可編程知識(shí)圖譜(以下簡(jiǎn)稱”SPG”)主要從企業(yè)數(shù)字化轉(zhuǎn)型的視角出發(fā),探討如何利用知識(shí)圖譜技術(shù)擴(kuò)展屬性圖來(lái)幫助企業(yè)更好地管理數(shù)據(jù)和知識(shí)資產(chǎn)、發(fā)現(xiàn)數(shù)據(jù)與知識(shí)的價(jià)值。通過(guò) SPG 框架,我們可以實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)到靜態(tài)自動(dòng)分層、領(lǐng)域內(nèi)知識(shí)的唯一性和知識(shí)之間的依賴關(guān)系定義。同時(shí),SPG框架還提供了可編程的范式,支持快速構(gòu)建新的領(lǐng)域圖譜和和圖譜跨場(chǎng)景遷移。(文末點(diǎn)擊“閱讀原文下載白皮書(shū))
SPG:語(yǔ)義增強(qiáng)可編程框架
首先,SPG通過(guò)形式化描述和客觀事實(shí)兩個(gè)視角,明確了數(shù)字世界知識(shí)的定義,如圖1所示,從領(lǐng)域類型結(jié)構(gòu)約束、領(lǐng)域內(nèi)實(shí)例唯一性和知識(shí)間邏輯依賴性對(duì)形式化表示進(jìn)行了定義,使機(jī)器可理解和處理。然后,SPG框架實(shí)現(xiàn)了知識(shí)層級(jí)間的兼容遞進(jìn),以適應(yīng)工業(yè)級(jí)的知識(shí)圖譜應(yīng)用。最后,SPG框架通過(guò)分層遞進(jìn),可以有效銜接大數(shù)據(jù)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)體系到知識(shí)體系的自動(dòng)構(gòu)建。
圖1 SPG 知識(shí)語(yǔ)義框架
SPG 的核心目標(biāo)是構(gòu)建基于 SPG 的標(biāo)準(zhǔn)化知識(shí)引擎架構(gòu),給領(lǐng)域圖譜構(gòu)建提供明確的語(yǔ)義表示、邏輯規(guī)則定義、算子框架(構(gòu)建、推理)等,支持各廠商可插拔的適配基礎(chǔ)引擎、算法服務(wù),構(gòu)建解決方案等。
“曹植”+SPG提升領(lǐng)域知識(shí)構(gòu)建與推理效率
2023年7月7日,達(dá)觀正式發(fā)布“曹植”大模型。區(qū)別于chatGPT等通用大模型,作為垂直專用的國(guó)產(chǎn)大語(yǔ)言模型,“曹植”大模型能針對(duì)金融、工業(yè)、財(cái)稅、政務(wù)、能源等垂直行業(yè)來(lái)開(kāi)發(fā)特定應(yīng)用,可以為每個(gè)客戶量身定制、私有化部署,確保數(shù)據(jù)安全私密。
“曹植”大模型具有長(zhǎng)文本、垂直化和多語(yǔ)言的特點(diǎn),同時(shí)創(chuàng)新性地采用多模型并聯(lián)的架構(gòu)融合多種NLP和知識(shí)圖譜。既能充分發(fā)揮大模型和傳統(tǒng)模型的優(yōu)點(diǎn),又能有效避免大模型“幻覺(jué)”特性帶來(lái)的準(zhǔn)確性問(wèn)題。知識(shí)圖譜的事實(shí)性、時(shí)效性和邏輯嚴(yán)謹(jǐn)性成為了“曹植”大模型的絕佳能力補(bǔ)充。同時(shí)并聯(lián)架構(gòu)使得“曹植”大模型具有很強(qiáng)的魯棒性,可以提供更優(yōu)質(zhì)的人工智能服務(wù)和產(chǎn)品。
與此同時(shí),多模型并聯(lián)架構(gòu)帶來(lái)的好處還有,不同尺寸、不同參數(shù)量級(jí)的大模型相互融合,能夠很好地適應(yīng)不同細(xì)分行業(yè)、不同垂直應(yīng)用場(chǎng)景的差異性需求,模型落地性效果好、實(shí)用性強(qiáng);并聯(lián)架構(gòu)能充分兼容各類其他外部模型,并為后續(xù)擴(kuò)展預(yù)留充足藕合空間,為未來(lái)本地化部署中客戶原生模型兼容問(wèn)題未雨綢繆。
區(qū)別于一問(wèn)一答的簡(jiǎn)單短文本生成,“曹植”大模型支持多種語(yǔ)言長(zhǎng)文本的自動(dòng)化寫(xiě)作和多語(yǔ)種翻譯等功能,全方位賦能長(zhǎng)文檔寫(xiě)作、機(jī)器翻譯、語(yǔ)義分析審核、知識(shí)問(wèn)答、text-to-SQL等場(chǎng)景,可針對(duì)不同行業(yè)、領(lǐng)域的文案需求,進(jìn)行深度優(yōu)化和個(gè)性化定制。
“曹植”可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長(zhǎng)文本寫(xiě)作,自動(dòng)起草多種類型的文檔,同時(shí)具有自動(dòng)排版、智能糾錯(cuò)、文本潤(rùn)色、自動(dòng)生成摘要等特色功能;還將實(shí)現(xiàn)多模態(tài)內(nèi)容生成,如長(zhǎng)文檔中的表格、圖表、圖片等;支持中文、英文、法語(yǔ)、德語(yǔ)、日語(yǔ)、韓語(yǔ)等數(shù)十種語(yǔ)言的寫(xiě)作,輔助人工大幅提高辦公效率;在長(zhǎng)文檔翻譯方面,對(duì)原文的標(biāo)題、段落等內(nèi)容實(shí)現(xiàn) 1:1版式還原,提供實(shí)時(shí)的翻譯體驗(yàn),廣泛應(yīng)用于多語(yǔ)言文檔密集處理的場(chǎng)景。
圖2?“曹植”長(zhǎng)文本寫(xiě)作應(yīng)用
基于SPG強(qiáng)Schema、邏輯約束、符號(hào)化的表達(dá)能力,“曹植”大模型可以充分發(fā)揮其強(qiáng)大的結(jié)構(gòu)、語(yǔ)義、邏輯理解能力,進(jìn)一步提升領(lǐng)域知識(shí)構(gòu)建與推理效率。
大模型和SPG的雙向驅(qū)動(dòng)目標(biāo)架構(gòu),主要分為四部分:大模型適配接口(LLM Adapter Interface)、知識(shí)圖譜的自動(dòng)抽取&構(gòu)建(SPG Constructor)、基于大模型實(shí)現(xiàn)SPG的自然語(yǔ)言查詢(SPG NL Query)和推理(SPG NL Reasoner)。
圖3 SPG和LLM雙向驅(qū)動(dòng)的目標(biāo)架構(gòu)
基于“曹植”大模型的知識(shí)圖譜構(gòu)建
達(dá)觀知識(shí)圖譜平臺(tái)是集成圖譜建模、數(shù)據(jù)處理、知識(shí)抽取、圖譜構(gòu)建、圖譜編輯、圖譜應(yīng)用等功能模塊的可運(yùn)營(yíng)、可管理的知識(shí)圖譜平臺(tái),支持創(chuàng)建并管理多個(gè)知識(shí)圖譜,支持知識(shí)圖譜迭代更新,支持創(chuàng)建、評(píng)估、管理多種模型,支持RBAC模式的權(quán)限管理。
以往達(dá)觀知識(shí)圖譜的知識(shí)抽取功能基于BERT模型和傳統(tǒng)實(shí)體關(guān)系抽取模型利用多份標(biāo)注樣本進(jìn)行模型訓(xùn)練實(shí)現(xiàn),并需要根據(jù)場(chǎng)景和樣本情況進(jìn)行調(diào)參優(yōu)化,對(duì)標(biāo)注樣本質(zhì)量、數(shù)量及算法工程經(jīng)驗(yàn)均有一定要求。
接入“曹植”大模型后,可以基于所設(shè)計(jì)的 Schema 進(jìn)行提示工程的工作,來(lái)實(shí)現(xiàn)基于小樣本量的實(shí)體、關(guān)系和屬性的自動(dòng)抽取,進(jìn)而構(gòu)建出知識(shí)圖譜。
自動(dòng)化生成 Prompt 的引擎,也可以參考本體中的推理引擎來(lái)實(shí)現(xiàn)。這里自動(dòng)生成 prompt 會(huì)依賴于 Schema 中的自然語(yǔ)言注釋,以及人工梳理的樣例。在實(shí)踐中,通過(guò)人工梳理樣例或使用大模型自動(dòng)生成抽取樣例,有助于使用少樣本學(xué)習(xí),來(lái)提升大模型抽取的準(zhǔn)確性。
圖4 大模型抽取示例
達(dá)觀知識(shí)圖譜平臺(tái)利用“曹植”大模型來(lái)構(gòu)建知識(shí)圖譜,同時(shí),在必要的情況下,提供人工審核來(lái)確保所構(gòu)建知識(shí)圖譜的準(zhǔn)確性。
圖5 大模型抽取審核示例
基于大模型進(jìn)行實(shí)體抽取、關(guān)系提取等方式,從大量文本中構(gòu)建出知識(shí)圖譜的核心在于知識(shí)圖譜 Schema 中定義了知識(shí)圖譜中的實(shí)體類型、關(guān)系類型和屬性類型等元素的規(guī)范,特別是相關(guān)的自然語(yǔ)言注釋。這與 SPG-Schema 的規(guī)范強(qiáng)相關(guān),在 Schema 中提供自然語(yǔ)言注釋,有助于將其轉(zhuǎn)化為大模型抽取和交互的 Prompt。
Schema 的自然語(yǔ)言注釋,一方面能夠?qū)崿F(xiàn) Prompt 的自動(dòng)生成,另一方面在利用大模型進(jìn)行知識(shí)圖譜構(gòu)建時(shí),可以利用大模型來(lái)自動(dòng)生成少樣本學(xué)習(xí)的樣本。在實(shí)踐中,在關(guān)系抽取中,少樣本學(xué)習(xí)是非常重要的,零樣本要實(shí)現(xiàn)好的關(guān)系抽取非常難,而少樣本學(xué)習(xí)能夠大幅提升關(guān)系抽取的效果。
“曹植”大語(yǔ)言模型
“曹植”針對(duì)不同行業(yè)開(kāi)發(fā)特定應(yīng)用和訓(xùn)練專屬數(shù)據(jù)庫(kù),使用海量訓(xùn)練數(shù)據(jù)進(jìn)行“曹植”大模型的預(yù)訓(xùn)練,生成具備基礎(chǔ)語(yǔ)言能力和垂直應(yīng)用能力的模型;支持個(gè)性化定制,本地服務(wù)器私有化部署,獨(dú)家提供精調(diào)服務(wù),以加強(qiáng)垂直領(lǐng)域?qū)S萌蝿?wù)的能力;堅(jiān)持訓(xùn)練數(shù)據(jù)與算法模型自主可控,與國(guó)產(chǎn)GPU合作伙伴開(kāi)展長(zhǎng)期合作,不斷優(yōu)化高質(zhì)量硬件設(shè)備,以適應(yīng)市場(chǎng)需求和技術(shù)發(fā)展,讓大模型賦能百業(yè)。
“曹植”大語(yǔ)言模型也將進(jìn)一步夯實(shí)達(dá)觀產(chǎn)業(yè)應(yīng)用智能化基座,全面增強(qiáng)AI全產(chǎn)品矩陣能力。這也是國(guó)內(nèi)大規(guī)模語(yǔ)言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級(jí)模型,未來(lái)將可持續(xù)賦能金融、政務(wù)、制造等多個(gè)垂直領(lǐng)域和通用場(chǎng)景人工智能的落地和發(fā)展。達(dá)觀知識(shí)圖譜多年深耕金融、制造、能源等行業(yè),積累了豐富的知識(shí)建模和應(yīng)用場(chǎng)景經(jīng)驗(yàn),融合“曹植”大模型以后,充分發(fā)揮“曹植”大模型超強(qiáng)的語(yǔ)義、結(jié)構(gòu)、邏輯理解力,進(jìn)一步提升了知識(shí)抽取的準(zhǔn)確性和泛化能力,同時(shí)補(bǔ)足了傳統(tǒng)模型下小樣本難以實(shí)現(xiàn)自動(dòng)抽取的短板。另一方面,借助達(dá)觀知識(shí)圖譜提供知識(shí)基座,能夠有效避免單一大模型的“胡編”、“幻覺(jué)”等不確定性問(wèn)題,真正讓大模型在產(chǎn)業(yè)實(shí)際場(chǎng)景下落地應(yīng)用。