知識圖譜的自動(dòng)化構(gòu)建是知識圖譜中具有極強(qiáng)挑戰(zhàn)性且巨大應(yīng)用價(jià)值的技術(shù)方向。就實(shí)體抽取技術(shù),達(dá)觀數(shù)據(jù)副總裁、上海市人工智能技術(shù)標(biāo)準(zhǔn)委員會委員王文廣提到“狹義的實(shí)體抽取,即命名實(shí)體識別(NER)技術(shù)發(fā)展至今已較為成熟,能夠很好地抽取出人名、地名、機(jī)構(gòu)名等少數(shù)類型的實(shí)體。但在知識圖譜實(shí)際應(yīng)用中,則需要抽取出各式各樣各不相同的廣義實(shí)體,比如金融業(yè)中的產(chǎn)品名稱、品牌名、業(yè)務(wù)名、風(fēng)險(xiǎn)提示、觀點(diǎn)等,制造業(yè)中的失效模式、失效現(xiàn)象、工藝、設(shè)備、零部件、物料、方法、故障原因、改善措施等,商業(yè)中的產(chǎn)品、功能、特點(diǎn)、適合人群、搭配方法等等。抽取出這些廣義實(shí)體的挑戰(zhàn)巨大?!标P(guān)系抽取技術(shù)也同樣問題多挑戰(zhàn)大,已有關(guān)系抽取大多基于實(shí)體對之間共現(xiàn),而現(xiàn)實(shí)復(fù)雜的場景中,實(shí)體對共現(xiàn)既可能不存在任何關(guān)系,可能存在萬千種的關(guān)系,這就造成了關(guān)系抽取的難題。此外,在知識圖譜構(gòu)建中,還涉及實(shí)體消歧、實(shí)體融合等方面的技術(shù)要求。
金融研報(bào)是各類金融研究結(jié)構(gòu)對宏觀經(jīng)濟(jì)、金融、行業(yè)、產(chǎn)業(yè)鏈以及公司的研究報(bào)告,是金融行業(yè)中最為復(fù)雜、多樣的文檔。報(bào)告通常是專業(yè)人員撰寫,對宏觀、行業(yè)和公司的數(shù)據(jù)信息搜集全面、研究深入,質(zhì)量高,內(nèi)容可靠。報(bào)告內(nèi)容往往包含產(chǎn)業(yè)、經(jīng)濟(jì)、金融、政策、社會等多領(lǐng)域的數(shù)據(jù)與知識,是構(gòu)建行業(yè)知識圖譜非常關(guān)鍵的數(shù)據(jù)來源。另一方面,由于研報(bào)本身所容納的數(shù)據(jù)與知識涉及面廣泛,專業(yè)知識眾多,不同的研究結(jié)構(gòu)和專業(yè)認(rèn)識對相同的內(nèi)容的表達(dá)方式也會略有差異。這些特點(diǎn)導(dǎo)致了從研報(bào)自動(dòng)化構(gòu)建知識圖譜困難重重,解決這些問題則能夠極大促進(jìn)自動(dòng)化構(gòu)建知識圖譜方面的技術(shù)進(jìn)步。同時(shí)所構(gòu)建的圖譜在大金融行業(yè)、監(jiān)管部門、政府、行業(yè)研究機(jī)構(gòu)和行業(yè)公司等應(yīng)用非常廣泛,如風(fēng)險(xiǎn)監(jiān)測、智能投研、智能監(jiān)管、智能風(fēng)控等,具有巨大的學(xué)術(shù)價(jià)值和產(chǎn)業(yè)價(jià)值。
化1.jpg)
化2.jpg)
化3.png)
化4.png)
文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph
作者:王文廣,徐永林、杜春輝、陳運(yùn)文、王逸捷、文輝
引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108
- 所有隊(duì)伍都使用了規(guī)則或者labelling function來生產(chǎn)訓(xùn)練樣本,只有一個(gè)隊(duì)伍在自動(dòng)生成樣本之外,又額外人工標(biāo)注了20份的研報(bào)來作為補(bǔ)充和驗(yàn)證的訓(xùn)練樣本。
- 所有隊(duì)伍在實(shí)體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規(guī)則的方法來對特定的實(shí)體類型進(jìn)行補(bǔ)充。
- 在關(guān)系和屬性抽取方面,所有的隊(duì)伍都使用了基于共現(xiàn)的方法,共現(xiàn)是遠(yuǎn)程監(jiān)督的基本假設(shè),也就是說,當(dāng)兩個(gè)實(shí)體共同出現(xiàn)在一個(gè)較短的一段文本時(shí),即可假設(shè)它們存在符合相應(yīng)的關(guān)系。在基于共現(xiàn)的假設(shè)之上,三支隊(duì)伍使用了規(guī)則來判斷是否真正存在這種關(guān)系,另外兩只隊(duì)伍使用了基于BERT的模型來對關(guān)系進(jìn)行分類。
- 其中一支隊(duì)伍使用了聚類的方法來將相似或相同主題的研報(bào)給聚在一起,對研報(bào)進(jìn)行了預(yù)處理。
- 從本次基于知識圖譜模式的自動(dòng)化構(gòu)建知識圖譜評測的結(jié)果來看,單純使用算法來構(gòu)建完全自動(dòng)化地構(gòu)建知識圖譜,尚存在較多挑戰(zhàn),這里總結(jié)了一些具有相當(dāng)挑戰(zhàn)性的課題和研究方向:
- 在給定知識圖譜模式和種子知識圖譜來自動(dòng)化的構(gòu)建知識圖譜上,現(xiàn)有的方法效果都不太好,如何實(shí)現(xiàn)端到端或者多步的框架實(shí)現(xiàn)知識圖譜的完全自動(dòng)化構(gòu)建是值得繼續(xù)探索的。
- 通過知識圖譜及其對應(yīng)的Schema如何實(shí)現(xiàn)自動(dòng)化標(biāo)注語料是一個(gè)值得研究的課題,能夠?qū)崿F(xiàn)高精度的自動(dòng)化標(biāo)注語料可以帶來更好的抽取模型。此外,自動(dòng)化標(biāo)注語料方面的評測也是一件非常有意義的事情。
- 實(shí)體抽取方面,評測的優(yōu)秀選手都使用了基于BERT的模型,再加上基于規(guī)則的方法來實(shí)現(xiàn),在這種真實(shí)的場景且計(jì)算力資源受限的情況下,如何在少量語料的情況下實(shí)現(xiàn)高精度的抽取。
- 關(guān)系和屬性抽取與識別上,目前集中在采用短文本內(nèi)共現(xiàn)并過濾的方法來實(shí)現(xiàn),這極大的依賴于實(shí)體抽取的F1分?jǐn)?shù),高precision和高recall的實(shí)體抽取決定了關(guān)系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實(shí)現(xiàn)好的關(guān)系和屬性抽取?
- 本次評測沒有看到使用端到端的實(shí)現(xiàn)實(shí)體和關(guān)系聯(lián)合抽取的模型,可能的原因是實(shí)體和關(guān)系類型較多且沒有大量的語料,那么在這種情況下如何開發(fā)出端到端的模型也是非常具有挑戰(zhàn)性的課題。
- 當(dāng)Schema的規(guī)模進(jìn)一步擴(kuò)大時(shí),比如50種實(shí)體類型,數(shù)百種的實(shí)體屬性和實(shí)體間的關(guān)系,對這樣的知識圖譜研究其自動(dòng)化構(gòu)建是一個(gè)兼具挑戰(zhàn)性與現(xiàn)實(shí)意義的課題。
- 多語言的知識圖譜自動(dòng)化構(gòu)建技術(shù)的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實(shí)體融合的情況。但在真實(shí)場景下,多語言語料以及構(gòu)建多語言圖譜是非常重要的。這涉及了多方面的內(nèi)容,包括多語言的實(shí)體、關(guān)系和屬性的抽取,多語言之間實(shí)體的融合等等方面技術(shù)的研究。同時(shí),組織多語言知識圖譜自動(dòng)化構(gòu)建方面的評測也是非常有意義的事情。
- 本次評測中隱含著少量實(shí)體的消歧與融合,這塊沒有顯性的進(jìn)行評測,未來可以將這塊明確的表達(dá)出來,以促進(jìn)相關(guān)領(lǐng)域的研究。
也希望大家引用本論文
引用:Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence3(3),418-443(2021).doi:10.1162/dint_a_00108