同濟(jì)大學(xué)王昊奮:知識(shí)圖譜在多模態(tài)大數(shù)據(jù)時(shí)代的創(chuàng)新和實(shí)踐 | 世界人工智能大會(huì)達(dá)觀數(shù)據(jù)論壇
在2020年世界人工智能大會(huì)云端峰會(huì)中,達(dá)觀數(shù)據(jù)與浦東青聯(lián)聯(lián)合舉辦了“智能時(shí)代,語(yǔ)你同行”行業(yè)論壇,圍繞語(yǔ)言智能,在云端與多位行業(yè)專(zhuān)家與學(xué)者展開(kāi)了一場(chǎng)精彩線上交流盛宴。

同濟(jì)大學(xué)特聘研究員王昊奮教授圍繞知識(shí)圖譜詳細(xì)介紹了多模態(tài)知識(shí)圖譜的構(gòu)建、以及大規(guī)模知識(shí)推理、多策略知識(shí)問(wèn)答等關(guān)鍵技術(shù),并就行業(yè)知識(shí)圖譜在金融、工業(yè)互聯(lián)網(wǎng)、泛傳媒、抗疫等領(lǐng)域的實(shí)踐進(jìn)行了詳細(xì)介紹。
以下為演講內(nèi)容:
大家好!非常榮幸受邀來(lái)到2020年世界人工智能大會(huì)由達(dá)觀數(shù)據(jù)主辦的智能時(shí)代 “語(yǔ)”你同行的云端高峰論壇。在經(jīng)歷了互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展后,我們積累了很多文本大數(shù)據(jù),此外也擁有了大量語(yǔ)音、圖像、視頻等多模態(tài)數(shù)據(jù)。
面對(duì)這樣的數(shù)據(jù)增長(zhǎng)與豐富,我們也悄然進(jìn)入了人工智能的下半場(chǎng)。上半場(chǎng)的人工智能多由感知智能主宰,能夠做到能聽(tīng)會(huì)說(shuō),能看會(huì)認(rèn)。下半場(chǎng)則不滿足于模擬人的各種感知能力,而要去提升其認(rèn)知能力。也就是說(shuō),我們開(kāi)始研究人類(lèi)大腦并探索認(rèn)知的機(jī)理,從而做到具備能理解、會(huì)思考、可解釋等特征的認(rèn)知智能。
2017年國(guó)務(wù)院發(fā)布了新一代人工智能發(fā)展規(guī)劃,科技部、工信部以及國(guó)家各部委紛紛發(fā)布了各種重大專(zhuān)項(xiàng)指南,布局新一代人工智能。其中有很多詞被反復(fù)提起,認(rèn)知出現(xiàn)16次,知識(shí)圖譜則出現(xiàn)13次。同時(shí)大家非常關(guān)注在金融、客服、教育、醫(yī)療等各個(gè)行業(yè)的落地。

圖1 人工智能的下半場(chǎng):認(rèn)知智能
自從2012年谷歌率先提出知識(shí)圖譜依賴,各大互聯(lián)網(wǎng)公司和科研院所已經(jīng)把知識(shí)圖譜擺到與深度學(xué)習(xí)同樣重要的地位,且作為認(rèn)知智能的關(guān)鍵技術(shù)來(lái)進(jìn)行深入研究。那么知識(shí)圖譜能夠做什么?簡(jiǎn)而言之兩件事情:第一讓機(jī)器更好地理解數(shù)據(jù),第二讓機(jī)器更好地解釋現(xiàn)象。
圍繞我們本次主題,知識(shí)圖譜在各類(lèi)深度學(xué)習(xí)的技術(shù)中也開(kāi)始與各種感知智能技術(shù)做深入結(jié)合,比如圖像識(shí)別技術(shù)、語(yǔ)音識(shí)別技術(shù)等。另一方面,知識(shí)圖譜的動(dòng)態(tài)性和多模態(tài)性也慢慢成為一種趨勢(shì)。
知識(shí)圖譜有完整和清晰的生命周期,主要包含三部分:
-
首先,解決知識(shí)從哪里來(lái)以及知識(shí)圖譜如何進(jìn)行高效構(gòu)建?
-
其次,知識(shí)如何用?在原有知識(shí)的基礎(chǔ)上,如何進(jìn)一步發(fā)現(xiàn)隱含知識(shí),從而增加額外價(jià)值;
-
最后,獲得完成的知識(shí)圖譜后,如何在各種行業(yè)和互聯(lián)網(wǎng)應(yīng)用中做大規(guī)模的智能化賦能是關(guān)鍵。

圖2 多模態(tài)知識(shí)圖譜構(gòu)建方法比對(duì)
對(duì)于知識(shí)(尤其是多模態(tài))圖譜的構(gòu)建,傳統(tǒng)的做法把將不同模態(tài)分別完成抽取并通過(guò)圖譜融合來(lái)形成最后的多模態(tài)圖譜。如圖2左半部分所示,先基于文本和圖像進(jìn)行信息抽取,對(duì)于抽取得到的多個(gè)特定模態(tài)圖譜融合成多模態(tài)知識(shí)圖譜。
這樣構(gòu)建形成的多模態(tài)圖譜存在以下問(wèn)題:源頭上并沒(méi)有考慮不同模態(tài)特征之間的依賴和對(duì)應(yīng)關(guān)系,使得最終融合的結(jié)果無(wú)法很好地刻畫(huà)多模態(tài)數(shù)據(jù)本身蘊(yùn)含的各種關(guān)聯(lián)。因此,我們更進(jìn)一步,使得圖譜本身一開(kāi)始就具備多模態(tài)的特性。所構(gòu)建的多模態(tài)圖譜能幫助可幫助理解多模態(tài)的數(shù)據(jù),完成可視關(guān)系識(shí)別和跨模態(tài)實(shí)體鏈接等任務(wù),并進(jìn)一步應(yīng)用在問(wèn)答、搜索、可視分析和輔助決策等方面。
從知識(shí)圖譜到多模態(tài)圖譜
如何從傳統(tǒng)圖譜拓展到多模態(tài)圖譜?對(duì)于圖譜中每一個(gè)實(shí)體或概念,關(guān)聯(lián)相對(duì)應(yīng)的圖象。我們希望收集到全天候不同角度、不同方位、以及不同主題下的內(nèi)容,使得更好的刻畫(huà)多模態(tài)知識(shí),尤其是可視化的關(guān)系。由于初始關(guān)聯(lián)的圖像比較少,我們進(jìn)一步采用近似K近鄰來(lái)做圖像擴(kuò)展,保障相關(guān)性的同時(shí)也達(dá)到多樣性的目的從而更完整的表達(dá)對(duì)應(yīng)的圖譜節(jié)點(diǎn)對(duì)象。
圖3 從KG到多模態(tài)KG:圖像選取與擴(kuò)充策略
長(zhǎng)尾可視關(guān)系識(shí)別
圖4 可視關(guān)系長(zhǎng)尾性和可視關(guān)系檢測(cè)
給定一張圖片,我們可以識(shí)別到很多對(duì)象,在此基礎(chǔ)上,進(jìn)一步可以檢測(cè)不同對(duì)象之間的關(guān)系。
如圖4所示,不同對(duì)象對(duì)應(yīng)不同顏色的線框:
-
第二張圖里面的紅色框代表人,綠色框是摩托車(chē),而兩者之間的可視關(guān)系是人坐在摩托車(chē)上,即 person-on-motorcycle;
-
第三張中的綠框代表的是頭盔,可視關(guān)系則是人佩戴頭盔,即person-wear-helmet;
-
最后一張中紅框識(shí)別的是摩托車(chē),綠框是輪子,則識(shí)別的可視關(guān)系是motorcycle-has-wheel等。
圖5 可視關(guān)系檢測(cè)典型技術(shù)
可視關(guān)系識(shí)別是視覺(jué)場(chǎng)景理解的關(guān)鍵之一,但是由于可視關(guān)系的稀疏性,大量長(zhǎng)尾關(guān)系的有效預(yù)測(cè)往往具有很大的難度。計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議CVPR 2017中發(fā)表的一項(xiàng)工作則,借鑒知識(shí)圖譜表示學(xué)習(xí)技術(shù),對(duì)經(jīng)典的基于翻譯的表示學(xué)習(xí)方法TransE進(jìn)行擴(kuò)展為VTransE,將圖片的可視特征空間映射到關(guān)系空間使得在映射后的語(yǔ)義空間中頭實(shí)體和可視關(guān)系的向量和接近于尾實(shí)體向量。
這種做法雖然簡(jiǎn)單易實(shí)現(xiàn),但無(wú)法避免TransE在應(yīng)對(duì)一對(duì)多、多對(duì)多等關(guān)系預(yù)測(cè)時(shí)的不足。之后CVPR 2019的改進(jìn)工作通過(guò)學(xué)習(xí)動(dòng)態(tài)樹(shù)結(jié)構(gòu)的組合來(lái)刻畫(huà)視覺(jué)上下文,并基于此來(lái)預(yù)測(cè)可視關(guān)系,從而一定程度上緩解了長(zhǎng)尾關(guān)系檢測(cè)難的問(wèn)題。
圖6 長(zhǎng)尾可視關(guān)系識(shí)別:我們的方法
在上述工作的 基礎(chǔ)上,我們利用多模態(tài)圖譜來(lái)進(jìn)一步優(yōu)化長(zhǎng)尾可視關(guān)系的識(shí)別效果。首先,在特征非常稀疏的情況下,利用各種模態(tài)特征之間的交互去做特征的擴(kuò)充。其次,利用來(lái)自不同圖像中的對(duì)象或關(guān)系之間形成的相似圖,通過(guò)消息傳遞,進(jìn)一步緩解數(shù)據(jù)層面的稀疏。
跨模態(tài)實(shí)體鏈接
圖7 跨模態(tài)實(shí)體鏈接典型架構(gòu)
實(shí)體鏈接在文本智能處理中被廣泛應(yīng)用,在圖7左側(cè)(a)的文本中,對(duì)于黃色標(biāo)記的Michael Jordan,自動(dòng)消歧并將其關(guān)聯(lián)到籃球之神或著名的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)專(zhuān)家,這個(gè)任務(wù)我們稱之為叫實(shí)體鏈接。圖7左側(cè)(b)擴(kuò)展了實(shí)體鏈接到多模態(tài)場(chǎng)景,即給定一張圖片和所對(duì)應(yīng)的文本描述,自動(dòng)判斷圖片所包含的對(duì)象。
對(duì)于跨模態(tài)實(shí)體鏈接,往往將圖片、文字描述和待鏈接的詞或詞組采用不同的神經(jīng)網(wǎng)絡(luò)(針對(duì)圖像采用CNN,而文字采用雙向LSTM或其變種)并經(jīng)過(guò)包含模態(tài)注意力的上層網(wǎng)絡(luò)得到的mention表示與通過(guò)圖譜結(jié)構(gòu)與標(biāo)簽描述結(jié)合得到的候選實(shí)體表示進(jìn)行語(yǔ)義匹配排序來(lái)完成。
圖8 基于多模態(tài)交互學(xué)習(xí)的語(yǔ)義視覺(jué)實(shí)體鏈接
我們進(jìn)一步考慮到不同模態(tài)之間的關(guān)聯(lián)關(guān)系。在抽取模態(tài)特征時(shí)考慮圖象中不同視覺(jué)對(duì)象之間的關(guān)聯(lián),形成一個(gè)場(chǎng)景圖。同時(shí)對(duì)于文本描述,也進(jìn)一步用SOTA模型得到了其中包含的命名實(shí)體,這一部分命名實(shí)體又作為后續(xù)鏈接的候選項(xiàng)。此外,我們還考慮到模態(tài)的注意力機(jī)制,使得在選擇過(guò)程中,既考慮文本模態(tài)的特征也考慮視覺(jué)特征。
圖9 跨模態(tài)實(shí)體鏈接示例
如圖9所示,姚明與麥迪身穿火箭隊(duì)隊(duì)服站在天安門(mén)前的照片可以形成左邊的場(chǎng)景圖,結(jié)合文本標(biāo)題描述,該場(chǎng)景圖中的實(shí)體(如Man1和Man2)完成了與多模態(tài)圖譜中的Yao Ming與Tracy Mcgrady的鏈接。剛剛講了多模態(tài)圖譜的構(gòu)建,那么有了知識(shí)后能進(jìn)一步做什么呢?為了要發(fā)現(xiàn)隱含知識(shí),一件很重要的事情是知識(shí)推理,即根據(jù)現(xiàn)有知識(shí)推出新知識(shí)或者新事實(shí)。一般來(lái)說(shuō)知識(shí)推理有四類(lèi):
- 第一種是演繹推理,根據(jù)前提條件推導(dǎo)出結(jié)論,是基于符號(hào)邏輯的推理;
- 第二種是歸納推理,根據(jù)有限的觀察現(xiàn)象推導(dǎo)出后背的原理或機(jī)制等,各種機(jī)器學(xué)習(xí)都屬于歸納推理范疇;
- 第三種是溯因推理,溯因推理是基于結(jié)果反推出原因。往往用于故障發(fā)現(xiàn)與診斷時(shí)的問(wèn)題定位和究因分析;
- 第四種是類(lèi)比推理,進(jìn)行不同類(lèi)型的對(duì)象或空間之間進(jìn)行映射對(duì)齊,在各種文本蘊(yùn)含或語(yǔ)義相似度計(jì)算時(shí)被廣泛使用。
圖10 神經(jīng)網(wǎng)絡(luò)方法用于知識(shí)圖譜推理
在各種知識(shí)推理推理任務(wù)中,也越來(lái)越多地出現(xiàn)了深度學(xué)習(xí)的身影。首先,知識(shí)圖譜或知識(shí)庫(kù)往往是不完備的,這種情況下我們就希望擴(kuò)充圖譜。知識(shí)圖譜表示學(xué)習(xí),以及最近比較火熱的圖神經(jīng)網(wǎng)絡(luò)都被用于該任務(wù)中。
同時(shí),各種循環(huán)神經(jīng)網(wǎng)絡(luò)+注意力機(jī)制的網(wǎng)絡(luò)或?qū)哟位瘓D卷積網(wǎng)絡(luò)及其擴(kuò)展被廣泛用于需要多跳的復(fù)雜知識(shí)問(wèn)答中。但問(wèn)題在于這些方法是基于統(tǒng)計(jì)的推斷,僅能完成淺層的推理,無(wú)法覆蓋全部邏輯演繹的能力,導(dǎo)致本身的可解釋性有一定這折損。
圖11 神經(jīng)網(wǎng)絡(luò)方法用于知識(shí)圖譜推理(續(xù))
此外,不少工作設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)完成特定的邏輯推理或公理證明(如圖11右側(cè))。而這些具有語(yǔ)義等價(jià)的統(tǒng)計(jì)學(xué)習(xí)可被進(jìn)一步融合到知識(shí)圖譜管理系統(tǒng)中,從而同時(shí)支持精確的邏輯計(jì)算和數(shù)據(jù)驅(qū)動(dòng)和概率推斷(圖11左側(cè))。
深度學(xué)習(xí)往往需要有大數(shù)據(jù)的支持。即使在做多模態(tài)的問(wèn)題情況下,很多時(shí)候我們面對(duì)的都是小數(shù)據(jù),數(shù)據(jù)的稀疏性非常明顯。如何利用知識(shí)和圖譜結(jié)構(gòu)來(lái)幫助我們做這樣的事情?比如利用知識(shí)圖譜和遠(yuǎn)程監(jiān)督學(xué)習(xí)來(lái)支持?jǐn)?shù)據(jù)增廣和遷移,以及支持更復(fù)雜表達(dá)能力(如規(guī)則等更強(qiáng)的知識(shí))的表示學(xué)習(xí)都是目前的通過(guò)知識(shí)圖譜來(lái)支持深度學(xué)習(xí)的不同有益嘗試。
圖12 使用知識(shí)圖譜解釋神經(jīng)網(wǎng)絡(luò)中間結(jié)果
正如之前提及的,認(rèn)知智能的可解釋性非常關(guān)鍵。為了讓深度學(xué)習(xí)使用的神經(jīng)網(wǎng)絡(luò)模型可以在各種輔助決策任務(wù)中更好的使用,通過(guò)對(duì)通過(guò)非線性變換得到的中間結(jié)果進(jìn)行解碼映射到知識(shí)圖譜中的相應(yīng)節(jié)點(diǎn),方便人們更好理解。
除了知識(shí)推理,另一種多模態(tài)情況下的典型應(yīng)用是問(wèn)答。問(wèn)答經(jīng)歷了很多過(guò)程,包括上世紀(jì)90年代的檢索式問(wèn)答,基于眾包社區(qū)的問(wèn)答,以及在個(gè)人助理和各種行業(yè)中的知識(shí)問(wèn)答。現(xiàn)在我們希望把上述各種互補(bǔ)的技術(shù)進(jìn)行融合來(lái)支持不同類(lèi)型數(shù)據(jù)上的多策略問(wèn)答。
具體來(lái)說(shuō),如圖13所示,面對(duì)問(wèn)答對(duì)型數(shù)據(jù),可采用基于檢索的問(wèn)答技術(shù)即IRQA,而面對(duì)結(jié)構(gòu)化程度比較好的圖譜數(shù)據(jù),可采用基于知識(shí)庫(kù)的問(wèn)答即KBQA,而面對(duì)文本或語(yǔ)料庫(kù)數(shù)據(jù),則可采用基于機(jī)器閱讀理解的問(wèn)答即MRCQA。
隨著預(yù)訓(xùn)練模型的普及, 從最早的word2vec/ glove,到后續(xù)的上下文感知的模型如ELMO、GPT和BERT等,使得我們?cè)诖笠?guī)模通用語(yǔ)料上訓(xùn)練得到的模型的基礎(chǔ)上,在下游任務(wù)中(如這里的問(wèn)答)使用少量的領(lǐng)域數(shù)據(jù)進(jìn)行精調(diào)來(lái)完成。
圖13 典型的問(wèn)答數(shù)據(jù)和技術(shù)范式
同時(shí),每一種問(wèn)答技術(shù)都有其可被使用的必要條件,適用的問(wèn)題范圍,以及相應(yīng)的優(yōu)點(diǎn)和不足(具體描述如圖14)。為了完成能在真實(shí)場(chǎng)景中可用的問(wèn)答系統(tǒng),需要采用多策略方式來(lái)綜合不同問(wèn)答系統(tǒng)的優(yōu)點(diǎn)。
圖14 多種問(wèn)答技術(shù)的優(yōu)缺點(diǎn)
多模態(tài)知識(shí)圖譜的典型應(yīng)用
下面舉幾個(gè)多模態(tài)知識(shí)圖譜的典型應(yīng)用:
金融證券領(lǐng)域
例如在金融證券領(lǐng)域,一個(gè)典型應(yīng)用是最終控制人識(shí)別。這是通過(guò)利用散落在各地方的不同源的數(shù)據(jù),特別是多模態(tài)數(shù)據(jù),進(jìn)行整合后我們可以發(fā)現(xiàn)他們之間的蛛絲馬跡,并最后找到隱藏在背后的最終控制人。同時(shí)也可以應(yīng)用在信用風(fēng)險(xiǎn)評(píng)估和關(guān)聯(lián)交易預(yù)警等方面。

工業(yè)互聯(lián)網(wǎng)
在工業(yè)互聯(lián)網(wǎng)中,可以應(yīng)用在電力系統(tǒng)的故障識(shí)別。這其中涉及多學(xué)科知識(shí),也有多模態(tài)知識(shí),需要通過(guò)各種計(jì)算得到相應(yīng)的經(jīng)驗(yàn)公式結(jié)果,同時(shí)通過(guò)神經(jīng)網(wǎng)絡(luò)識(shí)別對(duì)應(yīng)的異常,轉(zhuǎn)換對(duì)應(yīng)故障檢測(cè)和分類(lèi)問(wèn)題,應(yīng)用溯因推理的技術(shù),能夠發(fā)現(xiàn)可能的原因并推薦相關(guān)的檢測(cè)方案。
我們相信在智能時(shí)代“語(yǔ)”你同行的藍(lán)圖下,多模態(tài)和知識(shí)圖譜將在金融、客服、教育、醫(yī)療等領(lǐng)域發(fā)揮更多作用。