達觀數(shù)據(jù)與同濟大學(xué)聯(lián)合共建的“知識圖譜與語義計算聯(lián)合實驗室”,近期發(fā)布了圍繞新冠肺炎的多跳問答數(shù)據(jù)集和智能問答系統(tǒng),該數(shù)據(jù)集基于COVID-19的七個方面(即百科、防控、物資、診療、健康、流行病、英雄)進行數(shù)據(jù)集梳理并進一步生成1跳(1-hop)、2跳(2-hop)、3跳(3-hop)的問答數(shù)據(jù)集,智能問答的主題涉及病理、癥狀、藥物等相關(guān)的問題。其中論文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》發(fā)表于期刊《Data Intelligence》。
圖1 《Data Intelligence》及發(fā)表論文的部分技術(shù)展示
主要研究貢獻如下:
- 很少存在針對COVID-19管理的全面的KGQA數(shù)據(jù)集,尤其是缺乏針對多跳問題的數(shù)據(jù)集。受益于OpenKG-COVID19,我們推導(dǎo)出了一個大型多跳中文COVID-19 KGQA數(shù)據(jù)集COKG-DATA。它包含豐富的知識,為構(gòu)建優(yōu)質(zhì)的問答系統(tǒng)提供了重要基礎(chǔ)。
- 引入COKG-QA來證明在多跳KGQA任務(wù)中嵌入投影機制和模式信息的重要性。更準確地說,通過投影方法將來自不同空間的實體、模式和問題的嵌入轉(zhuǎn)移到一個共同的空間中,以對齊重要特征。此外,實體嵌入與其類型嵌入相結(jié)合,以預(yù)測指定類型的答案。通過實驗證明了COKG-QA是非常有效的,并且對于進一步推廣到新領(lǐng)域知識也是值得借鑒的。
- 為了滿足人們對COVID-19咨詢服務(wù)的需求,基于COKG-QA開發(fā)了一個用戶友好的交互式應(yīng)用系統(tǒng)。該系統(tǒng)不僅提供準確和可解釋的問題答案,而且易于使用,并具有智能提示和建議功能。
新冠肺炎多跳問答數(shù)據(jù)集COKG-DATA
我們根據(jù)OpenKG推出的OpenKG-COVID19的七個子KG(即百科、防控、物資、診療、流行病、英雄)來組織COKG-DATA,人們每天更容易問到這些子KG中的信息。COKG-DATA是一個新的具有挑戰(zhàn)性的問答基準,包含有關(guān)疾病、癥狀、藥物等相關(guān)的單跳問題和多跳問題?;邶嫶蠖鄻拥腃OKG-DATA數(shù)據(jù)集,結(jié)合多跳KGQA技術(shù),可以滿足人們在大流行期間的復(fù)雜查詢需求。我們花費大量時間基于OpenKG-COVID19清理數(shù)據(jù)并收集多跳問題。
01七大子KG
- 百科KG,讓我們對SARS-CoV-2和COVID-19有個大致了解,以及相關(guān)的病毒和疾病信息。
- 防控KG,為各地個人、團體提供政府發(fā)布的預(yù)防指南。
- 物資KG,圍繞疫情期間的物資供應(yīng)情況展開,涵蓋日常防護用品、醫(yī)療器械、藥品等。
- 診療KG和健康KG是互補的,以利用關(guān)于各種疾病、藥物、癥狀、檢查方法和治療醫(yī)院的COVID-19相關(guān)知識。
- 流行病KG,運用流行病學(xué)的一般技術(shù),研究疾病的分布及影響因素,探究疾病的成因,闡明流行病的規(guī)律,以有效地控制和根除疾病。
- 英雄KG,以新冠病毒專家為核心延展至履歷、成果、事件、戰(zhàn)役等各類概念。
02數(shù)據(jù)清洗
為了確保QA數(shù)據(jù)集的質(zhì)量,我們清理了OpenKG-COVID19中的一些異常情況的數(shù)據(jù),并刪除了對QA來說不實用的三元組,包括一些三元組包含空字符串、標點實體或無用數(shù)字;一些三元組組成的比較奇怪的問題,例如,?新華醫(yī)院的醫(yī)生,在新華醫(yī)院工作?;一些三元組中的頭實體與尾實體相同的問題,例如具有“別名”關(guān)系的三元組。此外,OpenKG-COVID19中還存在包括對稱性和反轉(zhuǎn)在內(nèi)的關(guān)系模式。我們?yōu)镺penKG-COVID19的這些關(guān)系模式擴展了三元組。經(jīng)過數(shù)據(jù)清洗和關(guān)系擴展后,知識圖譜數(shù)據(jù)集包含112246個實體、209個關(guān)系和787056個三元組。
03數(shù)據(jù)構(gòu)造
我們利用OpenKG-COVID19的選定子圖中的事實三元組作為1-hop數(shù)據(jù)。此外,我們手動為2-hop問題設(shè)計了47個關(guān)系,為3-hop問題設(shè)計了23個關(guān)系,其中組合的關(guān)系必須合理自然。具體來說,在2-hop關(guān)系中,前關(guān)系的范圍必須與后關(guān)系的域相同。例如,“selected drug”關(guān)系的范圍是“drug”,必須與2-hop關(guān)系“Selected drug Usage and dosage”中的“usage and dosage”域一致。相同的規(guī)則適用于3-hop關(guān)系收集過程。與多跳數(shù)據(jù)集MetaQA類似,我們使用Helsinki-NLP Opus-MT項目中的神經(jīng)翻譯模型以引入具有相同含義的更多樣化和自然的陳述。利用Opus-mt-zh-en模型將句子從中文翻譯成英文,然后使用opus-mt-zh-en將句子翻譯回中文。此外,為了從頂層創(chuàng)建一個大規(guī)模的統(tǒng)一知識庫,完成了實體對齊和關(guān)系對齊,以消除不一致問題。
04校驗數(shù)據(jù)
為了確保COKG-DATA數(shù)據(jù)及中的問題相對時自然且有意義,我們招募了四名志愿者來檢查數(shù)據(jù)集的質(zhì)量,他們的研究領(lǐng)域均為知識圖譜和問答方向。經(jīng)過清理后的OpenKG-COVID19數(shù)據(jù),按照關(guān)系對問題進行排序,然后成比例的隨機抽取問題樣本。這四名志愿者被要求用三個選項對抽樣問題進行評分:1表示奇怪;2表示自然;3表示有意義。我們通過這個人工評分過程,刪除或修改了奇怪的問答對,對COKG-DATA進行了四次優(yōu)化。最后一輪的采樣數(shù)為4000,志愿者的平均得分為2.8,證明了COKG-DATA是高質(zhì)量的。
05數(shù)據(jù)集統(tǒng)計
COKG-DATA每個跳數(shù)問題的最終統(tǒng)計結(jié)果如表1所示。COKG-DATA將會保持與OpenKG-COVID19的同步更新,為用戶提供更充分的知識。
表1 COKG-DATA統(tǒng)計數(shù)據(jù)
新冠肺炎多跳問答技術(shù)COKG-QA
?IRQA& KGQA
在COVID-19相關(guān)信息的獲取上,基于COVID-19 知識的問答系統(tǒng)作為一種便捷的交互方式受到越來越多的人的歡迎。COVID-19 QA現(xiàn)有兩種范式:信息檢索問答(Information Retrieval Question Answering,IRQA)和知識圖譜問答(Knowledge Graph Question Answering,KGQA)。
1. COVID-19 IRQA
COVID-19 IRQA 系統(tǒng)基于文本問答對,通過計算數(shù)據(jù)集中提出的問題和問題/答案之間的相似性來獲得答案,如WULAI-QA、CAiRE-COVID、COVIDASK。IRQA系統(tǒng)可以自然地回答人們經(jīng)常提出的簡單問題。WULAI-QA(Web Understanding and Learning with AI,WULAI)是一個動態(tài)的基于文檔的問答系統(tǒng),圖2是其整體系統(tǒng)架構(gòu)圖。
圖2 WULAI-QA整體架構(gòu)圖
WULAI-QA主要有四部分構(gòu)成:
- 特征工程(Feature Engineering)部分可以使用自定義過濾器和多種強大的特征來快速過濾不相關(guān)的文檔;(2)檢索器(Retriever)部分可以分別對問題??和文檔??進行編碼,并計算問題與過濾后的文檔集中每個文檔的相似度分數(shù)??(??|??)。然后選擇TOP(??)個文檔作為候選文檔;
- 閱讀器(Reader)部分將問題??和文檔??連接在一起,并以概率??(??|??,??)從文本中抽取答案??;
- 用戶反饋(User Feedback)部分包括三部分數(shù)據(jù):正確答案、相關(guān)文檔和滿意度分數(shù)。其中正確答案和相關(guān)文檔的注釋可以更新閱讀器和檢索器模型,而滿意度分數(shù)用于更新檢索器模型。為了適應(yīng)COVID-19相關(guān)信息的快速擴展,WULAI-QA 通過合并穩(wěn)健和定制的特征來過濾掉不相關(guān)的文檔。此外,將用戶反饋輸入到到檢索器模型和閱讀器模型中,以提高在線部署期間的性能。
圖3 CAiRE-COVID系統(tǒng)架構(gòu)圖
CAiRE-COVID(Center for Artificial Intelligence Research,CAiRE)是香港科技大學(xué)開發(fā)的一個實時QA和多文檔摘要系統(tǒng),旨在通過回答社區(qū)的高優(yōu)先級問題并總結(jié)與問題相關(guān)的重要信息,以應(yīng)對在 COVID-19上發(fā)表的大量科學(xué)文章的挖掘挑戰(zhàn)。
其架構(gòu)圖如圖3所示,由三個主要模塊組成:
- 文檔檢索器(Docement Retriever)
- 相關(guān)片段選擇器(Relevant Snippet Selector)
- 以查詢?yōu)橹行牡亩辔臋n摘要器(Query-focused Multi-Document Summarizer)
它將信息抽取與最先進的QA和以查詢?yōu)橹行牡亩辔臋n摘要技術(shù)相結(jié)合,在給定查詢的情況下從現(xiàn)有文獻中查找和高亮顯示檢索到的片段。同時還提出了以查詢?yōu)橹行牡某橄蠛吞崛《辔臋n摘要方法,以提供與問題相關(guān)的更多相關(guān)信息。
圖4 COVIDASK整體過程
COVIDASK一個結(jié)合了生物醫(yī)學(xué)文本挖掘和QA技術(shù)來實時提供問題答案的QA系統(tǒng),利用有監(jiān)督和無監(jiān)督的方法使用 DENSPI和 BEST提供信息豐富的答案。圖4是其整體流程圖,首先預(yù)先索引了CORD-19中包含的研究論文中的所有短語,并使用它們來構(gòu)建DENSPI 模型,還使用并高亮顯示了PubMed中的生物醫(yī)學(xué)命名實體來構(gòu)建 BEST。
2. COVID-19 KGQA
在KGQA方面目前已經(jīng)有諸多研究成果,主要包括三種類型:基于邏輯的方法、基于路徑的方法和基于嵌入的方法。
1)基于邏輯的方法
該方法由于具有高精度和可解釋性強的優(yōu)點而被廣泛討論。GQE(Graph Query Embedding)、Query2Box 、BETAE將查詢表示為有向無環(huán)計算圖,以生成邏輯形式的查詢嵌入。
GQE是一種基于嵌入的框架,可以有效地預(yù)測不完整知識圖譜上的聯(lián)合查詢問題。GQE 背后的關(guān)鍵思想是將圖節(jié)點嵌入到低維空間中,并將邏輯運算符表示為該嵌入空間中學(xué)習(xí)的幾何操作(例如,平移、旋轉(zhuǎn))。經(jīng)過訓(xùn)練后,可以使用模型來預(yù)測哪些節(jié)點可能滿足任何有效的聯(lián)合查詢,即使查詢涉及的未觀察到的邊。而且這個預(yù)測是非常高校的,時間復(fù)雜度與查詢中的邊數(shù)成線性關(guān)系,并且與輸入網(wǎng)絡(luò)的大小成常量。
圖5 GQE框架概覽
如圖5所示,GQE過程是,給定一個輸入查詢q,根據(jù)它的DAG結(jié)構(gòu)表示這個查詢,然后使用左側(cè)的算法生成基于這個 DAG 的查詢的嵌入。左側(cè)的算法從查詢錨節(jié)點的嵌入開始,迭代應(yīng)用幾何運算P和I生成與查詢對應(yīng)的嵌入q。最后,可以使用生成的查詢嵌入來預(yù)測節(jié)點滿足查詢的可能性,例如,通過嵌入空間中的最近鄰搜索。
圖6 Query2Box推理流程
Query2Box也是一個基于嵌入的框架,用于在大規(guī)模和不完整的知識圖譜中使用∧、∨和?運算符對任意查詢進行推理。如圖6是QueryBox的推理流程,(A)中,對于給定的聯(lián)合查詢語句“Where did Canadian citizens with Turing Award graduate?”,解析后使用依賴圖進行表示;(B)中是計算圖的示例,其指定了為(A)中的查詢語句獲取一組答案的推理過程。(C)中是知識圖譜空間的示例,其中綠色節(jié)點(實體)表示查詢語句的答案。粗體箭頭表示與(A)中的查詢圖匹配的子圖。D)中,KG的節(jié)點可以嵌入到向量空間中。然后根據(jù)計算圖(B)獲得查詢嵌入的執(zhí)行操作:從兩個節(jié)點TuringAward和Canada開始,應(yīng)用Win和Citizen投影運算符,然后是交集運算符(表示為黃色和橙色的陰影交集框)和另一個投影操作符,得到查詢的最終嵌入,是一個綠色框,查詢的答案是框內(nèi)的實體。
圖7? BETAE回答一階邏輯查詢的過程
BETAE是一種概率嵌入框架,用于回答KG上的任意一階邏輯(first-order logic, FOL)查詢,也是第一個可以處理一整套FOL運算的方法,涵蓋合取(∧)、析取(∨)和取反 (?)操作。圖8顯示了查詢語句“給定查詢語句“List the presidents of European countries that have never held the World Cup”處理過程。該查詢可以表示為三個術(shù)語的結(jié)合:(1)“位于(歐洲,V)”,查找所有歐洲國家;(2)“?Held(World Cup, V)”,查找所有從未舉辦過世界杯的國家;(3)“總統(tǒng)(V,V?)”,它找到給定國家的總統(tǒng)。為了回答這個查詢語句,首先定位實體“Europe”,然后通過關(guān)系“Located”遍歷KG以識別一組歐洲國家。實體“World Cup”也需要類似的操作來獲取主辦世界杯的國家。然后需要對第二組進行補充,以確定從未舉辦過世界杯的國家,并將補充與歐洲國家組相交。最后一步是將關(guān)系“President”應(yīng)用于生成的交集,以找到國家總統(tǒng)列表,從而給出查詢答案。
2)基于路徑的方法
該方法將問題中的主題實體沿著多個KG三元組搜索以找到答案實體或關(guān)系。其中很重要的是路徑排序算法(Path Ranking Algorithm,PRA),PRA旨在通過直接在KG上自動學(xué)習(xí)語義推理規(guī)則來提高KG的覆蓋率。PRA使用基于重新啟動的推理機制的隨機游走來執(zhí)行多個有界深度優(yōu)先搜索過程以查找關(guān)系路徑。結(jié)合基于彈性網(wǎng)絡(luò)的學(xué)習(xí),PRA然后使用監(jiān)督學(xué)習(xí)選擇更合理的路徑。然而,PRA在完全離散的空間中運行,這使得評估和比較KG中的相似實體和關(guān)系變得困難。為了緩解PRA的搜索空間大的問題,除了DeepPath、NSM的方法之外,還有其它一些研究工作圍繞將KG推理視為順序路徑?jīng)Q策過程來展開。
DeepPath是一種KG推理的強化學(xué)習(xí)(Reinforcement Learning,RL)方法,使用基于翻譯的知識嵌入方法來編碼RL代理的連續(xù)狀態(tài),代理通過對關(guān)系進行采樣,通過增量步驟的方式擴展其路徑。為了更好地指導(dǎo)RL代理學(xué)習(xí)關(guān)系路徑,DeepPath使用策略梯度訓(xùn)練和一個新穎的獎勵函數(shù),以提升準確性、多樣性和效率。
NSM(Neural State Machine)采用師生網(wǎng)絡(luò)來學(xué)習(xí)中間監(jiān)督信號,主要思想是訓(xùn)練一個專注于多跳 KBQA 任務(wù)本身的學(xué)生網(wǎng)絡(luò),同時訓(xùn)練另一個教師網(wǎng)絡(luò)在中間推理步驟提供(偽)監(jiān)督信號(即我們?nèi)蝿?wù)中的推斷實體分布) 改善學(xué)生網(wǎng)絡(luò)。NSM主要由指令部分和推理部分組成。指令組件將指令向量發(fā)送到推理組件,而推理組件推斷實體分布并學(xué)習(xí)實體表示。
3)基于嵌入的方法
該方法通過評估問題嵌入和候選答案嵌入之間的相似性以獲得正確答案。比較應(yīng)用廣泛的是EmbedKGQA方法,通過預(yù)訓(xùn)練模型表示問題,并通過ComplEx表示知識圖嵌入,并通過ComplEx的評分函數(shù)選擇答案。
圖8 EmbedKGQA概覽
如圖8所示,EmbedKGQA具有三個模塊:
- KG嵌入模塊學(xué)習(xí)輸入KG中所有實體的嵌入;
- 問題嵌入模塊學(xué)習(xí)問題的嵌入;
- 答案選擇模塊通過結(jié)合問題和關(guān)系相似性分數(shù)來選擇最終答案。
EmbedKGQA使用嵌入使其更有效地處理KG稀疏性。此外,由于EmbedKGQA將所有實體都視為候選答案,因此它不會受到現(xiàn)有多跳KGQA方法的有限鄰域無法訪問問題的影響。
另外像關(guān)系圖卷積網(wǎng)絡(luò)方法聚合KG中特定多重關(guān)系的嵌入來預(yù)測答案。當(dāng)然,還有一些基于嵌入方法結(jié)合文本語料庫的研究也備受關(guān)注。
綜上可以看出,KGQA相對于IRQA可以處理更復(fù)雜的QA問題。同時,我們也看到,人們在日常信息獲取過長中也不再滿足于提出一些簡單的問題,例如“COVID-19患者的臨床癥狀是什么?”。他們更傾向于表達復(fù)雜的多跳問題,比如“有哪些相關(guān)疾病與COVID-19癥狀相似?”這樣的2跳問題,以及“如何檢查與COVID-19癥狀相似的相關(guān)疾病?”的3跳問題。
引入KGQA,可以更大程度的滿足人們的日常信息所求,提升人們獲取信息的體驗和效率,值得投入更多資源進行深入地探索研究。
COVID-19 & KGQA
基于COVID-19數(shù)據(jù)集,引入KGQA方法可以回答涵蓋結(jié)構(gòu)KG上的多個關(guān)系的復(fù)雜問題。此外,KGQA技術(shù)可以推理QA任務(wù)中的新知識。研究人員在不同方向上開展了大量的研究工作,也取得了挺好的進展。
圖9 COVID-19 KG的模式
中國科學(xué)技術(shù)信息研究所的Ding Kai等人研發(fā)了COVID-19 QA系統(tǒng)。首先是基于COVID-19數(shù)據(jù)集設(shè)計了KG的模式,如圖9所示,并從文本中抽取知識。
圖10 QA系統(tǒng)處理流程
然后設(shè)計了一個基于規(guī)則的分類器,以識別當(dāng)用戶輸入一個問題后的查詢意圖,接著,基于匹配模板的方式將問題轉(zhuǎn)化為Cypher查詢,最終從KG中找到答案并返回,整個過程如圖10所示。
圖11 Covid-on-the-Web概覽
Covid-on-the-Web項目提供了較豐富的工具和數(shù)據(jù),如圖11所示,通過調(diào)整和組合工具來處理、分析和豐富“COVID-19 開放研究數(shù)據(jù)集”(CORD-19),讓生物醫(yī)學(xué)研究人員能夠訪問、查詢和理解COVID-19相關(guān)文獻。CORD-19語料庫收集了50000多篇與冠狀病毒相關(guān)的全文科學(xué)文章。該數(shù)據(jù)集包含兩個主要知識圖譜,除了展示CORD-19語料庫中提到的命名實體,并鏈接到DBpedia、Wikidata和其他BioPortal詞匯表,還可以展示從ACTA提取的參數(shù),旨在幫助臨床醫(yī)生分析臨床試驗并做出決定。另外,在這個數(shù)據(jù)集上,還提供了幾個基于Corese Semantic Web平臺、MGExplorer可視化庫以及Jupyter Notebook技術(shù)的可視化和探索工具。
圖12 處理流程圖
北京林業(yè)大學(xué)的Sun Yuze等人研究并構(gòu)建了一個基于知識圖譜的COVID-19問答系統(tǒng)。其問答功能是通過基于樸素貝葉斯算法的模板匹配實現(xiàn)的。處理流程如圖12所示,對于輸入的問題,系統(tǒng)首先進行實體識別,利用實體類型標注結(jié)合實體相似度匹配來識別用戶問題中的實體。然后系統(tǒng)預(yù)測用戶的提問意圖,并使用訓(xùn)練好的問題分類器預(yù)測類別數(shù)。最后利用Cypher查詢圖數(shù)據(jù)庫,生成并輸出答案。
圖13 基于疾病知識圖譜的問答系統(tǒng)優(yōu)化框架
吉林大學(xué)的李賀等人提出了一種基于疾病知識圖譜的自動問答系統(tǒng)優(yōu)化策略,如圖13所示,在疾病知識圖譜構(gòu)建的基礎(chǔ)上,結(jié)合AC多模式匹配算法和語義相似度計算實現(xiàn)用戶自然語言提問中實體識別,綜合考慮構(gòu)建知識圖譜的疾病數(shù)據(jù)集和問題語料的醫(yī)療高頻詞特征確定系統(tǒng)要回答的問題類別,然后采用人工標注和AC多模式匹配算法實現(xiàn)用戶問題類別和系統(tǒng)問題類別的匹配,最后通過將匹配的實體和問題類別封裝成分類字典方式轉(zhuǎn)換成數(shù)據(jù)庫查詢語言,獲取相關(guān)問題答案。其中COVID-19 知識圖譜的可視化結(jié)果圖14所示。
圖14 COVID-19知識圖譜(部分)
為了使框架不局限于預(yù)定義的規(guī)則,航天工程大學(xué)的Pei Zhongmin等人提出了一種基于知識嵌入方法TranE的相對通用的QA框架,如圖15所示。
圖15 中文領(lǐng)域KGQA框架
該框架由問題分析、答案推理和答案生成三部分組成。首先,問題分析模塊通過屏蔽無效字符獲得問題實體和關(guān)系。然后,答案推理模塊結(jié)合時序邏輯和排列組合策略計算可能實體的TransE嵌入。最后,答案生成模塊計算知識圖中候選答案與實體的余弦相似度,將推理路徑和答案實體返回給用戶。
在公共KG的基礎(chǔ)上,基于自然語言處理技術(shù),已有一些KGQA系統(tǒng),以幫助人們方便地獲取有關(guān)COVID-19的信息。盡管這些QA系統(tǒng)是為COVID-19開發(fā)的,但它們無法為用戶的各種問題提供最佳解決方案。
現(xiàn)有方法如GRAFT-Net、PullNet等通常使用單獨的模型來表示知識圖譜和問題,帶來的問題是來自不同空間的異構(gòu)嵌入需要適配到一個公共空間。此外,在當(dāng)前的多跳KGQA任務(wù)中,如EmbedKGQA,表征KG結(jié)構(gòu)特征的模式相關(guān)信息已被忽略。作為重要的先驗知識的模式信息,有助于搜索指定類型的正確實體。更重要的是,公共COVID-19 KGs受到知識稀疏性的影響,尤其當(dāng)這些知識是人們每天都希望獲得的,會進一步影響下游QA任務(wù)的質(zhì)量和用戶體驗。
COKG-QA
為了減輕人們對COVID-19大流行引起的健康問題咨詢方面的焦慮,我們提出COKG-QA(multi-hop Question Answering over COVID-19 Knowledge Graphs),如圖17所示,通過對EmbedKGQA模型的升級,以提高KGQA的性能。
圖16 COKG-QA系統(tǒng)架構(gòu)圖
1.COKG-QA總體介紹
KG中的實例三元組可以表示為?h, r, t?,其中h表示頭實體,t表示由關(guān)系r鏈接的尾實體。給定一組實體E和關(guān)系R,G是一組三元組K,使得K ? E × R × E。KGQA的任務(wù)是對于一個自然語言方式提問的問題q,搜索KG中的答案實體,包括基于KG上的多跳關(guān)系進行搜索。受EmbedKGQA的啟發(fā),在我們的方法中同樣使用了KG嵌入模塊(KG Embedding Module )、問題嵌入模塊(Question Embedding Module)和答案選擇模塊(Answer Selection Module)。通過添加嵌入投影(Embedding Projection)和模式感知模塊(Schema-Aware Module)在COKG-DATA上擴展EmbedKGQA。此外,在推理時添加了一個主題實體感知過濾器(Topic-Entity-Aware Filter)來預(yù)測僅與所討論的主題實體相關(guān)的答案實體。流程如圖17所示。
圖17 COKG-QA流程圖
2.COKG-QA主要模塊介紹
1)嵌入投影
將不同模型生成的嵌入視為異構(gòu)的。與實例級別的三元組一樣,?s h, r, s t? 是模式級別的三元組,其中s h代表頭類型,s t代表由關(guān)系r鏈接的尾類型。s h, s t ∈ E’的模式嵌入也通過ComplEx方法訓(xùn)練以強化搜索答案,但模式模型和實例模型是分開訓(xùn)練的。更重要的是,問題嵌入是由預(yù)訓(xùn)練模型RoBERTa產(chǎn)生的,它利用了另一種技術(shù)范式。因此,這三個嵌入是異構(gòu)的。盡管通過單獨的模型有助于保持模式、實例和問題的特征,但很難在最終的 KGQA模型中對嵌入表示進行建模。全連接(Fully Connected, FC)線性層可以維護和投射遷移學(xué)習(xí)中的重要特征,尤其是當(dāng)源域和目標域完全不同時。因此,在轉(zhuǎn)移到一個公共空間之前對這些嵌入進行投影是合理的。我們分別定義了問題嵌入、實體嵌入、模式嵌入如式(1)(2)(3)所示。
其中eq是問題嵌入,en是由實例三元組訓(xùn)練得到的實體嵌入,e‘s-n是由模式級別三元組產(chǎn)生的實體類型嵌入。
2)模式感知模塊
現(xiàn)有的KGQA方法只關(guān)注KG中的實例事實,忽略了模式中構(gòu)造良好的先驗知識。模式包含一個知識圖譜的有價值的結(jié)構(gòu)信息,它定義了這些概念和概念的屬性。KG中的實體通過實體類型鏈接到它們相應(yīng)的概念。通過引入模式感知模塊將實體嵌入與相應(yīng)的實體類型嵌入相結(jié)合,這將有助于過濾指定類型的答案實體。這足以讓模型了解主題實體的類型以及答案實體的類型。具體來說,問題中的主題實體表示和作為答案的尾部實體表示是通過添加相應(yīng)的實體類型嵌入來構(gòu)造的。使用RoBERTa嵌入的問題表示不能對模式級別的關(guān)系嵌入進行編碼,因為在實際應(yīng)用中沒有問題的關(guān)系類型標簽。但是我們將實體類型與給定的問題連接起來,以暗示該問題與某個實體類型相關(guān),如圖15中所示的輸入,具體表述如式(4)和(5)所示。
其中?是ComplEx的評分函數(shù),Eh是主題實體嵌入,E‘s-h是其對應(yīng)的類型嵌入,Ea表示正確的答案實體,Eh表示負樣的實體,σ∈E是答案實體集。所有這些嵌入都會通過嵌入投影模塊進行轉(zhuǎn)換。
3)主題實體感知過濾器
因為我們收集的COKG-DATA非常大,所以需要添加一個過濾器來獲取主題實體相關(guān)的實體,包括像EmbedKGQA這樣的在推理時的1-hop、2-hop和3-hop實體,以預(yù)測更相關(guān)的答案實體。我們首先使用3-hop數(shù)在主題實體及其多跳實體之間進行映射,然后基于最佳訓(xùn)練模型預(yù)測多跳實體之間的答案。
3.COKG-QA實驗
在表2所示,在COKG-DATA數(shù)據(jù)集上將EmbedKGQA和TransferNet與COKG-QA進行了準確率數(shù)據(jù)對比。COKG-QA在1-hop、2-hop、3-hop問題上的數(shù)據(jù)表現(xiàn)優(yōu)于EmbedKGQA,而TransferNet在1-hop和2-hop問題上的表現(xiàn)優(yōu)于COKG-QA。但是TransferNet在3-hop問題中的準確率最低。TransferNET關(guān)注問題的不同部分,在每一步搜索對應(yīng)的關(guān)系,這使得它對圖中每一跳關(guān)系的質(zhì)量和數(shù)量都很敏感。因此,我們假設(shè)COKG-DATA的少量3-hop數(shù)據(jù)導(dǎo)致TransferNET性能不佳。然而,EmbedKGQA和COKG-QA都將多跳KGQA任務(wù)視為鏈路預(yù)測,在KG嵌入模塊中將多跳關(guān)系作為單個關(guān)系。例如,“并發(fā)癥||常用藥物||用法用量”、“藥物||藥物成分”和“注意事項”的每一個關(guān)系都被視為一個單一的關(guān)系,放在一個三元組中。因此COKG-QA避免了現(xiàn)實世界中非常普遍的數(shù)據(jù)不平衡問題,并對神經(jīng)模型提出了挑戰(zhàn)。更重要的是,TransferNET計算復(fù)雜度高,內(nèi)存存儲問題,因為它計算一個實體被多次激活為答案實體的概率,這也會影響推理速度。
表2 不同模型在COKG-DATA上的對比數(shù)據(jù)
新冠肺炎COKG-QA問答系統(tǒng)交互
通過大量實驗表明COKG-QA技術(shù)的卓越性能,同時我們也設(shè)計了一個基于COKG-QA的交互式Web QA應(yīng)用系統(tǒng)。通過友好的交互設(shè)計以改善用戶體驗。
01答案的可解釋性
與大多數(shù)直接給出答案的KGQA系統(tǒng)不同,我們的系統(tǒng)將解釋多跳問題的中間上下文,以使多跳問題的答案具有可解釋性。將通過計算ComplEx分數(shù),根據(jù)最佳訓(xùn)練模型推斷出答案。但是基于EmbedKGQA模型的答案是不可理解的。例如,2-hop問題“小兒顱內(nèi)腫瘤推薦的藥物種類有哪些”的答案是“工傷的化學(xué)藥、處方藥和醫(yī)保藥”,這會給用戶帶來類似“與上述答案中提到的藥物類型相對應(yīng)的相應(yīng)推薦藥物是什么?”。換句話說,人們不僅想得到最終的答案,還想弄清楚中間結(jié)果是什么。所以我們提供了一個可以解釋的答案“小兒顱內(nèi)腫瘤甘油果糖注射液的推薦藥物是化學(xué)藥物;小兒顱內(nèi)腫瘤推薦用藥吡拉西坦葡萄糖注射液是醫(yī)保工傷用藥……”。
可解釋響應(yīng)的過程如下:
- 當(dāng)QA系統(tǒng)收到多跳問題時,首先識別主題實體
- 隨后,根據(jù)問題和識別出的頭部對分數(shù)進行排名,得到非直接尾部答案
- 為了得到一個可解釋的最終答案,我們需要尋找中間關(guān)系,得到中間實體。過濾掉數(shù)據(jù)集中標記的具有相同標題和答案的問題和相應(yīng)的多跳關(guān)系。此外,我們選擇與數(shù)據(jù)集中具有相同多跳關(guān)系或與用戶問題最相似的問題對應(yīng)的可解釋答案作為最終答案
02答案來源
我們用對應(yīng)的URL給出答案的來源,幫助用戶追蹤上下文,這也增加了系統(tǒng)的可信度。我們系統(tǒng)的答案來源通過在選定的子圖中提供圖名來提供結(jié)果。如果用戶的問題涉及多個鏈接圖,則會顯示多個圖名稱。示例如圖18所示。
圖18 COKG-QA系統(tǒng)中的用戶友好功能
03使用反饋
我們設(shè)計了點贊和點踩按鈕來鼓勵用戶提供反饋,這些反饋將用于改進COKG-QA模型。當(dāng)用戶給予正面反饋時,系統(tǒng)會隨機生成一個感謝句。當(dāng)用戶點踩時,會彈出一個氣泡,并為用戶顯示三個選項:錯誤答案、不完整答案和自定義意見。自定義選項為用戶提供了靈活提出建議的空間,并進一步受益于提高 QA 系統(tǒng)的有效性。
04易用性
許多醫(yī)學(xué)術(shù)語對于用戶來說并不常見或難以記住,例如疾病名稱和治療方法。自動輸入提示功能對于提高系統(tǒng)的可用性具有重要意義和實用性。我們的系統(tǒng)在很多場景下都支持自動補全。例如,用戶可以只使用一個單詞、拼音、多個單詞的首字母,甚至是模糊搜索。輸入框中的提示可以擴大用戶查詢的焦點,幫助完成用戶想問的問題,如圖19所示。此外,我們的系統(tǒng)還可以推薦與主題實體相關(guān)的問題,讓用戶可以探索更多關(guān)于原始問題。
圖19 COKG-QA系統(tǒng)的可用性
以上是對圍繞新冠肺炎的多跳問答數(shù)據(jù)集和智能問答技術(shù)的聯(lián)合研究成果的介紹。除此以外,達觀數(shù)據(jù)與同濟大學(xué)以聯(lián)合實驗室為契機,依托雙方產(chǎn)業(yè)與學(xué)術(shù)優(yōu)勢,圍繞知識圖譜與語義計算,在人才培養(yǎng)、學(xué)術(shù)研究、技術(shù)研發(fā)、科技成果轉(zhuǎn)化等方面不斷深入探索,聯(lián)合申報了國家聯(lián)合基金項目、上海市人工智能科技支撐專項等科研項目,聯(lián)合發(fā)布了第二十一屆中國計算語言學(xué)大會(CCL 2022)技術(shù)評測任務(wù)-汽車工業(yè)故障模式關(guān)系抽取,開展了多場前沿技術(shù)在產(chǎn)業(yè)化化應(yīng)用的會議交流,實現(xiàn)多領(lǐng)域、多層級深入合作,共同引領(lǐng)知識圖譜與語義計算領(lǐng)域技術(shù)創(chuàng)新以及產(chǎn)業(yè)化進程。
圖20 左:著名知識圖譜專家、同濟大學(xué)百人計劃、設(shè)計創(chuàng)意學(xué)院特聘研究員王昊奮教授?右:達觀數(shù)據(jù)CEO陳運文
參考文獻:
[1] Du H, Le Z, Wang H, et al. COKG-QA: Multi-hop question answering over COVID-19 knowledge graphs[J]. Data Intelligence, 2022, 4(3): 471-492.
[2] Zhang Y, Zhang X, Hu Y, et al. Wulai-qa: Web understanding and learning with ai towards document-based question answering against covid-19[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 898-901.
[3] Su D, Xu Y, Yu T, et al. CAiRE-COVID: A question answering and query-focused multi-document summarization system for COVID-19 scholarly information management[J]. arXiv preprint arXiv:2005.03975, 2020.
[4] Lee J, Yi S S, Jeong M, et al. Answering questions on COVID-19 in real-time[J]. arXiv preprint arXiv:2006.15830, 2020.
[5] Ding K, Han H, Li L, et al. Research on question answering system for covid-19 based on knowledge graph[C]//2021 40th Chinese Control Conference (CCC). IEEE, 2021: 4659-4664.
[6] Michel F, Gandon F, Ah-Kane V, et al. Covid-on-the-Web: Knowledge graph and services to advance COVID-19 research[C]//International Semantic Web Conference. Springer, Cham, 2020: 294-310.
[7] Sun H, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[J]. arXiv preprint arXiv:1809.00782, 2018.
[8] Li He, Liu Jiayu, Li Shiyu,et al. Optimizing Automatic Question Answering System Based on Disease Knowledge Graph[J]. Data Analysis and Knowledge Discovery, 2021, 5(5): 115-126.
[9] Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proceedings of the 58th annual meeting of the association for computational linguistics. 2020: 4498-4507.
[10] Reese J T, Unni D, Callahan T J, et al. KG-COVID-19: a framework to produce customized knowledge graphs for COVID-19 response[J]. Patterns, 2021, 2(1): 100155.
[11] Pei Z, Zhang J, Xiong W, et al. A General Framework for Chinese Domain Knowledge Graph Question Answering Based on TransE[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1693(1): 012136.
[12] Hamilton W, Bajaj P, Zitnik M, et al. Embedding logical queries on knowledge graphs[J]. Advances in neural information processing systems, 2018, 31.
[13] Ren H, Hu W, Leskovec J. Query2box: Reasoning over knowledge graphs in vector space using box embeddings[J]. arXiv preprint arXiv:2002.05969, 2020.
[14] Ren H, Leskovec J. Beta embeddings for multi-hop logical reasoning in knowledge graphs[J]. Advances in Neural Information Processing Systems, 2020, 33: 19716-19726.
[15] He G, Lan Y, Jiang J, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 553-561.
[16] Xiong W, Hoang T, Wang W Y. Deeppath: A reinforcement learning method for knowledge graph reasoning[J]. arXiv preprint arXiv:1707.06690, 2017.
[17] Shi J, Cao S, Hou L, et al. TransferNet: An effective and transparent framework for multi-hop question answering over relation graph[J]. arXiv preprint arXiv:2104.07302, 2021.
[18] Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//International conference on machine learning. PMLR, 2016: 2071-2080.