備受業(yè)界關(guān)注的“2019世界人工智能大會”上,伊利諾伊大學(xué)厄巴納香檳分校計算機(jī)系終身正教授HengJi出席達(dá)觀數(shù)據(jù)主辦的“理解語言,擁抱智能”主題論壇,分享了跨語言跨媒體跨領(lǐng)域信息抽取的研究進(jìn)展。
信息抽?。╥nformation extraction),即從自然語言文本中,抽取出特定的事件或事實信息,幫助人們將海量的內(nèi)容自動分類、提取和重構(gòu)。信息抽取無論是在信息檢索、問答系統(tǒng)還是在情感分析、文本挖掘中,都有著廣泛的應(yīng)用。
抽取的信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。從非結(jié)構(gòu)化文本中識別事件和實體關(guān)系等復(fù)雜的語義圖結(jié)構(gòu),是一項具有挑戰(zhàn)性的信息抽取任務(wù),而從資源不足和標(biāo)注不足的語言所書寫的文本中提取語義圖結(jié)構(gòu)無疑更加困難。
在大會現(xiàn)場,Heng Ji教授介紹了跨語言跨媒體圖結(jié)構(gòu)對于上述任務(wù)的適用性的相關(guān)研究。相比于之前僅限于序列層面的跨語言遷移研究,Heng Ji教授團(tuán)隊觀察到,關(guān)系事實通常由跨多種語言和數(shù)據(jù)模態(tài)的可識別的結(jié)構(gòu)化圖模式來表示。通過利用符號信息(包括詞性和依賴路徑)和分布信息(包括類型表示和上下文表示),形成了關(guān)系相關(guān)、事件相關(guān)的語言通用和模態(tài)通用的特征。
Heng Ji教授看來,在語義學(xué)里大家比較關(guān)注詞層面,對于信息抽取中間差距較大。對人和很多實體來講,表示并不是將每個詞加起來,需要將其作為獨一無二、不可組合的,且必須在語義空間里有自己獨享的節(jié)點。
在這個基礎(chǔ)上,Heng Ji教授又介紹了如何使用圖卷積網(wǎng)絡(luò)將所有實體引用、事件觸發(fā)詞和上下文表示到這個復(fù)雜且結(jié)構(gòu)化的多語言統(tǒng)一空間。以這種方式,將來自多種語言的所有句子和來自圖像中的可視對象表示為一個共享的統(tǒng)一圖表示。然后,從標(biāo)注好的源語言中訓(xùn)練一個關(guān)系或事件抽取器,并將其應(yīng)用于目標(biāo)語言和圖像。Heng Ji教授表示,在跨語言和跨媒體關(guān)系和事件遷移方面的大量實驗表明,這個方法在最多3000個訓(xùn)練樣本上實現(xiàn)了與現(xiàn)有的SOTA監(jiān)督模型相當(dāng)?shù)男阅?,并且顯著優(yōu)于從單一表示中學(xué)習(xí)的方法。
Heng Ji,伊利諾伊大學(xué)厄巴納香檳分校計算機(jī)系終身正教授。從清華大學(xué)獲得學(xué)士和碩士學(xué)位,從紐約大學(xué)獲得博士學(xué)位。致力于自然語言處理研究,尤其是信息抽取和知識庫構(gòu)建。于2016和2017年被世界經(jīng)濟(jì)論壇選為年輕科學(xué)家以及全球未來計算委員會委員。她獲得的獎項包括人工智能領(lǐng)域十大新星以及美國自然科學(xué)基金職業(yè)生涯獎。