目前以理解人類語(yǔ)言為入口的認(rèn)知智能成為了人工智能發(fā)展的突破點(diǎn),而知識(shí)圖譜則是邁向認(rèn)知智能的關(guān)鍵要素。達(dá)觀數(shù)據(jù)在2018AIIA人工智能開(kāi)發(fā)者大會(huì)承辦的語(yǔ)言認(rèn)知智能與知識(shí)圖譜公開(kāi)課上,三位來(lái)自企業(yè)和學(xué)術(shù)領(lǐng)域的專家分別從不同角度講述的知識(shí)圖譜的應(yīng)用和發(fā)展。文本根據(jù)達(dá)觀數(shù)據(jù)副總裁王文廣演講內(nèi)容《知識(shí)圖譜與文本智能處理》整理所得,內(nèi)容略有刪減。
人們一些模糊詞義的表達(dá),比如:以前沒(méi)有錢買華為,現(xiàn)在沒(méi)有錢買華為。”這兩句“沒(méi)有錢”的意思很不一樣,我們?nèi)死斫膺@樣的句子很容易,但對(duì)于計(jì)算機(jī)來(lái)說(shuō)理解便很困難。
同一句話在不同場(chǎng)景下含義也很不一樣,比如說(shuō)從青島開(kāi)高速出來(lái)在車上談“G20”是指高速有沒(méi)有堵車,如果是北京或者是杭州談G20有可能是高鐵的票,在一些環(huán)境下G20也可能是20國(guó)集團(tuán)峰會(huì),這些表達(dá)的意思非常需要語(yǔ)境和背景知識(shí)的理解。計(jì)算機(jī)做文字閱讀理解面臨的挑戰(zhàn)主要包括三個(gè)方面:
?
(1)缺乏常識(shí)體系
因?yàn)闆](méi)有豐富的知識(shí)體系難以對(duì)文字背后的含義進(jìn)行深入理解和推導(dǎo)
(2)缺乏領(lǐng)域的專家經(jīng)驗(yàn)
人類的業(yè)務(wù)、法務(wù)、財(cái)務(wù)專家因?yàn)橛行袠I(yè)知識(shí),所以閱讀文字后與知識(shí)對(duì)比后可以形成專業(yè)的見(jiàn)解
(3)模糊、歧義、抽象會(huì)增加困難
語(yǔ)言中模糊不清的現(xiàn)象比比皆是,需結(jié)合語(yǔ)境去理解
知識(shí)圖譜是其中一個(gè)為解決問(wèn)題提出來(lái)的方法——我們可以把人類的各種知識(shí)以知識(shí)圖譜的形式沉淀下來(lái),讓計(jì)算機(jī)利用這個(gè)知識(shí)圖譜理解更加復(fù)雜的含義。
知識(shí)圖譜本身是從語(yǔ)義網(wǎng)發(fā)展出來(lái)的,也是谷歌提出來(lái)的概念,知識(shí)圖譜的構(gòu)建也是現(xiàn)在AI領(lǐng)域里面的非常大的難點(diǎn),這是因?yàn)椴粌H涉及到AI領(lǐng)域各方面的技術(shù),還包括人類各種領(lǐng)域的知識(shí)所形成的專家系統(tǒng)。
?
構(gòu)建高質(zhì)量的不斷演化知識(shí)圖譜也是AI領(lǐng)域的難點(diǎn)之一,因?yàn)橹R(shí)圖譜本身研究的意義就是可以為語(yǔ)言提供更多的背景知識(shí),讓計(jì)算機(jī)更好的讀寫文字?;粳F(xiàn)狀像谷歌、百度、搜狗都有大量的通用知識(shí)圖譜,還有垂直領(lǐng)域的醫(yī)療或者是金融領(lǐng)域的知識(shí)圖譜的廣泛應(yīng)用也很多,如何結(jié)合業(yè)務(wù)場(chǎng)景使用好知識(shí)圖譜是落地的根本要素。
? ? ??
知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),將客觀的經(jīng)驗(yàn)沉淀在巨大的網(wǎng)絡(luò)中,結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊(edge)代表實(shí)體/概念之間的語(yǔ)義關(guān)系,成熟的圖數(shù)據(jù)庫(kù)如neo4j,Dgraph,JanusGraph等可以用來(lái)存儲(chǔ)知識(shí)圖譜。
知識(shí)圖譜更加廣泛的被認(rèn)知的是一個(gè)三元組的表示形式。就是有三個(gè)值,第一個(gè)表示第一個(gè)實(shí)體,第二個(gè)值表示第二個(gè)實(shí)體,中間值是兩者之間的關(guān)系。三元組本身基于三元組的語(yǔ)義網(wǎng)發(fā)展起來(lái),有RDF的檢索語(yǔ)言,還有基于RDF的存儲(chǔ)的開(kāi)源的方式,都是很方便使用方式。
深度學(xué)習(xí)的發(fā)展促使知識(shí)的表示從三元組邁向稠密向量表示,從Word2Vec到對(duì)三元組的表示學(xué)習(xí),稠密向量,實(shí)體等本身可以用Word2Vec等進(jìn)行表示學(xué)習(xí),例如 Vector(山東省)? –? Vector(威海市) = Vector(廣東省)? – Vector(佛山市) ,對(duì)于三元組的表示學(xué)習(xí),有各類深度學(xué)習(xí)算法,如TransE、TransH、TransR、TransG、KBGAN、等。
知識(shí)圖譜上的應(yīng)用非常多,比如推薦系統(tǒng)可以用上知識(shí)圖譜來(lái)實(shí)現(xiàn)更加智能的推薦,除此之外,知識(shí)問(wèn)答、文檔審核等也是知識(shí)圖譜常見(jiàn)的應(yīng)用場(chǎng)景。
一般來(lái)講會(huì)把知識(shí)圖譜分成通用和行業(yè)的知識(shí)圖譜,通用型的就是剛剛提過(guò)像谷歌,構(gòu)建知識(shí)圖譜就是一個(gè)面向全領(lǐng)域,沒(méi)有一些特別的偏好,國(guó)內(nèi)有百度或者是搜狗的知識(shí)圖譜,還有一些是開(kāi)放式的像wikidata 以及中文openKG等。
行業(yè)垂直型知識(shí)圖譜是面向某一特定領(lǐng)域,如金融、法律、財(cái)會(huì)、教育等,以專家知識(shí)為主,通過(guò)結(jié)合業(yè)務(wù)場(chǎng)景,基于行業(yè)數(shù)據(jù)構(gòu)建,打造“語(yǔ)義層面的行業(yè)知識(shí)庫(kù)”,通常也更加專業(yè)。
比如向百度或者是搜狗搜一些人名地名會(huì)以卡片的形式展現(xiàn)出來(lái),這個(gè)是知識(shí)圖譜的現(xiàn)實(shí)的應(yīng)用。金融領(lǐng)域會(huì)用知識(shí)圖譜分析借貸關(guān)系或者是企業(yè)的信貸狀況等,這是非常強(qiáng)的應(yīng)用場(chǎng)景。
? ? ? ?
目前達(dá)觀達(dá)觀構(gòu)建一些企業(yè)信息法律類的知識(shí)圖譜用來(lái)幫助我們的文檔智能審閱系統(tǒng)更好的審核合同或者是專業(yè)文本,像財(cái)報(bào)或者是上交所的公告等。
?
知識(shí)圖譜有這么多好處,我們?cè)趺慈?gòu)建一個(gè)知識(shí)圖譜?簡(jiǎn)單來(lái)說(shuō),構(gòu)建知識(shí)圖譜其實(shí)是一個(gè)系統(tǒng)性的工程,不是單一的算法能夠完成。
? ? ? ??
?
另外對(duì)于知識(shí)圖譜來(lái)說(shuō)非常重要的一點(diǎn)是反饋機(jī)制,我們?cè)趺礃永梅答佅到y(tǒng)不斷地讓知識(shí)圖譜進(jìn)行進(jìn)化?這個(gè)在構(gòu)建知識(shí)圖譜的過(guò)程當(dāng)中非常需要考慮的問(wèn)題。此外,工程上詳細(xì)的logging和報(bào)表系統(tǒng)以在需要的時(shí)候進(jìn)行分析和糾正。
???
分層次的領(lǐng)域模式(Schema)非常重要?
schema的構(gòu)造是層級(jí)的方式,專業(yè)領(lǐng)域是先按照專家經(jīng)驗(yàn)構(gòu)造出一個(gè)知識(shí)圖譜的schema,然后在實(shí)踐過(guò)程當(dāng)中不斷完善,像通用的谷歌或者是百度他們自上而下利用類算法抽取知識(shí)圖譜,然后歸類到已經(jīng)有的schema,如果歸類不到就想方設(shè)法生成新的schema的模式匹配它。
在這里面知識(shí)圖譜構(gòu)建過(guò)程當(dāng)中,除了schema之外就是往圖譜里填內(nèi)容,這個(gè)過(guò)程就是知識(shí)抽取,本身是包括了實(shí)體抽取和關(guān)系抽取,還有屬性抽取這幾個(gè)概念,在實(shí)踐過(guò)程當(dāng)中,其實(shí)不完全是像在論文里面看到的各種抽取,有可能是從結(jié)構(gòu)化數(shù)據(jù)庫(kù)里面按照某一種專業(yè)的規(guī)則直接轉(zhuǎn)化,因?yàn)楹芏嗟闹R(shí)其實(shí)已經(jīng)存儲(chǔ)在各個(gè)企業(yè)里面關(guān)系數(shù)據(jù)庫(kù)里面。這種情況下可能是用了簡(jiǎn)單的規(guī)則就轉(zhuǎn)化成知識(shí)圖譜的一部分的內(nèi)容。
另外一部分是半結(jié)構(gòu)數(shù)據(jù),維基百科很多的標(biāo)簽是已經(jīng)存在在里面的,還有國(guó)家企業(yè)信息公示網(wǎng)的各種實(shí)體公司名或者是企業(yè)法人都是以半結(jié)構(gòu)化存在,這個(gè)用模板匹配就可以完成了。
?
這里面簡(jiǎn)單的就總結(jié)了剛剛提到的點(diǎn),在不同的背景下可能選擇不同的知識(shí)抽取的算法可以更好的去幫助我們構(gòu)建一個(gè)完整的知識(shí)圖譜。
這是一個(gè)像BiLSTM-CRF用于命名實(shí)體識(shí)別常用的辦法,幫助我們識(shí)別非結(jié)構(gòu)化文本,比如說(shuō)書(shū)籍或者是合同或者是新聞里面的實(shí)體。
? ? ??
Bi-LSTM雙向網(wǎng)絡(luò)分別從前往后和從后往前進(jìn)行序列信號(hào)的記憶和傳遞是常見(jiàn)做法,CRF等經(jīng)典方法結(jié)果可控性好,在序列標(biāo)注時(shí),在頂層用CRF對(duì)Bi-LSTM的結(jié)果進(jìn)行二次操作可得到更好的結(jié)果。
除了剛剛提到的知識(shí)抽取之外,其實(shí)抽取完之后在不同的地方表現(xiàn)方法和表達(dá)方式不一樣,在不同來(lái)源的知識(shí)里面如何融合成一個(gè)相同的?這個(gè)是我們需要考慮的點(diǎn),這里有幾個(gè)例子:比如說(shuō)蘇東坡在不同的地方會(huì)被提到,而且有不同的名字,可能是歷書(shū)里面有東坡學(xué)士這樣的說(shuō)法,還有蘇軾的叫法。
另外這些不僅僅存在中國(guó),因?yàn)槎嘣鐕?guó)之間的交流也導(dǎo)致很大的問(wèn)題,比如說(shuō)后面的例子是美國(guó)總統(tǒng)特朗普,中文的官方名稱是特朗普,大家還有稱他為川普,還有其他的語(yǔ)言西班牙或者是土耳其語(yǔ)。在多元的環(huán)境下如何進(jìn)行知識(shí)圖譜?其實(shí)對(duì)知識(shí)圖譜構(gòu)建是非常大的挑戰(zhàn)。
? ? ? ?
這是一個(gè)網(wǎng)絡(luò)上的例子,來(lái)自于幾個(gè)不同的影視劇或者是小說(shuō),里面的部分人是同一個(gè)人,但是不同的小說(shuō)可能有不同的名字或是不同影視劇里面的主角,這樣如果做成一個(gè)知識(shí)圖譜如何歸結(jié)好?利用各種影視劇小說(shuō)里面的內(nèi)容進(jìn)行推理,其實(shí)是多元知識(shí)融合里面非常通俗易懂的例子。這個(gè)是人工整理,人有專業(yè)的知識(shí)非常好做,但是耗費(fèi)了大量的人力,不能把各種知識(shí)都做很好的融合,所以我們需要發(fā)掘更多算法去實(shí)現(xiàn)這個(gè)目標(biāo)。
除了剛剛提到的抽取和融合之外,對(duì)于知識(shí)圖譜的存儲(chǔ)其實(shí)也是非常大的挑戰(zhàn)。大一點(diǎn)的通用的知識(shí)圖譜都是幾十億甚至上百億的節(jié)點(diǎn),可能百億千億級(jí)別的關(guān)系,如何做好存儲(chǔ)系統(tǒng)是極其需要考慮的點(diǎn),下圖總結(jié)目前常見(jiàn)的幾種存儲(chǔ)類型,像RDF和ApacheJena以三元組的形式表現(xiàn)的,NoSQL也可以存儲(chǔ),但是如果量大會(huì)很吃力,開(kāi)源的Neo4j是單機(jī)的,DGraph正在發(fā)展,按照官方的說(shuō)法支持千億級(jí)別的,但是現(xiàn)在還沒(méi)有達(dá)到,但億級(jí)別是完全沒(méi)有問(wèn)題的。
? ?
下圖一個(gè)JanusGraph,有如下幾個(gè)特點(diǎn):
?? ? ?
- 十億以上的節(jié)點(diǎn)和邊
- C* 或 Hbase等
- 與Spark無(wú)縫集成
- 支持使用ElasticSearch進(jìn)行高效檢索
- 最終一致性
- 支持Gremlin語(yǔ)言進(jìn)行在線分析
- 開(kāi)源
除了以上這些點(diǎn),如果構(gòu)建好了知識(shí)圖譜,要對(duì)知識(shí)進(jìn)行推理和評(píng)估,知識(shí)推理本身可以補(bǔ)充知識(shí)圖譜的內(nèi)容,或者是進(jìn)行完善或者是較驗(yàn)。對(duì)于知識(shí)圖譜大部分還是需要人工的參與。
Path Ranking Algorithm(PRA)算法和DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning,這兩個(gè)是知識(shí)推理的前沿進(jìn)展,有興趣可以去看一下。
總之,從合適的業(yè)務(wù)場(chǎng)景出發(fā)是成功構(gòu)建和使用行業(yè)知識(shí)圖譜的關(guān)鍵。
? ? ? ? ? ? ?
?
知識(shí)圖譜的作用是銜接企業(yè)的數(shù)據(jù)和業(yè)務(wù)需求。
對(duì)于企業(yè)來(lái)說(shuō),是把原有的分散的數(shù)據(jù)變成集中化的管理。可能是遇到比較大的集團(tuán)企業(yè)他的傳統(tǒng)的數(shù)據(jù)是分散的,不同的部門和公司之間,這部分的知識(shí)是沒(méi)有被更好的利用起來(lái)。如何利用好這些數(shù)據(jù)?更好的支持業(yè)務(wù),讓整個(gè)業(yè)務(wù)更高效的運(yùn)行?其實(shí)是整個(gè)企業(yè)在做知識(shí)圖譜需要考慮的一個(gè)點(diǎn)。
對(duì)于我們來(lái)說(shuō)他的難點(diǎn)就是在于因?yàn)楸旧淼臄?shù)據(jù)非常的分散,不同的數(shù)據(jù)結(jié)構(gòu)表示不一樣,存在不同的地方有不同的表達(dá)方式,如何做好這部分融合的工作其實(shí)是很大的難點(diǎn)。
知識(shí)圖譜的應(yīng)用場(chǎng)景可以是簡(jiǎn)單的利用,即直接用知識(shí)圖譜的分析,下圖比是早的阿里巴巴的分析圖,當(dāng)時(shí)發(fā)生了一個(gè)事件馬云把支付寶私有化,當(dāng)時(shí)他們畫了一個(gè)阿里巴巴的股權(quán)結(jié)構(gòu)圖,像這種股權(quán)分析在金融領(lǐng)域里面是非常直接的知識(shí)圖譜的應(yīng)用。
除此之外,信貸分析也是經(jīng)典的應(yīng)用場(chǎng)景,直接用知識(shí)圖譜或者是知識(shí)推理進(jìn)行分析,生成相應(yīng)的報(bào)告或者得出一些結(jié)論,這個(gè)是最直接的應(yīng)用場(chǎng)景。
第二是利用知識(shí)圖譜做一些輿情分析熱點(diǎn)分析,把知識(shí)圖譜和其他的結(jié)合起來(lái)使用。
達(dá)觀擅長(zhǎng)的VOC用戶評(píng)論分析,會(huì)涉及到用戶評(píng)論歸類到哪一個(gè)實(shí)體里面,比如說(shuō)一個(gè)企業(yè)會(huì)抓他的所有的評(píng)論和微博數(shù)據(jù),會(huì)歸納到具體的品牌和產(chǎn)品上,甚至是歸到產(chǎn)品的某些類別中。比如說(shuō)手機(jī),有不同的品牌,每個(gè)品牌下面有不同的型號(hào),每個(gè)型號(hào)下有不同的版本,手機(jī)本身有不同的零件——屏幕或者是相機(jī)之類。每個(gè)評(píng)論過(guò)來(lái)之后其實(shí)針對(duì)的是某一個(gè)具體手機(jī)的型號(hào),在這個(gè)型號(hào)里面有可能是針對(duì)整機(jī)進(jìn)行評(píng)價(jià),有可能是針對(duì)整機(jī)里面的部件。那么我們需要做的更好的分析就是可以利用像手機(jī)這種類似的知識(shí)圖譜對(duì)它進(jìn)行更深入的分析。
招聘也是達(dá)觀目前在做的,有企業(yè)在用,可以對(duì)候選人和職位構(gòu)建出圖譜進(jìn)行分析,更好的理解這個(gè)職位需要招什么人?也可以更好的了解候選人適合哪一個(gè)職位。
此外,基于知識(shí)圖譜實(shí)現(xiàn)更加智能的搜索。基于知識(shí)圖譜的檢索最早用在搜索引擎上面,搜索利用這些之后可以更好的理解用戶的意圖,達(dá)到更好的效果。
推薦系統(tǒng)也可以用知識(shí)圖譜,這個(gè)是達(dá)觀在做的,達(dá)觀的推薦系統(tǒng)在業(yè)界比較領(lǐng)先,知識(shí)圖譜可以針對(duì)不同的場(chǎng)景或者是不同的類型還有不同的領(lǐng)域推薦。推薦中最重要的一點(diǎn)是冷啟動(dòng)問(wèn)題,如果完全沒(méi)有數(shù)據(jù)的系統(tǒng)或者是剛構(gòu)建的系統(tǒng),想達(dá)到好的推薦效果比較難,利用知識(shí)圖譜里面的內(nèi)容能更好的在冷啟動(dòng)的環(huán)境下達(dá)到更好的效果。如何利用深度學(xué)習(xí)把知識(shí)圖譜用在推薦系統(tǒng)上,也是達(dá)觀數(shù)據(jù)在研究的內(nèi)容。
構(gòu)建知識(shí)圖譜之上的問(wèn)答系統(tǒng)是最直接的,知識(shí)問(wèn)答是你需要了解用戶問(wèn)的問(wèn)題是什么意思?然后給他一個(gè)最直接的答案。知識(shí)問(wèn)答除了像各種搜索引擎,這個(gè)里面的例子有幾個(gè),一個(gè)是問(wèn)范冰冰的男友是誰(shuí),百度就直接給出一個(gè)卡片。
前面就是一些通用場(chǎng)景下的應(yīng)用場(chǎng)景,下面講講達(dá)觀數(shù)據(jù)對(duì)知識(shí)圖譜的的一些應(yīng)用。
這個(gè)場(chǎng)景是合同審閱,自動(dòng)化的幫企業(yè)審閱各種合同文本和公告,合同需要符合合同法規(guī)定的,以及企業(yè)內(nèi)部的法務(wù)部門對(duì)合同有一些要求,以及本身合同是一個(gè)非常規(guī)范的文本,不允許有錯(cuò)別字等。
達(dá)觀文檔智能審閱系統(tǒng)能利用知識(shí)圖譜里面包括對(duì)法律文本的語(yǔ)義化的圖譜應(yīng)用,自動(dòng)完成審閱。以及對(duì)企業(yè)信息可以從工商信息網(wǎng)的信息里面可以做一些較驗(yàn)。
推薦系統(tǒng)剛剛提到過(guò),推薦系統(tǒng)里面應(yīng)用到知識(shí)圖譜,這個(gè)是簡(jiǎn)單的例子,比如說(shuō)達(dá)觀數(shù)據(jù)和人工智能公司,是屬于人工智能的一個(gè)領(lǐng)域,如果一個(gè)用戶對(duì)人工智能感興趣,對(duì)達(dá)觀相關(guān)的信息就感興趣,比如說(shuō)達(dá)觀的融資信息,這個(gè)對(duì)人工智能來(lái)說(shuō)是一個(gè)比較有用的新聞,可以判斷這個(gè)領(lǐng)域是不是繁榮?估值是不是上漲了還是下降了?
? ? ? ? ? ? ?
上圖是達(dá)觀用深度學(xué)習(xí)的方式把知識(shí)圖譜的三元組表示應(yīng)用到協(xié)同過(guò)濾和推薦相關(guān)的領(lǐng)域。
?
?
前面簡(jiǎn)單的介紹了整個(gè)知識(shí)圖譜的相關(guān)的內(nèi)容,最后做一些總結(jié)。
1.構(gòu)建知識(shí)圖譜本身是非常系統(tǒng)性的工程,包括計(jì)算機(jī)的方方面面還有實(shí)踐過(guò)程,以及企業(yè)真實(shí)應(yīng)用場(chǎng)景中包括對(duì)企業(yè)的不斷的溝通,不同部門之間整合的過(guò)程
?
2.整個(gè)知識(shí)圖譜的構(gòu)建沒(méi)有”銀彈”,沒(méi)有一個(gè)統(tǒng)一或者是完美的方法搞定一個(gè)事情,在做事情的過(guò)程當(dāng)中需要因時(shí)因地制宜的實(shí)現(xiàn)
?
3.知識(shí)圖譜的構(gòu)建能有效提升文本智能處理的效果
?
4.知識(shí)圖譜可能是走向認(rèn)知智能的關(guān)鍵要素
?
5.知識(shí)圖譜需要結(jié)合應(yīng)用場(chǎng)景做分析落地,落地之后還要不斷的優(yōu)化總結(jié)來(lái)提升整個(gè)效果
BOUT
關(guān)于嘉賓
王文廣,達(dá)觀數(shù)據(jù)副總裁,在人工智能領(lǐng)域和系統(tǒng)架構(gòu)設(shè)計(jì)上有十余年工作經(jīng)驗(yàn),浙江大學(xué)計(jì)算機(jī)碩士。曾擔(dān)任金融AI公司Kavout首席架構(gòu)師,將人工智能(AI)和自然語(yǔ)言處理(NLP)技術(shù)應(yīng)用于金融、證券、量化交易等領(lǐng)域,效果得到美國(guó)大型基金公司認(rèn)可。
曾負(fù)責(zé)盛大創(chuàng)新院搜索、推薦、廣告等多個(gè)項(xiàng)目的架構(gòu)設(shè)計(jì)工作,所設(shè)計(jì)和開(kāi)發(fā)的系統(tǒng)具備海量數(shù)據(jù)的快速處理和高度智能的挖掘能力,多次獲得嘉獎(jiǎng)。早期在百度負(fù)責(zé)MP3搜索、語(yǔ)音識(shí)別與搜索和音頻指紋等系統(tǒng)的核心研發(fā)。