桂洪冠:大家晚上好!我是達(dá)觀數(shù)據(jù)的桂洪冠,負(fù)責(zé)達(dá)觀的搜索技術(shù)團(tuán)隊(duì)。非常高興今天晚上能給大家做一個(gè)分享,分享的主題是“知識(shí)圖譜的關(guān)鍵技術(shù)和應(yīng)用”。
達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的人工智能技術(shù)企業(yè),我們?yōu)槠髽I(yè)提供完善的文本挖掘、知識(shí)圖譜、搜索引擎、個(gè)性化推薦的文本智能處理技術(shù)服務(wù)。

言歸正傳,進(jìn)入今天的演講環(huán)節(jié)。今天的演講主題是“知識(shí)圖譜關(guān)鍵技術(shù)與應(yīng)用”。
分成幾個(gè)環(huán)節(jié):
一、知識(shí)圖譜的相關(guān)概述;
二、知識(shí)圖譜的基本概念;
三、知識(shí)圖譜行業(yè)方面的應(yīng)用和場景介紹,著重講一下知識(shí)圖譜構(gòu)建的相關(guān)技術(shù);
四、達(dá)觀在知識(shí)圖譜構(gòu)建方面的經(jīng)驗(yàn)、心得和相關(guān)案例,最后是與大家的Q&A互動(dòng)環(huán)節(jié)。

一、知識(shí)圖譜的概述
我們先直觀的來看一下什么是知識(shí)圖譜,下面有一張圖,從這張圖里可以看到,這個(gè)圖里圓圈是節(jié)點(diǎn),節(jié)點(diǎn)之間有一些帶箭頭的邊來連成,這個(gè)節(jié)點(diǎn)實(shí)際上相當(dāng)于知識(shí)圖譜里的實(shí)體或者概念,邊連線表示實(shí)體之間的關(guān)系。
知識(shí)圖譜本質(zhì)上是一種大型的語義網(wǎng)絡(luò),它旨在描述客觀世界的概念實(shí)體事件以及及其之間的關(guān)系。以實(shí)體概念為節(jié)點(diǎn),以關(guān)系為邊,提供一種從關(guān)系的視角來看世界。
語義網(wǎng)絡(luò)已經(jīng)不是什么新鮮事,早在上個(gè)世紀(jì)就已經(jīng)出現(xiàn)了,但為什么重新又提到知識(shí)圖譜?
知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),但是它最主要的特點(diǎn)是一個(gè)非常大規(guī)模的語義網(wǎng)絡(luò),之前的語義網(wǎng)絡(luò)受限于我們處理的方法,更多是依賴于專家的經(jīng)驗(yàn)規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù)。
谷歌在2012年首先提出知識(shí)圖譜的概念,在freebase的基礎(chǔ)上擴(kuò)展了大量來自互聯(lián)網(wǎng)的實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù)。據(jù)說目前實(shí)體的數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億級(jí),有達(dá)到千億級(jí)的實(shí)例關(guān)系,規(guī)模是非常巨大的。
我們再看一下,知識(shí)圖譜背后是怎么表示的,我們看到的是一個(gè)巨大的語義網(wǎng),背后是怎么存儲(chǔ)或者表示的呢?
首先,它是由三元組構(gòu)成的,構(gòu)成知識(shí)圖譜的核心其實(shí)就是三元組,三元組是由實(shí)體、屬性和關(guān)系組成的(由Entity、Attribute、Relation組成)。
具體表示方法為,實(shí)體1跟實(shí)體2之間有某種關(guān)系,或者是實(shí)體屬性、屬性詞。
舉個(gè)例子,“達(dá)觀數(shù)據(jù)是一家人工智能公司”,其實(shí)就可以表示成這樣的三元組:
<達(dá)觀數(shù)據(jù),is-a,人工智能公司>。
“人工智能公司是一種高科技公司”可以表示成:
<人工智能公司,subclass,高科技公司>。
“達(dá)觀數(shù)據(jù)成立于2015年”,也可以把這個(gè)屬性表示成一個(gè)三元組,就是:
<達(dá)觀數(shù)據(jù),start-time,2015年>。
基于已有的三元組,它可以推導(dǎo)出新的關(guān)系,這個(gè)對(duì)構(gòu)建知識(shí)圖譜來說是非常重要的。我們知道,知識(shí)圖譜要有豐富的實(shí)體關(guān)系,才能真正達(dá)到它實(shí)用的價(jià)值。完全靠人工去做的話是不太現(xiàn)實(shí)的,所以內(nèi)部一定有一個(gè)自動(dòng)推理的機(jī)制,可以不斷的去推理出新的關(guān)系數(shù)據(jù)出來,不斷的豐富知識(shí)圖譜。
來看一些具體的例子。
“人工智能公司是一種高科技公司”,subclass的關(guān)系。
還有一個(gè)三元組是谷歌是一家人工智能公司,<Google is-a人工智能公司>,可以由這兩個(gè)三元組推導(dǎo)出谷歌是一家高科技公司,
<Google is-a高科技公司>。
因?yàn)閟ubclass的實(shí)例之間是一種繼承的關(guān)系。
<翅膀part-of鳥>,<麻雀kind-of鳥>,可以推導(dǎo)出<翅膀part-of麻雀>。
為什么要用三元組來描述知識(shí)圖譜?
三元組是一個(gè)人和計(jì)算機(jī)都易于理解的結(jié)構(gòu),人是可以解讀的,計(jì)算機(jī)也可以通過三元組去處理,所以它是一個(gè)既容易被人類解讀,又容易被計(jì)算機(jī)來處理和加工的結(jié)構(gòu),而且它也足夠的簡單,如果說你擴(kuò)充成四元組、五元組,它整個(gè)結(jié)構(gòu)就會(huì)變得比較復(fù)雜,那是綜合的一種復(fù)雜性和人的易理解性、和計(jì)算機(jī)的易出理性來綜合的考慮,決定用三元組的結(jié)構(gòu)來去作為它的一個(gè)存儲(chǔ)。
那么,AI為什么需要知識(shí)圖譜?
人工智能分為三個(gè)階段,從機(jī)器智能到感知智能,再到認(rèn)知智能。
機(jī)器智能更多強(qiáng)調(diào)這些機(jī)器的運(yùn)算的能力,大規(guī)模的集群的處理能力,GPU的處理的能力。
在這個(gè)基礎(chǔ)之上會(huì)有感知智能,感知智能就是語音識(shí)別、圖像識(shí)別,從圖片里面識(shí)別出一個(gè)貓,識(shí)別人臉,是感知智能。感知智能并非人類所特有,動(dòng)物也會(huì)有這樣的一些感知智能。
再往上一層的認(rèn)知智能,是人類所特有的,是建立在思考的基礎(chǔ)之上的,認(rèn)知的建立是需要思考的能力,而思考是建立在知識(shí)的基礎(chǔ)之上,必須有知識(shí)的基礎(chǔ)、有一些常識(shí),才能建立一些思考,形成一個(gè)推理機(jī)制。

AI需要從感知智能邁向認(rèn)知智能,本質(zhì)上知識(shí)是一個(gè)基礎(chǔ),然后基于知識(shí)的推理,剛好知識(shí)圖譜其實(shí)是具備這樣的一個(gè)屬性。
知識(shí)圖譜其實(shí)是富含有實(shí)體、屬性、概念、事件和關(guān)系等信息,它能夠基于一定的推理。且比較關(guān)鍵的是,它能夠基于一定的推理為AI的可解釋性,帶來全新的一個(gè)視角。
可解釋性已被一些領(lǐng)域AI大規(guī)模使用。
醫(yī)療領(lǐng)域,AI進(jìn)行癌癥的診斷的結(jié)果,如果沒有給出一個(gè)合理的一個(gè)理由,或者是給出一個(gè)解釋的一個(gè)方法,醫(yī)生是不敢貿(mào)然的用AI給出的癌癥診斷的結(jié)果去給病人直接做下一步的措施。
金融領(lǐng)域也一樣,AI如果給投資人推薦了一個(gè)投資的方案,但是沒有給出任何的一個(gè)解釋跟說明的話,也會(huì)存在巨大的一個(gè)風(fēng)險(xiǎn)。
同樣,在司法領(lǐng)域也是一樣,用AI進(jìn)行判案,AI給一個(gè)案件判定一個(gè)結(jié)果,
但是沒有給出任何的一個(gè)解釋,也是不能作為結(jié)果來采用的,因?yàn)樗痉◤?qiáng)調(diào)的就是一種可解釋性,對(duì)法律的解釋性、可推理性。
為什么說知識(shí)圖譜可以做這樣一個(gè)可解釋性呢?
舉個(gè)例子,我們問
“C羅為什么那么牛?”
這個(gè)是一個(gè)問題。
要解釋回答這個(gè)問題,人通常是怎么樣去回答這樣的問題呢?
通過知識(shí)圖譜的簡單的推理,就可以回答這樣一個(gè)問題。
因?yàn)镃羅獲得過金球獎(jiǎng),C羅跟金球獎(jiǎng)之間的關(guān)系是獲得獎(jiǎng)項(xiàng)的一個(gè)關(guān)系,金球獎(jiǎng)跟影響力最大的足球評(píng)選獎(jiǎng)項(xiàng)之一有這樣一個(gè)地位的關(guān)系,它具有非常高的地位,C羅又獲得過這個(gè)獎(jiǎng)項(xiàng),所以可以得出,C羅是很牛的。
這是一種知識(shí)圖譜來解釋、來回答這樣一個(gè)“為什么”的一個(gè)問題。
同樣還有一些問題,比如
“鱷魚為什么那么可怕?”
人類是有這樣的常識(shí),所有的大型的食肉動(dòng)物都是很可怕,這是個(gè)常識(shí)。
鱷魚是一種大型的食薄動(dòng)物,鱷魚跟大型食肉動(dòng)物概念之間是一種instance的關(guān)系。通過這樣的一個(gè)常識(shí)和概念之間的關(guān)系,可以推導(dǎo)出鱷魚是很可怕的。
同樣的,
“鳥兒為什么會(huì)飛?”
因?yàn)樗谐岚?,鳥兒這個(gè)實(shí)體它的屬性是有翅膀,利用一個(gè)實(shí)體跟屬性之間的關(guān)系,可以做這樣一個(gè)推理。
之前微博上關(guān)曉彤跟鹿晗非常的火,經(jīng)常被刷屏,這是為什么?
因?yàn)殛P(guān)曉彤跟鹿晗之間是男女朋友這樣的關(guān)系,明星之間的男女朋友的關(guān)系就最容易被大家追捧,也最容易被刷屏。
這個(gè)就是通過關(guān)系也好,通過實(shí)體的屬性也好,通過實(shí)體的概念也好,可以去解釋、去回答一些問題。
這些是知識(shí)圖譜在AI在可解釋性方面的一些具體的例子。
深度學(xué)習(xí)的可解釋性非常差的,深度學(xué)習(xí)里面內(nèi)部的語義表達(dá)、向量的表達(dá)都是一些浮點(diǎn)數(shù),人類是非常難以理解的。深度學(xué)習(xí)出來的結(jié)果,它的可解釋性也是非常少的。
盡管我們現(xiàn)在在研究可視化的技術(shù),把中間的它的結(jié)果呈現(xiàn)出來、可視化出來,但是真正能達(dá)到對(duì)人有效的解釋性進(jìn)展還是比較緩慢的。
知識(shí)圖譜實(shí)際上是有望能夠消除人類的自然語言跟深度學(xué)習(xí)黑盒之間的語義鴻溝。也就是深度學(xué)習(xí)的底層的特征空間和上層的人的自然語言空間這種巨大的語義鴻溝,通過深度學(xué)習(xí)跟知識(shí)圖譜結(jié)合起來,有望能夠消除。
這也是為什么AI要結(jié)合知識(shí)圖譜的一個(gè)原因。

來看具體的例子,通過知識(shí)圖譜怎么樣來理解自然語言?
在問答研究當(dāng)中,理解自然語言來回答問題,是非常困難的。因?yàn)槿藢?duì)人的自然語言的表達(dá)方式豐富多樣,然后同樣的語義的問題的表達(dá)方式也是多樣的。
比如,問上海有多少人口
“what is the population of shanghai?”
和圖上是兩種不同的問法,但實(shí)際上都是在問同樣的問題。
看上去問法不一樣,但表達(dá)的語義一樣。
也有它的問法比較相近,但表達(dá)的語義完全不一樣的。
比如
“狗咬人了嗎?”
“人咬狗了嗎?”
字僅僅顛倒的位置,語義就完全不同了。
當(dāng)這個(gè)問題的答案來自知識(shí)庫時(shí),這一類的問題,我們通常稱它為叫KBQA,叫“面向知識(shí)庫的自然語言問答”。
KBQAI的核心步驟就是建立從自然語言的問答到知識(shí)圖譜、知識(shí)庫的三元組的位置映射的關(guān)系。
上面那兩個(gè)人口的相關(guān)的問題,都可以映射到知識(shí)庫當(dāng)中的位置,叫“ population”。
通常比較簡單的方法,就是記住這些所有的位置的映射的規(guī)則,記住這種句式,然后來套這樣一個(gè)模板。但實(shí)際上這種做法是非常不靈活的,用同樣的問法問北京、上海甚至其它任意一個(gè)城市的人口,這種方法就要去列舉、去窮舉,一種暴力式的記憶。
如果換一種方法,比如說我們有這樣的叫
“How many people are there in City?”
我們做抽象,就是把上海、南京、北京上升到概念的程度,這個(gè)概念對(duì)應(yīng)就是城市,城市有人口這樣的屬性,只要這個(gè)實(shí)例是屬于城市的,實(shí)際上都可以去回答這個(gè)這樣的問題。
因?yàn)椤皊hanghai is_a city,beijing is_a city,nanjing is_a city”,它都是一個(gè)城市,所以它都可以依照上面的模概念模板,來回答它的城市對(duì)應(yīng)的人口。
充分的利用知識(shí)圖譜的概念和對(duì)實(shí)體的表示、概念的表示,然后再利用概念的屬性,就可以比較好的能回答這一類的自然語言的語義問題。

我們再來看一下通用知識(shí)圖譜和行業(yè)知識(shí)圖譜,它們這兩個(gè)之間的區(qū)別。
通用知識(shí)圖譜實(shí)際上是谷歌或者百度這樣的大型的互聯(lián)網(wǎng)公司在構(gòu)建的,它主最主要是用于它的搜索引擎,它面向的是通用領(lǐng)域,它的用戶是全部的互聯(lián)網(wǎng)的用戶,它構(gòu)建是常識(shí)性的知識(shí)為主,包括結(jié)構(gòu)化的百科知識(shí),它強(qiáng)調(diào)的更多的是一種知識(shí)的廣度,對(duì)知識(shí)的深度方面不做更多的要求,它的使用者也是普通的用戶。
對(duì)于行業(yè)知識(shí)圖譜來講的話,它的整個(gè)定位就不一樣,它首先是面向一個(gè)特定的領(lǐng)域,它的數(shù)據(jù)來源是來源于特定行業(yè)的語料,它是基于行業(yè)的數(shù)據(jù)來構(gòu)建,而且要有一定的行業(yè)的深度,它強(qiáng)調(diào)的是更多的是深度,而不是廣度,能夠解決行業(yè)人員的問題,它的使用者也是這個(gè)行業(yè)內(nèi)的從業(yè)人員,或者是這個(gè)領(lǐng)域里面的專業(yè)人員來使用。
通用知識(shí)圖譜和行業(yè)知識(shí)圖譜,個(gè)并不是說完全互相獨(dú)立的,是具有互相互補(bǔ)性的關(guān)系。
一方面,通用知識(shí)圖譜會(huì)不斷的吸納行業(yè)或者領(lǐng)域知識(shí)圖譜的知識(shí),來擴(kuò)充它的知識(shí)面,然后增加它的知識(shí)的廣度。
同時(shí)我們在構(gòu)建一個(gè)行業(yè)知識(shí)圖譜或者領(lǐng)域知識(shí)圖譜的時(shí)候,實(shí)際上也并不是說只局限在這個(gè)領(lǐng)域的基本的數(shù)據(jù),我們同時(shí)還要去通用知識(shí)圖譜里面去吸納更多的常識(shí)性的知識(shí)來作為補(bǔ)充,只有這樣才能構(gòu)成一個(gè)非常完整的行業(yè)知識(shí)圖譜。
上面第一部分就講完了,大概講了一下知識(shí)圖譜的概念,包括AI為什么需要知識(shí)圖譜,以及舉了相關(guān)的例子。第二部分我想更著重的講一下知識(shí)圖譜在行業(yè)里面的具體的應(yīng)用。