8月14日,2020全球人工智能產(chǎn)品應(yīng)用博覽會(huì)(AIExpo2020)在蘇州國際博覽中心隆重召開。全球智博會(huì)分論壇之一——“以認(rèn)知·見新智”知識(shí)圖譜產(chǎn)業(yè)發(fā)展高峰論壇暨“I CAMP”知識(shí)圖譜產(chǎn)業(yè)加速營II期發(fā)布儀式在第二天下午正式舉辦。
本次知識(shí)圖譜論壇集結(jié)了來自政府、學(xué)界、業(yè)界等多位領(lǐng)導(dǎo)與大咖蒞臨出席并發(fā)表講話與主題分享,聚焦人工智能行業(yè)知識(shí)圖譜與金融、政府、零售、工業(yè)的深度融合,關(guān)注AI行業(yè)最通用、最成熟、最創(chuàng)新的實(shí)踐案例。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人兼副總裁桂洪冠受邀出席大會(huì),并進(jìn)行了題為《知識(shí)圖譜行業(yè)應(yīng)用》的演講,分享了達(dá)觀數(shù)據(jù)在知識(shí)圖譜應(yīng)用和文本自動(dòng)化領(lǐng)域的多年核心先進(jìn)技術(shù)積累與及成果經(jīng)驗(yàn)。
AI時(shí)代,知識(shí)圖譜被認(rèn)為是從感知智能通往認(rèn)知智能的重要基石。知識(shí)圖譜作為知識(shí)的一種形式,已經(jīng)在語義搜索、智能問答、數(shù)據(jù)分析、自然語言理解、等多個(gè)方面發(fā)揮出越來越大的價(jià)值。
作為國內(nèi)文本智能處理的領(lǐng)軍企業(yè),達(dá)觀數(shù)據(jù)在知識(shí)圖譜領(lǐng)域一直進(jìn)行相關(guān)的研發(fā)與行業(yè)落地推動(dòng)工作,不斷實(shí)現(xiàn)技術(shù)成果的突破。在2019年全國知識(shí)圖譜與語義計(jì)算大會(huì)(簡稱CCKS)上,達(dá)觀數(shù)據(jù)提出的模型方案在CCKS的測試集上達(dá)到了0.978的準(zhǔn)確率;在文本段落信息點(diǎn)提取子任務(wù)中,方案最終獲得0.940的F1-score。最終兩項(xiàng)任務(wù)以0.959F1值高效斬獲CCKS 2019“公眾公司公告信息抽取”大賽任務(wù)亞軍。

在分享活動(dòng)現(xiàn)場,桂洪冠結(jié)合達(dá)觀淵海知識(shí)圖譜平臺(tái)介紹了知識(shí)圖譜在智能搜索、企業(yè)風(fēng)險(xiǎn)監(jiān)控、供應(yīng)商管理、制造業(yè)設(shè)備故障分析以及輔助軍情分析中的應(yīng)用。
關(guān)于達(dá)觀淵海知識(shí)圖譜平臺(tái)
淵海是達(dá)觀數(shù)據(jù)自主研發(fā)的一站式知識(shí)圖譜構(gòu)建與應(yīng)用平臺(tái)。在平臺(tái)構(gòu)建方面,針對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分別提供映射式和抽取式構(gòu)建方法,底層存儲(chǔ)與Hadoop、Spark、Hbase、JunusGraph、ES等分布式大數(shù)據(jù)平臺(tái)無縫集成。
淵海支持千億級(jí)實(shí)體屬性和邊的存儲(chǔ),內(nèi)置豐富的圖計(jì)算和挖掘算法,可以快速實(shí)現(xiàn)路徑分析、社群分析、中心節(jié)點(diǎn)和重要節(jié)點(diǎn)分析、關(guān)系挖掘、圖譜深度探索、語義搜索、智能推薦、智能問答等常見應(yīng)用。
在探討知識(shí)圖譜的具體應(yīng)用之前,簡述一下知識(shí)圖譜的構(gòu)建與應(yīng)用過程,以及兩者之間的關(guān)系。
從需求定義、數(shù)據(jù)梳理到知識(shí)建模,需要業(yè)務(wù)人員的參與,知識(shí)構(gòu)建和知識(shí)存儲(chǔ),主要是通過機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)手段從給定的數(shù)據(jù)中挖掘出知識(shí)元素(三元組)并融合到分布式圖數(shù)據(jù)庫進(jìn)行存儲(chǔ),以便于知識(shí)的探索和應(yīng)用。構(gòu)建是基礎(chǔ),應(yīng)用是目的,應(yīng)用(知識(shí)運(yùn)營)反向驅(qū)動(dòng)構(gòu)建,形成一個(gè)知識(shí)構(gòu)建和應(yīng)用迭代演化的過程。
谷歌在2012年首次正式提出知識(shí)圖譜的概念,其主要目的在于提升搜索引擎的用戶搜索體驗(yàn)。在谷歌搜索某個(gè)人物的時(shí)候,右邊窗口會(huì)出現(xiàn)該人物的知識(shí)卡片,知識(shí)卡片可直觀的呈現(xiàn)人物屬性和相關(guān)人物信息。
傳統(tǒng)搜索引擎主要做法是關(guān)鍵詞提取、通過關(guān)鍵詞匹配倒排索引表,生成匹配結(jié)果,再對(duì)結(jié)果進(jìn)行排序,給出的是排序后網(wǎng)頁列表,而沒有呈現(xiàn)出知識(shí)的關(guān)聯(lián)效果。通過知識(shí)圖譜的子圖匹配和簡單推理,可以直接對(duì)問題給出精準(zhǔn)的答案。
知識(shí)圖譜還可以用于推薦系統(tǒng),比如在影視視頻領(lǐng)域,基于用戶興趣推薦同一導(dǎo)演或主演的作品,推薦相關(guān)題材的作品,還可以基于用戶社交關(guān)系進(jìn)行推薦,推薦結(jié)果可解釋性好,也解決了初期缺少用戶行為數(shù)據(jù)的冷啟動(dòng)問題。達(dá)觀數(shù)據(jù)應(yīng)用次方式在實(shí)踐中取得了不錯(cuò)的推薦效果。
知識(shí)圖譜在越來越多的行業(yè)開始得到應(yīng)用,這里主要列舉了金融、制造等達(dá)觀數(shù)據(jù)的應(yīng)用領(lǐng)域。
●應(yīng)用1:金融業(yè)欺詐識(shí)別●
知識(shí)圖譜在金融業(yè)的首個(gè)典型應(yīng)用是欺詐識(shí)別。信貸業(yè)務(wù)是銀行的核心業(yè)務(wù),而信貸業(yè)務(wù)的核心是借款風(fēng)險(xiǎn)審核,借款端風(fēng)險(xiǎn)的主要來源之一是欺詐風(fēng)險(xiǎn)。
傳統(tǒng)的反欺詐手段主要依賴于信息的人工審核,而身份證、手機(jī)號(hào)碼、銀行流水等材料的偽造成本非常低,各類信貸機(jī)構(gòu)均不得不投入大量的人力用于核實(shí)信息主體的身份及其提供材料的真實(shí)性。
通過知識(shí)圖譜關(guān)聯(lián)比對(duì)分析不同借款人填寫的公司信息、聯(lián)系方式、居住地址、社會(huì)關(guān)系等信息,可以進(jìn)行信息的不一致性驗(yàn)證,識(shí)別組團(tuán)欺詐、進(jìn)行黑名單發(fā)現(xiàn)。還可以通過短時(shí)間內(nèi)是否在多個(gè)不同設(shè)備進(jìn)行多次登錄來發(fā)現(xiàn)羊毛客。
●應(yīng)用2:金融業(yè)智慧營銷●
知識(shí)圖譜在金融業(yè)另一個(gè)應(yīng)用是客群自動(dòng)發(fā)現(xiàn)和精準(zhǔn)營銷。通過知識(shí)圖譜來挖掘潛在客戶,實(shí)現(xiàn)“獲客”。目標(biāo)客戶B與客戶A是在騰訊公司的同事關(guān)系,且都住在南山區(qū)同一小區(qū),就可以給目標(biāo)客戶B推送同類的商品或服務(wù),實(shí)現(xiàn)對(duì)個(gè)體客戶的精準(zhǔn)營銷。
通過對(duì)具體的用戶行為序列的模式挖掘,在抽象的維度上實(shí)現(xiàn)不同客群的劃分,發(fā)現(xiàn)客群之間、客群與產(chǎn)品之間的隱性關(guān)系,實(shí)現(xiàn)基于客群和產(chǎn)品的定向營銷。
●應(yīng)用3:金融業(yè)資源優(yōu)化●
其次,知識(shí)圖譜在金融業(yè)可以做大型銀行網(wǎng)點(diǎn)資源優(yōu)化。首先生成網(wǎng)點(diǎn)業(yè)務(wù)人員畫像圖譜,網(wǎng)點(diǎn)設(shè)備資源配備圖譜、網(wǎng)點(diǎn)業(yè)務(wù)數(shù)據(jù)特征圖譜,分析比較不同網(wǎng)點(diǎn)的人員特征、設(shè)備特征、業(yè)務(wù)數(shù)據(jù)特征、輔助實(shí)現(xiàn)網(wǎng)點(diǎn)資源優(yōu)化配置智能決策系統(tǒng)。
●應(yīng)用4:智能搜索●
基于知識(shí)圖譜實(shí)現(xiàn)語義關(guān)聯(lián)式搜索。比如:“對(duì)公業(yè)務(wù)的銀行開戶需要什么材料”,對(duì)于這樣的搜索問句,知識(shí)圖譜可以進(jìn)行語義關(guān)聯(lián)搜索,召回公司開基本戶所需材料、所需角色、時(shí)間要求、營業(yè)網(wǎng)點(diǎn)、預(yù)約方式等內(nèi)容,并以結(jié)構(gòu)化的圖文并茂的方式進(jìn)行呈現(xiàn)。
知識(shí)圖譜智能搜索還表現(xiàn)在精準(zhǔn)的給出問題的答案。比如通過從格力電器的公司公告中挖掘出的結(jié)構(gòu)化信息,可以實(shí)現(xiàn)結(jié)構(gòu)化搜索,比如問“格力電器參控股的公司主要業(yè)務(wù)有哪些”,知識(shí)圖譜可以直接給出答案。
●應(yīng)用5:企業(yè)風(fēng)險(xiǎn)監(jiān)控●
企業(yè)風(fēng)險(xiǎn)監(jiān)控是金融信貸、投融資、產(chǎn)業(yè)鏈分析方面的熱門課題,知識(shí)圖譜的主要作用在于其提供多源異構(gòu)數(shù)據(jù)的融合,實(shí)現(xiàn)不同類型風(fēng)險(xiǎn)事件的關(guān)聯(lián)傳導(dǎo)分析,根據(jù)一定的規(guī)則實(shí)現(xiàn)風(fēng)險(xiǎn)預(yù)警。
例如,寧波東力在收購收購了深圳市年富供應(yīng)鏈有限公司之后,年富供應(yīng)鏈并表后,寧波東力的資產(chǎn)負(fù)債率也陡然上升,同時(shí)應(yīng)收賬款的比例也陡然增加。與年富供應(yīng)鏈有關(guān)聯(lián)的公司(投資、企業(yè)高管投資或者任職)都應(yīng)該是銀行的重點(diǎn)關(guān)注客戶。
●應(yīng)用6:供應(yīng)商管理●
基于企業(yè)、事件、輿情圖譜,從事件驅(qū)動(dòng)角度出發(fā),發(fā)現(xiàn)企業(yè)供應(yīng)商和工程相關(guān)責(zé)任人風(fēng)險(xiǎn)。
比如珠港澳大橋香港段項(xiàng)目,嘉科工程顧問有限公司是該項(xiàng)目的混凝土壓力測試的承建商,黃國堯是該顧問公司的實(shí)驗(yàn)技術(shù)員,負(fù)責(zé)項(xiàng)目的材料壓力測試,有新聞爆料此人曾涉及工程質(zhì)量虛假文書罪,根據(jù)新聞分析結(jié)果和基本的常識(shí)推理,其所負(fù)責(zé)的相關(guān)工程項(xiàng)目大概率存在重大質(zhì)量問題風(fēng)險(xiǎn),嘉科工程顧問有限公司的供應(yīng)商資質(zhì)也需要重新審核。
●應(yīng)用7:制造業(yè)設(shè)備故障分析●
蘇州是世界制造業(yè)強(qiáng)市,知識(shí)圖譜在制造業(yè)的應(yīng)用值得探索。
以設(shè)備故障分析為例,通過對(duì)故障分析報(bào)告、檢修報(bào)告、相關(guān)產(chǎn)品手冊等文檔的關(guān)鍵信息抽取,形成以故障為中心的高質(zhì)量的知識(shí)圖譜網(wǎng)絡(luò),包括故障發(fā)生的環(huán)境參數(shù)、排查步驟、歸因分析、對(duì)策與驗(yàn)證方法,以及故障的分類體系,與之關(guān)聯(lián)的產(chǎn)品、設(shè)備、設(shè)備供應(yīng)商、工藝流程、工藝環(huán)節(jié)等,輔助進(jìn)行失效模式分析、相似故障與解決方案搜索、故障分析報(bào)告輔助生產(chǎn)、故障關(guān)聯(lián)與可視化分析等。
●應(yīng)用8:輔助軍情分析●
知識(shí)圖譜可以應(yīng)用于輔助軍情分析。當(dāng)前日益復(fù)雜的周邊局勢,對(duì)海量的多源異構(gòu)情報(bào)大數(shù)據(jù)的自動(dòng)化挖掘分析提出了深層次的要求。
我們通過深度神經(jīng)網(wǎng)絡(luò)算法對(duì)目標(biāo)事件和特征進(jìn)行自動(dòng)識(shí)別抽取、對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行關(guān)聯(lián)融合和交叉印證,生成以目標(biāo)為中心的知識(shí)和事件圖譜網(wǎng)絡(luò),輔助挖掘分析目標(biāo)的行動(dòng)軌跡模式和事件活動(dòng)規(guī)律,基于特定的規(guī)則做異常事件告警以及目標(biāo)行動(dòng)意圖預(yù)測等。
最后,總結(jié)關(guān)于知識(shí)圖譜應(yīng)用的重要幾點(diǎn):
1. 構(gòu)建“鮮活”的知識(shí)圖譜:保持知識(shí)圖譜知識(shí)內(nèi)容的動(dòng)態(tài)更新和持續(xù)演化,實(shí)時(shí)融入最新的業(yè)務(wù)知識(shí)與數(shù)據(jù)。比如對(duì)于工業(yè)設(shè)備知識(shí)圖譜,需要實(shí)時(shí)融入設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù)和指標(biāo)數(shù)據(jù)。
2. 人在回路之上:在當(dāng)前的弱人工智能階段,無論是知識(shí)圖譜的構(gòu)建過程還是應(yīng)用過程(知識(shí)運(yùn)營),尤其復(fù)雜的智能決策場景,人的作用是不可替代的,人機(jī)交互是當(dāng)前人工智能系統(tǒng)的主要產(chǎn)品形態(tài)。
3.?文本挖掘是關(guān)鍵:各行各業(yè)的專家知識(shí)和經(jīng)驗(yàn)大多以形態(tài)各異的非結(jié)構(gòu)化文檔資料的形式存在,如何從這些非結(jié)構(gòu)化文檔資料中進(jìn)行知識(shí)挖掘,自動(dòng)生成機(jī)器可以進(jìn)行語義計(jì)算和推理的分布式知識(shí)表示,深度學(xué)習(xí)和自然語言處理等文本挖掘技術(shù)是關(guān)鍵。
4.?知識(shí)圖譜融入機(jī)器人流程自動(dòng)化:通過知識(shí)圖譜作為底層知識(shí)引擎,可以把業(yè)務(wù)專家的知識(shí)經(jīng)驗(yàn)、行業(yè)規(guī)則、基本常識(shí)進(jìn)行組織并實(shí)時(shí)賦能給RPA(Robotic processing automation)機(jī)器人,讓機(jī)器人變得更有“學(xué)識(shí)“,以適應(yīng)更多更復(fù)雜的場景。