目前企業(yè)用到最多的是結(jié)構(gòu)化數(shù)據(jù),也就是我們常說數(shù)據(jù)庫存儲的數(shù)據(jù)。在半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)(如各種辦公文件、文本、圖片、語音等),大多企業(yè)只是作為知識庫存檔,并沒有利用起來,這部分?jǐn)?shù)據(jù)蘊含著很多有價值的信息,如何利用這些數(shù)據(jù)提煉有價值的信息成為當(dāng)前企業(yè)痛點。達觀知識圖譜解決方案采用前沿深度學(xué)習(xí)、光學(xué)字符識別、自然語言處理等技術(shù),可快速挖掘非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù),并找出其存在的關(guān)聯(lián)關(guān)系,提煉價值信息,穩(wěn)定可靠地解決該行業(yè)所面臨的問題。
??銀行風(fēng)控主要包含信貸審批、額度授信、信用反欺詐、異常交易行為發(fā)現(xiàn)、客戶關(guān)聯(lián)分析、風(fēng)險定價等業(yè)務(wù)場景。
??智能客服主要包含對話機器人、智能問答、智能推薦等業(yè)務(wù)場景。
??智能投研包含上市公司研報、公告數(shù)據(jù)分析挖掘,企業(yè)工商信息、財報信息、董監(jiān)高、產(chǎn)品、產(chǎn)業(yè)鏈分析挖掘等業(yè)務(wù)場景。

首先,想要構(gòu)建知識圖譜,要先找到數(shù)據(jù)。眾所周知,金融機構(gòu)的投研業(yè)務(wù)要依賴很多數(shù)據(jù)來分析,包含企業(yè)財報、年報、企業(yè)資訊、產(chǎn)品、行業(yè)、產(chǎn)業(yè)鏈、公司股東等數(shù)據(jù)。
采集完這些數(shù)據(jù)之后,我們將從海量數(shù)據(jù)中提煉構(gòu)建知識圖譜的實體,這些實體包含企業(yè)、企業(yè)產(chǎn)品、企業(yè)所在行業(yè)、企業(yè)的股東/董監(jiān)高、企業(yè)風(fēng)險、競品等。以上實體有些是結(jié)構(gòu)化數(shù)據(jù)可以直接獲取到的(如企業(yè)工商信息包含很多構(gòu)建知識圖譜的實體),有些需要通過NLP技術(shù)來挖掘分析獲?。ㄈ缙髽I(yè)風(fēng)險等)。
獲取這些實體之后,根據(jù)業(yè)務(wù)梳理各個實體間的關(guān)聯(lián)關(guān)系,定義知識圖譜的邊,例如以企業(yè)(實體)為中心節(jié)點,向外發(fā)散,企業(yè)的股東有哪些,企業(yè)所屬行業(yè),企業(yè)有哪些產(chǎn)品/業(yè)務(wù)模式,企業(yè)競品、競爭對手有哪些,這些都屬于知識圖譜中的實體關(guān)系。