項籍是下相人,字羽。開始起事的時候,他二十四歲。項籍的叔父是項梁,項梁的父親是項燕,就是被秦將王翦所殺害的那位楚國大將。項氏世世代代做楚國的大將,被封在項地,所以姓項。
?
(原文:項籍者,下相人也,字羽。初起時,年二十四。其季父項梁,梁父即楚將項燕,為秦將王翦所戮者也。項氏世世為楚將,封于項,故姓項氏。)
- 姓名:項籍/項羽
- 籍貫:下相(今江蘇宿遷)
- 出道:24歲
- 叔父:項梁
- 叔父的爹(爺爺):項燕
- 仇家:秦國 王翦
- 姓氏由來:項家世世代代為楚國大將,被封在項地,所以姓項
現(xiàn)在請在20秒時間內(nèi)看一下上面的信息并給別人介紹一下項羽,可以選擇看原文,也可以選擇看提取之后的信息。相信很多人會選擇看后一種。這是因為后一種行文方式其核心信息不丟失,但是內(nèi)容更簡練,邏輯性更強(qiáng),更容易記憶。這就是信息提取的意義。接下來的篇章將用更通俗的方式介紹一下文本信息提取技術(shù)的產(chǎn)業(yè)應(yīng)用。
一.信息披露背景下的金融文檔提取
下圖是達(dá)觀數(shù)據(jù)文檔智能審閱系統(tǒng)(以下簡稱:IDPS)對招股書進(jìn)行提取的示例,通過將文檔上傳到文檔智能審閱系統(tǒng)中,一份大幾百頁的招股書被快速提取成右邊上千個核心要素,包括董監(jiān)高信息、財務(wù)信息、專利情況、募集資金與應(yīng)用、上下游企業(yè)、重大合同、發(fā)行人所處行業(yè)等。同時支持點擊跳轉(zhuǎn)功能,比如點擊右側(cè)董事基本情況,除了直接提取出董事的姓名、出生年月、國籍、學(xué)歷等信息外,左側(cè)窗口頁面也會滾動到招股書原文的對應(yīng)位置。
圖1 利用IDPS對招股書進(jìn)行提取
圖2 利用IDPS對招股書中董監(jiān)高信息進(jìn)行提取
圖3 利用IDPS表格提取對PDF格式的財報進(jìn)行提取
你可能會問,企業(yè)的經(jīng)營狀況尤其是財務(wù)狀況在其公告中都有非常詳細(xì)的報表(資產(chǎn)負(fù)債表,利潤表,現(xiàn)金流量表),為什么還要做提取呢?這是因為信息提取解決的并不是有與無的問題,而是解決效率和標(biāo)準(zhǔn)的問題,比如同樣是2018年的上市財報,各家的格式、排版都不一樣。所以人工閱讀一份財報了解一家企業(yè)的基本面狀況,同樣的時間,借助信息提取了解的可能是一個行業(yè)幾十家企業(yè)的基本面狀況。這種有效信息量的巨大差異,對于投資決策的影響必定不同,帶來的投資回報一定也是不一樣的。
?
你可能還會問,能否自上到下推廣一套統(tǒng)一的財報標(biāo)準(zhǔn),所有企業(yè)都按照這個標(biāo)準(zhǔn)來披露財務(wù)狀況,這樣就不會有“代溝”了。其實行業(yè)內(nèi)已經(jīng)存在了,這里補(bǔ)充一個小插曲。
XBRL,1998年美國人提出,被譽(yù)為財務(wù)報表領(lǐng)域內(nèi)的條形碼。XBRL是在XML的基礎(chǔ)上發(fā)展而來的,專門用于財務(wù)報告編制、披露和使用的計算機(jī)語言。XBRL通過對商業(yè)報告中的數(shù)據(jù)增加特定的標(biāo)簽和分類標(biāo)準(zhǔn),以支持?jǐn)?shù)據(jù)信息的識別、處理與交流。XBRL主要由技術(shù)規(guī)范、分類標(biāo)準(zhǔn)和實例文檔三部分組成。技術(shù)規(guī)范是XBRL的總綱,定義了各類專業(yè)術(shù)語,規(guī)范XBRL文檔結(jié)構(gòu)。分類標(biāo)準(zhǔn)是根據(jù)XBRL技術(shù)規(guī)范對商業(yè)報告中的元素及其關(guān)系進(jìn)行標(biāo)記和描述的“業(yè)務(wù)詞典”,是編制XBRL實例文檔的具體規(guī)范。XBRL實例文檔是依據(jù)前兩個制作的實際財務(wù)或商業(yè)數(shù)據(jù)文件,是XBRL數(shù)據(jù)的載體。
?
在 XBRL 推出前,財務(wù)信息披露的數(shù)據(jù)格式包括 TXT、PDF、WORD、EXCEL等。這些財務(wù)數(shù)據(jù)披露格式很難實現(xiàn)不同形式數(shù)據(jù)間自由轉(zhuǎn)換的功能,從而增加了信息使用者對信息對比分析的難度。XBRL打破了這一瓶頸,為財務(wù)信息提供了一個統(tǒng)一的標(biāo)準(zhǔn)化格式,可以實現(xiàn)財務(wù)信息的跨空間、跨時間對比。
?
在我國,XBRL推廣主要包括證監(jiān)會和財政部。證監(jiān)會在上市公司財報披露,財政部在大型國資企業(yè)信息披露都有試點。但截止到目前,XBRL真正的潛力和作用并沒有被完全發(fā)揮。這其中的原因較為復(fù)雜,從設(shè)立標(biāo)準(zhǔn)角度看,建立一套接軌國際同時滿足行業(yè)、地域、監(jiān)管要求的標(biāo)準(zhǔn)何其難;從推廣使用角度看,上市公司、資本市場尚未對XBRL有足夠的重視。所以,盡管大家都能理解XBRL是個好東西。但是要到普遍的推廣應(yīng)用,還有很長的道路要走。
證監(jiān)會是XBRL在國內(nèi)最早的推廣者。上證交易所官網(wǎng)有利用XBRL披露上市公司年報。但在網(wǎng)頁下方會提示:“本系統(tǒng)展示數(shù)據(jù)來自于上市公司提交的XBRL格式報告,信息僅供參考,請以對應(yīng)報告的PDF版本為準(zhǔn)”。
?
二.法律判決文書的信息提取
2014年,最高人民法院為貫徹落實審判公開原則,促進(jìn)司法公正,提升司法公信力,發(fā)布了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》,除涉及國家秘密、未成年人犯罪等少數(shù)幾類判決文書不公布外,其余判決文書都需要在互聯(lián)網(wǎng)上公開。(最高法裁判文書網(wǎng),http://wenshu.court.gov.cn/)。
?
同提取金融領(lǐng)域披露的信息公告一樣,也可以對公布的判決文書進(jìn)行信息提取。比如針對一份民事判決書,我們可以提取案號、案由、審級、原被告、代理律師、代理律所、依據(jù)法律、審判機(jī)關(guān)、判決日期、判決結(jié)果等上百個核心要素信息。
圖4 利用達(dá)觀IDPS提取民事判決文書中的要素
三.信息提取技術(shù)的原理
通過前文介紹,大概了解了信息提取這項技術(shù)的應(yīng)用。接下來簡單介紹下這些技術(shù)的原理。
我們知道機(jī)器學(xué)習(xí)是已知一組自變量(input)和一組因變量(output),找到一個函數(shù)能夠最優(yōu)地擬合這組input和output。當(dāng)有新的input進(jìn)入時,利用這個函數(shù)可以得出output。所以,機(jī)器學(xué)習(xí)就好比把大象裝冰箱,只需要三步。
如何利用機(jī)器學(xué)習(xí)去做信息提取呢,常用的就是序列標(biāo)注。序列標(biāo)注簡單講就是選用一些標(biāo)簽對輸入的序列數(shù)據(jù)進(jìn)行標(biāo)簽化。比如我想提取6月25日美空軍戰(zhàn)斗機(jī)在東地中海上空開展編隊飛行這個事件中的時間和地點。選用BMEO(Begin, Middle, End, Other)來標(biāo)記,BMEO每一個字母代表一個單字,一個詞由多個單字組成,所以B代表中文單詞的第一個漢字,M代表單詞中間的漢字,E代表單詞最后的漢字,用O代表其他不需要提取的字。我用T代表時間(此時T_B代表時間的第一個字,T_M代表時間中間的字,T_E代表時間最后的字)。用L代表地點(此時L_B代表地點的第一個字,L_M代表地點中間的字,L_E代表地點最后的字)。
四.總結(jié)
信息提取解決的并不是信息的有和無問題,而是解決效率和標(biāo)準(zhǔn)的問題。它用更加效率的方式將信息重新整合成一種標(biāo)準(zhǔn)規(guī)范的方式,從而用一個更為寬廣的視角去審閱這些信息。
關(guān)于作者
呂文超:達(dá)觀數(shù)據(jù)解決方案架構(gòu)師,負(fù)責(zé)達(dá)觀推薦引擎,搜索引擎,NLP,RPA等AI產(chǎn)品和技術(shù)在金融、政府、互聯(lián)網(wǎng)等行業(yè)的應(yīng)用落地。