色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

如何應(yīng)用信息提取技術(shù)做好金融和法律文檔的結(jié)構(gòu)化處理?
文本信息提?。↖nformation Extraction)簡單說就是利用計算機(jī)從自然語言文本中提取出核心信息。這項技術(shù)有什么用呢,我們舉個例子簡單測試一下。《史記》中對項羽有這樣一段介紹:

項籍是下相人,字羽。開始起事的時候,他二十四歲。項籍的叔父是項梁,項梁的父親是項燕,就是被秦將王翦所殺害的那位楚國大將。項氏世世代代做楚國的大將,被封在項地,所以姓項。

?

(原文:項籍者,下相人也,字羽。初起時,年二十四。其季父項梁,梁父即楚將項燕,為秦將王翦所戮者也。項氏世世為楚將,封于項,故姓項氏。)

如果對這段話進(jìn)行信息提取,得到的核心信息是:
  • 姓名:項籍/項羽
  • 籍貫:下相(今江蘇宿遷)
  • 出道:24歲
  • 叔父:項梁
  • 叔父的爹(爺爺):項燕
  • 仇家:秦國 王翦
  • 姓氏由來:項家世世代代為楚國大將,被封在項地,所以姓項

現(xiàn)在請在20秒時間內(nèi)看一下上面的信息并給別人介紹一下項羽,可以選擇看原文,也可以選擇看提取之后的信息。相信很多人會選擇看后一種。這是因為后一種行文方式其核心信息不丟失,但是內(nèi)容更簡練,邏輯性更強(qiáng),更容易記憶。這就是信息提取的意義。接下來的篇章將用更通俗的方式介紹一下文本信息提取技術(shù)的產(chǎn)業(yè)應(yīng)用。

一.信息披露背景下的金融文檔提取

下圖是達(dá)觀數(shù)據(jù)文檔智能審閱系統(tǒng)(以下簡稱:IDPS)對招股書進(jìn)行提取的示例,通過將文檔上傳到文檔智能審閱系統(tǒng)中,一份大幾百頁的招股書被快速提取成右邊上千個核心要素,包括董監(jiān)高信息、財務(wù)信息、專利情況、募集資金與應(yīng)用、上下游企業(yè)、重大合同、發(fā)行人所處行業(yè)等。同時支持點擊跳轉(zhuǎn)功能,比如點擊右側(cè)董事基本情況,除了直接提取出董事的姓名、出生年月、國籍、學(xué)歷等信息外,左側(cè)窗口頁面也會滾動到招股書原文的對應(yīng)位置。

?

pic_002

圖1 利用IDPS對招股書進(jìn)行提取

 

pic_003

圖2 利用IDPS對招股書中董監(jiān)高信息進(jìn)行提取

這種信息提取和閱讀的方式,對于監(jiān)管層去審核信息披露是否完備,可以大幅提升效率。對于投資者來說,也可以利用信息提取技術(shù)解析上市公司公告,了解其基本面狀況。

 

pic_004

圖3 利用IDPS表格提取對PDF格式的財報進(jìn)行提取

 

你可能會問,企業(yè)的經(jīng)營狀況尤其是財務(wù)狀況在其公告中都有非常詳細(xì)的報表(資產(chǎn)負(fù)債表,利潤表,現(xiàn)金流量表),為什么還要做提取呢?這是因為信息提取解決的并不是有與無的問題,而是解決效率和標(biāo)準(zhǔn)的問題,比如同樣是2018年的上市財報,各家的格式、排版都不一樣。所以人工閱讀一份財報了解一家企業(yè)的基本面狀況,同樣的時間,借助信息提取了解的可能是一個行業(yè)幾十家企業(yè)的基本面狀況。這種有效信息量的巨大差異,對于投資決策的影響必定不同,帶來的投資回報一定也是不一樣的。

?

你可能還會問,能否自上到下推廣一套統(tǒng)一的財報標(biāo)準(zhǔn),所有企業(yè)都按照這個標(biāo)準(zhǔn)來披露財務(wù)狀況,這樣就不會有“代溝”了。其實行業(yè)內(nèi)已經(jīng)存在了,這里補(bǔ)充一個小插曲。

?

XBRL,1998年美國人提出,被譽(yù)為財務(wù)報表領(lǐng)域內(nèi)的條形碼。XBRL是在XML的基礎(chǔ)上發(fā)展而來的,專門用于財務(wù)報告編制、披露和使用的計算機(jī)語言。XBRL通過對商業(yè)報告中的數(shù)據(jù)增加特定的標(biāo)簽和分類標(biāo)準(zhǔn),以支持?jǐn)?shù)據(jù)信息的識別、處理與交流。XBRL主要由技術(shù)規(guī)范、分類標(biāo)準(zhǔn)和實例文檔三部分組成。技術(shù)規(guī)范是XBRL的總綱,定義了各類專業(yè)術(shù)語,規(guī)范XBRL文檔結(jié)構(gòu)。分類標(biāo)準(zhǔn)是根據(jù)XBRL技術(shù)規(guī)范對商業(yè)報告中的元素及其關(guān)系進(jìn)行標(biāo)記和描述的“業(yè)務(wù)詞典”,是編制XBRL實例文檔的具體規(guī)范。XBRL實例文檔是依據(jù)前兩個制作的實際財務(wù)或商業(yè)數(shù)據(jù)文件,是XBRL數(shù)據(jù)的載體。

?

在 XBRL 推出前,財務(wù)信息披露的數(shù)據(jù)格式包括 TXT、PDF、WORD、EXCEL等。這些財務(wù)數(shù)據(jù)披露格式很難實現(xiàn)不同形式數(shù)據(jù)間自由轉(zhuǎn)換的功能,從而增加了信息使用者對信息對比分析的難度。XBRL打破了這一瓶頸,為財務(wù)信息提供了一個統(tǒng)一的標(biāo)準(zhǔn)化格式,可以實現(xiàn)財務(wù)信息的跨空間、跨時間對比。

?

在我國,XBRL推廣主要包括證監(jiān)會和財政部。證監(jiān)會在上市公司財報披露,財政部在大型國資企業(yè)信息披露都有試點。但截止到目前,XBRL真正的潛力和作用并沒有被完全發(fā)揮。這其中的原因較為復(fù)雜,從設(shè)立標(biāo)準(zhǔn)角度看,建立一套接軌國際同時滿足行業(yè)、地域、監(jiān)管要求的標(biāo)準(zhǔn)何其難;從推廣使用角度看,上市公司、資本市場尚未對XBRL有足夠的重視。所以,盡管大家都能理解XBRL是個好東西。但是要到普遍的推廣應(yīng)用,還有很長的道路要走。

pic_005

證監(jiān)會是XBRL在國內(nèi)最早的推廣者。上證交易所官網(wǎng)有利用XBRL披露上市公司年報。但在網(wǎng)頁下方會提示:“本系統(tǒng)展示數(shù)據(jù)來自于上市公司提交的XBRL格式報告,信息僅供參考,請以對應(yīng)報告的PDF版本為準(zhǔn)”。

?

所以在標(biāo)準(zhǔn)普遍推廣之前,信息提取仍然是不可避免的技術(shù)手段。如今面向個人投資者的各類股票軟件和面向?qū)I(yè)投資機(jī)構(gòu)的數(shù)據(jù)終端,都會在信息提取的基礎(chǔ)之上,進(jìn)一步剖析企業(yè)的成長性、行業(yè)排名等橫縱分析,指標(biāo)選股等功能。(下圖中,左圖就是利用信息提取技術(shù)從企業(yè)財報中提取財務(wù)指標(biāo)和數(shù)值,然后進(jìn)行同比計算;右圖同樣是提取財務(wù)指標(biāo)和數(shù)值,計算出市凈率,結(jié)合搜索技術(shù)提供選股功能)。

pic_006

 

可以看出,利用信息提取從各類金融披露文檔中提取出核心要素信息,對資本市場投資者投研分析、監(jiān)管層的信息審核都帶來極大便利和幫助。

二.法律判決文書的信息提取

2014年,最高人民法院為貫徹落實審判公開原則,促進(jìn)司法公正,提升司法公信力,發(fā)布了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》,除涉及國家秘密、未成年人犯罪等少數(shù)幾類判決文書不公布外,其余判決文書都需要在互聯(lián)網(wǎng)上公開。(最高法裁判文書網(wǎng),http://wenshu.court.gov.cn/)。

?

同提取金融領(lǐng)域披露的信息公告一樣,也可以對公布的判決文書進(jìn)行信息提取。比如針對一份民事判決書,我們可以提取案號、案由、審級、原被告、代理律師、代理律所、依據(jù)法律、審判機(jī)關(guān)、判決日期、判決結(jié)果等上百個核心要素信息。

 

pic_007

圖4 利用達(dá)觀IDPS提取民事判決文書中的要素

那么對法律判決文書的信息提取又有什么用呢?當(dāng)我們對數(shù)千萬份判決文書進(jìn)行信息提取之后,我們閱讀判決文書的視角,就從單份文書縱向閱讀擴(kuò)展到全量文書橫向閱讀。這種擴(kuò)展會帶來的價值,還是通過幾個例子來說明。比如現(xiàn)在離婚率越來越高,若想了解最近三年各省離婚案件的整體情況,就可以在案件信息提取的基礎(chǔ)上,從時間、地域角度分析統(tǒng)計離婚案件的數(shù)量、判決結(jié)果、案由等,并進(jìn)一步分析這種現(xiàn)狀產(chǎn)生的社會經(jīng)濟(jì)因素;再比如我現(xiàn)在面臨一起專利糾紛,想找一位代理專利糾紛案件比較有經(jīng)驗律師,就可以利用案由、律師、律所、判決結(jié)果這些要素去組合篩選出一位心儀的代理律師。

三.信息提取技術(shù)的原理

通過前文介紹,大概了解了信息提取這項技術(shù)的應(yīng)用。接下來簡單介紹下這些技術(shù)的原理。

我們知道機(jī)器學(xué)習(xí)是已知一組自變量(input)和一組因變量(output),找到一個函數(shù)能夠最優(yōu)地擬合這組input和output。當(dāng)有新的input進(jìn)入時,利用這個函數(shù)可以得出output。所以,機(jī)器學(xué)習(xí)就好比把大象裝冰箱,只需要三步。

pic_008

如何利用機(jī)器學(xué)習(xí)去做信息提取呢,常用的就是序列標(biāo)注。序列標(biāo)注簡單講就是選用一些標(biāo)簽對輸入的序列數(shù)據(jù)進(jìn)行標(biāo)簽化。比如我想提取6月25日美空軍戰(zhàn)斗機(jī)在東地中海上空開展編隊飛行這個事件中的時間和地點。選用BMEO(Begin, Middle, End, Other)來標(biāo)記,BMEO每一個字母代表一個單字,一個詞由多個單字組成,所以B代表中文單詞的第一個漢字,M代表單詞中間的漢字,E代表單詞最后的漢字,用O代表其他不需要提取的字。我用T代表時間(此時T_B代表時間的第一個字,T_M代表時間中間的字,T_E代表時間最后的字)。用L代表地點(此時L_B代表地點的第一個字,L_M代表地點中間的字,L_E代表地點最后的字)。

?
選用這樣的標(biāo)注系統(tǒng)以后,信息提取問題的input和output如下:
?
Input:6/月/25/日/美/空/軍/戰(zhàn)/斗/機(jī)/在/東/地/中/海/上/空/開/展/編/隊/飛/行
Output:T_B/T_M/T_M/T_E/O/O/O/O/O/O/O/L_B/L_M/L_M/L_E/O/O/O/O/O/O
這樣就把一個文本信息提取問題轉(zhuǎn)化為求解一個標(biāo)簽序列問題。在接下來,通過標(biāo)注獲取訓(xùn)練集和測試集,又經(jīng)過一頓噼里啪啦猛如虎的代碼操作之后,我們找到了一個效果還不錯的可以用于提取的函數(shù),此時一條新的數(shù)據(jù)過來。
?
新的Input:今/天/上/午/沙/特/空/軍/1/架/波/音/專/機(jī)/飛/越/上/海/上/空/向/東/飛/行。
通過這個函數(shù),輸出
新的Output:T_B/T_M/T_M/T_E/O/O/O/O/O/O/O/O/O/O/O/O/L_B/LE/O/O/O/O/O/O/。
我們把T_B/T_M/T_M/T_E/這段和/L_B/LE/摳出來,同樣T還是代表時間,L代表地點,就切分出這個事件的時間為“今天上午”,地點是“上海”。

四.總結(jié)

信息提取解決的并不是信息的有和無問題,而是解決效率和標(biāo)準(zhǔn)的問題。它用更加效率的方式將信息重新整合成一種標(biāo)準(zhǔn)規(guī)范的方式,從而用一個更為寬廣的視角去審閱這些信息。

關(guān)于作者

呂文超:達(dá)觀數(shù)據(jù)解決方案架構(gòu)師,負(fù)責(zé)達(dá)觀推薦引擎,搜索引擎,NLP,RPA等AI產(chǎn)品和技術(shù)在金融、政府、互聯(lián)網(wǎng)等行業(yè)的應(yīng)用落地。