色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

版面智能解析-新一代智能文檔處理的核心能力

版面解析介紹

版面作為信息的組合排列形式,無論是雜志、報刊、海報還是文章,各式各樣的版面承載了不同層次的內(nèi)容表達。在傳統(tǒng)文檔處理任務中,系統(tǒng)的處理核心是文本,圍繞文本使用先進的智能算法實現(xiàn)分類、抽取、摘要等任務,但是對文檔中的圖、表、公式等元素,則更多地限定于領域方法來處理。對于Word、PPT、PDF等格式文檔,可以通過協(xié)議格式提取其中的元素還原或解析。但是對于圖像文檔,則具有更高的挑戰(zhàn),應用圖像或多模態(tài)算法解析圖像并獲取其中的元素結(jié)果,是文檔處理中統(tǒng)一版面解析能力的落腳點。圖像文檔的版面解析結(jié)果由文檔元素組成,并且可以轉(zhuǎn)換為其他格式,因此文檔元素是所有版面的靈魂要素。達觀復雜版面解析服務作為智能文檔處理核心能力,為諸多業(yè)務場景提供有力支撐。文檔版面樣式千變?nèi)f化,以下選擇部分典型數(shù)據(jù)做場景和能力介紹。版面解析首先需要對版面的要素進行劃分,通常被定義為目標檢測或分割任務來實現(xiàn),下圖為版面要素的分割試例。

版面解析場景展示

一、企業(yè)合同比對

在企業(yè)業(yè)務往來中,企業(yè)法務、財務需要審核企業(yè)簽訂的各類合同,如需要確保蓋章版本合同與原始審核過的電子合同完全一致。蓋章版合同是將電子合同打印為紙質(zhì)文件加蓋雙方公章再掃描存檔,特別存在部分為雙欄多欄形式如果下圖,這時候可利用圖像版面解析技術對文檔排版進行識別,再按順序逐個比對印版本和原合同內(nèi)容。

二、制造業(yè)知識庫構(gòu)建

制造企業(yè)中的大量文檔如工藝流程文檔、使用手冊、合規(guī)規(guī)范文檔、質(zhì)量手冊等等大多以紙質(zhì)文檔的形式存在,隨著數(shù)值化智能化轉(zhuǎn)型的加速,制造企業(yè)需將這些紙質(zhì)知識識別解析提取為電子知識,進一步構(gòu)建指導生產(chǎn)制造的知識圖譜。

三、金融文檔識別

金融頁有大量報告如財務報告、研究報告、一級二級市場股債發(fā)行文檔等等,這些文檔包含金融市場活動所需數(shù)據(jù)、咨詢信息。對文檔進行解析、獲取關鍵信息至關重要。如版面解析財務報告種企業(yè)財務表格,將pdf文件中無序的文字還原為有序表格,并進一步按財務含義進行數(shù)據(jù)分析對市場投融資活動至關重要。

同時金融企業(yè)也需要對其發(fā)布的文檔例如研報進行質(zhì)控審核,確保其發(fā)布的報告準確無誤,通過版面分析分析分析研報、及其底稿文檔,進而實現(xiàn)圖片審核、表格審核、數(shù)據(jù)審核等功能。

四、通用文檔信息構(gòu)建和還原

版面分析技術可將以word、pdf、圖片等非結(jié)構(gòu)化文檔存儲的信息還原為半結(jié)構(gòu)化的電子數(shù)據(jù),是非結(jié)構(gòu)化文檔信息利用首要任務。