色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內同行分享 助力各企業(yè)在大數據浪潮來臨之際一起破浪前行

多模態(tài)文檔LayoutLM版面智能理解技術演進-紀傳俊

多模態(tài)算法興起的背景

辦公文檔是各行各業(yè)最基礎也是最重要的信息載體,不管是金融、政務、制造業(yè)、零售行業(yè)等等,各種類型的文檔都是業(yè)務流轉過程中必不可少的數字資料。以銀行信貸為例,一筆信貸業(yè)務在貸前貸中到貸后全流程中,需要涉及財報、銀行流水、貿易合同、發(fā)票、盡職調查報告、審批意見書、會議紀要等等材料,材料的格式和內容均差異很大,但都是針對同一筆信貸業(yè)務、從不同角色視角、不同業(yè)務角度的情況描述。每一種材料都承載了重要的業(yè)務數據,對這些材料進行全面而準確的價值提取,并匯集所有材料實現全流程數據穿透,是前述信貸業(yè)務目前急需解決的問題。如何提取海量歷史文檔中的關鍵要素和數據,構建數據資產,也是當前各個行業(yè)做數字化智能化轉型的重要課題。

圖1 銀行信貸業(yè)務所需各類材料及關鍵要素

其中最核心的技術難點,是從原始的辦公文檔中發(fā)現和提取有價值的內容,也是數據資產構建的前置條件。達觀數據長期致力于辦公文檔的智能化處理,即通過對文檔格式的全面解析、對文檔內容的全面理解,從而提取出核心業(yè)務信息。與傳統的純文本語義理解問題不一樣的是,辦公文檔除了文字以外還有大量的表格、圖片都包含了重要數據,甚至文檔的排版、布局、分欄、文字格式等等,也隱含了一段文字中是否存在關鍵要素,以及要素重要性大小的信息。

因此對于辦公文檔的智能分析,需要綜合考慮文字、圖像、排版布局等信息,單純處理文字信息的方法很難取得令人滿意的效果。近幾年興起的多模態(tài)算法在這一方向上展現出了很好的效果,微軟亞洲研究院的研究人員所提出的通用文檔理解預訓練模型LayoutLM模型就是具有代表性的方法,模型目前是開源的并且已經發(fā)布到3.0版本,各個版本都在一系列文檔理解任務重取得了領先的效果。

總體而言,LayoutLM算法將文本信息和視覺信息做了深層次的融合,實現了多模態(tài)端到端預訓練,利用大量無標注的文檔數據進行文本、布局版面的聯合學習,可以學習到文檔中的局部不變形信息,避免了傳統方法需要大量標注數據的問題。LayoutLM一經推出就在多個下游的文檔理解任務上取得了領先的結果。本文將重點圍繞LayoutLM的核心算法及其演進過程做介紹,并介紹達觀基于多模態(tài)技術的優(yōu)化調整,以解決實際場景中真實辦公文檔的各類數據問題。

? BERT??

?

介紹LayoutLM之前,需要先介紹一下BERT,兩個模型具有較大相關性。在NLP領域,BERT是近幾年最具有突破性的一項技術,于2018年10月由Google AI研究院提出的一種預訓練模型,刷新了NLP領域多項評測任務的SOTA,引起了各行業(yè)的廣泛關注。Bert采用了Transformer架構中的Encoder模塊,使得Bert有更好的特征提取能力和語言表征能力。BERT結構有預訓練與微調兩步。在Bert的預訓練中引入兩大核心任務:1、遮蔽語言模型(MLM)隨機遮擋輸入token,訓練目標是恢復被遮蓋的token ?2、下一句預測(NSP)一個二分類任務,其將一對語句作為輸入,判斷其是否為連貫的語句。

經過預訓練的Bert模型增加了它的上下文信息的提取能力和捕捉句子間的語義聯系。由于有好的預訓練模型,在做特定的下游任務時,通過簡單的fine-tune的方式就能取得不錯的效果。

LayoutLM 1.0

?

LayoutLM 1.0很大程度上借鑒了BERT模型,包括模型的預訓練和微調。在NLP的任務中通常是只利用了文本信息,在辦公文檔中有豐富的視覺信息可以被編碼到預訓練模型中以及作為模型的特征輸入。

LayoutLM1.0以Bert架構作為主干,增加了布局版面的特征:

  1. 2-D位置特征;與建立序列中單詞位置模型的位置嵌入不同,二維位置嵌入的目的是建立文檔中的相對空間位置。
  2. 圖像特征:為了使用文檔的圖像特征并將圖像特征與文字對齊,在模型中添加一個圖像嵌入向量層。采用了Faster R-CNN提取特征。

LayoutLM 1.0的模型結構如下圖所示:

圖2? LayoutLM 1.0模型結構

其中,2-D位置特征編碼了文檔中的空間位置關系(其中2-d位置信息來自于OCR識別的結果,并且會把所有的坐標點標準化到0-1000)。一個文檔可視為一個坐標系統,其左上角即為坐標原點(0,0)。對于一個單詞,其邊界框能夠以左上點坐標(x0,y0)和右下點坐標(x1,y1)進行表示,最終轉成2d position embedding。同時,LayoutLM以單詞的切片輸入到FasterR-CNN模型中,生成每個單詞切片所對應的圖像特征。每個單詞token都有相應的圖像特征,而在bert中起始都有一個[CLS],而這個token所對應的圖像特征則是將整個圖片作為FasterR-CNN的輸入所獲得的,以此來對齊圖像特征和文本特征的長度。這樣對需要用到[CLS]標記表示的下游任務有利。

LayoutLM預訓練任務設置了掩碼視覺語言模型(Masked Visual-Language Model, MVLM)損失與多標簽文檔分類(Multi-label Document Classification,MDC)損失進行多任務學習。MVLM和Bert的掩碼策略相似。也是選擇15%的tokens進行預測,80%的tokens用[MASK]標記替換這些被掩碼的tokens,10%的tokens里用一個隨機的token替換,10%的tokens還是用原先的tokens。該模型用交叉熵損失作為損失函數來預測被掩碼的tokens。但LayoutLM1.0保留其2-D位置信息,使模型根據上下文、位置信息,推斷被遮擋的詞匯。以此來減少視覺特征和語言特征的gap。

MDC多標簽文檔分類,聚合不同文檔特征,增強模型對于文檔級別的語義表征能力。由于MDC損失需要每個文檔圖像的標簽,而這些標簽對于較大的數據集來說可能并不存在,所以在預訓練過程中它是可選的。

實驗證明,LayoutLM 1.0在多個數據集上都取得了非常大的精度的提升。首先是表格理解任務,對表單的文本內容進行序列標注。使用的數據集是FUNSD,包括199個表單,9707個語義實體和31485個單詞。每個語義實體包括一個唯一標識符、一個標簽(即,問題、答案、標題或其他)、一個邊界框、一個與其他實體的鏈接列表和一個單詞列表。數據集分為149個訓練樣本和50個測試樣本。在FUNSD數據集上,加入視覺信息的LayoutLM1.0,精度上相比于純文本模型有了明顯提升,同時在增加數據量、增加訓練時間的情況下還能進一步提升,具體結果如下表所示:

票據理解任務上,需要提取票據信息,對每個詞進行語義標簽分類。采用SROIE數據集進行效果測試,包含626個訓練票據和347個測試票據。每個票據都被組織成帶有邊框的文本行列表。每張票據都標有四種類型的實體(公司,日期,地址,總數)。LayoutLM LARGE的效果已經超過了當時競賽榜單第一名的模型。詳細的模型結果如下表所示:

文檔圖像分類任務目的是預測文檔圖像的類別。選定RVL-CDIP數據集,該數據集由 16 類 40 萬張灰度圖像組成,每類 25000 張圖像。有 32 萬張訓練圖像,4 萬張驗證圖像和 4 萬張測試圖像。類別包括 : 書信、表格、電子郵件、手寫體、廣告、科學報告、科學出版物、說明書、文件夾、新聞文章、預算、發(fā)票、演示文稿、問卷、簡歷、備忘錄等。同樣LayoutLM 1.0也取得了領先的效果。

LayoutLM 2.0

?

在 LayoutLM 1.0 推出一年之后,研究人員對模型做了進一步的升級,提出了 LayoutLM 2.0 模型。2.0模型在多模態(tài)預訓練階段直接引入了圖像信息,對文本、圖像和布局信息進行聯合建模。2.0模型的主體結構相比LayoutLM 1.0有比較大的變化,是帶有空間感知自注意力機制(spatial-aware self-attention)的 Transformer 編碼器網絡,將視覺向量和文本向量拼接到統一的序列,并且添加布局向量融合空間信息,得到第一層的輸入x(0):

其中v表示圖像的序列,t表示文本序列,W和H為圖像寬和高,文本序列的長度。因為原始的自注意力機制只能隱式地捕獲帶有絕對位置提示的輸入標記之間的關系,為了有效地對文檔布局中的局部不變形建模,需要明確地插入相對位置信息。因此,文中提出了空間感知的自注意力機制。原始的自注意力機制通過映射query?Xi和key?Xj?這兩個向量,然后計算它們兩個的注意力分數:

考慮到位置的取值范圍太大,模型將語義相對位置和空間相對位置建模為偏置項,以防止添加太多的參數,并明確地將它們添加到注意力得分中。

b1D,b2Dx,b2Dy分別表示一維和二維相對位置偏置。不同的注意力頭偏置是不同的,但是在全部的編碼器層是共享的。假設(xi,yi)表示第 i 個邊界框的左上角坐標,則空間感知注意力得分為:

最終,輸出向量表示為全部映射 value 向量相對于歸一化空間感知得分的加權平均值:

進一步幫助模型在一維文本序列之上學習到文檔圖像中不同文本塊之間的相對位置關系。

圖3 LayoutLM 2.0模型結構

在預訓練任務上,LayoutLM 2.0在掩碼視覺語言模型(Masked Visual-Language Model, MVLM)之外,還增加了文本圖像對齊(text-image alignment)和文本圖像匹配(text-image matching)2個自監(jiān)督任務,幫助模型提升語言能力、對齊模態(tài)信息。

01?掩碼視覺語言模型

2.0對掩碼視覺語言模型任務進行了擴展,要求模型根據上下文、圖像信息和布局信息還原文本中被遮蓋的詞,遮蓋操作同時遮蓋文本中的詞和圖像中的對應區(qū)域,但保留空間位置信息。在 MVLM 中,15% 的文本標記被屏蔽,其中 80% 被特殊標記 [MASK] 替換,10% 被從整個詞匯表中采樣的隨機標記替換,10%保持原樣。

02?文本—圖像對齊

文本—圖像對齊是一種細粒度的多模態(tài)對齊任務,在文檔圖像上隨機按行遮蓋一部分文本,利用模型的文本部分輸出進行詞級別二分類,判斷text token是否被覆蓋,計算二元交叉熵損失:

其中是二元標簽值0或者1,是屬于標簽值的概率。有15%的行被覆蓋該任務為了幫助模型學習圖像和邊界框坐標之間的空間位置對應關系。

03文本—圖像匹配

現有工作證明,粗粒度的文本—圖像匹配任務有助于幫助模態(tài)信息對齊。該任務隨機替換或舍棄一部分文檔圖像,構造圖文失配的負樣本,并以文檔級別二分類的方式預測圖文是否匹配,以此來對齊文本和圖像的匹配信息。該任務中有15%的圖像被替換,5%的被舍棄掉。

實驗結果表明,LayoutLM 2.0的精度又取得了不錯的提升。在表單理解FUNSD數據集上,F1達到84.20%,結果如下表所示

:

票據理解任務,使用了 CORD 和 SROIE 兩個數據集來評估模型性能。CORD 數據集包含了1,000張掃描票據數據,需要從中抽取名稱、價格、數量等30類關鍵信息實體。LayoutLM 2.0 模型在此數據集上微調后F1值達到96.01%。SROIE 數據集上LayoutLM 2.0 模型的效果位列 SROIE 測評任務三榜首。


在文檔圖像分類 RVL-CDIP 數據集上, LayoutLM 2.0 模型的預測準確率相比之前的最好結果提升了1.2個百分點,達到了95.64%。

針對復雜布局長文檔理解,使用Kleister-NDA數據集進行效果評測。該數據集包含了254篇合同文檔數據,頁面布局復雜且內容較長,結果表明LayoutLM2.0模型性能相比1.0取得了進一步提升,結果如下表所示:

文檔視覺問答任務,需要模型將文檔圖像和問題作為輸入,并輸出一個答案。研究人員使用 DocVQA 數據集來驗證效果,該數據集共包含超過一萬頁文檔上的五萬組問答對。LayoutLM 2.0 性能相比 LayoutLM 1.0 和純文本模型有了顯著進步。甚至性能超出了原榜首方法1.6個百分點,達到86.72%。

LayoutLM v3

?

2022年微軟又推出了LayoutLM v3,相對于其前兩個版本,主要改進點是優(yōu)化圖像特征表示方法,以統一的方式將文本和圖像嵌入結合起來?,F有的文檔多模態(tài)模型要么提取 CNN 網格特征,要么依賴像 Faster R-CNN這樣的目標檢測模型來提取區(qū)域特征用于圖像嵌入,這會使的模型有更多計算開銷,或需要依賴區(qū)域標注的數據。受 ViT和ViLT的啟發(fā),LayoutLM v3用圖像塊的線性投影特征表示文檔圖像,然后將它們輸入多模態(tài) Transformer。具體來說,將文檔圖像的大小調整為W?H?,然后將圖像分割成固定大小(P?P)的塊,將圖像塊線性投影到相應的維度,并將它們展平為長度為(M=HW/P2)的序列,再加上可學習的一維位置向量后得到圖像向量。具體實現上,將圖像利用二維卷積進行處理,使用卷積核大小為P、步長也為P實現將圖像分塊和線性映射,然后線性嵌入與文本標記對齊。這樣計算復雜度更低,模型結構如下圖所示:

圖4 LayoutLM 3.0模型結構

預訓練任務上,為了使文本和圖像模態(tài)之間更好的對齊,提出了文字-圖像塊對齊Word-Patch Alignemnt(WPA),文本與圖像還分別使用了無監(jiān)督預訓練任務遮罩語言模型Masked Language Modeling(MLM)以及遮罩圖像模型Masked Image Modeling(MIM)。

01?文本-圖像塊對齊

在 v3 中所有的圖像都是基于圖像塊的方式直接映射為圖像特征,mask 的最小單位變成了圖像塊。由于MIM和MLM隨機遮蓋了部分文本詞和圖像塊,模型無法顯式地學習這種文本詞和圖像塊之間的細粒度對齊關系。因此文本-圖像塊對齊任務預測的是未被masked文本對應的圖像塊是否被覆蓋。具體來說,對于那些沒有被masked文本token并且該token所對應的圖像token也沒有被覆蓋,那么會給一個對齊的標簽,如果他的圖像token被覆蓋了,則標一個未對齊的標簽。并且那些被masked的文本不參與損失函數的計算。損失函數:

其中L-L’表示沒有被masked的文本tokens的數量,是那些沒有被masked的文本tokens上的是否對齊的標簽。

02?遮罩語言模型

在MLM的預訓練任務中,類似Bert,對30%文本token做掩碼,但保留對應的二維位置(布局信息),而掩碼策略不是單字隨機掩碼,而是用松柏分布()采樣跨度的長度來進行掩碼。由于保持布局信息不變,這個目標有助于模型學習布局信息與文本和圖像上下文之間的對應關系。MLM的訓練目標模型目標是根據未被遮蓋的圖文和布局信息還原文本中被遮蓋的詞。損失函數:

其中yl表示被masked的tokens,M’,L’,XM’,YL’分別表示圖像序列被masked的位置,文本序列被masked的位置,被masked的tokens的圖像和文本的上下文。

03遮罩圖像模型

在MIM預訓練任務中采用的是BEiT中的MIM預訓練任務,先將圖片轉化成兩種特征:一是類似文本Tokenizer,通過編碼學習將圖像變成離散的視覺符號(visual token);二是,將圖像切成多個小塊(patch),每個塊相當于一個字符。并使用逐塊屏蔽策略隨機屏蔽40%左右的圖像token,預測被masked掉的實際圖像token長什么樣。MIM的訓練目標是重建被mask掉的圖像token。因此,MIM 有助于學習高級布局結構而不是噪聲比較多的低級細節(jié)。損失函數:

其中Xm表示被masked的圖像token。

研究人員在四個多模態(tài)任務上對 LayoutLMv3 進行了效果測試,包括基于FUNSD數據集測試表單理解任務效果、基于CORD數據集測試票據理解任務效果、基于RVL-CDIP數據集測試文檔圖像分類任務效果、基于DocVQA數據集測試文檔視覺問答任務效果,整體測試結果如下表所示。在這些任務上,LayoutLMv3 取得了比以前的工作更好或相當的結果。例如,對于LARGE模型規(guī)模,LayoutLMv3 在 FUNSD 數據集上取得了92.08的 F1 分數,大大超過了此前 LARGE 規(guī)模的 SOTA 結果(85.14)。

? ?

總結? ?

LayoutLM經過從1.0到3.0版本的迭代,不斷優(yōu)化模型對文檔中文本、布局和視覺信息的預訓練性能,對于復雜版式文檔的處理效果和處理效率都在逐步提升,不僅在多種多模態(tài)任務上取得了SOTA,而且在中文數據集EPHOIE上也取得了SOTA,證明了多模態(tài)技術對于文檔理解的可行性和未來巨大的潛力。
目前達觀基于多模態(tài)文檔理解技術進行自主研發(fā),處理復雜國際單據、復雜版式文檔場景數據,諸如合同、發(fā)票、研報、表單等等,也取得了非常優(yōu)秀的效果,并在銀行、證券、報關、制造業(yè)等多個不同行業(yè)實現了成功落地,為各個行業(yè)帶來了巨大的效益提升。

圖5?各行業(yè)版式和內容各異的文檔

真實場景中樣本數據的質量,比論文所使用的的公開數據集的文檔質量要差很多,算法需要處理的圖像質量問題會更加復雜,包括樣本傾斜、透視變換、樣本模糊、陰影問題、水印劃痕、手寫體等等,使用通用的ocr算法難以解決以上問題,就會導致傳遞給多模態(tài)算法輸入的文本和坐標有較大偏差,最終算法輸出結果就會有比較明顯的效果退化。因此在應用多模態(tài)算法的時候,達觀使用自研的ocr算法,自動實現高精度的傾斜校正、透視變換修正、樣本增強、去陰影去水印等等處理,將真實樣本還原為高質量的純凈樣本,將負面影響降到最低。

圖6?真實樣本存在模糊、陰影、水印、印章等等問題

進行了ocr通用處理之后,達觀基于多模態(tài)算法的原理做了較多自研和改進,主要是為了解決各行各業(yè)各個場景里真實樣本的布局變化非常之多的情況,以及要識別的關鍵要素差異很大的情況,重點強化了算法對文檔布局信息的感知和分析,尤其是針對不同布局模塊之間的空間關系、語義關系,引入了CRF模型做針對性的建模,改進之后效果有了將近10%的提升。另外在一些場景的實踐中,我們做對比實驗的時候發(fā)現,LayoutLM v3的效果不如v2穩(wěn)定,在個別場景中甚至效果不如v2,但是v3的計算效率提升比較明顯,更加貼合實際線上運行的性能要求。現階段我們也在嘗試調整和優(yōu)化模型,讓抽取效果和計算效率達到一個更高水平的平衡。實際落地過程中還有很多問題值得研究和攻關,未來基于零樣本、少樣本的進一步嘗試也是非常值得期待的。

圖7?達觀自研多模態(tài)模型解決國際票據審核難題

作者簡介

紀傳俊,達觀數據聯合創(chuàng)始人,復旦大學碩士和優(yōu)秀畢業(yè)生,上海市人工智能高級工程師職稱獲得者,中國計算機學會(CCF)會員。達觀數據銀行業(yè)智能機器人負責人,負責重大項目架構設計和產品研發(fā)管理工作。上海市青年科技啟明星獲得者,因為在人工智能技術賦能產業(yè)應用方面的杰出成果,入選36氪“X·36Under36”S級青年創(chuàng)業(yè)者名冊。

原盛大創(chuàng)新院AI系統主管,原盛大文學數據中心主管,在盛大創(chuàng)新院期間負責起點中文網和酷六視頻的個性化推薦系統以及有你APP用戶關系挖掘,在盛大文學期間全面負責大數據挖掘任務調度系統,智能審核系統和反作弊系統。