達觀IDP全新升級零樣本學(xué)習(xí)(Zero-Shot Learning)，無需標注，實體、關(guān)系、事件直接提取

隨著IDP文檔智能處理技術(shù)不斷發(fā)展，智能文檔產(chǎn)品化商業(yè)化百花齊放，作為國內(nèi)IDP賽道的領(lǐng)跑者，達觀數(shù)據(jù)始終堅持技術(shù)引領(lǐng)與產(chǎn)品打磨，致力于為用戶提供更先進、更便利、更易用的IDP產(chǎn)品。達觀IDP文檔智能處理平臺具備文檔撰寫、文檔結(jié)構(gòu)化、文檔審核在內(nèi)的辦公文檔全生命周期處理能力。

達觀IDP產(chǎn)品示意圖

零樣本學(xué)習(xí)算法?

深度學(xué)習(xí)模型的訓(xùn)練往往需要大量標注良好的訓(xùn)練樣本，但是這種訓(xùn)練樣本的獲取成本非常高昂。而零樣本學(xué)習(xí)(zero-shot learning)讓計算機模擬人類的推理方式，來識別在訓(xùn)練階段沒有見過新事物，從而大幅降低模型對人工標注的數(shù)據(jù)依賴。

本次達觀IDP文檔智能處理系統(tǒng)全新升級零樣本學(xué)習(xí)(Zero-Shot Learning)，無需標注訓(xùn)練模型，直接抽取文檔信息，真正實現(xiàn)讓AI觸手可及。用戶只需輸入想要提取的字段信息，例如上市公司名稱，股票代碼，合同總金額，甲方地址，模型可自動提取關(guān)鍵信息。

零樣本學(xué)習(xí)預(yù)標注數(shù)據(jù)??

以公開數(shù)據(jù)集上市公司股權(quán)質(zhì)押公告為例，傳統(tǒng)的標注訓(xùn)練模式下，比賽提供4萬份樣本，截止目前市面上模型訓(xùn)練的最好效果是80.1%（F1值），而采用零樣本的方式，在零標注的情況下，平均的字段抽取F1已可達到60%，在模型抽取錯誤的結(jié)果上，輔以人工復(fù)核修正，修正10份樣本，迭代訓(xùn)練，模型的抽取F1即可達到70%。修正100份樣本模型F1平均可達到75%，修正400份樣本模型F1平均可達到80%，標注量減少99%。

從達觀自身實踐來看，傳統(tǒng)模式下，以數(shù)百頁的招股書為例，平均單字段的標注量為200份左右，單字段的標注+復(fù)核耗時約2小時，經(jīng)算法工程師訓(xùn)練后模型平均字段準確率80%-95%。在零樣本模式下，業(yè)務(wù)人員僅需復(fù)核模型的抽取結(jié)果，平均模型迭代僅需100份左右的標注數(shù)據(jù)，單字段的復(fù)核耗時約0.5小時，標注效率平均提升75%，同時，模型訓(xùn)練可由無算法經(jīng)驗和代碼開發(fā)能力的業(yè)務(wù)人員1天內(nèi)完成。

抽取效果示例

文檔處理一站式學(xué)習(xí)平臺?

達觀IDP文檔智能處理平臺集成智能文檔處理全景能力模型，支持一站式標注-訓(xùn)練-抽取-人工反饋-模型自優(yōu)化的業(yè)務(wù)閉環(huán)，結(jié)合本次全新升級的零樣本學(xué)習(xí)，進一步降低智能文檔處理應(yīng)用難度，大幅減少人工成本，未來智能文檔處理有望真正像人類一樣自我學(xué)習(xí)。