隨著IDP文檔智能處理技術(shù)不斷發(fā)展,智能文檔產(chǎn)品化商業(yè)化百花齊放,作為國內(nèi)IDP賽道的領(lǐng)跑者,達觀數(shù)據(jù)始終堅持技術(shù)引領(lǐng)與產(chǎn)品打磨,致力于為用戶提供更先進、更便利、更易用的IDP產(chǎn)品。達觀IDP文檔智能處理平臺具備文檔撰寫、文檔結(jié)構(gòu)化、文檔審核在內(nèi)的辦公文檔全生命周期處理能力。
達觀IDP產(chǎn)品示意圖
零樣本學(xué)習(xí)算法?
深度學(xué)習(xí)模型的訓(xùn)練往往需要大量標注良好的訓(xùn)練樣本,但是這種訓(xùn)練樣本的獲取成本非常高昂。而零樣本學(xué)習(xí)(zero-shot learning)讓計算機模擬人類的推理方式,來識別在訓(xùn)練階段沒有見過新事物,從而大幅降低模型對人工標注的數(shù)據(jù)依賴。
本次達觀IDP文檔智能處理系統(tǒng)全新升級零樣本學(xué)習(xí)(Zero-Shot Learning),無需標注訓(xùn)練模型,直接抽取文檔信息,真正實現(xiàn)讓AI觸手可及。用戶只需輸入想要提取的字段信息,例如上市公司名稱,股票代碼,合同總金額,甲方地址,模型可自動提取關(guān)鍵信息。
零樣本學(xué)習(xí)預(yù)標注數(shù)據(jù)??
以公開數(shù)據(jù)集上市公司股權(quán)質(zhì)押公告為例,傳統(tǒng)的標注訓(xùn)練模式下,比賽提供4萬份樣本,截止目前市面上模型訓(xùn)練的最好效果是80.1%(F1值),而采用零樣本的方式,在零標注的情況下,平均的字段抽取F1已可達到60%,在模型抽取錯誤的結(jié)果上,輔以人工復(fù)核修正,修正10份樣本,迭代訓(xùn)練,模型的抽取F1即可達到70%。修正100份樣本模型F1平均可達到75%,修正400份樣本模型F1平均可達到80%,標注量減少99%。
從達觀自身實踐來看,傳統(tǒng)模式下,以數(shù)百頁的招股書為例,平均單字段的標注量為200份左右,單字段的標注+復(fù)核耗時約2小時,經(jīng)算法工程師訓(xùn)練后模型平均字段準確率80%-95%。在零樣本模式下,業(yè)務(wù)人員僅需復(fù)核模型的抽取結(jié)果,平均模型迭代僅需100份左右的標注數(shù)據(jù),單字段的復(fù)核耗時約0.5小時,標注效率平均提升75%,同時,模型訓(xùn)練可由無算法經(jīng)驗和代碼開發(fā)能力的業(yè)務(wù)人員1天內(nèi)完成。
抽取效果示例
文檔處理一站式學(xué)習(xí)平臺?
達觀IDP文檔智能處理平臺集成智能文檔處理全景能力模型,支持一站式標注-訓(xùn)練-抽取-人工反饋-模型自優(yōu)化的業(yè)務(wù)閉環(huán),結(jié)合本次全新升級的零樣本學(xué)習(xí),進一步降低智能文檔處理應(yīng)用難度,大幅減少人工成本,未來智能文檔處理有望真正像人類一樣自我學(xué)習(xí)。
零樣本直接抽取效果示例
達觀IDP文檔智能處理平臺已深入應(yīng)用于金融、制造、通信、法律、審計、政府等領(lǐng)域,提供智能撰寫、信息抽取、文檔審核等服務(wù)能力,為企業(yè)數(shù)據(jù)、風(fēng)險管理、合規(guī)管理創(chuàng)造價值。