——全新OCR平臺:表格、海外發(fā)票、財務(wù)票據(jù)、機構(gòu)文檔一鍵結(jié)構(gòu)化



- 內(nèi)置模型抽取;集成自研的標準化識別產(chǎn)品,包括多種小語種識別和數(shù)十種常見卡證抽取。
- 模版抽取-簡單易用的模版標注;采用多種標注方式,支持錨點和無錨點標注,快速準確抓取目標信息。
- 模型抽取;應(yīng)用最新多模態(tài)和集成算法,表現(xiàn)出高魯棒性和良好的泛化性。
- 分類器識別;分類器作為一個平臺功能的技術(shù)定義,在實際使用中對應(yīng)我們的業(yè)務(wù)流場景,實現(xiàn)的功能是對打包或批量上傳的單據(jù)數(shù)據(jù)完成自動分類抽取,并進一步定義審核校驗等業(yè)務(wù)屬性。通過定義分類規(guī)則或訓練專研的分類器模型,關(guān)聯(lián)對應(yīng)抽取文檔,構(gòu)成一個分類器識別單元。常見的業(yè)務(wù)流諸如銀行開戶業(yè)務(wù)流、企業(yè)資質(zhì)審查業(yè)務(wù)流等。


基礎(chǔ)模型模塊包括功能豐富的標注模塊和底層OCR模型訓練評估模塊,滿足底層模型的標注和訓練需求。

- 數(shù)據(jù)標注模塊:支持文字標注和版面標簽標注,通過機器預(yù)標注-人工修改的方式極大提高了標注效率,滿足定制化場景的真實數(shù)據(jù)快速迭代。
- 數(shù)據(jù)生成模塊:能夠通過靈活定義版式、字符、內(nèi)容等來實現(xiàn)生成數(shù)據(jù)擴展,以滿足模型訓練的數(shù)據(jù)需求。
- OCR基礎(chǔ)模型訓練:支持檢測、識別、版面分析等類型的模型訓練功能,能夠從標注或生成數(shù)據(jù)靈活切分,自由編排訓練策略。底層基于達觀自研算法調(diào)優(yōu),通過流程化配置完成底層模型的訓練。
權(quán)限模塊設(shè)計了一套角色、用戶、組結(jié)構(gòu)的權(quán)限系統(tǒng),滿足靈活的權(quán)限配置和數(shù)據(jù)管理需求。
目前達觀OCR平臺已經(jīng)賦能銀行、券商、報關(guān)、制造業(yè)、電商等多個行業(yè)的頭部客戶,為其降低大規(guī)模抽取任務(wù)的定制門檻和抽取成本,節(jié)約企業(yè)人力資源,提高工作流效率,提升用戶體驗。
市場上的人工智能產(chǎn)品琳瑯滿目,我們希望產(chǎn)品的使用價值高于技術(shù)噱頭,達觀OCR平臺從積累的無數(shù)客戶場景和需求中孵化而出,以產(chǎn)生使用價值為驅(qū)動,助力企業(yè)搭建繁重紙質(zhì)數(shù)據(jù)的數(shù)字化橋梁,走上降本增效的高速路。