近日,達觀數(shù)據(jù)自研OCR平臺再升級,通過將計算機視覺和自然語言處理深度融合技術(shù),形成了完備的包含文字識別、動態(tài)模板、結(jié)構(gòu)化識別、文字理解的技術(shù)體系。為企業(yè)客戶提供速度快,精度高,應(yīng)用泛、響應(yīng)快、可定制的OCR平臺。
達觀OCR平臺核心模塊
強大的通用文檔識別
達觀OCR 基礎(chǔ)功能可為用戶提供0門檻、多場景、多語言、高精度的識別服務(wù),支持中、英文印刷體識別,字符識別準確率超99.5%,支持泰語、法語、德語、西班牙語、意大利語、日語、韓語、俄語等多語種識別,同時支持對手寫中文、英文進行檢測和識別,支持對圓形章、橢圓章、矩形章等多種印章識別,并支持有框表、無框、半線表格識別與結(jié)構(gòu)還原,可在識別過程中檢測文檔中的水印,支持去除文檔中的水印。
無框表格
對無框表格使用計算機視覺技術(shù)檢測表格區(qū)域,結(jié)合自然語言理解算法完善表格結(jié)構(gòu),精確定位跨行跨列、單元格合并、拆分等復(fù)雜情況,精準還原內(nèi)容與版式。
印章識別
達觀智能OCR可對合同文件、常用票據(jù)等用印文檔進行圓形、橢圓印章檢測,快速獲取印章位置,摳取印章圖案,準確識別印章文字信息。
印章/水印遮蓋
票據(jù)、文檔上的重要信息往往被印章遮蓋,達觀智能OCR可定位印章區(qū)域,去除遮蓋印章,精準識別被遮擋文字。
文字模糊
對于圖片模糊、分辨率低等情況,通過圖像復(fù)原算法對低質(zhì)量圖像進行逆向修復(fù),從嘈雜模糊的圖像中提取清晰化文本,效果優(yōu)異。
一站式結(jié)構(gòu)化自學(xué)習(xí)訓(xùn)練平臺
達觀OCR結(jié)構(gòu)化自學(xué)習(xí)訓(xùn)練平臺基于圖像識別和文字理解技術(shù),適用于各類個性化證照、票據(jù)的結(jié)構(gòu)化識別。用戶可自主訓(xùn)練,高效、低成本的各類票據(jù)進行自動分類及識別。
自學(xué)習(xí)訓(xùn)練模板
OCR模板抽取,幾分鐘1個模板即可實現(xiàn)對同板式高精度的結(jié)構(gòu)化識別:
此外,達觀OCR模型抽取,可視化標注訓(xùn)練結(jié)構(gòu)化識別模型,用戶可少量的標注,自主構(gòu)建訓(xùn)練模型,訓(xùn)練出準確率90%以上的高可用模型。
模型訓(xùn)練結(jié)果實時查看:
近百種票據(jù)識別開箱即用
在票證的結(jié)構(gòu)化識別中,達觀OCR可對財務(wù)票據(jù)、個人卡證、不動產(chǎn)和車輛以及機構(gòu)文檔等多種結(jié)構(gòu)化票證快速識別,涵蓋增值稅發(fā)票、火車票、機打發(fā)票、行程單、船票、國際發(fā)票、混貼發(fā)票、財務(wù)發(fā)票的混合類型、身份證、港澳居住證、港澳臺居民來訪內(nèi)地通行證、銀行卡、中國護照、車輛等級證、不動產(chǎn)證、車輛合格證、銀行流水、開戶許可、紅頭文件、財報識別等近百種類型。
達觀OCR平臺技術(shù)優(yōu)勢
獨有的計算機視覺和自然語言處理深度融合技術(shù)
達觀數(shù)據(jù)通過將CV與自然語言處理進行深度融合,內(nèi)置圖像矯正模型、文字檢測模型、文字識別模型和語義修正模型等多種前沿技術(shù),極大提升OCR識別準確率。
豐富的語料積累,支持復(fù)雜文檔識別與抽取
除基礎(chǔ)憑證、合同、常用報表外,達觀數(shù)據(jù)在處理各種復(fù)雜表格和復(fù)雜影印件、以及各種復(fù)雜文本都有成功的實施經(jīng)驗,準確率均達到95%以上。
根據(jù)業(yè)務(wù)需求訓(xùn)練模型,保障識別準確率
達觀OCR可精準識別各種實際應(yīng)用中的復(fù)雜情況能力,具備非常高的復(fù)雜環(huán)境可用性。出色的文檔結(jié)構(gòu)的版面分析和文檔圖像處理能力,將各類常見文檔圖片或文檔掃描件中的文字信息按照文檔原有的格式進行文本識別和還原,實現(xiàn)將文檔中的文字元素(單字、文字塊、行、表格等)和版面格式抽離并按順序輸出。