達(dá)觀智能文檔審閱系統(tǒng),推動證券非結(jié)構(gòu)化文檔處理提質(zhì)提效
隨著智慧證券的推動發(fā)展,利用OCR、NLP等先進(jìn)技術(shù)解決基金確認(rèn)單、托管劃款指令、基金宣推材料審批、通用表格解析多類場景的非結(jié)構(gòu)化文檔的數(shù)據(jù)識別與處理,實(shí)現(xiàn)相關(guān)場景非結(jié)構(gòu)化文檔的識別解析、智能審核及與業(yè)務(wù)對接等,并通過平臺化建設(shè)提供一定的可拓展性和泛化能力。實(shí)現(xiàn)提高業(yè)務(wù)自動化率、節(jié)省人力,提升業(yè)務(wù)辦理效率、提高滿意度,降低業(yè)務(wù)差錯(cuò)率、促進(jìn)業(yè)務(wù)創(chuàng)新等目的。
以某一線城市的證券經(jīng)濟(jì)管理部門業(yè)務(wù)為例,需要對基金公司發(fā)布的宣傳海報(bào)里的過往業(yè)績、基金評價(jià)、風(fēng)險(xiǎn)提示、股東背景等要素按照證監(jiān)會要求進(jìn)行審批。業(yè)務(wù)人員接收到的海報(bào)材料五花八門,且不同基金公司不同類型的樣本質(zhì)量參差不齊,使得業(yè)務(wù)人員花費(fèi)大量時(shí)間在審核過程當(dāng)中。
達(dá)觀智能文檔審閱系統(tǒng)可以從樣本中找出關(guān)鍵審核要素,通過對現(xiàn)有業(yè)務(wù)痛點(diǎn)的深入分析,基于OCR、NLP、機(jī)器學(xué)習(xí)等金融科技能力構(gòu)建非結(jié)構(gòu)化文檔智能審核平臺,將非結(jié)構(gòu)化文檔數(shù)字化、結(jié)構(gòu)化,實(shí)現(xiàn)內(nèi)容的自動識別、智能提取、智能審核,在節(jié)省人工的基礎(chǔ)上達(dá)到提質(zhì)增效的目的。
智能文檔關(guān)鍵要素抽取預(yù)審
以基金公司宣推海報(bào)為例:
1、通過全篇海報(bào)副文本提取,支持禁用詞庫靈活配置,機(jī)器智能審核海報(bào)語義合規(guī)性。
禁用詞庫自由配置,可根據(jù)不同詞性做詞庫歸類與分級
2、針對宣推樣本特點(diǎn),針對性表格抽取模塊,對表格進(jìn)行規(guī)則抽取與組合抽取,將基金公司與業(yè)績評價(jià)組合起來變成可能,通過模型增加召回率。
靈活新增新的禁用詞,次數(shù)代表該禁用詞被擊中的次數(shù)
3、通過字體、位置信息,“理解”文本,分辨出股東背景、風(fēng)險(xiǎn)提示、特殊基金等重要信息進(jìn)行審核。
根據(jù)證監(jiān)會不同時(shí)期要求,對海報(bào)新增審核規(guī)則。規(guī)則分為邏輯 與必有必?zé)o規(guī)則,支持靈活配置與調(diào)整。
首先會進(jìn)行機(jī)器預(yù)審,抽取原文綠色則是通過,紅色則是預(yù)審不通過。并且在原文中會對關(guān)鍵元素高亮以及定位,快速定位問題核實(shí)結(jié)果。根據(jù)不同規(guī)則,在審核詳情中清晰明了的展示審核依據(jù),便于業(yè)務(wù)同事快速判斷預(yù)審準(zhǔn)確性。
截止2021年10月,達(dá)觀智能文檔審閱系統(tǒng)已完成對120多家基金公司的確認(rèn)單解析,支持PPT、復(fù)雜類、一頁通等七類宣推海報(bào)的解析與100多個(gè)關(guān)鍵要素的識別和抽取,通過智能識別、智能審批,有效節(jié)省業(yè)務(wù)人員的審核與比對的工作時(shí)間,并降低業(yè)務(wù)的差錯(cuò)率,真正實(shí)現(xiàn)了信息化、智能化辦公。