前言
從人類的認(rèn)知革命到人工智能的進(jìn)化、發(fā)展,再到目前的AI應(yīng)用,人工智能在不斷技術(shù)迭代的同時(shí),也加速激發(fā)了新興行業(yè)業(yè)態(tài)。達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人高翔,坐客上海交通大學(xué),與大家暢談人工智能影響下未來(lái)辦公發(fā)展新圖景。
AI技術(shù)如何助力智能文檔處理技術(shù)
為什么今天會(huì)講到文檔處理?我們測(cè)算了一下每個(gè)人大概每天有1/3的時(shí)間都在和文字打交道,所以對(duì)于文本自動(dòng)化處理的市場(chǎng)需求非常大。
文本處理是非常復(fù)雜的一個(gè)過(guò)程。左邊的圖是讓小朋友寫作文,小朋友對(duì)“50歲的天津的哥馬志剛”分詞。他理解成“50歲/的/天津/的/哥馬志/剛/拒收/了/一位/盲人”,其實(shí)是犯了一個(gè)分詞錯(cuò)誤,所以整個(gè)意思就發(fā)生了一些變化。這在分詞任務(wù)里有個(gè)專業(yè)的名稱叫做“歧義切分”。
讓計(jì)算機(jī)來(lái)進(jìn)行文字閱讀理解有著非常大的挑戰(zhàn)。
第一,計(jì)算機(jī)缺乏常識(shí)以及專業(yè)背景的知識(shí)。我們有很多背景知識(shí)、領(lǐng)域知識(shí),計(jì)算機(jī)很難現(xiàn)在把領(lǐng)域知識(shí)全部都學(xué)到,它可能在某一個(gè)細(xì)分領(lǐng)域可以學(xué)一些簡(jiǎn)單的知識(shí),但是學(xué)習(xí)一個(gè)通用領(lǐng)域的知識(shí)是比較難的,所以我們?cè)谙胧褂弥R(shí)圖譜或其他的技術(shù)是否能幫助計(jì)算機(jī)構(gòu)建這樣的通用領(lǐng)域知識(shí),但現(xiàn)在挑戰(zhàn)是比較大的。
第二,語(yǔ)言有豐富的上下文的語(yǔ)境。文字的抽象、模糊、歧義會(huì)加重計(jì)算機(jī)的理解負(fù)擔(dān)?!疤O果”,單這個(gè)詞指的是蘋果公司,還是吃的水果蘋果,這個(gè)問(wèn)題其實(shí)非常復(fù)雜,需要一定的上下文語(yǔ)境才能判斷準(zhǔn)確。
計(jì)算機(jī)能做這個(gè)事情,最主要的原因是計(jì)算機(jī)和人腦對(duì)知識(shí)學(xué)習(xí)的過(guò)程或者知識(shí)理解的過(guò)程是非常相似的。人看了很多書(shū),學(xué)習(xí)這么多知識(shí),本質(zhì)上就是把規(guī)律總結(jié)成知識(shí),新的問(wèn)題可以根據(jù)我們的知識(shí)規(guī)律去處理,得到相關(guān)的結(jié)果。
計(jì)算機(jī)和人類相似,可以學(xué)習(xí)各種數(shù)據(jù)。數(shù)據(jù)一般分為標(biāo)注數(shù)據(jù)和非標(biāo)注數(shù)據(jù),這些數(shù)據(jù)通過(guò)AI算法可以訓(xùn)練成各類的模型,一般來(lái)說(shuō)解決一個(gè)具體問(wèn)題都會(huì)有一個(gè)對(duì)應(yīng)的模型。當(dāng)預(yù)測(cè)新的數(shù)據(jù)時(shí),模型根據(jù)內(nèi)部的參數(shù)經(jīng)過(guò)計(jì)算得出最終結(jié)果。
智能文檔處理的難點(diǎn)與關(guān)鍵技術(shù)
難點(diǎn)
我們今天講的是智能文檔的處理,文檔和文本的差異巨大,左邊是一頁(yè)華鑫證券的研報(bào),這個(gè)研報(bào)的內(nèi)容豐富,顏色、標(biāo)題、圖形、表格都排版很好,所以在看這個(gè)研報(bào)會(huì)覺(jué)得很舒服,除了從視覺(jué)角度看很優(yōu)美,最主要的是我們可以一眼找到需要的各種關(guān)鍵信息。
但是如果把它里面的文本用軟件或工具復(fù)制出來(lái),可以看到右邊這個(gè)大段的文字。大家看到這樣大段的文字都比較頭疼,很難找到需要的信息,而且發(fā)現(xiàn)因?yàn)槭ヅ虐嫘畔⒌脑?,有很多信息的順序是不?duì)的,空格、換行等信息都缺失了,很多有價(jià)值的信息就混到一起無(wú)法提取。所以最大的困難就是文檔和文本之間的處理的差異非常大,所以我們要做好一個(gè)文檔的難度非常高。
核心技術(shù)
第一個(gè)是文檔信息結(jié)構(gòu)化。第二個(gè)是文檔風(fēng)險(xiǎn)審核,怎樣審核文檔內(nèi)在風(fēng)險(xiǎn)。第三個(gè)是文檔內(nèi)容差異性比對(duì),包括表格、文字的差異都可以去做比對(duì)。第四個(gè)是表格解析。第五個(gè)是掃描件信息識(shí)別,這塊和OCR技術(shù)相關(guān)。
案例分享及展望
達(dá)觀數(shù)據(jù)智能文檔審閱平臺(tái)是一個(gè)全行業(yè)覆蓋的產(chǎn)品。
它的應(yīng)用場(chǎng)景很多,和各種行業(yè)高度相關(guān),因?yàn)閹缀跛械男袠I(yè)都有大量的文檔需要處理。
具體的案例
券商基金合同智能審閱時(shí),雖然基金合同大部分是模版生成,但因?yàn)榛鸷贤募追娇赡軙?huì)比較強(qiáng)勢(shì),修改合同內(nèi)部的條款和內(nèi)容,所以它不是一個(gè)完全非標(biāo)準(zhǔn)的模板合同,因此無(wú)法使用模板快速提取關(guān)鍵信息,需要使用語(yǔ)義理解技術(shù)來(lái)自動(dòng)提取,提取后做審核。
基金合同的金額比較大條款多,所以它的風(fēng)險(xiǎn)也比較大,這個(gè)審核工作需要非常細(xì)致。因?yàn)榫邆洮F(xiàn)成的平臺(tái),只需要把文件類型接口對(duì)接進(jìn)來(lái),加上之前的數(shù)據(jù)積累,所以只花3周時(shí)間就把基金合同信息提取效果做的差不多,F(xiàn)1值達(dá)到93%以上,現(xiàn)在的效果應(yīng)該會(huì)更好并且客戶已經(jīng)把系統(tǒng)上線了,他們每天通過(guò)機(jī)器輔助的方式來(lái)做審核,提升效率。
文字自動(dòng)化處理的意義
降低成本、提高效率、解放勞動(dòng)力。我們大概評(píng)估了一下,包括計(jì)算機(jī)處理能力和成本,在2010年算是一個(gè)節(jié)點(diǎn),計(jì)算機(jī)相關(guān)成本越來(lái)越低,比如電腦現(xiàn)在越來(lái)越便宜。人工基本上已經(jīng)到極限了或者說(shuō)到瓶頸了,但計(jì)算機(jī)的能力會(huì)越來(lái)越強(qiáng)。
未來(lái)的展望
第一、從公司的角度來(lái)看,學(xué)術(shù)很重要,工程實(shí)踐也很重要,不能只去關(guān)注所謂高大上的模型算法,而要實(shí)事求是選擇最正確的方式來(lái)解決客戶實(shí)際場(chǎng)景的問(wèn)題。
第二、要把語(yǔ)義的分析和RPA技術(shù)做結(jié)合,因?yàn)閮烧咦鋈诤现螅?jì)算機(jī)不僅在軟件操作的“敏捷”程度上比人快,而且具備和人類似的思考能力,整個(gè)流程相對(duì)較純?nèi)斯?huì)更快。
第三、希望各個(gè)產(chǎn)業(yè)可以結(jié)合我們的技術(shù)去落地很多應(yīng)用,真正幫客戶產(chǎn)生價(jià)值。10