人工智能逐漸改變了很多職位的工作方式, 文字作為信息傳遞的主要載體, 那些和文字閱讀、處理、分發(fā)、生產(chǎn)相關(guān)的工作, 將如何被人工智能重塑? 本文為達(dá)觀數(shù)據(jù)創(chuàng)始人陳運(yùn)文 在東方財(cái)經(jīng)浦東頻道《創(chuàng)贏未來(lái)》中的演講, 一起來(lái)看文本智能處理的現(xiàn)在和未來(lái)。 陳運(yùn)文 達(dá)觀數(shù)據(jù)CEO? ?
我在復(fù)旦大學(xué)計(jì)算機(jī)系讀完博士以后,在百度、盛大、騰訊分別從事過(guò)文本挖掘的技術(shù)管理工作。我們團(tuán)隊(duì)也是由心懷著文字自動(dòng)化處理夢(mèng)想的小伙伴們構(gòu)成的。
人類文明從誕生文字的那一刻起開始算,已經(jīng)有五千年的歷史。人類文明史上最早的四種文字分別是兩河流域的楔形文字、埃及的圣書文、瑪雅文和中國(guó)的甲骨文。約在公元前2600年,這四種文字在全球的四個(gè)不同的地區(qū),獨(dú)立產(chǎn)生出來(lái)。
人類最早誕生的一塊文字叫“庫(kù)辛石板”,它是在公元前2600年時(shí),在幼發(fā)拉底河和底格里斯河兩河流域發(fā)現(xiàn)的最早的楔形文字泥板,它也是人類考古學(xué)里發(fā)現(xiàn)的最早的文字痕跡。里面記錄了一個(gè)叫庫(kù)辛的人在37個(gè)月的時(shí)間里,總共收到了2萬(wàn)9千多個(gè)大麥。也就是說(shuō),人類文明史上最早的文字既不是歌頌王侯將相的詩(shī)歌,也不是描述勞動(dòng)人民狩獵的場(chǎng)景,更不是詩(shī)歌或者是祭文,而是一個(gè)財(cái)務(wù)報(bào)告。這是因?yàn)槿四X對(duì)文字和數(shù)字的記憶是非常弱的,時(shí)間久了會(huì)記不住具體的數(shù)字和文字細(xì)節(jié)。因此,人類發(fā)明了數(shù)字和文字,來(lái)幫助我們能夠來(lái)記憶這些重要的信息。
達(dá)觀的計(jì)算機(jī)系統(tǒng)也同樣是輔助我們來(lái)完成很多文字分析、記錄、處理的工作,它可以讓我們更加輕松地工作和生活。
?
文字處理的應(yīng)用面非常廣,簡(jiǎn)單來(lái)說(shuō)可以分成兩大部分。第一部分是代替人來(lái)完成文字的閱讀工作,第二部分是代替人來(lái)完成文字的寫作工作。
?
讀和寫是我們每個(gè)人每天都在做的工作,它耗費(fèi)了我們大量的時(shí)間。我們做了一個(gè)統(tǒng)計(jì),不管你是公務(wù)員、財(cái)務(wù)人員、法務(wù)人員,還是傳媒公司的校對(duì)人員,其實(shí)每天都有大量的工作是審核材料。審核材料就需要閱讀這些材料并基于你對(duì)這個(gè)領(lǐng)域的理解去判斷材料有沒有問(wèn)題。一個(gè)普通的白領(lǐng)每天有超過(guò)三分之一的時(shí)間是用在文字的讀和寫上的。
我們的計(jì)算機(jī)軟件自動(dòng)化系統(tǒng),可以讓這些文字工作由繁化簡(jiǎn)。它能從頭到尾完成一個(gè)文檔的閱讀工作,從里面自動(dòng)化抽取出關(guān)鍵要素,并且根據(jù)相應(yīng)的法規(guī)、合規(guī)和審查內(nèi)容,判斷出文字是否能夠通過(guò)相應(yīng)的合規(guī)檢查。我們的系統(tǒng)已經(jīng)在很多政府機(jī)構(gòu)、大型央企、五百?gòu)?qiáng)企業(yè)、四大會(huì)計(jì)師事務(wù)所里面應(yīng)用,大幅度地減輕了人工的負(fù)擔(dān)。
除了文字審核以外,大量文檔資料的比對(duì)、搜索、知識(shí)提取和知識(shí)網(wǎng)絡(luò)的構(gòu)建也是非常重要的事情。我們做文字閱讀時(shí),平均一秒鐘一個(gè)人的閱讀速度大概是20-30字,相當(dāng)于一條微信的長(zhǎng)度,效率是非常低的。但是計(jì)算機(jī)一秒鐘可以閱讀一萬(wàn)字,它的速度是人的幾百倍,更何況我們提供的是幾千臺(tái)服務(wù)器的一整套集群,它的閱讀速度是非常驚人的,可以大幅度地縮短文字閱讀處理的時(shí)間。原來(lái)可能一個(gè)團(tuán)隊(duì)三五個(gè)人用一周才能完成的工作,現(xiàn)在用我們的計(jì)算機(jī)系統(tǒng)只要十幾分鐘就可以完成,效率大幅提高。
在互聯(lián)網(wǎng)的文字信息處理方面,我們也有個(gè)性化推薦的系統(tǒng)。很多互聯(lián)網(wǎng)的客戶,他們有大量的文檔資料,比如對(duì)商品的用戶意見分析、商品信息搜索、信息推薦等,這些都可以用我們的計(jì)算機(jī)系統(tǒng)代替人來(lái)完成。同時(shí),很多中國(guó)的大型企業(yè)、五百?gòu)?qiáng)客戶、四大會(huì)計(jì)師事務(wù)所等,他們的員工每天都要閱讀大量的合同、財(cái)務(wù)報(bào)表,去分析各種各樣的上市公司的公告,這些工作非常費(fèi)時(shí)費(fèi)力。一但用了我們的計(jì)算機(jī)軟件來(lái)做這些工作,不但效率提高了,而且出錯(cuò)的概率更小。
達(dá)觀也獲得了很多機(jī)構(gòu)的認(rèn)可,獲得了吳文俊人工智能獎(jiǎng),這個(gè)是中國(guó)在人工智能學(xué)界的最高獎(jiǎng)項(xiàng),我們也是2018年唯一獲得吳文俊人工智能獎(jiǎng)的上海創(chuàng)業(yè)企業(yè)。我們還獲得了來(lái)自中央軍委裝備部的軍事情報(bào)自動(dòng)化處理比賽的季軍,獲得了來(lái)自最高人民法院的司法裁判文書的刑期預(yù)測(cè)競(jìng)賽季軍。我們讓計(jì)算機(jī)能夠像法官一樣去閱讀案情描述和相關(guān)材料,根據(jù)相應(yīng)的法律法規(guī)給出判罰意見的分析。在常見刑事案件的判罰方面,我們的準(zhǔn)確率已經(jīng)非常接近真實(shí)人類法官的判罰結(jié)果了。我們也獲得了很多豐厚的學(xué)術(shù)成果,發(fā)表了很多技術(shù)論文、專利,出版了兩本著作。
中國(guó)有句古話,叫“讀書破萬(wàn)卷,下筆如有神”。我們讓軟件系統(tǒng)閱讀人類所積累下來(lái)的文檔資料,去分析里面字詞的語(yǔ)言模型和語(yǔ)法規(guī)律,從而讓計(jì)算機(jī)能夠具備不亞于人類的文字閱讀理解能力。截至目前,我們已經(jīng)積累了超過(guò)兩百億字的文檔資料。
?
也期待在不久的將來(lái),計(jì)算機(jī)能夠成為我們每個(gè)企業(yè)、每一個(gè)人身邊非常好的助手。我們預(yù)測(cè)到2035年的時(shí)候,有超過(guò)一半的文字日常處理工作,都可以讓計(jì)算機(jī)代替人類來(lái)完成,期待這天能夠早日到來(lái)。