一、深度學(xué)習(xí)概述
?
深度學(xué)習(xí)是從機(jī)器學(xué)習(xí)基礎(chǔ)上發(fā)展起來(lái)的,機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)三種類型。
深度學(xué)習(xí)是在機(jī)器學(xué)習(xí)的基礎(chǔ)上把特征抽取工作放到里面一起來(lái)完成的,直接實(shí)現(xiàn)了端到端的學(xué)習(xí)。通常我們遇到的深度網(wǎng)絡(luò)包括:堆疊自編碼器、深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。
左邊這張圖是自編碼器的一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)示意圖,自編碼器的特點(diǎn)是輸入和輸出是完全一樣的,它通過(guò)將輸入復(fù)制到輸出,去學(xué)習(xí)它在隱層里面的表示。右邊是堆疊自編碼器,它可以把自編碼器的隱層不斷堆疊起來(lái),形成多層的深度網(wǎng)絡(luò)。與堆疊自編碼器一樣,深度信念網(wǎng)絡(luò)是在限制玻爾茲曼機(jī)基礎(chǔ)上疊出來(lái)的一個(gè)網(wǎng)絡(luò),受限玻爾茲曼機(jī)是神經(jīng)網(wǎng)絡(luò)里面最基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)之一,通過(guò)將多個(gè)受限玻爾茲曼機(jī)堆疊起來(lái)形成的深度網(wǎng)絡(luò),是深度學(xué)習(xí)里面最基本的網(wǎng)絡(luò)結(jié)構(gòu)之一。
深度學(xué)習(xí)被最廣泛使用的是從卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始的,卷積神經(jīng)網(wǎng)絡(luò)的示意圖如這張圖片所示,它通過(guò)卷積和對(duì)輸入的局部特征進(jìn)行學(xué)習(xí),來(lái)達(dá)到最終的目標(biāo)。卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于文本處理和圖像識(shí)別當(dāng)中。
深度學(xué)習(xí)另外一個(gè)被廣泛使用的網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)有非常多的變種,這張圖是它其中的一個(gè),叫LSTM,經(jīng)常被用于語(yǔ)音識(shí)別和文本處理當(dāng)中。
從上面網(wǎng)絡(luò)可以看出來(lái),深度學(xué)習(xí)是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來(lái)的,神經(jīng)網(wǎng)絡(luò)早期的效果并不是特別好,但是從兩千零幾年開(kāi)始,因?yàn)楹A繑?shù)據(jù)的積累、逐層訓(xùn)練技術(shù)的出現(xiàn)以及以GPU為代表的計(jì)算性能的極大提升,使得深度學(xué)習(xí)能效果越來(lái)越好,被廣泛應(yīng)用于語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理中。自然語(yǔ)言處理就會(huì)用到非常多深度學(xué)習(xí)的算法。
?
二、自然語(yǔ)言理解概述
?
自然語(yǔ)言理解所處理的對(duì)象是文本,文本是廣泛存在于我們的日常生活和工作當(dāng)中的,像達(dá)觀數(shù)據(jù)所擅長(zhǎng)處理的是正式文本或者長(zhǎng)文本,長(zhǎng)文本像法律文書、人事檔案、證券專業(yè)文書、企業(yè)手冊(cè)、新聞文章、問(wèn)答資料、客戶評(píng)論意見(jiàn)等都是我們常見(jiàn)的文本,它幾乎存在于所有的行業(yè)中,金融、法律、媒體、互聯(lián)網(wǎng)、政府、公共機(jī)構(gòu)、大型企業(yè),無(wú)所不在,如果能夠使用自然語(yǔ)言理解和機(jī)器學(xué)習(xí)的方法,使得大量需要人工處理的海量文檔自動(dòng)化,將會(huì)非常大地提高企業(yè)和政府部門的工作效率。
?
然而,讓計(jì)算機(jī)來(lái)理解文本是非常難的一件事情,首先,計(jì)算機(jī)缺乏常識(shí)以及專業(yè)的背景知識(shí),而人類通常擁有非常豐富的專業(yè)知識(shí)和背景。比如對(duì)“future”的理解,普通人認(rèn)為是“未來(lái)”,但對(duì)于金融相關(guān)的專業(yè)可能就會(huì)認(rèn)為是“期貨”,而“期貨”對(duì)金融專業(yè)人士來(lái)說(shuō)是一個(gè)語(yǔ)境,這是計(jì)算機(jī)所不存在的一個(gè)場(chǎng)景。
除此之外,人類說(shuō)話本身非常的抽象和模糊,通常擁有非常多的歧義或者語(yǔ)境信息在里面。我們通常在見(jiàn)到朋友時(shí)會(huì)說(shuō)“吃飯了嗎?”
“吃飯了嗎”對(duì)計(jì)算機(jī)來(lái)說(shuō)就是“吃飯了嗎”四個(gè)字,而對(duì)人類來(lái)說(shuō)它通常擁有豐富的隱含意義在里面。
?
從分詞的角度,我們可以看詞本身的粒度問(wèn)題,“中華人民共和國(guó)”和“中國(guó)”本身意義是一樣的。還有指代歸屬問(wèn)題,當(dāng)人與人之間交流時(shí)候,你說(shuō)的“你、我、他”能夠自然而然的被替換成相應(yīng)的目標(biāo),而計(jì)算機(jī)來(lái)解決指代歸屬問(wèn)題也是非常難的一個(gè)事情。除此之外,還有同義詞、近義詞、局部轉(zhuǎn)義、一詞多義等問(wèn)題。
?
比如一詞多義的問(wèn)題,大家在網(wǎng)絡(luò)上看到過(guò)一個(gè)段子,“方便方便,意思意思”然后去理解“方便方便”和“意思意思”不同的意思。計(jì)算機(jī)同樣存在這個(gè)問(wèn)題,它如何理解“方便方便”和“意思意思”的不同意思和不同的方便程度。
?
再?gòu)脑~語(yǔ)構(gòu)造成句子的過(guò)程中也會(huì)遇到非常多的問(wèn)題,因?yàn)閷?duì)人類來(lái)說(shuō),句子之間的部分結(jié)構(gòu)發(fā)生顛倒,人類依然能夠正常的理解,但是對(duì)計(jì)算機(jī)來(lái)說(shuō),它對(duì)于像“你上班了嗎?”“班上你了嗎?”就有難度。
?
再往上,語(yǔ)義層面的歧義就更多了,“咬死獵人的狗”如果在沒(méi)有上下文語(yǔ)境的情況下,人類也非常的難以理解,到底是狗咬死了獵人,還是某些動(dòng)物把獵人的狗給咬死了,這就是所謂的語(yǔ)境。
?
除了語(yǔ)境之外,還有比較多的領(lǐng)域知識(shí)、專家知識(shí),比如最近爆雷非常多的P2P,有一個(gè)特點(diǎn)是利息比較高。當(dāng)利息高過(guò)了一定程度,存在問(wèn)題的概率比較高了。這類專家的知識(shí)對(duì)計(jì)算機(jī)來(lái)說(shuō)也是一個(gè)問(wèn)題。
?
“企業(yè)清算時(shí)按投資年復(fù)率20%給予補(bǔ)償”,這句話如果存在合同當(dāng)中,往往是需要注意的點(diǎn)。因?yàn)橥ǔ2怀^(guò)12%,20%的利率過(guò)高。這個(gè)『過(guò)高』是寫錯(cuò)了、還是因?yàn)槠渌厥庠?,遇到這種問(wèn)題時(shí)就需要通過(guò)雙重確認(rèn),來(lái)確保文本的正確。
為了解決這些問(wèn)題,我們使用各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法來(lái)建立模型,通過(guò)海量的文本進(jìn)行訓(xùn)練這個(gè)模型來(lái)預(yù)測(cè)未來(lái)。這個(gè)方式有點(diǎn)類似于人腦,人是要通過(guò)學(xué)習(xí),學(xué)習(xí)很多專業(yè)知識(shí),當(dāng)學(xué)完知識(shí)之后,在未來(lái)遇到這些問(wèn)題時(shí),就會(huì)通過(guò)類似于機(jī)器學(xué)習(xí)的模型來(lái)實(shí)現(xiàn)預(yù)測(cè)和判斷。
?
在建立這些模型的過(guò)程中,我們通常會(huì)分為字詞級(jí)分析、段落級(jí)分析、篇章級(jí)分析。
字詞級(jí)分析是我們通常所遇到的像分詞、命名實(shí)體識(shí)別、同義詞分析等。
段落級(jí)分析是從句子到段落層面來(lái)對(duì)文本進(jìn)行建模,它一般包括依存文法分析、文本糾錯(cuò)等。從段落往上是篇章級(jí)分析,篇章級(jí)分析更多是語(yǔ)義層面的理解,它通常包括像文本相似度、主題模型、文章的聚類分類和標(biāo)簽提取。
?
?
三、文本語(yǔ)義分析及其應(yīng)用實(shí)踐
?
文本語(yǔ)義分析首先是表示學(xué)習(xí)。表示學(xué)習(xí)通常傳統(tǒng)上對(duì)文本的表示是通過(guò)One-hot編碼來(lái)實(shí)現(xiàn)的,在深度學(xué)習(xí)出來(lái)以后,往往使用稠密的向量編碼來(lái)對(duì)文本表示。
?
詞向量的稠密表示具有非常大的優(yōu)勢(shì),一方面是它的維度降低得非常多,一般情況下200-300維就足夠以表達(dá)中文的詞匯,而one-hot編碼往往需要50萬(wàn)-100萬(wàn)維來(lái)表示。除此之外,詞向量還能表達(dá)詞的語(yǔ)義層面的相似性。
?
對(duì)詞向量經(jīng)典的訓(xùn)練方法是谷歌發(fā)表的原始的“Word2Vec”這篇論文里提到的兩種方法,CBOW和skip-gram。CBOW是用詞的上下文信息來(lái)表示這個(gè)詞本身,而skip-gram則是用詞的本身來(lái)表達(dá)詞的上下文信息。在“Word2Vec”基礎(chǔ)之上還發(fā)展出包含了全局信息的GloVe方法。
?
除了詞向量之外,深度學(xué)習(xí)的各種網(wǎng)絡(luò)結(jié)構(gòu)也被用來(lái)進(jìn)行文本分析。比如對(duì)句子進(jìn)行分類,可以使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。
?
層次注意力模型是最新的一個(gè)網(wǎng)絡(luò),它最早被使用來(lái)對(duì)評(píng)論進(jìn)行打分。層次注意力模型有一個(gè)非常大的優(yōu)點(diǎn),就是它考慮了文本或者是篇章的結(jié)構(gòu),它是從詞開(kāi)始,到句子的一個(gè)注意力模型,再到整個(gè)篇章是另一個(gè)注意力模型。它另外的一個(gè)優(yōu)點(diǎn)是可以把整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)可視化出來(lái),來(lái)解釋詞、句子對(duì)目標(biāo)的貢獻(xiàn)的大小。
?
除此之外,另外一篇最新的論文所提出來(lái)的金字塔結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型,可以非常高效的對(duì)長(zhǎng)文本進(jìn)行表示學(xué)習(xí),最終達(dá)到一個(gè)非常好的分類效果或者標(biāo)簽提取效果。
?
除了分類和標(biāo)簽提取之外,信息抽取也可以用深度學(xué)習(xí)來(lái)實(shí)現(xiàn),達(dá)觀通常會(huì)把信息抽取問(wèn)題轉(zhuǎn)化成四種類型的分類問(wèn)題來(lái)實(shí)現(xiàn)的,這樣就可以充分利用前面所提到的各種網(wǎng)絡(luò)結(jié)構(gòu),比如層次注意力模型和金字塔結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。
?
對(duì)于像NER或者分詞這種任務(wù)來(lái)說(shuō),我們也會(huì)使用“深度學(xué)習(xí)+CRF”的方法來(lái)實(shí)現(xiàn),這張PPT里面講的就是使用“詞向量+LSTM+CRF”方法來(lái)實(shí)現(xiàn)NER。
像這張使用“詞向量+Bi-SLTM+CRF”通常情況下效果都是非常好的,但是對(duì)于某些特定場(chǎng)景下它還會(huì)有一些不足,比如非常專業(yè)的文獻(xiàn),像達(dá)觀跟冀東石油合作的一個(gè)項(xiàng)目,是對(duì)石油里面的專業(yè)技術(shù)文檔進(jìn)行處理,這種情況下會(huì)遇到非常低頻的詞匯,如何對(duì)這些低頻的詞匯進(jìn)行處理是我們需要考慮的一個(gè)問(wèn)題。
?
達(dá)觀數(shù)據(jù)采用了一個(gè)方法,是把低頻詞匯和專業(yè)領(lǐng)域的詞匯通過(guò)某種表示,和原始的詞向量一起拼接,作為LSTM和CRF的輸入,來(lái)實(shí)現(xiàn)對(duì)這些低頻詞匯問(wèn)題的解決。充分利用這些深度學(xué)習(xí)的模型和應(yīng)用實(shí)踐所總結(jié)出來(lái)的經(jīng)驗(yàn),我們可以非常高效的去處理像企業(yè)通常所遇到的合同、簡(jiǎn)歷、工單、新聞、用戶評(píng)論、產(chǎn)品說(shuō)明這些文檔。
?
四、推薦系統(tǒng)及其應(yīng)用實(shí)踐
?
推薦系統(tǒng)非常的火熱,像今日頭條和抖音這種通過(guò)算法推薦用戶所感興趣的東西,讓用戶不離開(kāi)APP,都是非常成功的案例。國(guó)內(nèi)類似于的趣頭條等比較小的企業(yè)或者APP也非常多,它們往往會(huì)選擇一家像達(dá)觀這樣的SaaS服務(wù)來(lái)實(shí)現(xiàn)它們的推薦系統(tǒng)。
推薦系統(tǒng)的基本過(guò)程是像這張PPT里面所講的一樣,通過(guò)對(duì)原始的數(shù)據(jù)進(jìn)行處理,使用到自然語(yǔ)言理解里面的分詞和NER技術(shù),使用文本的分類、主題模型、情感分析等,把這個(gè)分析結(jié)果放到搜索引擎,達(dá)觀使用的搜索引擎是Elasticsearch集群,在這些集群里面會(huì)實(shí)現(xiàn)一個(gè)初步的Ranking處理。
?
以搜索引擎為基礎(chǔ),我們使用各種推薦算法,像協(xié)同過(guò)濾和基于內(nèi)容的推薦算法,以及深度學(xué)習(xí)出來(lái)以后的神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾的方法,來(lái)對(duì)這種文檔進(jìn)行推薦。
不同的推薦算法會(huì)在同個(gè)場(chǎng)景下推薦出不同的內(nèi)容,在這個(gè)基礎(chǔ)上我們會(huì)使用一些融合算法,來(lái)把這些不同算法推薦的結(jié)果進(jìn)行融合。我們常用的推薦融合算法包括GBDT、SVD等。
?
在深度學(xué)習(xí)上也有一些算法,像DeepFM這種算法也可以用來(lái)做算法融合,做推薦內(nèi)容的融合。通過(guò)融合算法把不同推薦算法、推薦內(nèi)容給融合起來(lái)之后,還會(huì)根據(jù)APP所要求的業(yè)務(wù)規(guī)則和過(guò)濾規(guī)則,來(lái)對(duì)這些內(nèi)容進(jìn)行過(guò)濾,最終把這些過(guò)濾好的結(jié)果發(fā)送給用戶,這個(gè)是我們整個(gè)推薦系統(tǒng)的一個(gè)基本的過(guò)程。
?
對(duì)于推薦系統(tǒng)來(lái)說(shuō),底層的像協(xié)同過(guò)濾或者基于內(nèi)容推薦非常成熟的算法,在算法之上如何獲得更好的效果,我們會(huì)利用最前沿的深度學(xué)習(xí)推薦算法的技術(shù)。推薦系統(tǒng)的效果往往取決于算法的好壞。
?
除了傳統(tǒng)的像CF這種算法之外,我們也嘗試了非常多深度學(xué)習(xí)層面的算法,像Wide&Deep這個(gè)算法就是一個(gè)例子,Wide&Deep是我們嘗試的一種算法。
這張PPT講的是Wide&Deep網(wǎng)絡(luò)結(jié)構(gòu),左邊是一個(gè)Wide模型,Wide模型它一般常用LR,它非常高效,可以對(duì)非常大的維度的輸入進(jìn)行非常高效的學(xué)習(xí)。這些輸入一般是用戶點(diǎn)擊行為反饋數(shù)據(jù)。
?
Wide&Deep模型的Deep是右邊這個(gè)模型所展示的,它是個(gè)多層的神經(jīng)網(wǎng)絡(luò),多層神經(jīng)網(wǎng)絡(luò)可以對(duì)原始特征進(jìn)行學(xué)習(xí),學(xué)習(xí)出一些人工特征所無(wú)法抽象出來(lái)的一部分特征。通過(guò)聯(lián)合訓(xùn)練,將Wide模型的輸出和Deep神經(jīng)網(wǎng)絡(luò)的輸出結(jié)合起來(lái),獲得更好的效果。
?
在實(shí)踐中,Wide模型一般是用戶反饋這種,通過(guò)LR這種非常高效的方法,把用戶反饋實(shí)時(shí)的體現(xiàn)到推薦結(jié)果上。而Deep模型一般是用來(lái)訓(xùn)練像Item這種數(shù)據(jù),可以通過(guò)離線的方法,使用非常長(zhǎng)的時(shí)間,訓(xùn)練出一個(gè)更好的效果出來(lái)。Wide&Deep的優(yōu)勢(shì)是把實(shí)時(shí)反饋和對(duì)文章的深層理解結(jié)合起來(lái),從而獲得更好的效果。
?
在Wide&Deep之外,我們也嘗試了神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾,神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾是在協(xié)同過(guò)濾的基礎(chǔ)上、使用神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)更好的效果。
這是一個(gè)神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾的示意圖,左下角這個(gè)輸入是user層面的向量,而右下角這個(gè)輸入是Item層面的向量,將user向量和Item向量輸入到一個(gè)多層的神經(jīng)網(wǎng)絡(luò)上,可以通過(guò)大規(guī)模離線訓(xùn)練的方法,來(lái)獲得一個(gè)比較好的協(xié)同過(guò)濾的效果。
?
這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)和通常的網(wǎng)絡(luò)結(jié)構(gòu)非常相似的,一般情況下它是對(duì)user和Item通過(guò)embedding的方式,這個(gè)embedding就跟前面講的word2vec是一樣的,通過(guò)embedding把user和Item變成一個(gè)稠密編碼,然后輸入到一個(gè)多層的神經(jīng)網(wǎng)絡(luò)上。輸入就是user、Item之間的分?jǐn)?shù)值,這個(gè)網(wǎng)絡(luò)就是一個(gè)簡(jiǎn)單的回歸模型,通過(guò)非常多層的神經(jīng)網(wǎng)絡(luò)的非線形特性來(lái)實(shí)現(xiàn)比傳統(tǒng)簡(jiǎn)單CF的效果會(huì)好非常多。
?
知識(shí)圖譜是當(dāng)前非常熱門的一個(gè)方向。如何把知識(shí)圖譜和深度學(xué)習(xí)結(jié)合起來(lái)應(yīng)用到推薦系統(tǒng)里面,是我們?nèi)プ龅囊粋€(gè)嘗試。
?
這張圖可以簡(jiǎn)單的分成三個(gè)部分,左上角這部分是普通的注意力網(wǎng)絡(luò)結(jié)構(gòu),它通過(guò)將用戶所感興趣的Item跟普通的候選集的Item進(jìn)行學(xué)習(xí),學(xué)習(xí)出一個(gè)權(quán)值,這個(gè)權(quán)值可以用來(lái)表示用戶對(duì)這個(gè)新聞感興趣的程度。左下角這個(gè)網(wǎng)絡(luò)是是將item的內(nèi)容通過(guò)表示學(xué)習(xí)學(xué)習(xí)出item的向量表示。右邊大圖是將左邊這兩個(gè)圖學(xué)習(xí)出來(lái)的結(jié)果,用類似于前面提到的神經(jīng)網(wǎng)絡(luò)協(xié)同過(guò)濾的方式把它給組合起來(lái),形成了推薦系統(tǒng)里對(duì)用戶推薦內(nèi)容候選級(jí)的學(xué)習(xí)過(guò)程。通過(guò)這種方法,在某種場(chǎng)景下我們可以得到更好的效果。
?
綜合前面這些推薦算法形成的推薦系統(tǒng),可以非常有效的去做好個(gè)性化推薦、相關(guān)推薦和熱門推薦等各種內(nèi)容,它可以廣泛應(yīng)用在像資訊推薦,也可以應(yīng)用到簡(jiǎn)歷推薦上。比如可以在HR發(fā)布一個(gè)JD的時(shí)候,給HR推薦滿足這些JD要求的簡(jiǎn)歷。對(duì)其他場(chǎng)景也可以使用推薦算法來(lái)實(shí)現(xiàn),對(duì)于一個(gè)案件,可以推薦這個(gè)案件相關(guān)的其他案件,或者適用于這個(gè)案件的一些法律條文。商品推薦則是更常見(jiàn)的內(nèi)容,它其實(shí)也是推薦系統(tǒng)最初使用的一個(gè)應(yīng)用場(chǎng)景。
?
再簡(jiǎn)單的推銷一下達(dá)觀的推薦系統(tǒng),它會(huì)結(jié)合前面提到的各種深度學(xué)習(xí)、自然語(yǔ)言理解和各種各樣的算法,來(lái)實(shí)現(xiàn)一個(gè)非常好的推薦效果。除此之外,我們也有非常多行業(yè)應(yīng)用經(jīng)驗(yàn),比如招商銀行的掌上生活的個(gè)性化推薦,使用的就是達(dá)觀給它們做的私有化部署推薦系統(tǒng)。像澎湃新聞APP,它們的新聞推薦系統(tǒng)是用我們的SaaS服務(wù)來(lái)實(shí)現(xiàn)的。
?
五、文檔智能處理及其應(yīng)用實(shí)踐
我們?cè)谧匀徽Z(yǔ)言理解環(huán)節(jié)提到,文檔的種類是非常豐富的,企業(yè)面臨的文檔也是非常多的,應(yīng)用場(chǎng)景也是各種各樣。比如對(duì)財(cái)務(wù)報(bào)表來(lái)說(shuō),需要的是信息抽取,如何把財(cái)務(wù)報(bào)表變成一個(gè)結(jié)構(gòu)化的數(shù)據(jù)。而對(duì)于合同來(lái)說(shuō)它包括兩方面的內(nèi)容,一方面是寫合同的時(shí)候是否寫得符合合同法和企業(yè)內(nèi)部的法務(wù)規(guī)定;另一方面則是針對(duì)審核合同的人,是否放過(guò)了一個(gè)不符合合同規(guī)定的條款,或者,如何去防止合同里面陰陽(yáng)合同的情況出現(xiàn)。
?
其他還包括文檔的智能搜索,如何去搜一大篇幾百頁(yè)文章里的某些文字,然后把對(duì)應(yīng)的字段給顯示出來(lái)。應(yīng)用場(chǎng)景包括,員工剛?cè)肼氁患夜?,需要一個(gè)公司手冊(cè)一樣的內(nèi)容,想理解報(bào)銷或者請(qǐng)假是怎么去走流程的時(shí)候,就要去搜這個(gè)文檔。如何做到不需要展示給員工整個(gè)文檔,而是直接給到員工對(duì)應(yīng)的章節(jié),對(duì)于企業(yè)則是一個(gè)能夠確實(shí)提高員工工作效率的問(wèn)題。這些問(wèn)題都是達(dá)觀所擅長(zhǎng)解決的。
?
除了讀、搜、審之外,還有一個(gè)場(chǎng)景是更好的利用深度學(xué)習(xí)和自然語(yǔ)言理解來(lái)幫助寫文檔的人更好更快的寫作,比如輔助去寫新聞、報(bào)告等。
?
下面,我以場(chǎng)景來(lái)做技術(shù)層面的解析,比如文本分類.前面提到了非常多深度學(xué)習(xí)的分類器,還包括一些傳統(tǒng)學(xué)習(xí)的分類器,都可以用來(lái)做文本分類。傳統(tǒng)學(xué)習(xí)的優(yōu)勢(shì)是在語(yǔ)料比較少的時(shí)候,比如JD就是職位描述,這種場(chǎng)景下一般企業(yè)的職位描述就是幾百個(gè)或者幾千個(gè),從深度學(xué)習(xí)的方法去實(shí)現(xiàn),可能效果并不是特別好,這種情況下我們會(huì)選擇像傳統(tǒng)的方法,決策數(shù)或者SVM來(lái)實(shí)現(xiàn)對(duì)JD的分類。而對(duì)于簡(jiǎn)歷,簡(jiǎn)歷的規(guī)模往往是JD的100倍以上,這種情況下我們就可以用前面提到的層次注意力模型和金字塔結(jié)構(gòu)的CNN來(lái)實(shí)現(xiàn)對(duì)簡(jiǎn)歷的分類。
?
除了分類之外,像信息抽取通常使用的是CRF,CRF可以達(dá)到一個(gè)比較好的效果,它的標(biāo)注語(yǔ)料要求可能比較低,幾百到一兩千份就能夠?qū)崿F(xiàn)比較好的效果。當(dāng)企業(yè)有更多語(yǔ)料的時(shí)候,我們就可以使用深度學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)。前面已經(jīng)提到過(guò),我們可以把信息抽取轉(zhuǎn)化成分類問(wèn)題來(lái)實(shí)現(xiàn),前面提到的各種分類算法,像金字塔結(jié)構(gòu)的CNN和層疊注意力模型都可以用來(lái)做分類。
?
除此之外,我們?cè)谕扑]系統(tǒng)環(huán)節(jié)所提到的像Wide&Deep這種算法,結(jié)合LR和深度網(wǎng)絡(luò)的方法,也可以用來(lái)做這個(gè)信息抽取的事情。
?
這個(gè)方式說(shuō)起來(lái)也比較簡(jiǎn)單,可以把CRF當(dāng)作Wide模型,然后用深度網(wǎng)絡(luò)Deep模型,用聯(lián)合訓(xùn)練方法把它們結(jié)合起來(lái),這樣可以實(shí)現(xiàn)類似于遷移學(xué)習(xí)的效果,就是我們可以預(yù)先訓(xùn)練好一個(gè)深度網(wǎng)絡(luò),然后把深度網(wǎng)絡(luò)給固化起來(lái)。在面對(duì)企業(yè)沒(méi)有大量GPU的時(shí)候,我們只要重新去訓(xùn)練這個(gè)Wide,Wide模型可以使用比較簡(jiǎn)單的像CRFPP等工具來(lái)實(shí)現(xiàn)。這種方法可以很好的均衡資源的使用和效果。
?
除了企業(yè)對(duì)文檔抽取有要求之外,其實(shí)文檔的智能比對(duì)也是一個(gè)非常重要的應(yīng)用場(chǎng)景,這種比對(duì)是在文檔的信息抽取之上構(gòu)建的。在信息抽取之上,我們通常使用規(guī)則來(lái)實(shí)現(xiàn)比對(duì)這個(gè)功能,只要信息抽取的效果足夠好,比對(duì)效果一般都不會(huì)太差。
?
這是我們實(shí)際的一些應(yīng)用場(chǎng)景,它通過(guò)信息抽取技術(shù)把關(guān)鍵信息給抽取出來(lái),然后使用各種業(yè)務(wù)規(guī)則對(duì)合同進(jìn)行智能審閱。這種簡(jiǎn)單的方法就可以達(dá)到非常高的效果,可以替企業(yè)節(jié)省大量的法務(wù)人員。單個(gè)文檔的審閱時(shí)間節(jié)省得非常多,同時(shí)可以讓企業(yè)節(jié)省200個(gè)法務(wù)的人力。人工智能和文本智能審閱的使用,可以給企業(yè)帶來(lái)非常大的收益,同時(shí)可以讓這200個(gè)人做更有意義的工作。這個(gè)是合同審閱的效果圖。
?
六、總結(jié)
?
這是達(dá)觀使用的架構(gòu)圖,我們可以把輸入通過(guò)各種特征工程,使用傳統(tǒng)的方法來(lái)做機(jī)器學(xué)習(xí),也可以通過(guò)Embedding的方式使用各種深度網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),最終會(huì)使用一些融合算法,來(lái)把不同模型的結(jié)果輸出做算法融合,最后做些后處理,比如各種業(yè)務(wù)規(guī)則、各種過(guò)濾條件、各種在國(guó)內(nèi)特殊國(guó)情所不能出現(xiàn)的內(nèi)容都要過(guò)濾掉,得到一個(gè)結(jié)果出來(lái)。
?
并不僅僅是深度學(xué)習(xí)效果好就使用它,我們會(huì)根據(jù)具體的應(yīng)用場(chǎng)景來(lái)選擇。如當(dāng)數(shù)據(jù)規(guī)模小的時(shí)候就無(wú)法使用深度學(xué)習(xí)來(lái)做,當(dāng)資源要求比較高的情況下,我們也不會(huì)選擇深度學(xué)習(xí)。
這是我們公司的獲獎(jiǎng)情況,若干年后很多基礎(chǔ)文字處理工作都會(huì)被計(jì)算機(jī)替代,更多文員職位的人可以做更有意義的事情,我們未來(lái)會(huì)成為文本自動(dòng)化處理方面的領(lǐng)軍企業(yè)。