解析深度學(xué)習(xí)在NLP中的發(fā)展和應(yīng)用

分類：技術(shù)分享
發(fā)表：2018-08-16

近年來，深度學(xué)習(xí)方法極大的推動了自然語言處理領(lǐng)域的發(fā)展。幾乎在所有的 NLP 任務(wù)上我們都能看到深度學(xué)習(xí)技術(shù)的應(yīng)用，并且在很多的任務(wù)上，深度學(xué)習(xí)方法的表現(xiàn)大大超過了傳統(tǒng)方法?？梢哉f，深度學(xué)習(xí)方法給 NLP 帶來了一場重要的變革。

我們近期邀請到了微信模式識別中心的高級研究員張金超博士，他畢業(yè)于中國科學(xué)院計算技術(shù)研究所，研究方向是自然語言處理、深度學(xué)習(xí)，以及對話系統(tǒng)。在本次公開課上，他全面而具體地講述了深度學(xué)習(xí)在 NLP 中的發(fā)展和應(yīng)用，內(nèi)容主要分為以下四大篇章：

自然語言處理的基本概念和任務(wù)；

深度學(xué)習(xí)方法如何解決 NLP；

對話和機器翻譯當(dāng)中的深度學(xué)習(xí)模型和一些云端應(yīng)用，以及使用實例；

對 NLP 感興趣的開發(fā)者提供一些技能進階的建議。

以下為公開課內(nèi)容實錄，人工智能頭條整理（有刪改）：

一、自然語言處理的基本概念和任務(wù)

1.基本概念

首先講一下自然語言處理的基本概念和任務(wù)，這一塊講解的目的是讓大家對自然語言處理這個領(lǐng)域有一個框圖的認(rèn)識，要知道自然語言處理的目標(biāo)是什么，任務(wù)是什么，主要的方法大概有哪些。

Natural Language Processing，縮寫是 NLP，主要是指我們借助于計算技術(shù)，來對人類的自然語言進行分析、理解，還有生成的一個過程。現(xiàn)在大家比較常見的兩個具體應(yīng)用的場景，一個就是對話機器人（Chatbot），比如 AI 音箱，大家可以跟它做一些對話交流。還有機器翻譯，大家可能平時會用一些提供翻譯功能的網(wǎng)站，這兩個是自然語言處理比較經(jīng)典的任務(wù)。

自然語言處理是語言學(xué)和計算機科學(xué)的交叉學(xué)科，語言學(xué)方面主要涉及到詞法、句法、語用、語義等等，語言學(xué)家他們會語言學(xué)理論去研究。計算機科學(xué)方面會涉及到統(tǒng)計理論、機器學(xué)習(xí)、優(yōu)化方法以及數(shù)據(jù)可視化、深度學(xué)習(xí)等，它們兩個交叉起來叫做計算語言學(xué)，即以計算的方法來處理語言。

關(guān)于自然語言處理任務(wù)的重要性大家可以想一下，一方面語言是人類長期進化來的能力，是人類自然的一種交互方式，所以假如機器能夠非常準(zhǔn)確、全面地理解我們的語義，那么人機交互的方式會發(fā)生一個非常革命性的變化。但現(xiàn)在自然語言處理能力還沒有到那種程度，我們還需要各種輸入、輸出設(shè)備。另一方面，人類的知識大規(guī)模的存儲形式是文本，包括大量的書籍，可以把它電子化成數(shù)字化的文本，針對這些海量的文本做分析處理，從而得到有價值的信息，這也需要強大的自然語言處理能力的支撐。

2.自然語言處理任務(wù)

自然語言處理任務(wù)大概有哪些？我個人做了一個總結(jié)，基本可以劃分為五層：詞法分析、句子分析、語義層面的分析、信息抽取，頂層任務(wù)。頂層任務(wù)直接面向用戶，提供如機器翻譯、對話機器人這樣的產(chǎn)品化服務(wù)。

首先是詞法分析層。第一個是分詞任務(wù)，英文的文本是由空格分隔開的單詞序列，但中文詞和詞之間沒有清楚的分隔符。對于“長江是中華民族的母親河”這個句子，我們來做自然語言處理分析，最小的語義單元就是字，字的歧義性非常高。如果我們對它做切分的話，那么“長江”、“中華民族”，還有“母親”、“河”這種完全可以切出來，句子的基本語義單元就變成了詞，這就是分詞任務(wù)的目的。

第二個任務(wù)是新詞發(fā)現(xiàn)，該任務(wù)希望發(fā)掘文本中的一些新詞，比如說“活久見“、”十動然拒“、”十動然揍”這種網(wǎng)絡(luò)熱詞。第三個任務(wù)是形態(tài)分析，形態(tài)分析主要針對形態(tài)豐富的語言。給定一個詞，把里面的詞干、詞綴、詞根等拆分出來，然后做一些形態(tài)還原、形態(tài)切分任務(wù)，給上面的任務(wù)提供一個更好的輸入。

第四個任務(wù)是詞性標(biāo)注。詞有動詞、名詞之類詞性，詞性標(biāo)注任務(wù)就是把每一個詞的詞性給標(biāo)出來。另外還有拼寫校正任務(wù)，應(yīng)用場景就是我們在用文本編輯器的時候，打錯了字會被標(biāo)紅，編輯器還能提供自動糾錯的功能。

第二個層面的任務(wù)是句子分析（Sentence Analysis）。包括句法分析任務(wù)。句法分析包括淺層的句法分析和深層的句法分析，比如像組塊分析就是給定一個句子，然后來標(biāo)出里面一些名詞短語或者動詞短語的塊。我們直接來看下面的句法樹，我們怎么來看組塊呢？比如前面這個 “My dog” 是 NP，NP 是指一個名詞短語，S1，VP1 是一個動詞短語，組塊分析的目的不是想把這棵樹分析出來，而是想把這個 NP 和 VP 作為一個 Chunk（組塊）給標(biāo)注出來。

第二個任務(wù)是超級標(biāo)簽標(biāo)注（Super Tagging），這個任務(wù)并不想得到最后句法樹的結(jié)構(gòu)，只想得到跟我這個詞當(dāng)前相關(guān)的樹的結(jié)構(gòu)。比如說我想得到 My 的這個 Super Tagg，從 ROOT 到 My 的這一條樹的路徑是必須保存的，其他上面的一些終結(jié)符的結(jié)點會被去掉。

成分句法分析任務(wù)的目標(biāo)是畫這棵樹，把句子的結(jié)構(gòu)分析出來。從一個根的結(jié)點出發(fā)，下面會有 NP、VP，最后到一個終結(jié)符上去。

依存句法分析任務(wù)是來分析句子里詞和詞之間的依存（修飾）關(guān)系，由這些修飾關(guān)系來構(gòu)成一棵依存的句法樹。

語言模型任務(wù)，是訓(xùn)練一個模型來對語句合理的程度（流暢度）進行一個打分。

語種識別任務(wù)，是給定一段文本，識別出這段文本是用哪一個語言書寫的，這可以被用到機器翻譯任務(wù)中。

第三個任務(wù)是句子邊界檢測，我們知道中文句子邊界是非常明顯的，會由句號、嘆號或者問號等做分隔，但是對一些語言來說，句子之間是沒有明顯邊界的，所以做句子層面的分析之前，首先要對它進行句子邊界的檢測，比如泰語。

再往上就是語義分析（Semantic Analysis）層。語言學(xué)家想用一些結(jié)構(gòu)化的符號來表達語義，但是現(xiàn)在的深度學(xué)習(xí)，大量的語義其實是分布式的表示，也就是一系列數(shù)值，具體哪一種形式會真正地表達語義還沒有定論。

語義分析層中，第一個任務(wù)是詞義消歧，一個詞它可能會有歧義，該任務(wù)是來確定它準(zhǔn)確的詞義。

第二個任務(wù)是語義角色標(biāo)注，是一種淺層的語義分析。該任務(wù)要標(biāo)出句子里面語義決策動作的發(fā)起者，受到動作影響的人等等。比如 “A 打了 B”，那么 A 就是一個施事， B 就是一個受事，中間就是一個打的動作。

第三個任務(wù)是抽象語義表示（Abstract Semantic Parsing），它是近幾年提出的一種抽象語義的表示形式，縮寫是 AMR。下面這個一階謂詞邏輯演算和框架語義分析基本上是語言學(xué)家一直想把語義做一個符號化推理系統(tǒng)的表達。

近期在應(yīng)用里面用的比較多的語義表現(xiàn)形式就是詞匯、句子、段落的向量化表示，即Word/Sentence/Paragraph Vector，包括研究向量化的方法和向量性質(zhì)以及應(yīng)用。

這是 AMR 的一個例子，這里面有三個句子，三個句子表達的語義是一樣的?！柏埾氤贼~”這個語義，有三個不同的句子，但是在 AMR 這個概念里，對應(yīng)的是一個相同的 AMR 圖。 AMR 分析的時候，會把一些無關(guān)緊要的詞去掉，比如 the 或 to。

再高一個層面的任務(wù)就是信息抽?。↖nformation Extraction）。比如我們給定最下面的這一段新聞，想從里面抽一些關(guān)鍵的信息出來，即從無結(jié)構(gòu)的文本當(dāng)中抽取出結(jié)構(gòu)化的信息，這是廣義的信息抽取概念，可以先做命名實體識別，從這一段文字里識別出人名、地名、機構(gòu)名，因為這些東西相比于其他的連詞等標(biāo)點符號具有更多的意義。

第二個任務(wù)是實體消歧，該任務(wù)是把句子中出現(xiàn)的名詞準(zhǔn)確關(guān)聯(lián)到現(xiàn)實當(dāng)中的一個對象。

第三個任務(wù)是術(shù)語抽取，是從文本當(dāng)中抽取特定的術(shù)語。

第四個任務(wù)是共指消解。句子里面會出現(xiàn)代詞或者多種名詞表達同一個對象的現(xiàn)象。比如代詞的消解是找出“他、她、它”中的某一個到底指代的是哪個事物。名詞消解也是同樣的道理。

關(guān)系抽取任務(wù)是確定文本當(dāng)中兩個實體之間的關(guān)系，比如說誰生了誰，兩個實體一個是生一個是被生。

事件抽取任務(wù)是一個更復(fù)雜的過程，要抽取出時間、地點、人物、發(fā)生的事件等等，這是更結(jié)構(gòu)化的信息抽取。

這里，我把情感分析和對話系統(tǒng)用到的意圖識別和槽位填充也歸結(jié)到這個部分里了。舉個情感分析這個應(yīng)用場景的例子，比如我們?nèi)ベ徫锞W(wǎng)站買東西，買完了以后會給它做評價，那么用戶的這個評價到底是正面的還是負面的情緒？我們需要對這個評價分析出情感傾向。

意圖識別是對話系統(tǒng)當(dāng)中一個比較重要的模塊，是要分析用戶跟對話機器人說話的時候這句話的目的是什么，比如說播放音樂，那么意圖就是音樂。

槽位填充是和意圖識別搭配起來使用的，意圖識別出來了，但是意圖要有具體的信息，比如你的意圖是讓機器人幫你去定明天早上從北京到上海飛的一張機票，意圖識別出來是定機票，那么要抽取一些信息的槽位，比如時間是“明天早上”，出發(fā)點是“北京”，目的地是“上?！?，這樣才能配合起來做后面的一些程序性的工作。

再往上就是頂層任務(wù)了，這些任務(wù)面向用戶提供自然語言處理產(chǎn)品。一般這些任務(wù)會用到之前我們說的很多自然語言處理技術(shù)，目的是搭建一個綜合性的系統(tǒng)。

第一個就是機器翻譯任務(wù)，是要實現(xiàn)文本的自動翻譯。

文本摘要是給定大段的文字，把里面的梗概提取出來，把它縮短，使得更方便閱讀或者更方便提取關(guān)鍵的信息。

問答任務(wù)是問系統(tǒng)一個問題，它能給你一個準(zhǔn)確的答案。比如，你問“周杰倫的母親叫什么名字”，這個系統(tǒng)需要反饋給你一個非常準(zhǔn)確的答案。

對話系統(tǒng)就是你和機器進行交互，它給你相應(yīng)的反饋，執(zhí)行相應(yīng)的指令。閱讀理解是給定機器一整篇文章，然后對它提一些與文章相關(guān)的問題，它能夠給你答案，很像我們考英語閱讀理解。

還有一個任務(wù)就是自動文章分級，給定一篇文章，對文章的質(zhì)量進行打分或者做一個分級的操作。

3.自然語言處理任務(wù)的難點

自然語言處理任務(wù)為什么難？我個人認(rèn)為主要在于：歧義問題、知識問題、離散符號計算問題，還有語義本質(zhì)的問題。

先說歧義問題，有些話的表達可能會有歧義或者模棱兩可。我們上面舉了幾個詞匯層面歧義的例子，比如上面這三個句子是詞或者字層面的歧義，“我們研究所/有東西”，這里的研究所是一個名詞，“我們研究/所有東西”，這里的“研究”就變成一個動詞。再往下就是一詞多義的問題，第一個句子是“山上的杜鵑開了”，第二個是“樹上有一只杜鵑在叫”，同樣是杜鵑，前面說的是一種花，后面是一種鳥，這也會造成歧義。

還有詞性兼類問題，一個詞在不同的上下文環(huán)境當(dāng)中體現(xiàn)的詞性也會不同，比如說第一個句子“向雷鋒同志學(xué)習(xí)”，這個學(xué)習(xí)是一個動詞。第二個是“他非常勤奮，學(xué)習(xí)很好”，這個學(xué)習(xí)是一個名詞，所以也會出現(xiàn)這種詞性兼類的歧義。

再一個就是結(jié)構(gòu)性的歧義，分很多種，看一個比較簡單的應(yīng)用的例子，I shot an elephant in my pajamas，如果我們把后面這個 elephant in my pajamas 看成一個 NP 的話，這個是說“我擊中了睡衣里面的一頭大象”，這在語義上是不對的。如果 in 后面的這個介詞短語來修飾這個 an 的話，它翻譯出來就是“我穿著我的睡衣?lián)糁辛艘活^大象”，這才是合理的。

第二個是知識問題，是指知識稀疏或者詞匯稀疏，詞匯稀疏導(dǎo)致了搭配稀疏，然后導(dǎo)致了語義稀疏，它有一個遞進關(guān)系。一個比較出名的定律叫齊夫定律（Zipf Law），這個定律是說在自然語言語料當(dāng)中，一個單詞出現(xiàn)的頻率和它在頻率表當(dāng)中的排名基本成一個反比關(guān)系。例如，對英語的 Brown 數(shù)據(jù)集里的語料進行統(tǒng)計，“the、of、and”是前三高的詞頻。

以 Zipf 的角度來看，它認(rèn)為排位和詞頻實際上是可以用一個反比關(guān)系來對它進行建模。那么這個語料也很好地反應(yīng)了基本上這個“the”大概在 7 萬左右，“of”大概在 36000 左右，那就變成了 c 和 c/2 這么一個倍數(shù)的關(guān)系?！癮nd”和“the”構(gòu)成了 c/3，這是一個 1/3 的關(guān)系，這是一個 Zipf 的現(xiàn)象，這個現(xiàn)象會引起詞頻下降非?？?，會導(dǎo)致一個長尾現(xiàn)象。即有很多詞出現(xiàn)的次數(shù)很少，但是數(shù)量又很大，當(dāng)它們?nèi)考悠饋淼脑挘植荒馨阉鼈兒雎缘簟?/p>

再一個問題是知識依賴，這是說對語言精確的理解和生成，有很多時候是需要背景知識支持的，比如“蘋果”到底是一個水果還是一個手機，就需要有一些知識來支持，不能根據(jù)一句話就完全能把它理解掉。

知識稀疏的問題，從機器學(xué)習(xí)的角度來看的話，相當(dāng)于給了一個模型非常不均勻的數(shù)據(jù)分布，那對模型來說它的學(xué)習(xí)難度就會變大。

第三個是離散符號計算的問題。我們看到的文本其實都是一些符號，對計算機來說，它看的其實也是一些離散的符號，但我們知道計算機其實最擅長的是數(shù)值型的運算，而不是符號的推理，并且符號之間的邏輯推理會非常復(fù)雜?，F(xiàn)在在統(tǒng)計機器學(xué)習(xí)模型里面做的是用 one-hot，就是用一個非常稀疏的向量來表示這個詞的形式，把它作為特征輸?shù)胶竺娴哪Ｐ屠锶?，但這面臨一個高維的問題。另一個是符號和符號之間都是正交的，那么就很難建立起符號之間的相關(guān)關(guān)系，這是深度學(xué)習(xí)方法能夠部分解決一下這個問題。

第四個就是語義問題，到底什么是語義？什么是語義？語言里面到底是什么東西？符號背后真正的語義怎么來表示？語言學(xué)家他走的路子就是我構(gòu)建好多形式化的、結(jié)構(gòu)化的圖之類的，這種結(jié)構(gòu)去做語義或者是一些符號推導(dǎo)系統(tǒng)，認(rèn)為它可以接近語義本質(zhì)。但是，這些其實走得越遠離計算機就越遠，因為它越符號，語義的可解釋性就會很差。拿數(shù)字來表示語義，我們也不知道這個數(shù)字到底是什么東西。所以目前為止現(xiàn)在研究領(lǐng)域?qū)@個問題解決得比較差。

假如語義問題真的解決了，那所有的自然語言處理任務(wù)都不是問題，但目前來說，我們現(xiàn)階段做的事情實際上僅僅是需要在做每一個子問題的時候，把這個子問題用各種各樣的方法把它做好就行了，語義真的是比較難解決的問題。

目前來說幾乎所有的自然語言處理方法都是基于數(shù)據(jù)驅(qū)動，也就是統(tǒng)計機器學(xué)習(xí)的模型，那么數(shù)據(jù)質(zhì)量加上模型的能力就決定了最后的任務(wù)表現(xiàn)，而并非機器真的能全面理解人類語言當(dāng)中的語義，比如市面上的對話機器人很大的程度上要歸于數(shù)據(jù)或者一些規(guī)則，而不是機器真的能像人類一樣地去思考、推理，然后給你一個非常人格化的回復(fù)，現(xiàn)階段人工智能還沒有達到那種要求。

4.小結(jié)

我們大概講了自然語言處理任務(wù)的基本概念，還有一些目前自然語言處理主要在解決的任務(wù)。一般來說一個做 NLP 的人，他可能以他的能力做到里面的一個或者幾個任務(wù)。自然語言處理是一個交叉學(xué)科，它會使用語言學(xué)的理論，但是不會說去研究語言學(xué)，也會去用一些統(tǒng)計機器學(xué)習(xí)或者算法模型方面的東西，但目的又不是去徹底研究透算法層面的東西，而是說只是追求可用。當(dāng)然現(xiàn)在的趨勢是很多做自然語言處理的人都在深入地研究算法模型，但歸根到底我們想解決自然語言處理的問題其實是怎么對這個問題進行建模然后解決好。

二、深度學(xué)習(xí)方法解決NLP任務(wù)

1.自然語言處理方法的演化

下面講一下深度學(xué)習(xí)方法和之前的方法，還有一些深度學(xué)習(xí)方法解決基本任務(wù)的介紹。

自然語言處理方法的演化大概可以這么來劃分，一個是叫理性主義，一個叫經(jīng)驗主義。

理性主義很好理解，就是寫規(guī)則，來處理這個問題。經(jīng)驗主義就是加數(shù)據(jù)，加算法模型的方式來解決問題。理性主義基本上是語言學(xué)家來主導(dǎo)，就是研究語言，寫語言學(xué)的知識，然后用這些語言學(xué)知識的規(guī)則來處理自然語言處理的任務(wù)。

這個方法的好處就是可解釋性特別好，它明確知道這個輸出的結(jié)果是由哪條規(guī)則產(chǎn)生的作用，但問題是規(guī)則越寫越多的時候，很容易前后起沖突，寫規(guī)則的成本也非常高，其實對自然語言處理的理解，處理方法的演化方面會比較慢。

經(jīng)驗主義方法就是所有的知識都在數(shù)據(jù)里面，從數(shù)據(jù)里面學(xué)東西，不關(guān)心里面的語法規(guī)則是什么，這個研究階段就由計算機科學(xué)家主導(dǎo)，主要的方法就是基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)模型加少量的語言學(xué)知識。

經(jīng)驗主義里我們給它又劃分成了兩個階段，一個是統(tǒng)計機器學(xué)習(xí)方法的階段，它的一個特點是基于符號特征的計算，就是抽一些符號化的特征，然后交給機器學(xué)習(xí)模型來做。第二個特點是它一般是用傳統(tǒng)的針對非 DL 的一些方法，比如 LR、SVM 之類。

到了近幾年，NLP 主要是用深度學(xué)習(xí)方法，它的第一個特點就是分布式表示特征，也就是拿一串?dāng)?shù)字來表示一些語義作為特征，交到后面的分類器來做。第二個特點是以各種神經(jīng)網(wǎng)絡(luò)為核心模型，而不再是以前的這種 SVM 等其他的分類器之類的東西，這是深度學(xué)習(xí)方法兩大比較突出的特征。

我們來看理性主義模型下自然語言處理的一個視角，這是研究機器翻譯的一位德國教授提出的機器翻譯金字塔模型，當(dāng)然后面到統(tǒng)計的時代大家也借用這個模型來表達機器翻譯的過程。

從這個視角看語言，要先做形態(tài)分析，然后再做句法分析、語義分析，再往上是中間語言最高的形式，然后往右邊去轉(zhuǎn)換，這是一個機器翻譯的過程。給一個源語言的句子，轉(zhuǎn)換成目標(biāo)語言的句子，那么它認(rèn)為從上到下是一個遞進的，從左到右是一個層層轉(zhuǎn)化的過程，所以它在處理某一任務(wù)的時候也是基于語言學(xué)結(jié)構(gòu)來處理，這是理性主義模型下一個非常經(jīng)典的看法。

到經(jīng)驗主義模型基本上是這樣的，其實就是一個機器學(xué)習(xí)的過程，就是先構(gòu)建語料，做標(biāo)注，再設(shè)計特征，做特征提取，然后交給機器學(xué)習(xí)算法，訓(xùn)練好模型做輸出。我們說前面的階段一個核心問題是語言學(xué)知識表達的問題，后面經(jīng)驗主義模型下一個核心的問題實際上是對這個任務(wù)的建模和機器學(xué)習(xí)算法的求解。

2.自然語言處理常用的問題模型

首先我們在這里區(qū)分兩個概念，一個叫問題模型，一個叫算法模型。問題模型就是把這個任務(wù)怎么把它形式化出來，是一個建模的過程。算法模型是說怎么來拿某個算法去解決這個問題建模的形式，就是給你一個事情，你把它分解開來，然后看看它到底能套哪個模型，后面就是對這個模型的求解問題。

NLP 當(dāng)中常用的問題模型包括分類模型、序列標(biāo)注模型和序列生成模型。

分類模型是一個比較狹義的分類概念。實際上序列標(biāo)注模型和序列生成模型也可以理解成一個廣義分類的問題。分類是指像文本分類或者給句子做情感分析之類的狹義模型。

第一個分類問題就是給你一段文本做類別的標(biāo)注，比如你對它進行文本分類，給你一個新聞，它到底是一個政治、體育、財經(jīng)或者其他類別的新聞。意圖識別，就是前面說到的和一個對話機器人聊天的時候你給它一句話，然后這個機器人它能識別出來你的意圖是要干嘛。情感分類的話就是前面說的你買的東西，你對它做一個評價，這是正向的還是負向的，實際上都可以抽象成問題模型里面的一個分類模型。

分類模型傳統(tǒng)的一個解決方法就是標(biāo)帶標(biāo)注的語料，再特征提取，然后訓(xùn)分類器進行分類。這個分類器就會用邏輯回歸、貝葉斯、支持向量機、決策樹等等。

第二個是序列標(biāo)注模型。序列標(biāo)注我們拿分詞這個事情來做一個比較好的舉例，實際上數(shù)學(xué)建模是這樣，你有 N 個 X，它構(gòu)成一個序列，你可以認(rèn)為它是 N 個字，這個句子里面有 N 個字，給每個字加上一個標(biāo)簽，它生成 N 個序列的標(biāo)簽，那么分詞這個問題就抽象成字的序列標(biāo)注的模型。

比如說“長江”它應(yīng)該是構(gòu)成一個詞的，那么就給它分成分類的侯選標(biāo)簽，就是 begin、middle、end 或者 single?！伴L江”應(yīng)該在 begin 的位置，“江”應(yīng)該在 end 的位置，如果它標(biāo)成 b 了，它標(biāo)成 e 了，很明顯是它們兩個字要構(gòu)成一個詞了。假如這個模型是標(biāo)注成了 s，那就是 single，它就是自己一個詞?！爸腥A民族”這個就是 begin，middle，middle，end，那這四個合起來就是“中華民族”這一個詞。

那么整個分詞的過程，就是從上面這一行藍色到下面這個詞的藍色，那就是一個序列標(biāo)注，你只要對每個字分類分正確了，那分詞的結(jié)果就是對的。

這是一個序列標(biāo)注的模型，分詞是一個非常經(jīng)典的任務(wù)。詞性標(biāo)注、命名實體識別，甚至現(xiàn)在大家做句法分析或者語義角色標(biāo)注，也開始使用序列標(biāo)注模型來做了。傳統(tǒng)做序列標(biāo)注模型的一些方法，包括隱馬爾科夫、最大熵、條件隨機場、平均感知機等等，是用來求解序列標(biāo)注的問題的。這兩個層面上的模型我們要分開。

第三個是序列生成模型。所謂的序列生成模型就是如何生成一段文本，逐詞地來生成，使得生成的這個文本是合理的。怎么來評價它的合理性？如果是單語生成的話，那么可以使用語言模型，保證流暢度、合理性越高越好。

如果是一個雙語生成的任務(wù)，像機器翻譯任務(wù)，你就要約束它跟原來的語義接近的情況下，生成的序列更合理。在深度學(xué)習(xí)方法出來之前，其實沒有太好的方法來建模序列生成問題，一個就是這個語言模型來做單語生成，再一個就是用統(tǒng)計機器翻譯模型來做雙語生成。生成的過程當(dāng)中要用一個束解碼的方式來約束搜索空間。

3.統(tǒng)計機器學(xué)習(xí)算法模型的不足

我們前面講的是一些統(tǒng)計的學(xué)習(xí)算法，比如 SVM、LR 之類，這些算法有什么不足呢？一個就是前面需要設(shè)計一些復(fù)雜的特征，這些特征是要人工地去設(shè)一個特征模板，用這些特征模板去匹配句子里面的一些特征，把它抽出來，作為一個離散化的特征來輸入到模型里面去，這一塊是非常復(fù)雜的。

第二個是這個算法模型對序列建模的能力很差，這個特征在詞方面都是非常稀疏的，在對句子抽特征的時候就更稀疏了。比如整個語料當(dāng)中有 1 萬個不同的詞，那么這個句子里非常有可能出現(xiàn)了一個詞會只在幾個句子里出現(xiàn)過，所以它的特征會非常稀疏。第三個就是前面抽特征是一步，訓(xùn)練模型是一步，這個其實中間會有錯誤的誤差，甚至有一些復(fù)雜的任務(wù)，它要去進行多步的操作，這會產(chǎn)生一個非常嚴(yán)重的錯誤傳播問題。后面我們也會用具體的模型來解釋這個錯誤傳播的問題。

我們看一下深度學(xué)習(xí)，它可以來解決前面說的分類問題、序列標(biāo)注問題、序列生成問題用到的一些基本組件，現(xiàn)在主要應(yīng)用到的比如前向神經(jīng)網(wǎng)絡(luò)，就是一個最簡單的全鏈接網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)，包括純的 RNN，加門控的 RNN，還有 LSTM。還有就是卷積神經(jīng)網(wǎng)絡(luò)，這個在圖象方面用的比較多，NLP 里面也會用。再一個就是注意力機制，這些是一些深度學(xué)習(xí)的基本組件，大家有興趣的可以自己去看公式，了解一些基本的模型。

為什么說深度學(xué)習(xí)方法比前面我們說的統(tǒng)計機器學(xué)習(xí)的模型要強大？我們現(xiàn)在來逐條分析。

4.強大的深度學(xué)習(xí)方法—分布式表示?

一個是分布式表示（Distributed Representation），或者更具體一點叫 Word Embedding/Word Representation 之類的。是拿這個數(shù)值來表示這個特征，而不再是之前的離散特征，這是一個比較經(jīng)典的任務(wù)，也就是 Bengio 提出的神經(jīng)網(wǎng)絡(luò)語言模型，他把這個詞通過一個矩陣，通過查表的方式式得到一個 Word Embedding，然后交到后面去訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的語言模型?，F(xiàn)在 NLP 所有的任務(wù)基本都基于 Word Embedding。

Word Embedding 這一步怎么來做？假如有 V 個詞，一個詞就是 W1、W2 一直到 Wv，構(gòu)建一個矩陣，每一個詞可向量的維度是 M 維，那么這個 W1 過來了以后，查表會查到 W1 對應(yīng)這一類的詞向量作為它的一個表示，這個表叫 Lookup Table，這就把詞的符號轉(zhuǎn)換成一個向量形式的過程。

最右邊這個就是它的詞向量，這個詞向量是在整個模型的訓(xùn)練中，可以通過 SGD 下降的方式給它回傳做調(diào)整，也就是說我們最終得到的詞向量是非常適合于這個任務(wù)的詞向量，也是得到了這個任務(wù)的目標(biāo)函數(shù)下這個詞非常好的一個表達形式。符號向量化的第一個好處就是克服維度爆炸的問題，One-hot 會到一個非常高的維度，但是詞向量最小可以把它設(shè)成 20、50 之類的就解決掉了。再一個就是說它可以直接進行數(shù)值運算，因為它就是向量，向量就是數(shù)值，然后就交到后面做很大的矩陣運算，這完全沒有問題。再一個就是 SGD 自動特征學(xué)習(xí)，這個前面我們說到了，就是 SGD 怎么去調(diào) Word Embedding。

5.強大的深度學(xué)習(xí)方法—序列建模方法?

深度學(xué)習(xí)方法強大的第二個優(yōu)點，就是序列建模。前面說序列建模很難，在前面的一些特征設(shè)計方法里面，在深度學(xué)習(xí)里面，序列建模的方法就變得非常簡單了，就是以詞匯層面的分布式表示為基礎(chǔ)，然后對詞之間的交互進行計算，生成整個句子的一個分布式表示。整個過程都是在做計算，而不是在做特征模板的設(shè)計。

這個圖是一個比較具體的基于雙向 RNN 的一個序列建模模型，我們看到會有兩層 RNN 層，第一層是從左向右地對詞向量進行壓縮表示，第二層是從右向左做壓縮表示，然后兩層的表示連接起來，作為最終整個句子的表示，用 N 個詞，后面生成的分布式表示就可以是 N 個向量，每個向量可以認(rèn)為是它對應(yīng)的下面這個詞的一個上下文環(huán)境的語義表示，作為整個句子的特征。也可以用最后面一個，就用 Hn 可以表示一個句子的特征，也可以把這些東西作為一個句子特征的表示。也就是說這個地方用神經(jīng)網(wǎng)絡(luò)的方式直接基于詞做計算得到句子的特征表示，就繞過了特征模板，非常方便。

這是基于 CNN 的序列建模的一個方法，CNN 就是一個窗口，把一個詞通過不同的權(quán)重做加和，然后形成一個表示。第二層也是一個窗口，這樣一層層上去以后，越上面的一些 CNN 的結(jié)點它覆蓋的詞的范圍就越大。實際上到最上面這一層綠色的表示，也可以認(rèn)為跟前面那個模型一樣，就是作為整個句子的一個特征表示，然后結(jié)合后面的任務(wù)就好了。

最近的工作有基于 Self-Attention 的這種序列建模方式，在 W1 生成 H1 的過程中它需要參考所有句子里面的詞，然后計算和所有詞的一個相關(guān)程度，決定其他所有詞在最終形成它的表示的過程中所占的權(quán)重比例。這個話有點繞，像前面的這些模型，W1 生成 H1 的時候，它可能只是一個局部窗口，只考慮一個局部范圍跟它交互的一些詞的范圍，在 Self-Attention 里面，它要考慮跟它所有詞的關(guān)系，然后來構(gòu)成最終的一個表示。

6.強大的深度學(xué)習(xí)方法—參數(shù)統(tǒng)一優(yōu)化?

第三個深度學(xué)習(xí)方法強大的一個優(yōu)點就是參數(shù)統(tǒng)一優(yōu)化的問題。之前我們說前面設(shè)計特征模板，后面交一個分類器，更嚴(yán)重的就是搭一個系統(tǒng)的時候需要做很多步的模型搭建，比如傳統(tǒng)的統(tǒng)計機器翻譯里面有一個短語模型的搭建流程，我有語料，先要做詞對齊，然后在詞對齊的結(jié)果上抽短語，抽完短語以后做短語特征方面的抽取。

在短語這個層面還要學(xué)一個調(diào)序模型，在語料這個層面上其實還需要學(xué)一個語言模型，這些模型最后加一塊來融合，達到最后的模型，但實際上中間這些模型訓(xùn)練的時候都是非常獨立的，有一些遞進的關(guān)系，然后就會出現(xiàn)一個錯誤傳播的問題，這些所有的參數(shù)并不是統(tǒng)計到一個優(yōu)化目標(biāo)函數(shù)下去訓(xùn)練的。但深度學(xué)習(xí)方法里，尤其 End-to-End 這個模型，就是能把所有的參數(shù)統(tǒng)一到一個優(yōu)化目標(biāo)函數(shù)下去緩解這種傳統(tǒng)的系統(tǒng)搭建方法的一個錯誤傳播的問題。這是一個基于統(tǒng)計的短語機器翻譯系統(tǒng)的一個搭建流程。

我們看一下基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型搭建的過程。下面有平行語料，就交到這個模型里面去訓(xùn)練，模型會有一個優(yōu)化函數(shù)，最后能得到這個模型，整個模型來建模平行語料里的翻譯知識。具體怎么來做，后面我們會有更加詳細的介紹。這里想表達的是深度學(xué)習(xí)方法，可以把所有的參數(shù)做統(tǒng)一優(yōu)化。

我們來看一下前面提到自然語言處理中提到了三個問題模型，一個叫分類，一個叫序列標(biāo)注，另一個叫序列生成。在傳統(tǒng)的方法下我們看過了它們是怎么來做的。比如，前面做特征模板設(shè)計，后面接分類器，像決策樹、SVM、LR 之類的分類器來做。那到了神經(jīng)網(wǎng)絡(luò)或者說深度學(xué)習(xí)時代，這個事情怎么解決？其實底層還是基于特征抽取的一個過程。

看這個圖，大家應(yīng)該看到除了上面橙黃色的這個點，就是前面我們說的一個特征抽取的過程，一個雙向 RNN 來抽取一定特征的過程。對這個句子特征抽取完了以后，接一個橙黃色的分類器，后面輸一個 Softmax，然后輸出哪個類別的概率，那就是用這種方法來建模一個分類的問題。

比如情感分析問題，或者說一個文本分類問題，你就把句子交到這個神經(jīng)網(wǎng)絡(luò)去，然后神經(jīng)網(wǎng)絡(luò)把特征抽完了，后面接一個分類的過程，整個的優(yōu)化都是基于上面這個分類的準(zhǔn)確程度來做梯度回傳，回傳到每一條連接權(quán)重，還有詞向量上面去，所以整個系統(tǒng)它是一個模型，所有的參數(shù)同時在做優(yōu)化，不存在特征模板的問題，所以能夠很好地解決分類問題。

這是一個序列標(biāo)注的問題，就是前面說到分詞的問題，給每一個字加一個合適的類標(biāo)。其實下面還是一樣，抽特征，抽出 N 個字的表示出來，就是這些字的特征，后面每個接 Softmax 的分類器，然后做一個路徑最優(yōu)的尋優(yōu)操作做一個推理，找到一條最優(yōu)的序列路徑出來。這是一個深度學(xué)習(xí)方法解決序列標(biāo)注問題。

那怎么來做序列生成的問題？就是 Encoder、Decoder，這是一個非常經(jīng)典的模型。Encoder 就是把原先的句子做表示， Decoder 是根據(jù)這個表示來做生成。Encoder 也可以用 CNN、RNN、Self-Attention，Decoder 也可以分別用這三種。這個模型反映的是一個翻譯的過程，翻譯的過程是計算機可以處理自然語言，我們希望計算機能生成這個結(jié)果，也就是一個序列到另一個序列的映射，但是這兩個序列之間可能會存在著不同的長度。這是目前大家來做機器翻譯問題或者對話聊天里的閑聊通用的一個模型。

7.深度學(xué)習(xí)方法的缺點

我們說說深度學(xué)習(xí)方法的缺點。一個缺點是模型的可解釋性低，首先它是一個數(shù)值的運算，你很難解釋它每一步的數(shù)值代表了什么。整個過程在算，你很難去展現(xiàn)它中間語言學(xué)的一些推理過程，效果會很好，但是不好解釋，有人把它叫做黑盒。

再一個就是因為它都是基于數(shù)值的，所以就比較難去融入一些鮮艷符號的規(guī)則進來，這個語言學(xué)的知識或者人類的一些運行約束，很難去融入進來。再一個就是這個模型需要的計算量比較大，有很大權(quán)重矩陣的運算，矩陣乘法，或者做 Softmax 之類的這種計算，所以需要計算的還是比較重的，尤其是訓(xùn)練大模型的時候，一般現(xiàn)在是用多顯卡，最起碼是多卡，或者是多機來訓(xùn)一個比較大的模型。

這個模型的表現(xiàn)除了依賴于本身的結(jié)構(gòu)，它還依賴于比較多的訓(xùn)練技巧，所謂的訓(xùn)練技巧就是指中間某些參數(shù)的初始化方法，網(wǎng)絡(luò)的超參設(shè)計，還要加一些其他東西，比如本身就給你一個 RNN，它其實可能表現(xiàn)不好，但加上很多訓(xùn)練的方法進去，這個模型表現(xiàn)才會好起來。

所以有很多人說這是一個煉丹的過程，但是這個煉丹的過程到目前大家研究的也越來越透徹了，有很多分析的論文已經(jīng)出來了，所以我們也希望這個模型可解釋性更好一點，這些訓(xùn)練的技巧方法能夠在數(shù)學(xué)上找到更好的理論，然后拿實驗去驗證它，而不是說我們就真的是像煉丹師一樣去煉一個模型出來，這不是科學(xué)。

這章主要的內(nèi)容就是介紹了自然語言處理里面常用的一些問題模型和算法模型，對比了統(tǒng)計機器學(xué)習(xí)方法和深度學(xué)習(xí)方法，然后分析了它們的優(yōu)劣之處。

三、對話和機器翻譯中的深度學(xué)習(xí)模型和云端應(yīng)用

1.機器翻譯和對話系統(tǒng)中的序列到序列模型?

前面我們說到了對話機器人和機器翻譯，這兩個問題其實差不多，對話機器人是一個單語的聊天，你說中文它給你回復(fù)一個中文。機器翻譯的過程其實是從一個語言到另外一個語言，它說“很高興認(rèn)識你”，翻譯出來“Nice to meet you”，但兩個問題實際上都是序列到序列的問題。那么機器翻譯模型和對話系統(tǒng)里面的閑聊，它可以用一個通用模型，就是前面說的 Encoder 和 Decoder 來解決。

數(shù)學(xué)形式的話就是這樣，X 和 X1 到 Xm，Y 是 Y1 到 Yn，前面可以認(rèn)為是 M 個詞或者 M 個字，這邊是 N 個詞或者 N 個字，建模就兩個序列之間的映射關(guān)系，就是第三個公式。只要把這個映射關(guān)系學(xué)到了，那么就知道給定了 X1 到 Xm 的時候，我怎么給出一個更好的 Y1 到 Yn，是一個更好的回復(fù)或者更好的翻譯，這是一個序列到序列的問題模型。

前面我們已經(jīng)看過這個模型了，它怎么來生成這個 Y2？首先它要考慮源端的信息，比如 X1 到Xm，它是一個語義。再一個就是它還要考慮到已經(jīng)生成了什么出來，因為它從 Y1 到 Yn，Yn 是逐個生成的。所以已經(jīng)生成的序列加上源端的信息或者主題的信息，我們可以認(rèn)為 X 是一個源端信息或者主題信息，然后經(jīng)過一個分類器來預(yù)測下一個詞，下一個詞預(yù)測出來又到這兒來了，加到已經(jīng)生成的序列后面，這個序列變長了，然后再預(yù)測下一個詞，直到預(yù)測出一個句子的終結(jié)符出來，這個序列的預(yù)測就算生成完成了，大概流程就是這樣，抽象的數(shù)學(xué)表示就是上面三個公式。

這個圖是一個比較經(jīng)典的 Encoder-Decoder 結(jié)構(gòu)，左邊是一個 Encoder，右邊是一個 Decoder，中間是一個 Attention 注意力機制。當(dāng) Decoder 其中一個詞的時候，比如說 Yt 這個詞的時候，去源端尋找跟它相關(guān)語義的時候，用一個 Attention 的形式，到底是 H1 扮演的權(quán)重大一些，還是 H2 扮演的權(quán)重大一些，還是 Hm 扮演的權(quán)重大一些，這是一個 Soft Attention 的過程。

這么講其實有點泛，可以看公式，第三個公式，就是說我們來預(yù)測 Yt，Y 小于 t 了，我們知道了前面已經(jīng)生成的 t-1 個詞， x 是整個源端的信息，它需要參考一個 ct，ct 就是這個 Attention 完的一個結(jié)果。

前面剛生成完的一個 Decoder 頂層的一個狀態(tài)，它在算源端的一個相關(guān)程度的時候，用的就是中間這一項公式。這個地方歸比較繞，大家可以看一下公式。后面一個關(guān)于 Attention 機制的另外一個視角的看法，可能會更好理解一些。

還有一個是從檢索的視角來看 Attention 機制，實際上就是一個 query 的過程，有一個 query key，然后來檢索一個 Memory 的區(qū)域，實際上在上面的這個過程當(dāng)中，拿前面這個 Decoder 的狀態(tài)，它作為 query 的 key 去查 Encoder 的 Memory，這個 Memory 長度是 m，寬度是源端的表示維度，大概是查每一塊對它的權(quán)重。我們做一個類比的話，知道計算機內(nèi)存里面去保存，一般是有一個定位的過程，再一個就是保存的一個過程。

不同的是這個定位是 soft 的定位，假如你有 10 個格子去訪問，不是說定位到第 3 個格子就讀第 3 個格子的信息，而是要計算這 10 個格子里面的內(nèi)容，構(gòu)成最后那個內(nèi)容的一個權(quán)重。比如給第一個格子分了 0.1，第二個格子分了 0.2，第三個格子分了0.3，依此類推，那到最后整個表示的時候，就是每個格子內(nèi)容乘上它的權(quán)重，然后加起來。這可以認(rèn)為是一個 query 的過程，檢索一個 Memory 的過程，不再是計算機硬件里面這種硬性的 query，而是一個 soft 的 query。

這個 query 里主要是存在著兩個 key 的運算，一個就是 query 可以和 Memory 里面 key 的一個運算來計算相關(guān)程度。相關(guān)程度計算完以后，通過 softmax 做概率的規(guī)劃，然后把它轉(zhuǎn)到概率空間上面，再根據(jù)這個概率對每一個值做權(quán)重的加和，得到最后的 result，大家可以看這一塊的公式。relation 函數(shù)就是一個怎么來衡量兩個東西關(guān)系的一個 relation 函數(shù)，一般可以用一個 BP 神經(jīng)網(wǎng)絡(luò)，就是一個前向網(wǎng)絡(luò)來做。relation 函數(shù)有很多種選擇方式，但它的目的就是算?relation。

廣義的 Encoder-Decoder 框架現(xiàn)在用來做泛文本生成的一個問題，對話機器人、機器翻譯或者寫文章、寫詩、寫歌詞這種都可以用 Encoder-Decoder 來做。

對它做一個大概總結(jié)的話，Encoder-Decoder 就可以把里面的構(gòu)件隨便地替換掉，比如 Encoder 用 RNN，Decoder 用 CNN ，所以我們前面提到一個神經(jīng)網(wǎng)絡(luò)里面構(gòu)建的這些你完全可以在這個框架里任意去替換，把它當(dāng)做模塊化的東西來使用。

Attention 的計算過程是基于加法或者基于乘法的，全局的或者局部的，再一個就是它其實可以融入更多的特征進來。在這個框架里融入更多的模塊。不變的是 Encoder 就是對文本做表示的，Decoder 就是用來做生成的。前面說了泛文本生成的任務(wù)都可以基于該框架來做，所以它是一個非常經(jīng)典的框架。

2.機器翻譯系統(tǒng)VS對話系統(tǒng)

現(xiàn)在來說機器翻譯系統(tǒng)和對話系統(tǒng)之間的區(qū)別，前面說都可以用序列到序列的模型來進行建模，但是區(qū)別在哪？首先是機器翻譯系統(tǒng)的訓(xùn)練語料是一個句對，一個是源語言，一個是目標(biāo)語言，它們在語義上具有一個非常強的一致性關(guān)系，是一個非常標(biāo)準(zhǔn)的序列到序列的任務(wù)。再一個就是可以通過大量的平行語料來覆蓋近乎全量的翻譯現(xiàn)象。

對話系統(tǒng)其實場景非常復(fù)雜，那就是源端句子和目標(biāo)端句子并不是語義上的一致性，不是表達語義，而只是一個相關(guān)性或者一個回復(fù)的關(guān)系，你說一句話，可能有上百種、上千種回復(fù)關(guān)系，所以很難去拿語料去覆蓋對話場景，并且語料變大的時候，可能會因為回復(fù)的多樣性導(dǎo)致知識沖突。再一個就是使用序列到序列的建模模型可以很方便地去搭建一個聊天機器人，就是你說一句話，它返回來給你一句話，看上去像在聊天，但是很難去搭一個實用的面向任務(wù)的對話系統(tǒng)，比如訂機票，更多的是說前面做意圖分析，后面再去具體地執(zhí)行。

對話前面也說了，機器翻譯也需要知識庫，但是對話這個系統(tǒng)更需要知識庫，還有多媒體內(nèi)容平臺，比如你要看電影，它需要有一個電影庫在后面支持，那就是對話系統(tǒng)和機器翻譯系統(tǒng)區(qū)別非常大的一個地方。

3.小微對話系統(tǒng)?

介紹一下我們微信研發(fā)的一套小微對話系統(tǒng)，目前是搭載到了很多硬件上。里面主要的 NLP 任務(wù)，大家看這個圖，會有分詞、詞性標(biāo)注、Parsing，還有意圖識別、命名實體識別、槽位填充等 NLP 的任務(wù)都可以設(shè)計到這個系統(tǒng)里，也就是我們前面說的構(gòu)建一個產(chǎn)品級的自然語言處理系統(tǒng)，一定會涉及到多個層面，多種技術(shù)的使用，才最后拼起來這么一個大的系統(tǒng)。

這個對話系統(tǒng)實際上在周邊還需要很多支持的系統(tǒng)，現(xiàn)在就是語音交付，前面就是一個語音識別，語音識別可以糾錯，然后放到這個對話系統(tǒng)里面，對話系統(tǒng)可以返回一個語音合成的結(jié)果或者說一個屏幕展示的結(jié)果。所謂語音合成的結(jié)果是這樣，比如說你問對話系統(tǒng)明天的天氣怎么樣，那么它就直接給你一段語音就好了。

再一個就是屏幕展現(xiàn)，比如要看一個什么電影，語音合成肯定不滿足你的需求了，那么就是到屏幕展現(xiàn)了，電影就被調(diào)出來播放。微信里面語音識別這個系統(tǒng)叫“智聆”，給它一個輸入，交到小微里面去，小微做對話方面的計算，然后呈現(xiàn)用戶結(jié)果。

一些標(biāo)桿的案例，一個是客服，對話系統(tǒng)可以來做客服，你問它一個問題，它返回相應(yīng)的答案。再一個就是閑聊對話機器人，賢二機器僧是一個公眾號，你可以跟它去聊一些事情。還有就是車上的對話系統(tǒng)，比如讓它去導(dǎo)航、播放音樂、新聞之類的。還有就是外交部自動回復(fù)的助手。再一個就是現(xiàn)在大家能接觸到的智能音箱或者智能機器人，基本上都要搭載這樣一套對話系統(tǒng)。一個對話系統(tǒng)可以搭載到不同的硬件上去，構(gòu)成不同的一些應(yīng)用場景。

四、開發(fā)者的技能進階建議

基礎(chǔ)篇，其實還是要基于很大量的數(shù)學(xué)知識，比如說線性代數(shù)、矩陣運算這一塊，整個神經(jīng)網(wǎng)絡(luò)所有的這個模型都是基于矩陣運算來做的，所以這一塊要熟悉。再一個就是概率論，統(tǒng)計模型是以概率為基礎(chǔ)的。還有就是高等數(shù)學(xué)，在神經(jīng)網(wǎng)絡(luò)或者深度學(xué)習(xí)技術(shù)里面用到的就是函數(shù)、導(dǎo)數(shù)、級數(shù)、公式推導(dǎo)這些，在數(shù)學(xué)模型統(tǒng)計方法里面，這些都是基礎(chǔ)的基礎(chǔ)，非常重要。

第二個建議是熟練使用一種深度學(xué)習(xí)的平臺，現(xiàn)在 Python 基本上成了人工智能的一種流程型的語言，大家可以去熟練地掌握，還有其他的深度學(xué)習(xí)平臺，像 TensorFlow 這種，能夠讓你非常方便地來搭建神經(jīng)網(wǎng)絡(luò)模型，不用再去關(guān)注非常底層的一些運算。

推薦一些公開課，像 Chris Manning，自然語言處理或者 Standford 里面的 Deep Learning 課程，還有 Coursera 里面的一些自然語言處理課程，大家都可以看一下。還有一些非常好的資源，大家可以去聽別人講，然后接觸基礎(chǔ)資料，去入門。

進階篇，進階篇去研讀一下現(xiàn)在優(yōu)秀的一些深度學(xué)習(xí)的活動，像 Word2Vec 這種大家用得都非常多的。再復(fù)雜一點的，像 GNMT，就是谷歌開源出來的一套神經(jīng)網(wǎng)絡(luò)的代碼。然后 Tensor2Tensor，大家在看的時候，一方面可以去學(xué)習(xí)模型，另一方面可以學(xué)習(xí)深度學(xué)習(xí)平臺的使用方法。也就是讀別人的代碼，可以學(xué)到很多東西。再一個就是培養(yǎng)問題建模的能力，就是說要對問題和模型比較熟悉，給你一個問題大概能判斷出它大概用哪個模型去解決會好一點。再一個模型實現(xiàn)，就是你能把它實現(xiàn)出來，跑出實驗結(jié)果出來，就要性能分析、調(diào)優(yōu)，然后加一些訓(xùn)練方法進去，能夠很好地實現(xiàn)任務(wù)。

創(chuàng)新篇，這是更高階段的一個目標(biāo)。要去研究最新的方法，要讀論文，對這個領(lǐng)域的研究現(xiàn)狀和方法都有一個比較清晰的認(rèn)識，看透問題的本質(zhì)大概是怎樣的，然后嘗試提出自己的觀點和創(chuàng)新性的解決方法，能拿合理的實驗方法去驗證。

五、答聽眾問

Q：中文分詞和深度學(xué)習(xí)的算法相比差距有多少？還需要學(xué)習(xí)傳統(tǒng)算法嗎？

A：我讀博前兩年做了分詞相關(guān)的研究，用深度學(xué)習(xí)方法做過，也用統(tǒng)計的方法做過。那實際上在一個標(biāo)準(zhǔn)的語料上，就是有一個標(biāo)準(zhǔn)的任務(wù)，比如在 3 萬個句子上做訓(xùn)練，在幾百個句子上做分詞的話，神經(jīng)網(wǎng)絡(luò)的方法在表現(xiàn)上面并不具備比傳統(tǒng)方法特別好的一個表現(xiàn)，但在標(biāo)準(zhǔn)的任務(wù)上，神經(jīng)網(wǎng)絡(luò)方法一個好處是它不需要設(shè)計特征模板。

Q：序列化標(biāo)注模型有什么成熟的模型？

A：其實有很多很成熟的模型和工具，問題模型就是序列標(biāo)注問題，模型有 CRF 或者 MEMM等，這些都有一些開源的包，你就直接拿著它然后搞一下特征，輸進去，就可以訓(xùn)練了，都是非常成熟的，神經(jīng)網(wǎng)絡(luò)也可以做序列標(biāo)注任務(wù)。

Q：有監(jiān)督和無監(jiān)督方法哪個更有優(yōu)勢或者兩者區(qū)別，可以具體說個例子嗎？

A：有監(jiān)督方法和無監(jiān)督方法的應(yīng)用場景不一樣。目前自然語言處理任務(wù)在產(chǎn)品當(dāng)中應(yīng)用的難點，一個就是有限的標(biāo)注數(shù)據(jù)，要完成很多任務(wù)，先是要去標(biāo)注數(shù)據(jù)，需要的人力成本比較高，人與人之間的標(biāo)注數(shù)據(jù)也會存在一些不一致性，并且針對某一個具體任務(wù)標(biāo)注的數(shù)據(jù)它很難遷移到其他任務(wù)上去使用，所以這個有監(jiān)督的方法還是比較局限，成本比較高。

無監(jiān)督方法就想解決這個問題，就是怎么把這個成本降下來，但問題是無監(jiān)督的方法現(xiàn)在的效果不太好，因為無監(jiān)督確實知識很少，離應(yīng)用也會更差一些，但是無監(jiān)督是一個非常值得研究的問題，如果真的哪天這個問題能夠很好地解決，不再需要標(biāo)數(shù)據(jù)的方式，那么無監(jiān)督方法就可以通用了。

轉(zhuǎn)載自：AI科技大本營

分享嘉賓 | 張金超

整理 | Just

來源 | AI科技大本營在線公開課

（公開課回放地址：https://edu.csdn.net/huiyiCourse/detail/807）

—【完】—

下一篇:如何省時省力驗證模型效果？達觀數(shù)據(jù)在線分層實驗平臺給你支招

上一篇:達觀數(shù)據(jù)榮獲2018 NBI 夏季創(chuàng)新峰會“企業(yè)服務(wù)創(chuàng)新20強”

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

一、自然語言處理的基本概念和任務(wù)

1.基本概念

2.自然語言處理任務(wù)

3.自然語言處理任務(wù)的難點

4.小結(jié)

二、深度學(xué)習(xí)方法解決NLP任務(wù)

1.自然語言處理方法的演化

2.自然語言處理常用的問題模型

3.統(tǒng)計機器學(xué)習(xí)算法模型的不足

4.強大的深度學(xué)習(xí)方法—分布式表示?

5.強大的深度學(xué)習(xí)方法—序列建模方法?

6.強大的深度學(xué)習(xí)方法—參數(shù)統(tǒng)一優(yōu)化?

7.深度學(xué)習(xí)方法的缺點

三、對話和機器翻譯中的深度學(xué)習(xí)模型和云端應(yīng)用

1.機器翻譯和對話系統(tǒng)中的序列到序列模型?

2.機器翻譯系統(tǒng)VS對話系統(tǒng)

3.小微對話系統(tǒng)?

四、開發(fā)者的技能進階建議

五、答聽眾問

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

一、自然語言處理的基本概念和任務(wù)

1.基本概念

2.自然語言處理任務(wù)

3.自然語言處理任務(wù)的難點

4.小結(jié)

二、深度學(xué)習(xí)方法解決NLP任務(wù)

1.自然語言處理方法的演化

2.自然語言處理常用的問題模型

3.統(tǒng)計機器學(xué)習(xí)算法模型的不足

4.強大的深度學(xué)習(xí)方法—分布式表示?

5.強大的深度學(xué)習(xí)方法—序列建模方法?

6.強大的深度學(xué)習(xí)方法—參數(shù)統(tǒng)一優(yōu)化?

7.深度學(xué)習(xí)方法的缺點

三、對話和機器翻譯中的深度學(xué)習(xí)模型和云端應(yīng)用

1.機器翻譯和對話系統(tǒng)中的序列到序列模型?

2.機器翻譯系統(tǒng)VS對話系統(tǒng)

3.小微對話系統(tǒng)?

四、開發(fā)者的技能進階建議

五、答聽眾問

達觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

一、自然語言處理的基本概念和任務(wù)

二、深度學(xué)習(xí)方法解決NLP任務(wù)

三、對話和機器翻譯中的深度學(xué)習(xí)模型和云端應(yīng)用