欧美制服丝袜人妻另类,欧美亚洲精品在线播放,欧美xxxx做受欧美88hd

本文由達(dá)觀數(shù)據(jù)算法工程師范雄雄根據(jù)斯坦福計算機博士Danqi Chenhe和Facebook AI研究院Adam Fisch,?Jason Weston 以及 Antoine Bordes撰寫的文章編譯而成，詳細(xì)講解了維基百科的開放性問答系統(tǒng)的原理，原文詳見：《ReadingWikipedia to Answer Open-Domain Questions》

摘要

本文提出以Wikipedia作為唯一的知識源來解決開放領(lǐng)域的問答：任何事實型問題的答案都是在Wikipedia文章中的一段文本。這項海量機器閱讀的任務(wù)，需要同時面對2個挑戰(zhàn)，一是文本檢索（找到相關(guān)的文章），二是對文本的理解（從文章中識別答案的范圍）。我們的方法結(jié)合使用了基于bigram hashing以及tf-idf匹配檢索模塊以及用于在Wikipedia段落中挖掘答案的多層RNN模型。我們在多個已有的QA 數(shù)據(jù)集的實驗表明：

1）相比以往的方法，這兩個模塊都是非常有競爭力的；

2）在這項具有挑戰(zhàn)性任務(wù)中，使用distant supervision對他們的聯(lián)系進(jìn)行多任務(wù)學(xué)習(xí)是非常有效完整的辦法。

1.簡介

本文考慮的問題是如何使用Wikipedia作為唯一知識源回答開放領(lǐng)域的事實型問題，就像人們在百科全書中尋找答案一樣。Wikipedia是一個持續(xù)不斷發(fā)展并且包括各種詳細(xì)信息的知識源，如果可以善加利用，可以很好的促進(jìn)機器的智能。跟知識庫（便于計算機處理，但是對開放領(lǐng)域的問答系統(tǒng)來說，太過稀疏，比如Freebase和DB-Pedia）不同的是，Wikipedia包括人們關(guān)心的最新的知識，并且是為人類的閱讀（而不是為機器）設(shè)計的。

采用Wikipedia的文章作為知識源來做問答(QA)，需要同時解決2個挑戰(zhàn)：一個是大規(guī)模開放領(lǐng)域的問答，一個是機器對文本的理解。

為了能夠回答任何問題，系統(tǒng)首先要從500萬篇文章中找到少量相關(guān)的文章，然后仔細(xì)的掃描這幾篇文章來找到答案。我們把這個定義為machine reading at scale（MRS）。我們的工作把Wikipedia視為文章的集合，而不考慮他們內(nèi)在的圖結(jié)構(gòu)。這樣，我們的方法可以更加通用化，可以用于一系列書、文檔甚至是每天更新的報紙新聞。

像IBM的DeepQA這樣大規(guī)模的問答系統(tǒng)，它的回答依賴于各種不同的知識源：除了Wikipedia，還用到KBs，字典甚至新的文章以及書等等。因此，系統(tǒng)回答的正確性嚴(yán)重依賴于在多個知識源中的信息冗余。只有一個知識源的條件下，迫使我們模型在掃描文章的時候，需要非常的精確仔細(xì)，因為有些答案的線索可能只出現(xiàn)一次。這樣的挑戰(zhàn)，也因此推動了機器閱讀能力（機器理解的子領(lǐng)域）的研究以及諸如SQuAD、CNN/Daily Mail、CBT這樣的數(shù)據(jù)集的建立。

然而，這些數(shù)據(jù)集都是假設(shè)已經(jīng)有一小段的相關(guān)文本已經(jīng)提供給模型了，這在構(gòu)建開放領(lǐng)域的問題系統(tǒng)中是不現(xiàn)實的。與此形成鮮明對比的是，基于知識庫或者在文檔中采用信息檢索的方法，必須將搜索的結(jié)果作為解法的一部分。而MRS是在海量開放知識源中檢索的現(xiàn)實條件（并沒有作非常理想化的假設(shè)）下來做機器理解（需要對文本的深度理解）。

在本文中，我們會展示如何使用多個現(xiàn)有的QA數(shù)據(jù)集來評估MRS（通過開放領(lǐng)域的系統(tǒng)在全部已有的QA數(shù)據(jù)集上回答問題）。我們開發(fā)了DrQA系統(tǒng)，它基于Wikipedia的強大的QA系統(tǒng)，其組成包括：(2)Document Reader，基于多層RNN的機器理解模型，用于挖掘Document Retriever的文章小集合中的答案范圍。圖1給出了DrQA系統(tǒng)的圖示。

(1)Document Retriever，采用bigram hashing以及tf-idf匹配實現(xiàn)，該模塊主要用于給定一個question之后，快速找到相關(guān)的文章的一個小集合；

(2)Document Reader，基于多層RNN的機器理解模型，用于挖掘Document Retriever的文章小集合中的答案范圍。圖1給出了DrQA系統(tǒng)的圖示。

我們的實驗表明，Document Retriever比Wikipedia內(nèi)置的搜索引擎效果好，Document Reader可以達(dá)到目前最好的SQuAD水準(zhǔn)。最后，我們整個系統(tǒng)是用多個benchmark來評估的。特別是，相比于單任務(wù)的訓(xùn)練，采用多任務(wù)以及distant supervision方法，其表現(xiàn)在所有數(shù)據(jù)集上都有所提高。?

圖一

2.相關(guān)工作

根據(jù)每年舉行的TREC比賽的設(shè)定，開放領(lǐng)域的QA最開始是被定義為在非結(jié)構(gòu)化文檔中尋找答案。隨著KB的發(fā)展（比如WebQuestions，SimpleQuestions，又比如自動抽取的KBs，OpenIE triples 和 NELL），最近基于KB的QA有了許多新的改進(jìn)。然而，KB固有的局限（不夠完整以及固定的數(shù)據(jù)格式）促使研究人員回歸到最初的設(shè)定，即從原始數(shù)據(jù)中去尋找答案。

重新審視這個問題的第二個動機，是因為隨著最近新的深度學(xué)習(xí)框架的出現(xiàn)（比如attention-based and memory-augmented neural networks以及新的訓(xùn)練評測數(shù)據(jù)集的開放，這些數(shù)據(jù)集包括QuizBowl，包含新聞文章的CNN/Daily Mail，包含兒童書的CBT以及基于Wikipedia的WikiReading和SQuAD），機器的文本閱讀理解（比如通過閱讀一小段文本或者故事來回答問題）有了長足的進(jìn)步。本文的目的是想測試下這些新方法在開放領(lǐng)域的QA中表現(xiàn)如何。

采用Wikipedia作為知識源的QA之前已經(jīng)有過嘗試。Ryu et al. (2014) 實驗過只采用Wikipedia的模型，他們將文章內(nèi)容和其他多個基于不同類型的半結(jié)構(gòu)化知識（比如信息框，文章結(jié)構(gòu)，類別結(jié)構(gòu)，定義等）實現(xiàn)的答案匹配模塊結(jié)合在一起使用。類似的，Ahn et al. (2004) 將Wikipedia和其他的文檔一起檢索來使用。Buscaldi and Rosso (2006)也嘗試在Wikipedia中挖掘知識。他們沒有將其作為尋找問題答案的知識源，而是用它來驗證QA返回的結(jié)果的正確性。并使用Wikipedia分類來確定一組符合預(yù)期答案的模式。在我們的工作中，我們只考慮文本的理解，并且只用了Wikipedia作為唯一的知識源，以便將重點放在大規(guī)模的閱讀理解上。

許多發(fā)展多年的完整的QA處理方法流不是用Web數(shù)據(jù)（QuASE），就是用Wikipedia的數(shù)據(jù)（Microsoft的AskMSR，IBM的 DeepQA，YodaQA），后者是開源，因此可以復(fù)現(xiàn)用于比較效果。AskMSR是一個基于搜索引擎的QA系統(tǒng)，它依賴于“數(shù)據(jù)冗余而不是對問題或候選答案進(jìn)行復(fù)雜的語言學(xué)分析”，也就是說，它不像我們一樣專注于機器理解。DeepQA是一個非常復(fù)雜的系統(tǒng)，它依賴于包括文本文檔在內(nèi)的非結(jié)構(gòu)化信息以及諸如KB，數(shù)據(jù)庫和本體的結(jié)構(gòu)化數(shù)據(jù)來生成候選答案或?qū)ψC據(jù)進(jìn)行投票。YodaQA是以DeepQA為藍(lán)本的開源系統(tǒng)，同樣結(jié)合使用網(wǎng)站、信息提取、數(shù)據(jù)庫和Wikipedia。相比于這些方法，我們的閱讀理解由于使用的是單個知識源，因此更具挑戰(zhàn)性。

在機器學(xué)習(xí)以及NLP中，多任務(wù)學(xué)習(xí)以及任務(wù)遷移有著豐富的歷史。有些工作試圖通過多任務(wù)學(xué)習(xí)將多個QA訓(xùn)練集合并到一起，這樣，

(1)通過task transfer實現(xiàn)跨數(shù)據(jù)集的提升；

(2)提供一個通用的系統(tǒng)，可以回答不同類型的問題，因為答案不可避免的分布在不同的數(shù)據(jù)集上。

Fader et al. （2014）用WebQuestions、TREC和WikiAnswers作為評測，以四個知識庫作為知識來源，通過多任務(wù)學(xué)習(xí)在后兩個數(shù)據(jù)集上獲得了提升。Bordes et al. (2015)以Freebase作為知識源采用 distant supervision合并了WebQuestions和SimpleQuestions，結(jié)果顯示在兩個數(shù)據(jù)集上都是略微提升，但是只采用一個訓(xùn)練，另一個作為測試的話，結(jié)果卻很差，這說明task transfer確實是非常有挑戰(zhàn)性的任務(wù)。(Kadlec et al., 2016)也得到類似的結(jié)論。我們的工作也是類似的想法，不過做了特別的限制，必須先檢索，再理解，而不是用KB直接取一個好的結(jié)果。

3.Facebook的DrQA系統(tǒng)

下面我們將介紹Facebook的系統(tǒng)DrQA，主要由兩部分組成：

(1)Document Retriever模塊，用于找到相關(guān)的文章

(2)Document Reader模塊，機器理解模型，用于從單個或小集合的，文檔中抽取答案

Document Retriever

參考傳統(tǒng)的QA系統(tǒng)，我們采用非機器學(xué)習(xí)的文本檢索系統(tǒng)來縮小我們的檢索范圍，然后把注意力集中在這些可能相關(guān)的文章閱讀理解來尋找答案。相比于內(nèi)置的基于ElasticSearch的Wikipedia Search API，簡單的倒排查詢結(jié)合term vector model打分的效果在很多類型的問題上的效果要更好。文章和問題通過tf-idf作為權(quán)重的bag-of-word向量來衡量相關(guān)性。后來我們通過加入n-gram特征，把小范圍的詞序考慮進(jìn)來，進(jìn)一步改進(jìn)系統(tǒng)。我們最好的系統(tǒng)是用bigram計數(shù)以及(Weinberger et al., 2009)提出的哈希方法（用murmur3 hash將bigram映射到2²⁴個bin中），同時保留了速度和內(nèi)存的效率。

我們采用Document Retriever作為整個系統(tǒng)的第一部分，對任何問題，設(shè)定返回5篇Wikipedia的文章。這些文章在后續(xù)的Document Reader進(jìn)行處理。

Document Reader

我們的Document Reader是受最近神經(jīng)網(wǎng)絡(luò)模型在機器閱讀理解方面的優(yōu)異表現(xiàn)而啟發(fā)，其思想跟(Hermann et al., 2015;Chen et al., 2016)提出的AttentiveReader是非常相似的。

給定一個含有l個token的問題?

和包含n個段落的文檔集合，其中單個段落 p 包含m個token，

我們開發(fā)了一個RNN模型，然后依次應(yīng)用到每個段落上，最后聚合所有的預(yù)測結(jié)果。我們的方法是這樣工作的：

段落編碼

首先我們把段落中的所有token p_i表示成特征向量序列

然后作為RNN的輸入，得到如下表示：其中，p_i希望是可以將token p_i的上下文信息編碼進(jìn)去。我們采用多層雙向LSTM，然后在每層的隱藏單元最后串聯(lián)p_i

特征向量包含以下幾部分：

我們用840B網(wǎng)上爬來數(shù)據(jù)訓(xùn)練得到300維的Glove word embedding。大部分的訓(xùn)練完的word embedding保持不變，僅僅對最常用的1000個問題中包含的詞進(jìn)行優(yōu)化，因為像what,how,which,many等這些詞對QA系統(tǒng)來說非常重要。

完全匹配：?

我們用3個簡單的二值特征，表示段落中的p_i是否可以完全匹配question中的某個詞q，不管是原始，小寫或者lemma形式，這些簡單的特征在實驗中效果非常顯著，在第五部分將會看到。

Token特征：

我們也增加了一些人工的特征，這些特征能夠反映token的一些上下文信息，包括詞性，命名實體名以及詞頻。

Aligned question embedding:

參考(Lee et al., 2016)以及其他最近的工作，最后一部分加入的是aligned question embedding:?

特別的，的計算方式是word embedding的非線性映射的點乘：

是一個ReLU非線性的單稠密層。跟完全匹配的特征相比，這些特征給意思相似但不同的詞加入了平滑的對齊。

問題編碼

問題的encoding簡單很多，我們只需要在所有詞向量上應(yīng)用RNN，然后把隱層單元合并到一個向量中去：，q的具體計算為，其中編碼了每個詞的重要性信息，我們用如下方式計算q：

其中，w是需要學(xué)習(xí)的權(quán)重向量。

預(yù)測
在段落層面，我們的目標(biāo)是預(yù)測哪些范圍里面的詞很有可能是答案。以段落向量以及問題q作為輸入，簡單的訓(xùn)練2個獨立的分類器來預(yù)測范圍的兩端。具體做法是，我們用雙線性項來捕捉和q的相似度并且計算每個詞作為開始和結(jié)束的可能性：為了使打分可以兼容多個檢索文檔的段落，我們采用非歸一化的指數(shù)，然后在所有候選段落里拿使分?jǐn)?shù)最大的token范圍。?

為了使打分可以兼容多個檢索文檔的段落，我們采用非歸一化的指數(shù)，然后在所有候選段落里拿使分?jǐn)?shù)最大的token范圍。

4 數(shù)據(jù)

我們的工作依賴于三種類型的數(shù)據(jù)：

(1)Wikipedia作為尋找答案的知識源。

(2)SQuAD數(shù)據(jù)集，作為訓(xùn)練Document Reader的主要數(shù)據(jù)源

(3)除了SQuAD之外，還用了CuratedTREC, WebQuestions和WikiMovies三個數(shù)據(jù)集來測試我們整個問答系統(tǒng)的能力，以及評估我們模型對于多任務(wù)學(xué)習(xí)以及distant supervision的學(xué)習(xí)能力。數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)見后面的表2。

Wikipedia

我們用的是2016-12-21版的Wikipedia全量英文數(shù)據(jù)作為回答問題的知識源。對每一頁，我們僅抽取純文本，列表以及圖片信息會被過濾掉。在丟棄了了內(nèi)部消歧、列表、索引和概要頁面之后，我們保留了5,075,182篇文章，包含9,008,962個獨特的未定義的token類型。

?SQuAD

SQuAD（The Stanford Question Answering Dataset）是一個基于Wikipedia的用于機器閱讀理解的數(shù)據(jù)集。該數(shù)據(jù)集包含87000個訓(xùn)練樣例以及10000個開發(fā)樣例。每個樣例包括從一篇Wikipedia文章中抽取的段落以及相關(guān)的人為編寫的問題。答案永遠(yuǎn)是在段落中的某一部分，如果模型預(yù)測的答案匹配上了，就會給予肯定。目前用了2個評估指標(biāo)：EM(字符完全匹配)和F1 score，衡量了token級別的加權(quán)平均后的準(zhǔn)確和召回率。

接下來，在給定的相關(guān)段落中，(相關(guān)段落的定義可以參考Rajpurkar et al.,2016)，我們用SQuAD來訓(xùn)練以及評估我們的Document Reader。對于基于Wikipedia的開放領(lǐng)域的問題，我們只用SQuAD數(shù)據(jù)集的開發(fā)集合中的QA對，我們要求系統(tǒng)在沒有相關(guān)段落的情況下找到正確答案的范圍，也就是模型的查找范圍是整個Wikipedia，而不是標(biāo)準(zhǔn)SQuAD數(shù)據(jù)集中的相關(guān)段落。

?開放領(lǐng)域QA的評測資源

SQuAD是目前最大的通用QA數(shù)據(jù)集。SQuAD的問題收集過程是通過給人展現(xiàn)一個段落，然后人工編寫的。這樣這些問題的分布是非常特殊的。因此，我們計劃在其他數(shù)據(jù)集上來訓(xùn)練和評估我們開放域的QA系統(tǒng)，這些數(shù)據(jù)集可以是不同的方式構(gòu)建的（不一定是從維基百科尋找回答）。

CuratedTREC?

這個數(shù)據(jù)集是TREC QA任務(wù)中，Baudiˇs and ˇ Sediv`y (2015)定下的benchmark收集的。我們用的大的版本，包含從TREC1999, 2000, 2001 and 2002中抽取的2180個問題。

WebQuestions

在(Berant et al.,2013)有介紹。這個數(shù)據(jù)集是用于Freebase作為知識源來回答問題。它是用Google suggest API來爬取問題，然后用Amazon Mechanical Turk來回答問題。我們使用實體名稱將每個答案轉(zhuǎn)換為文本，以便數(shù)據(jù)集不需要引用Freebase ID，純粹由純文本問題答案對組成。

WikiMovies

在(Miller et al., 2016)有介紹。包含96,000個電影相關(guān)的問題答案對。最開始是從OMDb和MovieLens數(shù)據(jù)集中創(chuàng)建的，這些樣例的構(gòu)建是為了驗證只采用Wikipedia中標(biāo)題和第一部分包含電影的文章作為知識源的時候，也可以回答問題。

Distantly Supervised Data

上面提供的所有QA數(shù)據(jù)集都包含訓(xùn)練數(shù)據(jù)，但CuratedTREC，WebQuestions和WikiMovies只包含問答對，而不是像SQuAD中有關(guān)聯(lián)文檔或段落，因此不能用于直接訓(xùn)練Document Reader。借鑒(Mintz et al., 2009)之前的用distant supervision (DS)來抽取關(guān)系的工作，我們寫了個方法，將段落自動關(guān)聯(lián)到這些訓(xùn)練樣例，然后將這些示例添加到我們的訓(xùn)練集中。?

表1

方法如下：

首先，我們運行Document Retriever檢索得到跟question相關(guān)的top 5篇Wikipedia文章。文章的段落中沒有完全包含答案的丟棄，字符少于25或者多于1500個字符的段落丟棄。問題中包含命名實體的，如果在段落中不包含該實體的，丟棄。對剩下的所有段落，我們對匹配到答案的所有位置，用一個大小為20個token的窗口來跟question做unigram和bigram計算重疊度來進(jìn)行打分，保留分?jǐn)?shù)最高的5個段落。如果都是非0重疊的段落，那么這個樣例丟棄；否則就加到DS訓(xùn)練集中。表1給了一些例子，Table2給出了統(tǒng)計數(shù)據(jù)。

SQuAD生成額外的DS數(shù)據(jù)，尋找答案的范圍，我們不僅可以是在已提供的段落中，也可以在該段落同一頁或者不同頁。我們觀察到大約一半的DS樣例都來自SQuAD中使用的文章以外的頁面。?

表 2

5 實驗

這部分，我們首先給出Document Retriever以及Document Reader單獨的評測結(jié)果，然后再給出結(jié)合使用后，DrQA的評測結(jié)果。

表3

?找到相關(guān)的文章

我們首先測試了Document Retriever 模塊在所有QA數(shù)據(jù)集上的表現(xiàn)。如表 3所示，我們對比了3.1章節(jié)中描述的另外兩種辦法（用Wikipedia Search Engine檢索包含答案的文章）。具體而言，我們計算了系統(tǒng)返回top5個頁面中至少有一個包含正確答案的比例，結(jié)果顯示我們這個簡單的方法在所有數(shù)據(jù)集上都要比Wikipedia Search的效果好，尤其是采用了bigram hashing之后。我們同樣對比了Okapi BM 25以及采用bag-of-word詞向量計算余弦距離的方法，兩者的效果都比我們的方法差。

表 4

Reader在SQuAD上的評測

接下來，我們在標(biāo)準(zhǔn)SQuAD數(shù)據(jù)集上，對Document Reader模塊進(jìn)行評估。

評估細(xì)節(jié)：我們用3層128個隱層單元的雙向LSTM對段落和問題encoding，用Stanford CoreNLP toolkit工具包進(jìn)行分詞，生成詞根、詞性、命名實體識別。

最后，所有的訓(xùn)練樣例根據(jù)段落長度排序，然后根據(jù)每組32個來分組。我們采用(Kingma and Ba,2014)提到Adamax來進(jìn)行優(yōu)化。將p = 0.3的應(yīng)用于word embedding和LSTM的所有隱藏單元。

結(jié)果和分析:表 4展示了我們在開發(fā)集和測試集上的評測結(jié)果。SQuAD自創(chuàng)建以來一直是一個非常有競爭力的benchmark，表中我們僅羅列了系統(tǒng)的最佳表現(xiàn)的數(shù)據(jù)。我們的系統(tǒng)在測試集上可以達(dá)到70.0%完全匹配以及79.0% F1 scores。截止本文寫作的時候，我們的系統(tǒng)超過所有公布的結(jié)果，并且可以跟SQUAD排行榜上的最佳算法匹敵。并且，我們覺得我們的模型比絕大多數(shù)的系統(tǒng)要簡單。我們對段落token的特征向量進(jìn)行斷融分析。如表5所示，所有的特征對我們系統(tǒng)最終的效果都有幫助。去掉對齊的question embedding feature，我們系統(tǒng)依然能打到超過77%的F1 score。但是，如果同時去掉和,系統(tǒng)的效果就會差很多。

所以我們得出這樣的結(jié)論：這兩個特征在問題的本質(zhì)釋義以及答案的上下文的特征表達(dá)上起到類似但相互補充的作用。?

表 5

全量FullWikipedia問答

最后，我們對整個系統(tǒng)DrQA（面向開放領(lǐng)域的QA系統(tǒng)）在第4章節(jié)中介紹的4個數(shù)據(jù)集上進(jìn)行了評測。我們分別試了3個版本的DrQA來評估采用distant supervision以及跨訓(xùn)練集的多任務(wù)學(xué)習(xí)帶來的影響：

【多任務(wù)學(xué)習(xí)的影響】

1.SQuAD:Document Reader模型只用SQuAD作為訓(xùn)練集，其他的數(shù)據(jù)集用來評估測試

2.Fine-tune (DS):Document Reader模型先在SQuAD上訓(xùn)練，然后分別用其他數(shù)據(jù)集的distant supervision (DS)訓(xùn)練集來進(jìn)行優(yōu)化

3.Multitask (DS):同時用SQuAD以及其他DS的訓(xùn)練集了訓(xùn)練Document Reader模型

對于整個Wikipedia，我們用了streamlined模型（沒有用CoreNLP解析的或者）。我們發(fā)現(xiàn)，雖然這些特征在SQuAD上提供了精確段落情況下的閱讀有幫助，但是在整體系統(tǒng)中卻沒有實際的提升。此外，WebQuestions和WikiMovies提供了候選答案的列表（例如，用于WebQuestions的160萬個Freebase實體字符串），并且我們在預(yù)測期間限制答案范圍必須在此列表中。

結(jié)果: 表 6顯示了評測結(jié)果。與機器理解（給定了正確的段落）和沒有約束限制的QA（可以使用冗余資源）相比，我們的任務(wù)要困難許多，盡管如此，DrQA仍然在所有的四個數(shù)據(jù)集中給出了合理的表現(xiàn)。

表6

我們感興趣的是，有一個系統(tǒng)，單純使用Wikipedia作為知識源就可以回答任何問題。僅使用SQuAD進(jìn)行訓(xùn)練的單一模型在四個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于使用distant supervision的多任務(wù)模型。然而，單獨在SQuAD上進(jìn)行訓(xùn)練時的表現(xiàn)并不差，表明任務(wù)轉(zhuǎn)移其實是有一定作用的。然而，從SQuAD到Multitask（DS）的大部分改進(jìn)可能并非來自任務(wù)遷移，因為使用DS對每個數(shù)據(jù)集單獨進(jìn)行優(yōu)化也有改進(jìn)，表明這是在同一領(lǐng)域中引入額外數(shù)據(jù)是有幫助的。盡管如此，我們目前能找到的最佳模型就是多任務(wù)的DS系統(tǒng)。

我們跟之前已經(jīng)在CuratedTREC以及WebQuestions上發(fā)表過結(jié)果的無約束多知識源（不局限于Wikipedia）的QA系統(tǒng)YodaQA進(jìn)行比較。雖然我們的任務(wù)要困難許多，但是令人欣慰的是我們系統(tǒng)的表現(xiàn)并沒有比CuratedTREC（31.3 vs 25.4）差太多。在WebQuestions上差距表現(xiàn)的明顯一些，可能是因為YodaQA直接使用了WebQuestions基于的Freebase的結(jié)構(gòu)信息。

DrQA在SQuAD上的表現(xiàn)與其在表4中Document Reader在機器理解上的表現(xiàn)相比，出現(xiàn)大幅下降（從69.5到27.1），因為我們現(xiàn)在給的查找范圍是整個維基百科，而不是單個段落。如果給定正確的段落，我們的表現(xiàn)可以達(dá)到49.4，表明非常熱門的句子會帶來很多錯誤的候選段落。盡管Document Retriever表現(xiàn)得不錯（77.8％檢索到正確答案，參見表3）。值得注意的是，大部分下降來自SQUAD問題本身。它們是以特定的段落作為背景而寫的，因此當(dāng)去掉上下文后，它們的表述可能帶有歧義。除了SQuAD以外，專門為MRS設(shè)計的其他資源可能還需要進(jìn)一步研究。

6 結(jié)論

我們研究了大規(guī)模數(shù)據(jù)的閱讀理解問題——僅使用Wikipedia作為唯一知識源來回答開放領(lǐng)域的問題。我們的研究結(jié)果表明，MRS是研究人員關(guān)注的一項非常具有挑戰(zhàn)性的任務(wù)。機器理解系統(tǒng)本身并不能解決整個問題。為了提供了一個有效的完整系統(tǒng)，我們的方法集成了搜索、distant supervision和多任務(wù)學(xué)習(xí)多項技術(shù)。并且通過在多個benchmark上評估個別組件以及的完整系統(tǒng)顯示了我們方法的有效性。

未來的工作將主要集中在兩塊來提高我們的DrQA系統(tǒng)：

1）Document Reader目前的訓(xùn)練是基于單獨的段落，未來在訓(xùn)練中，會直接多個相關(guān)段落或者文檔。

? ?2）訓(xùn)練端到端的Document Retriever和Document Reader管道流，而不是分開訓(xùn)練。

BOUT

關(guān)于作者

范雄雄，達(dá)觀數(shù)據(jù)推薦算法工程師。復(fù)旦大學(xué)計算機技術(shù)專業(yè)碩士，曾在愛奇藝BI部門開發(fā)多款大數(shù)據(jù)產(chǎn)品；對推薦系統(tǒng)、數(shù)據(jù)挖掘、用戶畫像、大數(shù)據(jù)處理有較深入的理解和實踐經(jīng)驗。

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達(dá)觀愿與業(yè)內(nèi)同行分享助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行