色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達(dá)觀數(shù)據(jù):一文詳解維基百科的開放性問答系統(tǒng)

本文由達(dá)觀數(shù)據(jù)算法工程師范雄雄根據(jù)斯坦福計算機博士Danqi Chenhe和Facebook AI研究院Adam Fisch,?Jason Weston 以及 Antoine Bordes撰寫的文章編譯而成,詳細(xì)講解了維基百科的開放性問答系統(tǒng)的原理,原文詳見:《ReadingWikipedia to Answer Open-Domain Questions》

摘要

 

本文提出以Wikipedia作為唯一的知識源來解決開放領(lǐng)域的問答:任何事實型問題的答案都是在Wikipedia文章中的一段文本。這項海量機器閱讀的任務(wù),需要同時面對2個挑戰(zhàn),一是文本檢索(找到相關(guān)的文章),二是對文本的理解(從文章中識別答案的范圍)。我們的方法結(jié)合使用了基于bigram hashing以及tf-idf匹配檢索模塊以及用于在Wikipedia段落中挖掘答案的多層RNN模型。我們在多個已有的QA 數(shù)據(jù)集的實驗表明:

1)相比以往的方法,這兩個模塊都是非常有競爭力的;

2)在這項具有挑戰(zhàn)性任務(wù)中,使用distant supervision對他們的聯(lián)系進(jìn)行多任務(wù)學(xué)習(xí)是非常有效完整的辦法。

1.簡介

本文考慮的問題是如何使用Wikipedia作為唯一知識源回答開放領(lǐng)域的事實型問題,就像人們在百科全書中尋找答案一樣。Wikipedia是一個持續(xù)不斷發(fā)展并且包括各種詳細(xì)信息的知識源,如果可以善加利用,可以很好的促進(jìn)機器的智能。跟知識庫(便于計算機處理,但是對開放領(lǐng)域的問答系統(tǒng)來說,太過稀疏,比如Freebase和DB-Pedia)不同的是,Wikipedia包括人們關(guān)心的最新的知識,并且是為人類的閱讀(而不是為機器)設(shè)計的。

采用Wikipedia的文章作為知識源來做問答(QA),需要同時解決2個挑戰(zhàn):一個是大規(guī)模開放領(lǐng)域的問答,一個是機器對文本的理解。

為了能夠回答任何問題,系統(tǒng)首先要從500萬篇文章中找到少量相關(guān)的文章,然后仔細(xì)的掃描這幾篇文章來找到答案。我們把這個定義為machine reading at scale(MRS)。我們的工作把Wikipedia視為文章的集合,而不考慮他們內(nèi)在的圖結(jié)構(gòu)。這樣,我們的方法可以更加通用化,可以用于一系列書、文檔甚至是每天更新的報紙新聞。

像IBM的DeepQA這樣大規(guī)模的問答系統(tǒng),它的回答依賴于各種不同的知識源:除了Wikipedia,還用到KBs,字典甚至新的文章以及書等等。因此,系統(tǒng)回答的正確性嚴(yán)重依賴于在多個知識源中的信息冗余。只有一個知識源的條件下,迫使我們模型在掃描文章的時候,需要非常的精確仔細(xì),因為有些答案的線索可能只出現(xiàn)一次。這樣的挑戰(zhàn),也因此推動了機器閱讀能力(機器理解的子領(lǐng)域)的研究以及諸如SQuAD、CNN/Daily Mail、CBT這樣的數(shù)據(jù)集的建立。

然而,這些數(shù)據(jù)集都是假設(shè)已經(jīng)有一小段的相關(guān)文本已經(jīng)提供給模型了,這在構(gòu)建開放領(lǐng)域的問題系統(tǒng)中是不現(xiàn)實的。與此形成鮮明對比的是,基于知識庫或者在文檔中采用信息檢索的方法,必須將搜索的結(jié)果作為解法的一部分。而MRS是在海量開放知識源中檢索的現(xiàn)實條件(并沒有作非常理想化的假設(shè))下來做機器理解(需要對文本的深度理解)。

在本文中,我們會展示如何使用多個現(xiàn)有的QA數(shù)據(jù)集來評估MRS(通過開放領(lǐng)域的系統(tǒng)在全部已有的QA數(shù)據(jù)集上回答問題)。我們開發(fā)了DrQA系統(tǒng),它基于Wikipedia的強大的QA系統(tǒng),其組成包括:(2)Document Reader,基于多層RNN的機器理解模型,用于挖掘Document Retriever的文章小集合中的答案范圍。圖1給出了DrQA系統(tǒng)的圖示。

(1)Document Retriever,采用bigram hashing以及tf-idf匹配實現(xiàn),該模塊主要用于給定一個question之后,快速找到相關(guān)的文章的一個小集合;

(2)Document Reader,基于多層RNN的機器理解模型,用于挖掘Document Retriever的文章小集合中的答案范圍。圖1給出了DrQA系統(tǒng)的圖示。

我們的實驗表明,Document Retriever比Wikipedia內(nèi)置的搜索引擎效果好,Document Reader可以達(dá)到目前最好的SQuAD水準(zhǔn)。最后,我們整個系統(tǒng)是用多個benchmark來評估的。特別是,相比于單任務(wù)的訓(xùn)練,采用多任務(wù)以及distant supervision方法,其表現(xiàn)在所有數(shù)據(jù)集上都有所提高。?

2

圖一

2.相關(guān)工作

根據(jù)每年舉行的TREC比賽的設(shè)定,開放領(lǐng)域的QA最開始是被定義為在非結(jié)構(gòu)化文檔中尋找答案。隨著KB的發(fā)展(比如WebQuestions,SimpleQuestions,又比如自動抽取的KBs,OpenIE triples 和 NELL),最近基于KB的QA有了許多新的改進(jìn)。然而,KB固有的局限(不夠完整以及固定的數(shù)據(jù)格式)促使研究人員回歸到最初的設(shè)定,即從原始數(shù)據(jù)中去尋找答案。

重新審視這個問題的第二個動機,是因為隨著最近新的深度學(xué)習(xí)框架的出現(xiàn)(比如attention-based and memory-augmented neural networks以及新的訓(xùn)練評測數(shù)據(jù)集的開放,這些數(shù)據(jù)集包括QuizBowl,包含新聞文章的CNN/Daily Mail,包含兒童書的CBT以及基于Wikipedia的WikiReading和SQuAD),機器的文本閱讀理解(比如通過閱讀一小段文本或者故事來回答問題)有了長足的進(jìn)步。本文的目的是想測試下這些新方法在開放領(lǐng)域的QA中表現(xiàn)如何。

采用Wikipedia作為知識源的QA之前已經(jīng)有過嘗試。Ryu et al. (2014) 實驗過只采用Wikipedia的模型,他們將文章內(nèi)容和其他多個基于不同類型的半結(jié)構(gòu)化知識(比如信息框,文章結(jié)構(gòu),類別結(jié)構(gòu),定義等)實現(xiàn)的答案匹配模塊結(jié)合在一起使用。類似的,Ahn et al. (2004) 將Wikipedia和其他的文檔一起檢索來使用。Buscaldi and Rosso (2006)也嘗試在Wikipedia中挖掘知識。他們沒有將其作為尋找問題答案的知識源,而是用它來驗證QA返回的結(jié)果的正確性。并使用Wikipedia分類來確定一組符合預(yù)期答案的模式。在我們的工作中,我們只考慮文本的理解,并且只用了Wikipedia作為唯一的知識源,以便將重點放在大規(guī)模的閱讀理解上。

許多發(fā)展多年的完整的QA處理方法流不是用Web數(shù)據(jù)(QuASE),就是用Wikipedia的數(shù)據(jù)(Microsoft的AskMSR,IBM的 DeepQA,YodaQA),后者是開源,因此可以復(fù)現(xiàn)用于比較效果。AskMSR是一個基于搜索引擎的QA系統(tǒng),它依賴于“數(shù)據(jù)冗余而不是對問題或候選答案進(jìn)行復(fù)雜的語言學(xué)分析”,也就是說,它不像我們一樣專注于機器理解。DeepQA是一個非常復(fù)雜的系統(tǒng),它依賴于包括文本文檔在內(nèi)的非結(jié)構(gòu)化信息以及諸如KB,數(shù)據(jù)庫和本體的結(jié)構(gòu)化數(shù)據(jù)來生成候選答案或?qū)ψC據(jù)進(jìn)行投票。YodaQA是以DeepQA為藍(lán)本的開源系統(tǒng),同樣結(jié)合使用網(wǎng)站、信息提取、數(shù)據(jù)庫和Wikipedia。相比于這些方法,我們的閱讀理解由于使用的是單個知識源,因此更具挑戰(zhàn)性。

在機器學(xué)習(xí)以及NLP中,多任務(wù)學(xué)習(xí)以及任務(wù)遷移有著豐富的歷史。有些工作試圖通過多任務(wù)學(xué)習(xí)將多個QA訓(xùn)練集合并到一起,這樣,

(1)通過task transfer實現(xiàn)跨數(shù)據(jù)集的提升;

(2)提供一個通用的系統(tǒng),可以回答不同類型的問題,因為答案不可避免的分布在不同的數(shù)據(jù)集上。

Fader et al. (2014)用WebQuestions、TREC和WikiAnswers作為評測,以四個知識庫作為知識來源,通過多任務(wù)學(xué)習(xí)在后兩個數(shù)據(jù)集上獲得了提升。Bordes et al. (2015)以Freebase作為知識源采用 distant supervision合并了WebQuestions和SimpleQuestions,結(jié)果顯示在兩個數(shù)據(jù)集上都是略微提升,但是只采用一個訓(xùn)練,另一個作為測試的話,結(jié)果卻很差,這說明task transfer確實是非常有挑戰(zhàn)性的任務(wù)。(Kadlec et al., 2016)也得到類似的結(jié)論。我們的工作也是類似的想法,不過做了特別的限制,必須先檢索,再理解,而不是用KB直接取一個好的結(jié)果。

3.Facebook的DrQA系統(tǒng)

下面我們將介紹Facebook的系統(tǒng)DrQA,主要由兩部分組成:

(1)Document Retriever模塊,用于找到相關(guān)的文章

(2)Document Reader模塊,機器理解模型,用于從單個或小集合的,文檔中抽取答案

1

Document Retriever

參考傳統(tǒng)的QA系統(tǒng),我們采用非機器學(xué)習(xí)的文本檢索系統(tǒng)來縮小我們的檢索范圍,然后把注意力集中在這些可能相關(guān)的文章閱讀理解來尋找答案。相比于內(nèi)置的基于ElasticSearch的Wikipedia Search API,簡單的倒排查詢結(jié)合term vector model打分的效果在很多類型的問題上的效果要更好。文章和問題通過tf-idf作為權(quán)重的bag-of-word向量來衡量相關(guān)性。后來我們通過加入n-gram特征,把小范圍的詞序考慮進(jìn)來,進(jìn)一步改進(jìn)系統(tǒng)。我們最好的系統(tǒng)是用bigram計數(shù)以及(Weinberger et al., 2009)提出的哈希方法(用murmur3 hash將bigram映射到224個bin中),同時保留了速度和內(nèi)存的效率。

我們采用Document Retriever作為整個系統(tǒng)的第一部分,對任何問題,設(shè)定返回5篇Wikipedia的文章。這些文章在后續(xù)的Document Reader進(jìn)行處理。

2

Document Reader

我們的Document Reader是受最近神經(jīng)網(wǎng)絡(luò)模型在機器閱讀理解方面的優(yōu)異表現(xiàn)而啟發(fā),其思想跟(Hermann et al., 2015;Chen et al., 2016)提出的AttentiveReader是非常相似的。

給定一個含有l個token的問題?q

和包含n個段落的文檔集合,其中單個段落 p 包含m個token,

w我們開發(fā)了一個RNN模型,然后依次應(yīng)用到每個段落上,最后聚合所有的預(yù)測結(jié)果。我們的方法是這樣工作的:

段落編碼

首先我們把段落中的所有token pi 表示成特征向量序列e

然后作為RNN的輸入,得到如下表示:r其中,pi希望是可以將token pi的上下文信息編碼進(jìn)去。我們采用多層雙向LSTM,然后在每層的隱藏單元最后串聯(lián)pi

特征向量t包含以下幾部分:

y

我們用840B網(wǎng)上爬來數(shù)據(jù)訓(xùn)練得到300維的Glove word embedding。大部分的訓(xùn)練完的word embedding保持不變,僅僅對最常用的1000個問題中包含的詞進(jìn)行優(yōu)化,因為像what,how,which,many等這些詞對QA系統(tǒng)來說非常重要。

完全匹配:?u

我們用3個簡單的二值特征,表示段落中的pi是否可以完全匹配question中的某個詞q,不管是原始,小寫或者lemma形式,這些簡單的特征在實驗中效果非常顯著,在第五部分將會看到。

Token特征:

i

我們也增加了一些人工的特征,這些特征能夠反映token的一些上下文信息,包括詞性,命名實體名以及詞頻。

Aligned question embedding:

參考(Lee et al., 2016)以及其他最近的工作,最后一部分加入的是aligned question embedding:?

o

s

特別的,d的計算方式是word embedding的非線性映射的點乘:
f

g是一個ReLU非線性的單稠密層。跟完全匹配的特征相比,這些特征給意思相似但不同的詞加入了平滑的對齊。

問題編碼

問題的encoding簡單很多,我們只需要在所有詞向量h上應(yīng)用RNN,然后把隱層單元合并到一個向量中去:j,q的具體計算為k,其中l編碼了每個詞的重要性信息,我們用如下方式計算q:z

其中,w是需要學(xué)習(xí)的權(quán)重向量。

預(yù)測
在段落層面,我們的目標(biāo)是預(yù)測哪些范圍里面的詞很有可能是答案。以段落向量x以及問題q作為輸入,簡單的訓(xùn)練2個獨立的分類器來預(yù)測范圍的兩端。具體做法是,我們用雙線性項來捕捉c
q的相似度并且計算每個詞作為開始和結(jié)束的可能性:為了使打分可以兼容多個檢索文檔的段落,我們采用非歸一化的指數(shù),然后在所有候選段落里拿使分?jǐn)?shù)最大的token范圍。v?

b

為了使打分可以兼容多個檢索文檔的段落,我們采用非歸一化的指數(shù),然后在所有候選段落里拿使分?jǐn)?shù)最大的token范圍。

4 數(shù)據(jù)

我們的工作依賴于三種類型的數(shù)據(jù):

(1)Wikipedia作為尋找答案的知識源。

(2)SQuAD數(shù)據(jù)集,作為訓(xùn)練Document Reader的主要數(shù)據(jù)源

(3)除了SQuAD之外,還用了CuratedTREC, WebQuestions和WikiMovies三個數(shù)據(jù)集來測試我們整個問答系統(tǒng)的能力,以及評估我們模型對于多任務(wù)學(xué)習(xí)以及distant supervision的學(xué)習(xí)能力。數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)見后面的表2。

 

1

Wikipedia

我們用的是2016-12-21版的Wikipedia全量英文數(shù)據(jù)作為回答問題的知識源。對每一頁,我們僅抽取純文本,列表以及圖片信息會被過濾掉。在丟棄了了內(nèi)部消歧、列表、索引和概要頁面之后,我們保留了5,075,182篇文章,包含9,008,962個獨特的未定義的token類型。

2

?SQuAD

SQuAD(The Stanford Question Answering Dataset)是一個基于Wikipedia的用于機器閱讀理解的數(shù)據(jù)集。該數(shù)據(jù)集包含87000個訓(xùn)練樣例以及10000個開發(fā)樣例。每個樣例包括從一篇Wikipedia文章中抽取的段落以及相關(guān)的人為編寫的問題。答案永遠(yuǎn)是在段落中的某一部分,如果模型預(yù)測的答案匹配上了,就會給予肯定。目前用了2個評估指標(biāo):EM(字符完全匹配)和F1 score,衡量了token級別的加權(quán)平均后的準(zhǔn)確和召回率。

接下來,在給定的相關(guān)段落中,(相關(guān)段落的定義可以參考Rajpurkar et al.,2016),我們用SQuAD來訓(xùn)練以及評估我們的Document Reader。對于基于Wikipedia的開放領(lǐng)域的問題,我們只用SQuAD數(shù)據(jù)集的開發(fā)集合中的QA對,我們要求系統(tǒng)在沒有相關(guān)段落的情況下找到正確答案的范圍,也就是模型的查找范圍是整個Wikipedia,而不是標(biāo)準(zhǔn)SQuAD數(shù)據(jù)集中的相關(guān)段落。

3

?開放領(lǐng)域QA的評測資源

SQuAD是目前最大的通用QA數(shù)據(jù)集。SQuAD的問題收集過程是通過給人展現(xiàn)一個段落,然后人工編寫的。這樣這些問題的分布是非常特殊的。因此,我們計劃在其他數(shù)據(jù)集上來訓(xùn)練和評估我們開放域的QA系統(tǒng),這些數(shù)據(jù)集可以是不同的方式構(gòu)建的(不一定是從維基百科尋找回答)。

CuratedTREC?

這個數(shù)據(jù)集是TREC QA任務(wù)中,Baudiˇs and ˇ Sediv`y (2015)定下的benchmark收集的。我們用的大的版本,包含從TREC1999, 2000, 2001 and 2002中抽取的2180個問題。

WebQuestions

在(Berant et al.,2013)有介紹。這個數(shù)據(jù)集是用于Freebase作為知識源來回答問題。它是用Google suggest API來爬取問題,然后用Amazon Mechanical Turk來回答問題。我們使用實體名稱將每個答案轉(zhuǎn)換為文本,以便數(shù)據(jù)集不需要引用Freebase ID,純粹由純文本問題答案對組成。

WikiMovies

在(Miller et al., 2016)有介紹。包含96,000個電影相關(guān)的問題答案對。最開始是從OMDb和MovieLens數(shù)據(jù)集中創(chuàng)建的,這些樣例的構(gòu)建是為了驗證只采用Wikipedia中標(biāo)題和第一部分包含電影的文章作為知識源的時候,也可以回答問題。

4

Distantly Supervised Data

上面提供的所有QA數(shù)據(jù)集都包含訓(xùn)練數(shù)據(jù),但CuratedTREC,WebQuestions和WikiMovies只包含問答對,而不是像SQuAD中有關(guān)聯(lián)文檔或段落,因此不能用于直接訓(xùn)練Document Reader。借鑒(Mintz et al., 2009)之前的用distant supervision (DS)來抽取關(guān)系的工作,我們寫了個方法,將段落自動關(guān)聯(lián)到這些訓(xùn)練樣例,然后將這些示例添加到我們的訓(xùn)練集中。?

3

表1

方法如下:

首先,我們運行Document Retriever檢索得到跟question相關(guān)的top 5篇Wikipedia文章。文章的段落中沒有完全包含答案的丟棄,字符少于25或者多于1500個字符的段落丟棄。問題中包含命名實體的,如果在段落中不包含該實體的,丟棄。對剩下的所有段落,我們對匹配到答案的所有位置,用一個大小為20個token的窗口來跟question做unigram和bigram計算重疊度來進(jìn)行打分,保留分?jǐn)?shù)最高的5個段落。如果都是非0重疊的段落,那么這個樣例丟棄;否則就加到DS訓(xùn)練集中。表1給了一些例子,Table2給出了統(tǒng)計數(shù)據(jù)。

SQuAD生成額外的DS數(shù)據(jù),尋找答案的范圍,我們不僅可以是在已提供的段落中,也可以在該段落同一頁或者不同頁。我們觀察到大約一半的DS樣例都來自SQuAD中使用的文章以外的頁面。?

6

表 2

5 實驗

這部分,我們首先給出Document Retriever以及Document Reader單獨的評測結(jié)果,然后再給出結(jié)合使用后,DrQA的評測結(jié)果。

7

表3

1

?找到相關(guān)的文章

我們首先測試了Document Retriever 模塊在所有QA數(shù)據(jù)集上的表現(xiàn)。如表 3所示,我們對比了3.1章節(jié)中描述的另外兩種辦法(用Wikipedia Search Engine檢索包含答案的文章)。具體而言,我們計算了系統(tǒng)返回top5個頁面中至少有一個包含正確答案的比例,結(jié)果顯示我們這個簡單的方法在所有數(shù)據(jù)集上都要比Wikipedia Search的效果好,尤其是采用了bigram hashing之后。我們同樣對比了Okapi BM 25以及采用bag-of-word詞向量計算余弦距離的方法,兩者的效果都比我們的方法差。

?4

表 4

2

Reader在SQuAD上的評測

接下來,我們在標(biāo)準(zhǔn)SQuAD數(shù)據(jù)集上,對Document Reader模塊進(jìn)行評估。

評估細(xì)節(jié):我們用3層128個隱層單元的雙向LSTM對段落和問題encoding,用Stanford CoreNLP toolkit工具包進(jìn)行分詞,生成詞根、詞性、命名實體識別

最后,所有的訓(xùn)練樣例根據(jù)段落長度排序,然后根據(jù)每組32個來分組。我們采用(Kingma and Ba,2014)提到Adamax來進(jìn)行優(yōu)化。將p = 0.3的應(yīng)用于word embedding和LSTM的所有隱藏單元。

結(jié)果和分析:表 4展示了我們在開發(fā)集和測試集上的評測結(jié)果。SQuAD自創(chuàng)建以來一直是一個非常有競爭力的benchmark,表中我們僅羅列了系統(tǒng)的最佳表現(xiàn)的數(shù)據(jù)。我們的系統(tǒng)在測試集上可以達(dá)到70.0%完全匹配以及79.0% F1 scores。截止本文寫作的時候,我們的系統(tǒng)超過所有公布的結(jié)果,并且可以跟SQUAD排行榜上的最佳算法匹敵。并且,我們覺得我們的模型比絕大多數(shù)的系統(tǒng)要簡單。我們對段落token的特征向量進(jìn)行斷融分析。如表5所示,所有的特征對我們系統(tǒng)最終的效果都有幫助。去掉對齊的question embedding feature,我們系統(tǒng)依然能打到超過77%的F1 score。但是,如果同時去掉qqww,系統(tǒng)的效果就會差很多。

所以我們得出這樣的結(jié)論:這兩個特征在問題的本質(zhì)釋義以及答案的上下文的特征表達(dá)上起到類似但相互補充的作用。?

5

表 5

3

全量FullWikipedia問答

最后,我們對整個系統(tǒng)DrQA(面向開放領(lǐng)域的QA系統(tǒng))在第4章節(jié)中介紹的4個數(shù)據(jù)集上進(jìn)行了評測。我們分別試了3個版本的DrQA來評估采用distant supervision以及跨訓(xùn)練集的多任務(wù)學(xué)習(xí)帶來的影響:

【多任務(wù)學(xué)習(xí)的影響】

1.SQuAD:Document Reader模型只用SQuAD作為訓(xùn)練集,其他的數(shù)據(jù)集用來評估測試

2.Fine-tune (DS):Document Reader模型先在SQuAD上訓(xùn)練,然后分別用其他數(shù)據(jù)集的distant supervision (DS)訓(xùn)練集來進(jìn)行優(yōu)化

3.Multitask (DS):同時用SQuAD以及其他DS的訓(xùn)練集了訓(xùn)練Document Reader模型

對于整個Wikipedia,我們用了streamlined模型(沒有用CoreNLP解析的ww或者ee)。我們發(fā)現(xiàn),雖然這些特征在SQuAD上提供了精確段落情況下的閱讀有幫助,但是在整體系統(tǒng)中卻沒有實際的提升。此外,WebQuestions和WikiMovies提供了候選答案的列表(例如,用于WebQuestions的160萬個Freebase實體字符串),并且我們在預(yù)測期間限制答案范圍必須在此列表中。

結(jié)果: 表 6顯示了評測結(jié)果。與機器理解(給定了正確的段落)和沒有約束限制的QA(可以使用冗余資源)相比,我們的任務(wù)要困難許多,盡管如此,DrQA仍然在所有的四個數(shù)據(jù)集中給出了合理的表現(xiàn)。

8

表6

我們感興趣的是,有一個系統(tǒng),單純使用Wikipedia作為知識源就可 以回答任何問題。僅使用SQuAD進(jìn)行訓(xùn)練的單一模型在四個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于使用distant supervision的多任務(wù)模型。然而,單獨在SQuAD上進(jìn)行訓(xùn)練時的表現(xiàn)并不差,表明任務(wù)轉(zhuǎn)移其實是有一定作用的。然而,從SQuAD到Multitask(DS)的大部分改進(jìn)可能并非來自任務(wù)遷移,因為使用DS對每個數(shù)據(jù)集單獨進(jìn)行優(yōu)化也有改進(jìn),表明這是在同一領(lǐng)域中引入額外數(shù)據(jù)是有幫助的。盡管如此,我們目前能找到的最佳模型就是多任務(wù)的DS系統(tǒng)。

我們跟之前已經(jīng)在CuratedTREC以及WebQuestions上發(fā)表過結(jié)果的無約束多知識源(不局限于Wikipedia)的QA系統(tǒng)YodaQA進(jìn)行比較。雖然我們的任務(wù)要困難許多,但是令人欣慰的是我們系統(tǒng)的表現(xiàn)并沒有比CuratedTREC(31.3 vs 25.4)差太多。在WebQuestions上差距表現(xiàn)的明顯一些,可能是因為YodaQA直接使用了WebQuestions基于的Freebase的結(jié)構(gòu)信息。

DrQA在SQuAD上的表現(xiàn)與其在表4中Document Reader在機器理解上的表現(xiàn)相比,出現(xiàn)大幅下降(從69.5到27.1),因為我們現(xiàn)在給的查找范圍是整個維基百科,而不是單個段落。如果給定正確的段落,我們的表現(xiàn)可以達(dá)到49.4,表明非常熱門的句子會帶來很多錯誤的候選段落。盡管Document Retriever表現(xiàn)得不錯(77.8%檢索到正確答案,參見表3)。 值得注意的是,大部分下降來自SQUAD問題本身。 它們是以特定的段落作為背景而寫的,因此當(dāng)去掉上下文后,它們的表述可能帶有歧義。 除了SQuAD以外,專門為MRS設(shè)計的其他資源可能還需要進(jìn)一步研究。

6 結(jié)論

我們研究了大規(guī)模數(shù)據(jù)的閱讀理解問題——僅使用Wikipedia作為唯一知識源來回答開放領(lǐng)域的問題。 我們的研究結(jié)果表明,MRS是研究人員關(guān)注的一項非常具有挑戰(zhàn)性的任務(wù)。 機器理解系統(tǒng)本身并不能解決整個問題。 為了提供了一個有效的完整系統(tǒng),我們的方法集成了搜索、distant supervision和多任務(wù)學(xué)習(xí)多項技術(shù)。 并且通過在多個benchmark上評估個別組件以及的完整系統(tǒng)顯示了我們方法的有效性。

未來的工作將主要集中在兩塊來提高我們的DrQA系統(tǒng):

1)Document Reader目前的訓(xùn)練是基于單獨的段落,未來在訓(xùn)練中,會直接多個相關(guān)段落或者文檔。

? ?2)訓(xùn)練端到端的Document Retriever和Document Reader管道流,而不是分開訓(xùn)練。

 

A

BOUT

關(guān)于作者

范雄雄,達(dá)觀數(shù)據(jù)推薦算法工程師。復(fù)旦大學(xué)計算機技術(shù)專業(yè)碩士,曾在愛奇藝BI部門開發(fā)多款大數(shù)據(jù)產(chǎn)品;對推薦系統(tǒng)、數(shù)據(jù)挖掘、用戶畫像、大數(shù)據(jù)處理有較深入的理解和實踐經(jīng)驗。

?