色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達(dá)觀NLP研討會(huì)大咖中科院劉康:文本到知識(shí),開放域知識(shí)抽取研究新進(jìn)展

在達(dá)觀數(shù)據(jù)舉辦的自然語言處理學(xué)術(shù)交流研討會(huì),有幸邀請(qǐng)到中科院自動(dòng)化所副研究員劉康老師前來作客活動(dòng)現(xiàn)場(chǎng),并和大家分享了《文本到知識(shí),開放域知識(shí)抽取研究新進(jìn)展》的主題報(bào)告。以下為現(xiàn)場(chǎng)分享內(nèi)容整理,內(nèi)容略有刪減。

1

大家好,我報(bào)告的題目是文本到知識(shí),開放域知識(shí)抽取新進(jìn)展。大家也意識(shí)到最近一段時(shí)期大家都在談?wù)撝R(shí)對(duì)我們有什么用,各行各業(yè)都在探討如何構(gòu)建知識(shí)圖譜,幫助我們?cè)谧匀徽Z言處理領(lǐng)域上理解得更加精準(zhǔn),可以上升到以后的推理方面的相關(guān)內(nèi)容。

?

先舉個(gè)例子來看看知識(shí)對(duì)自然語言處理有什么用。比如說外交部發(fā)言人華春瑩講的孟晚舟事件是引渡條約濫用,敦促美方糾正。機(jī)器是否能夠理解話并且正確回答問題呢?

?

已有的處理方式都是做分詞、標(biāo)注、實(shí)體識(shí)別。識(shí)別出華春瑩是誰,孟晚舟是什么樣的事件,實(shí)際上我們需要外界知識(shí)輔助我們。我們知道句子中的“外交部”是指中國外交部不是美國外交部,我們知道華春瑩是外交部發(fā)言人。我們知道孟晚舟事件,我們也知道條約具體內(nèi)容指什么,美方可能指美國政府。這樣才能把知識(shí)串聯(lián)起來幫助我們理解這句話的意思。

???

2


除此之外,我們要回答這句話也要有一些常識(shí),比如說一個(gè)國家外交部敦促另外一個(gè)國家的時(shí)候,一般是立場(chǎng)持反對(duì)立場(chǎng)。這樣才能幫助我們正確回答問題。

?

我們現(xiàn)在所做的知識(shí)不是特別全,我們需要實(shí)體知識(shí),這是我們做的最多的,包括各個(gè)行業(yè)需要建立實(shí)體的關(guān)聯(lián)。除此之外我們需要有事件知識(shí)或場(chǎng)景知識(shí),在各行各業(yè)、各個(gè)場(chǎng)景下,需要制定場(chǎng)景知識(shí)。比如完成定機(jī)票的任務(wù),這個(gè)場(chǎng)景下需要提供用戶信息:目的地、身份證號(hào)、時(shí)間、地點(diǎn)、航班公司等。這些就是一些場(chǎng)景知識(shí)。

?

更重要的是常識(shí)知識(shí),常識(shí)知識(shí)是在大量的文本中,目前來說對(duì)于常識(shí)怎么解釋仍然是科學(xué)研究中面臨的問題,還沒有很好的方法把這些常識(shí)精準(zhǔn)地表現(xiàn)出來,更不要說把這些常識(shí)提取出來。

?

從我個(gè)人來說知識(shí)圖譜和知識(shí)有區(qū)別,知識(shí)圖譜是知識(shí)的一種表示形式,是由描述實(shí)體間關(guān)系的三元組構(gòu)成的知識(shí)網(wǎng)絡(luò)。具體而言,是把非結(jié)構(gòu)化的文本知識(shí)結(jié)構(gòu)化。如果知識(shí)圖譜可以理解成一個(gè)數(shù)據(jù)的話,可以說這個(gè)數(shù)據(jù)是一個(gè)學(xué)習(xí)型的。

?

3

谷歌提出Knowledge Graph的概念,往前看更多的是研究知識(shí)定義方面的內(nèi)容。目前圖譜基本定義是由一些關(guān)系確定的,通過這樣的表述對(duì)一些事實(shí)信息有結(jié)構(gòu)化的描述。

?

正如前面所述,知識(shí)圖譜的基本組成單位是三元組。如:奧巴馬和米歇爾是夫妻關(guān)系,用三元組的形式來表示這個(gè)知識(shí)則為:奧巴馬-夫妻關(guān)系-米歇爾,這個(gè)三元組也構(gòu)成了知識(shí)圖譜中的一條邊。

?4

應(yīng)用知識(shí)圖譜的第一步是構(gòu)建知識(shí)圖譜。構(gòu)建知識(shí)圖譜的重點(diǎn)在于三元組抽取,即FactualTriplets Extraction。

 

5

我們有一些文本,然后把它們標(biāo)注成序列樣本,再之后通過一些模型做一個(gè)抽取器,用抽取器把文本信息自動(dòng)抽取出來。

?

模型的特征能否自動(dòng)抽取,減少人工參與?同時(shí)在數(shù)據(jù)標(biāo)注方面,不可能每個(gè)不同領(lǐng)域都去標(biāo)注數(shù)據(jù),有沒有自動(dòng)的方法可以本身我們獲取更多的標(biāo)注數(shù)據(jù)?

?

首先看模型,五年前傳統(tǒng)的方法已經(jīng)不再用了,現(xiàn)在基本上是用神經(jīng)網(wǎng)絡(luò)方法來學(xué)習(xí)語言的表示,包括識(shí)別的方法。

 

6

這個(gè)表是兩年前的,可能現(xiàn)在數(shù)據(jù)比這個(gè)更高,神經(jīng)網(wǎng)絡(luò)方法比傳統(tǒng)方法效果更好,而且是雙向的,在抽取方面達(dá)到最好。信息網(wǎng)絡(luò)研究有幾個(gè)關(guān)注點(diǎn),第一個(gè)關(guān)注點(diǎn)是怎樣更多獲取信息幫助理解這些話的內(nèi)容。上面一些句法信息、語言信息能夠嵌入神經(jīng)網(wǎng)絡(luò)。最新的研究是基于圖的神經(jīng)網(wǎng)絡(luò),幫助捕獲更多的信息,幫助更加精準(zhǔn)的學(xué)習(xí)句子的語義。


 

 

學(xué)習(xí)過程中,怎樣更加捕捉句子背后的知識(shí),或者外部已有的知識(shí)如何嵌入神經(jīng)網(wǎng)絡(luò)中,幫助學(xué)習(xí)文本表示或者句子的語義。

 

7

 

舉這個(gè)例子,這個(gè)句子,如果我事先已經(jīng)知道芝加哥是一個(gè)城市,United States是一個(gè)國家。在訓(xùn)練過程中,通過對(duì)抗過程,嵌入到表示中去。

?

在訓(xùn)練數(shù)據(jù)生成,大家做過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的可能知道,數(shù)據(jù)的規(guī)模和質(zhì)量對(duì)效果的影響要大于模型本身,或者說用遠(yuǎn)程監(jiān)督方法產(chǎn)生大量數(shù)據(jù)。舉個(gè)例子,已有這樣紀(jì)錄,現(xiàn)在想抽取更多信息,應(yīng)該用回標(biāo)方法產(chǎn)生大量數(shù)據(jù)。當(dāng)然這樣的方法,可能會(huì)回標(biāo)錯(cuò)誤。

?

既然訓(xùn)練數(shù)據(jù)是有噪聲的,怎樣在有噪聲的數(shù)據(jù)下用一些學(xué)習(xí)算法,減少訓(xùn)練模型的影響?

?

8

目前是這三大類的方法,第一類是Multi-instance learning,比如說回標(biāo)產(chǎn)生很多新數(shù)據(jù),也可以把馬云阿里巴巴可以標(biāo)出很多數(shù)據(jù),包括馬化騰和騰訊也有很多樣本。Multi-instance learning就是選擇一個(gè)樣本訓(xùn)練更新好的參數(shù),這樣那些噪聲可能會(huì)被域掉。

后面還有Attention Models和Reiforcement learning,即每次參與訓(xùn)練的時(shí)候只有一個(gè)樣本參與訓(xùn)練。Reiforcementlearning一個(gè)比較小的權(quán)重,訓(xùn)練模型還是有一些影響的。能不能把對(duì)的樣本挑出來,Reiforcement learning用強(qiáng)化的過程中自動(dòng)選擇它認(rèn)為對(duì)的樣本?,F(xiàn)在看到的知識(shí)抽取,基本上是訓(xùn)練數(shù)據(jù)和模型選擇上,就這兩大類的想法。

?

后面我們自己做的工作和我自己最近的一些思考。我們想把模型更往實(shí)用化角度做,傳統(tǒng)做關(guān)系抽取或者說三元組抽取,往往經(jīng)歷兩個(gè)步驟。

?

9

比如上圖這句話,我們要抽取這個(gè)三元組,第一步要做實(shí)體知識(shí)識(shí)別,第二步采取關(guān)系抽取,來判斷這兩個(gè)實(shí)體之間滿足什么關(guān)系。這樣做可能會(huì)有一個(gè)錯(cuò)誤,實(shí)體識(shí)別不一定百分之百準(zhǔn)確,關(guān)系抽取也不一定百分之百準(zhǔn)確。是否一種方法把實(shí)體識(shí)別和關(guān)系抽取同時(shí)進(jìn)行?這樣可能會(huì)更加實(shí)用化。

 

10

 

我們?cè)诤芏嗑渥掷锊粌H僅有一個(gè)三元組,可能會(huì)有多個(gè)三元組,而且三元組中間可能有重疊現(xiàn)象。比如第二句話這兩個(gè)三元組可能有兩個(gè)關(guān)系,多三元組的情況下,如果進(jìn)行很好的抽?。窟@是我們需要考慮的一個(gè)問題。

?

所以我們要考慮兩個(gè)問題:第一個(gè)問題能不能把句子的實(shí)體和關(guān)系聯(lián)合抽?。康诙€(gè)問題,如何把句中多個(gè)三元組進(jìn)行一次性的抽取?

 

11

根據(jù)句子中三元組是否存在重疊,可以分為三類:第一類為Normal,無三元組重疊;第二類是Entity Pair Overlap,實(shí)體對(duì)的重疊,句子描述了一對(duì)實(shí)體間的兩個(gè)關(guān)系;第三類是Single Entity Overlap,單實(shí)體重疊,句子描述了兩個(gè)三元組,兩個(gè)三元組存在公用實(shí)體。

?

最常見的傳統(tǒng)方法先抽取實(shí)體,再識(shí)別關(guān)系。但是我只是訓(xùn)練過程中用一些方法把這兩個(gè)任務(wù)放在一起。抽取過程中還是先抽取實(shí)體,再抽取關(guān)系。

?

2017年有一個(gè)最新工作,是把這個(gè)任務(wù)看成序列標(biāo)注的任務(wù),就是一句話給每個(gè)詞打標(biāo)簽,這些標(biāo)簽體現(xiàn)了一些結(jié)構(gòu)。

 

12

比如說這句話,有兩個(gè)三元組,第一個(gè)三元組是川普是美國總統(tǒng)。第二個(gè)三元組是蘋果這段。會(huì)打一些標(biāo)簽,這些標(biāo)簽是說同時(shí)把這種實(shí)體識(shí)別和關(guān)系抽取放到一起做。比如說B-CP-1,另外一個(gè)是表示E-CP-1,B表示一個(gè)實(shí)體開始,CP表示這之間的關(guān)系,1表示某一個(gè)三元組的第一個(gè)實(shí)體。后面的川普會(huì)打S-CP-2,S表示當(dāng)前這個(gè)詞是單獨(dú)的實(shí)體,CP也是這之間的關(guān)系,2表示是某一個(gè)三元組的第二個(gè)實(shí)體。

 

13

運(yùn)用這樣的方法把一些句子全部系列化標(biāo)注,把實(shí)體關(guān)系抽取出來,這樣可以解決多個(gè)三元組抽取的難點(diǎn)問題。這樣的問題帶來的難點(diǎn)問題是什么?比如不能解決一些Overlap的一些問題。

14

自動(dòng)從自然語言句子中把三元組生出來,帶來的好處是可以用大量的數(shù)據(jù)進(jìn)行訓(xùn)練。比如說這樣一句話,分成兩個(gè)階段,第一個(gè)階段是Encoder,在這個(gè)Encoder可以把三元組依次生成,先生成第一個(gè)三元組,有三個(gè)節(jié)點(diǎn),第一個(gè)節(jié)點(diǎn)生產(chǎn)關(guān)系,第二個(gè)節(jié)點(diǎn)生產(chǎn)實(shí)體,第三個(gè)節(jié)點(diǎn)生成實(shí)體2。然后再生成第二個(gè)三元組。當(dāng)進(jìn)入NA的階段,就代表結(jié)束了。用這樣的方法完全可以解決Overlap。

 

15

具體怎么做?這里設(shè)計(jì)了兩種,一種是OneDecoder,第二種是MultiDecoder。這樣不斷的簡(jiǎn)單迭代、生產(chǎn)。簡(jiǎn)單看一下結(jié)果,有兩個(gè)數(shù)據(jù)上做了這個(gè)實(shí)驗(yàn)。

 

1617

 

我們?cè)诓煌愋偷腛verlap上做了不同的實(shí)驗(yàn),只有一個(gè)三元組的時(shí)候比傳統(tǒng)的下降,但是有多個(gè)三元組的時(shí)候,我們這個(gè)方法就有顯著優(yōu)勢(shì)。不斷生成三元組,有一個(gè)問題,這兩個(gè)三元組,應(yīng)該首先生成哪個(gè)三元組會(huì)帶來更好的效果?這是這樣的問題。我們有一些簡(jiǎn)單策略,比如說可以隨機(jī)生成,也可以按照字母排序生成,也可以按照關(guān)系出現(xiàn)的頻率,先把高頻關(guān)系生成,再生成低頻關(guān)系。

 

18

 

我們用了一個(gè)Reinforcement learning的方法讓系統(tǒng)自動(dòng)的選擇三元組。Action有兩種,一種是到某一節(jié)點(diǎn)Action生成的關(guān)系。到第二節(jié)點(diǎn)是生成的實(shí)體。

 

192021

看一下最后的實(shí)驗(yàn)結(jié)果,第一個(gè)是CNN方法,確實(shí)能夠自動(dòng)優(yōu)化,學(xué)到一些生成的順序。包括一些按照頻率生成的來說我們模型能夠代表更大的優(yōu)勢(shì)。我第一個(gè)是在SPM上的模型上測(cè)的,直接換成GRU模型,得到了這樣的結(jié)論。

?

一句話里面如果只含有一個(gè)三元組的話,我們這種方法是會(huì)有所下降,如果有多個(gè)三元組的話,這個(gè)方法會(huì)有非常大的提升。

?

今天主要是給大家介紹了我們自己做的三元組抽取方法,實(shí)驗(yàn)證明這種方法確實(shí)有效,而且能夠進(jìn)行學(xué)習(xí)的。

 

22

 


 

這張圖片是我們自己的一些思考。現(xiàn)在更大挑戰(zhàn)是如何把符號(hào)系統(tǒng)和神經(jīng)網(wǎng)系統(tǒng)緊密結(jié)合在一起,能否在神經(jīng)網(wǎng)絡(luò)計(jì)算的基礎(chǔ)上實(shí)現(xiàn)符號(hào)計(jì)算這可能是未來神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)科學(xué)式的有效途徑。