色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

復(fù)旦大學(xué)邱錫鵬教授等人提出中文分詞新方法,Transformer連有歧義的分詞也能學(xué)

頭圖gif

 

近日復(fù)旦大學(xué)邱錫鵬教授等研究者提出新型分詞方法,只有能 Cover 多個分詞標(biāo)準(zhǔn)和最新 Transformer 的方法,才是好的中文分詞方法。

 

從不同的角度看待中文句子,可能使中文分詞任務(wù)(CWS)的標(biāo)準(zhǔn)完全不同。例如「總冠軍」既可以看成獨立的詞,也能理解為「總」和「冠軍」兩個詞。以前這種情況非常難解決,我們只能定一些字典或規(guī)則來加強(qiáng)這些詞的劃分。

 

但這些應(yīng)該是分詞模型應(yīng)該要學(xué)的呀,我們不能只關(guān)注分詞模型在單一標(biāo)準(zhǔn)中的表現(xiàn),還需要關(guān)注不同分詞標(biāo)準(zhǔn)中的共同特性。這些共同特性才是模型需要重點學(xué)習(xí)的,它們能構(gòu)建更合理的分詞結(jié)果。

 

鑒于這一點,復(fù)旦大學(xué)提出了一個簡潔而有效的模型,它能適用于多種中文分詞標(biāo)準(zhǔn)。這種模型使用共享的全連接自注意力機(jī)制,從而能根據(jù)不同的標(biāo)準(zhǔn)進(jìn)行分詞。

 

研究者已經(jīng)在八個數(shù)據(jù)集上測試了這種基于 Transformer 的中文分詞,它天然使用了多個分詞評價標(biāo)準(zhǔn)。結(jié)果說明,與單一標(biāo)準(zhǔn)的學(xué)習(xí)不同,每個語料上的表現(xiàn)都得到了顯著提升。

 

論文:Multi-Criteria Chinese Word Segmentation with Transformer

?

論文地址:https://arxiv.org/pdf/1906.12035.pdf

 

中文分詞難在什么地方

和英語不同,中文句子由連續(xù)的漢字構(gòu)成,詞語之間缺乏明顯的分界線。由于詞語被認(rèn)為是最小的語義單位,因此中文分詞任務(wù)十分重要。關(guān)于中英兩種語言對自然語言處理的差異可參考達(dá)觀數(shù)據(jù)創(chuàng)始人陳運文的文章中文對比英文自然語言處理NLP的區(qū)別綜述》。

目前中文分詞效果最佳的方法是監(jiān)督學(xué)習(xí)算法,它們將中文分詞任務(wù)視為基于漢字的序列標(biāo)注問題。在這個問題中,每個漢字都有對應(yīng)的標(biāo)簽,用于表示詞和詞之間的分界信息。

 

然而,構(gòu)建高質(zhì)量的帶標(biāo)注中文分詞語料面臨兩個挑戰(zhàn)。首先,標(biāo)注需要語言學(xué)專家,成本高昂。其次,現(xiàn)有幾個相互沖突的、依據(jù)不同語言學(xué)角度的分詞標(biāo)準(zhǔn)。

 

例如,對一個句子,不同語料的分詞標(biāo)準(zhǔn)是不一樣的,它們往往做不到一致性的分割。

1

表 1:不同的分詞標(biāo)準(zhǔn)對比。

 

如表 1 中所示,給定句子「林丹贏得總冠軍」,在三個常用語料中,北大的人民日報語料(PKU)、賓州中文樹庫(CTB)和微軟亞洲研究院(MSRA)使用的標(biāo)注標(biāo)準(zhǔn)不同。

現(xiàn)在,大部分中文分詞方法集中于提升單一分詞標(biāo)準(zhǔn)的表現(xiàn)。如果不能完全弄清楚使用不同標(biāo)準(zhǔn)的語料特征,這種研究是浪費資源的。因此,如何高效利用這些(語料)資源依然是一個有挑戰(zhàn)性的問題。

 

以前有解決思路嗎?

雖然很大程度上中文分詞的難點在于標(biāo)準(zhǔn)不同,但幸運的是它們之間有一種共性知識。從一種分詞標(biāo)準(zhǔn)學(xué)到的知識可以給其他語料帶來收益。

 

在本論文之前的研究中,作者們考慮了一種多標(biāo)準(zhǔn)的中文分詞學(xué)習(xí)框架。具體來說,它們將每個分詞標(biāo)準(zhǔn)視為在多任務(wù)學(xué)習(xí)下的單獨任務(wù)。在這個多任務(wù)學(xué)習(xí)框架使用一個共享層級,用于提取不同分詞標(biāo)準(zhǔn)下都不變特征。同時有一個內(nèi)部層級用于提取對應(yīng)不同分詞標(biāo)準(zhǔn)的特征,這個內(nèi)部層也是共享的,因為不同標(biāo)準(zhǔn)經(jīng)常有重疊的地方。

 

例如,在表 1 中,CTB 和 MSRA 對詞語「林丹」的分詞標(biāo)準(zhǔn)是相同的,三個標(biāo)準(zhǔn)對「贏得」的分詞是一致的。因此,不同分詞標(biāo)準(zhǔn)間是有相同知識的,模型學(xué)習(xí)它們也是可能的。

 

基于 Transformer 的多標(biāo)準(zhǔn)中文分詞

論文提出了一個簡單的模型,模型能夠共享來自多個分詞標(biāo)準(zhǔn)中的知識,可以應(yīng)對多標(biāo)準(zhǔn)中文分詞任務(wù)。由于 Transformer 的啟發(fā),研究人員設(shè)計了一種完全共享的結(jié)構(gòu)。在模型中,共享編碼器用于抽取對分詞標(biāo)準(zhǔn)敏感的語境特征(criteria-aware contextual features),而共享解碼器則用于預(yù)測針對標(biāo)準(zhǔn)而不同的標(biāo)簽(criteria-specific labels)。最終,他們在 8 個不同的分詞標(biāo)準(zhǔn)上進(jìn)行了測試,使用了 5 個簡體和 3 個繁體中文的語料。實驗說明,模型可以有效提升在多標(biāo)準(zhǔn)分詞中文任務(wù)中的表現(xiàn)。

 

模型架構(gòu)

在邱錫鵬等研究者的論文中,編碼器和解碼器可以共享所有的分詞標(biāo)準(zhǔn)。唯一的不同之處在于他們會采用唯一的指示器作為輸入,從而分辨不同的分詞標(biāo)準(zhǔn)。如下圖 1 展示了研究者提出的方法和以前模型的不同之處。

2

圖 1:單分詞標(biāo)準(zhǔn)和多分詞標(biāo)準(zhǔn)所采用的架構(gòu),其中淡黃色的模塊是不同標(biāo)準(zhǔn)所共享的部分。

 

如下圖二展示了多標(biāo)準(zhǔn)中文分詞模型的主要架構(gòu),其整體分為嵌入層、編碼層和解碼層。

 

3

圖 2:研究者提出用于多標(biāo)準(zhǔn)中文分詞的模型。

 

嵌入層:嵌入層的目的即將詞映射某個向量,除了標(biāo)準(zhǔn)的字符嵌入,研究者還引入了分詞標(biāo)準(zhǔn)嵌入、位置嵌入、Bigram 嵌入三種額外信息。其中分詞標(biāo)準(zhǔn)嵌入用來指定期望的輸出標(biāo)準(zhǔn);二元語法嵌入用于加強(qiáng)字符級嵌入的能力,從而實現(xiàn)更強(qiáng)的分詞效果;最后的位置編碼也就是 Transformer 所需要的位置信息了。

 

編碼層:編碼層就是一個 Transformer,主要會通過自注意力機(jī)制和 Multi-head Attention 模塊抽取中文字的語義信息。

 

解碼層:與標(biāo)準(zhǔn)多標(biāo)準(zhǔn)中文分詞不同,新模型的解碼層同樣是共享的,這主要歸功于嵌入層已經(jīng)將分詞標(biāo)準(zhǔn)的相關(guān)信息添加到字符上。研究者采用了條件隨機(jī)場和多層感知機(jī)兩種解碼方式,并發(fā)現(xiàn) CRF 效果要好一些,因此將其作為默認(rèn)解碼層。

 

實驗

從 SIGHAN200 到 SIGHAN2008,實驗選擇了 8 個中文分詞數(shù)據(jù)集。在它們之中,AS、CITYU 和 CKIP 是繁體中文數(shù)據(jù)集,而 MSRA、PKU、CTB、NCC 和 SXU 是簡體中文。除非另有說明,AS、CITYU 和 CKIP 都先從繁體轉(zhuǎn)換成簡體。

 

表 2 提供了 8 個數(shù)據(jù)集在預(yù)處理后的細(xì)節(jié)信息。整個實驗使用標(biāo)準(zhǔn)的評價方法——評價精度、召回率和 F1 分?jǐn)?shù)。

 

4

表 2:預(yù)處理后的 8 個數(shù)據(jù)集的具體信息。「Word Types」表示唯一詞的數(shù)量,「Char Types」表示唯一字的數(shù)量。「OOV Rate」表示集外詞所占的百分比。

 

表 5 展示了模型在 8 個測試集上的表現(xiàn)。

5

6

表 5:模型在測試集上的表現(xiàn)。P、R、F、OOV 分別表示精度、召回率、F1 分?jǐn)?shù)和不在詞表的詞語的召回率值。每個數(shù)據(jù)集上最高的 F1 分?jǐn)?shù)和 OOV 值已加粗。

 

下圖 3 展示了 8 中不同分詞標(biāo)準(zhǔn)的二維 PCA 降維結(jié)果,它們都是通過本論文的模型學(xué)習(xí)而來。我們可以看到,8 種分詞標(biāo)準(zhǔn)在嵌入空間會映射到 8 個離散的點,這表明每一個分詞標(biāo)準(zhǔn)都有所不同。其中 MSRA 與其它分詞標(biāo)準(zhǔn)最為不同,可能的原因是 MSRA 將命名實體視為獨立的詞,這和其它分詞標(biāo)準(zhǔn)有很大不同。

7

圖 3:多標(biāo)準(zhǔn)中文分詞學(xué)到的不同分詞基準(zhǔn)。

 

*本文轉(zhuǎn)載自機(jī)器之心報道

重磅活動

第三屆“達(dá)觀杯”文本智能信息抽取挑戰(zhàn)賽火熱報名中

與全球小伙伴切磋交流

萬元獎金,直通Offer等你來拿

掃碼二維碼或點擊閱讀原文直通比賽

8