色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

達(dá)觀數(shù)據(jù)告訴你機(jī)器如何理解語(yǔ)言 -中文分詞技術(shù) ?

 

前言

中文分詞算法是指將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,與英文以空格作為天然的分隔符不同,中文字符在語(yǔ)義識(shí)別時(shí),需要把數(shù)個(gè)字符組合成詞,才能表達(dá)出真正的含義。分詞算法是文本挖掘的基礎(chǔ),通常應(yīng)用于自然語(yǔ)言處理、搜索引擎、智能推薦等領(lǐng)域。

一、????? 分詞算法分類

中文分詞算法大概分為三大類,第一類是基于字符串匹配,即掃描字符串,如果發(fā)現(xiàn)字符串的子串和詞典中的詞相同,就算匹配,比如機(jī)械分詞方法。這類分詞通常會(huì)加入一些啟發(fā)式規(guī)則,比如“正向/反向最大匹配”,“長(zhǎng)詞優(yōu)先”等。第二類是基于統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的分詞方法,它們基于人工標(biāo)注的詞性和統(tǒng)計(jì)特征,對(duì)中文進(jìn)行建模,即根據(jù)觀測(cè)到的數(shù)據(jù)(標(biāo)注好的語(yǔ)料)對(duì)模型參數(shù)進(jìn)行訓(xùn)練,在分詞階段再通過(guò)模型計(jì)算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。常見(jiàn)的序列標(biāo)注模型有HMM和CRF。這類分詞算法能很好處理歧義和未登錄詞問(wèn)題,效果比前一類效果好,但是需要大量的人工標(biāo)注數(shù)據(jù),以及較慢的分詞速度。第三類是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果,由于漢語(yǔ)語(yǔ)義的復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器能夠識(shí)別的形式,目前這種分詞系統(tǒng)還處于試驗(yàn)階段。

二、????? 機(jī)械分詞算法

機(jī)械分詞方法又叫基于字符串匹配的分詞方法,它是按照一定的策略將待分析的字符串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。這是最簡(jiǎn)單的分詞方法,但非常高效和常見(jiàn)。(達(dá)觀數(shù)據(jù) 江永青)

(1)?? 匹配方法

機(jī)械分詞方法按照掃描方向的不同,可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?;常用的幾種機(jī)械分詞方法如下:

  • 正向最大匹配法(由左到右的方向);如以例句“達(dá)觀數(shù)據(jù)是一家大數(shù)據(jù)公司”,使用正向最大匹配法分詞的結(jié)果為“達(dá)觀/數(shù)據(jù)/是一/家/大數(shù)據(jù)/公司”
  • 逆向最大匹配法(由右到左的方向);同樣以例句“達(dá)觀數(shù)據(jù)是一家大數(shù)據(jù)公司”,使用逆向最大匹配法分詞的結(jié)果為“達(dá)觀/數(shù)據(jù)/是/一家/大數(shù)據(jù)/公司”
  • 最少切分(使每一句中切出的詞數(shù)最?。?。例句“達(dá)觀數(shù)據(jù)是一家大數(shù)據(jù)公司”被分為“達(dá)觀數(shù)據(jù)/是/一家/大數(shù)據(jù)公司”。

(2)?? 消除歧義

因?yàn)橥粋€(gè)句子,在機(jī)械分詞中經(jīng)常會(huì)出現(xiàn)多種分詞的組合,因此需要進(jìn)行歧義消除,來(lái)得到最優(yōu)的分詞結(jié)果。

 

以很常見(jiàn)的MMSEG機(jī)械分詞算法為例,MMSEG在搜索引擎Solr中經(jīng)常使用到,是一種非??煽扛咝У姆衷~算法。MMSEG消除歧義的規(guī)則有四個(gè),它在使用中依次用這四個(gè)規(guī)則進(jìn)行過(guò)濾,直到只有一種結(jié)果或者第四個(gè)規(guī)則使用完畢。這個(gè)四個(gè)規(guī)則分別是:

  • 最大匹配,選擇“詞組長(zhǎng)度最大的”那個(gè)詞組,然后選擇這個(gè)詞組的第一個(gè)詞,作為切分出的第一個(gè)詞,如對(duì)于“中國(guó)人民萬(wàn)歲”,匹配結(jié)果分別為:

中/國(guó)/人

中國(guó)/人/民

中國(guó)/人民/萬(wàn)歲

中國(guó)人/民/萬(wàn)歲

在這個(gè)例子“詞組長(zhǎng)度最長(zhǎng)的”詞組為后兩個(gè),因此選擇了“中國(guó)人/民/萬(wàn)歲”中的“中國(guó)人”,或者“中國(guó)/人民/萬(wàn)歲”中的“中國(guó)”。

  • 最大平均詞語(yǔ)長(zhǎng)度。經(jīng)過(guò)規(guī)則1過(guò)濾后,如果剩余的詞組超過(guò)1個(gè),那就選擇平均詞語(yǔ)長(zhǎng)度最大的那個(gè)(平均詞長(zhǎng)=詞組總字?jǐn)?shù)/詞語(yǔ)數(shù)量)。比如“生活水平”,可能得到如下詞組:

生/活水/平 (4/3=1.33)

生活/水/平 (4/3=1.33)

生活/水平 (4/2=2)

根據(jù)此規(guī)則,就可以確定選擇“生活/水平”這個(gè)詞組

  • 詞語(yǔ)長(zhǎng)度的最小變化率,這個(gè)變化率一般可以由標(biāo)準(zhǔn)差來(lái)決定。比如對(duì)于“中國(guó)人民萬(wàn)歲”這個(gè)短語(yǔ),可以計(jì)算:

中國(guó)/人民/萬(wàn)歲(標(biāo)準(zhǔn)差=sqrt(((2-2)^2+(2-2)^2+(2-2^2))/3)=0)

中國(guó)人/民/萬(wàn)歲(標(biāo)準(zhǔn)差=sqrt(((2-3)^2+(2-1)^2+(2-2)^2)/3)=0.8165)

于是選擇“中國(guó)/人民/萬(wàn)歲”這個(gè)詞組。

  • 計(jì)算詞組中的所有單字詞詞頻的自然對(duì)數(shù),然后將得到的值相加,取總和最大的詞組。比如:

設(shè)施/和服/務(wù)

設(shè)施/和/服務(wù)

這兩個(gè)詞組中分別有“務(wù)”和“和”這兩個(gè)單字詞,假設(shè)“務(wù)”作為單字詞時(shí)候的頻率是5,“和”作為單字詞時(shí)候的頻率是10,對(duì)5和10取自然對(duì)數(shù),然后取最大值者,所以取“和”字所在的詞組,即“設(shè)施/和/服務(wù)”。

 

(3)?? 機(jī)械分詞的缺陷

機(jī)械分詞方法是一種很簡(jiǎn)單高效的分詞方法,它的速度很快,都是O(n)的時(shí)間復(fù)雜度,效果也可以。但缺點(diǎn)是對(duì)歧義和新詞的處理不是很好,對(duì)詞典中未出現(xiàn)的詞沒(méi)法進(jìn)行處理,因此經(jīng)常需要其他分詞方法進(jìn)行協(xié)作。

 

三、????? 基于n元語(yǔ)法的分詞算法

(1)?? 概念

基于詞的n元語(yǔ)法模型是一個(gè)典型的生成式模型,早期很多統(tǒng)計(jì)分詞均以它為基本模型,然后配合其他未登錄詞識(shí)別模塊進(jìn)行擴(kuò)展。其基本思想是:首先根據(jù)詞典(可以是從訓(xùn)練語(yǔ)料中抽取出來(lái)的詞典,也可以是外部詞典)對(duì)句子進(jìn)行簡(jiǎn)單匹配,找出所有可能的詞典詞,然后,將它們和所有單個(gè)字作為結(jié)點(diǎn),構(gòu)造的n元切分詞圖,圖中的結(jié)點(diǎn)表示可能的詞候選,邊表示路徑,邊上的n元概率表示代價(jià),最后利用相關(guān)搜索算法(動(dòng)態(tài)規(guī)劃)從圖中找到代價(jià)最小的路徑作為最后的分詞結(jié)果。

1

圖1:n元語(yǔ)法分詞算法圖解

(2)?? 求解方法

假設(shè)隨機(jī)變量S為一個(gè)漢字序列,W是S上所有可能切分出來(lái)的詞序列,分詞過(guò)程應(yīng)該是求解使條件概率P(W|S)最大的切分出來(lái)的詞序列W*,即:

公式1

根據(jù)貝葉斯公式,可以改寫(xiě)為:

公式2

由于分母為歸一化因子,P(S|W)為固定的值,因此求解的公式變?yōu)椋?/p>

公式3

如果使用一元模型,則公式變?yōu)榍蠼猓?/p>

公式4

使用二元模型,公式變?yōu)榍蠼?/p>

公式5

以二元模型為例,在例圖中求解短語(yǔ)“結(jié)合成分子”時(shí),分詞序列為“結(jié)合/成分/子”、“結(jié)合/成/分子”的概率分別為:

公式6

這里的P(結(jié)合|start)、P(成分|結(jié)合)、P(子|成分)、P(end|子) 都是通過(guò)大量的語(yǔ)料統(tǒng)計(jì)得出,因此可以通過(guò)概率相乘來(lái)判斷哪一個(gè)分詞序列更好。在例圖中,可以通過(guò)動(dòng)態(tài)歸劃的算法算出最后最優(yōu)的分詞序列。

 

n元語(yǔ)法的分詞方法是基于統(tǒng)計(jì)的分詞算法,它比簡(jiǎn)單的機(jī)械分詞算法精度更高,但算法基于現(xiàn)有的詞典,因此很難進(jìn)行新詞發(fā)現(xiàn)處理。

 

四、????? 基于隱馬爾可夫模型的分詞算法

?

(1)?? 隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Model,簡(jiǎn)稱HMM)是結(jié)構(gòu)最簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network),這是一種尤其著名的有向圖模型,主要用于時(shí)序數(shù)據(jù)建模,在語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用。在分詞算法中,隱馬爾可夫經(jīng)常用作能夠發(fā)現(xiàn)新詞的算法,通過(guò)海量的數(shù)據(jù)學(xué)習(xí),能夠?qū)⑷嗣?、地名、互?lián)網(wǎng)上的新詞等一一識(shí)別出來(lái),具有廣泛的應(yīng)用場(chǎng)景。(達(dá)觀數(shù)據(jù) 江永青)

 

隱馬爾可夫模型是馬爾可夫鏈的一種,它的狀態(tài)不能直接觀察到,但能通過(guò)觀測(cè)向量序列觀察到,每一個(gè)觀測(cè)向量是由一個(gè)具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。如圖所示,隱馬爾可夫模型中的變量可分為兩組。第一組是狀態(tài)變量{y1, y2, …, yn},其中yi表示第i時(shí)刻的系統(tǒng)狀態(tài)。通常假定狀態(tài)變量是隱藏的、不可被觀測(cè)的,因此狀態(tài)變量亦稱隱變量。第二組是觀測(cè)變量{x1, x2, …, xn},其中xi表示第i時(shí)刻的觀測(cè)值。在隱馬爾可夫模型中,系統(tǒng)通常在多個(gè)狀態(tài)之間轉(zhuǎn)換,因此狀態(tài)變量yi的取值范圍通常是有N個(gè)可能取值的離散空間。

1

圖2:隱馬爾可夫模型圖解

圖中的箭頭表示了變量間的依賴關(guān)系。在任一時(shí)刻,觀測(cè)變量的取值僅依賴于狀態(tài)變量,即xi由yi決定,與其他狀態(tài)變量及觀測(cè)變量的取值無(wú)關(guān)。同時(shí),i時(shí)刻的狀態(tài)yi僅依賴于i-1時(shí)刻的狀態(tài)yi-1,與其余n-2個(gè)狀態(tài)無(wú)關(guān)。這就是所謂的“馬爾可夫鏈”,即:系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前狀態(tài)決定,不依賴于以往的任何狀態(tài)。

 

(2)?? 隱馬爾可夫的求解

一般的,一個(gè)HMM可以記作一個(gè)五元組u=(S, K, A, B, π), 其中S是狀態(tài)集合,K是輸出符號(hào)也就是觀察集合,A是狀態(tài)轉(zhuǎn)移概率,B是符號(hào)發(fā)射概率,π是初始狀態(tài)的概率分布。HMM主要解決三個(gè)基本問(wèn)題:

  • 估計(jì)問(wèn)題,給定一個(gè)觀察序列O=O1,O2,O3,… ,Ot和模型u=(A,B,π),計(jì)算觀察序列的概率;
  • 序列問(wèn)題,給定一個(gè)觀察序列O=O1,O2,O3… Ot和模型μ=(A, B, π),計(jì)算最優(yōu)的狀態(tài)序列Q=q1,q2,q3…qt;
  • 參數(shù)估計(jì)問(wèn)題,給定一個(gè)觀察序列O=O1,O2,O3… Ot,如何調(diào)節(jié)模型μ=(A,B, π)的參數(shù),使得P(O|μ)最大。

隱馬爾可夫的估計(jì)問(wèn)題可以通過(guò)前向/后向的動(dòng)態(tài)規(guī)劃算法來(lái)求解;序列問(wèn)題可以通過(guò)viterbi算法求解;參數(shù)估計(jì)問(wèn)題可以通過(guò)EM算法求解。通過(guò)海量的語(yǔ)料數(shù)據(jù),可以方便快速地學(xué)習(xí)出HMM圖模型。

 

(3)?? HMM分詞方法

隱馬爾可夫的三大問(wèn)題分別對(duì)應(yīng)了分詞中的幾個(gè)步驟。參數(shù)估計(jì)問(wèn)題即是分詞的學(xué)習(xí)階段,通過(guò)海量的語(yǔ)料數(shù)據(jù)來(lái)學(xué)習(xí)歸納出分詞模型的各個(gè)參數(shù)。狀態(tài)序列問(wèn)題是分詞的執(zhí)行階段,通過(guò)觀察變量(即待分詞句子的序列)來(lái)預(yù)測(cè)出最優(yōu)的狀態(tài)序列(分詞結(jié)構(gòu))。

 

我們?cè)O(shè)定狀態(tài)值集合S =(B, M, E, S),分別代表每個(gè)狀態(tài)代表的是該字在詞語(yǔ)中的位置,B代表該字是詞語(yǔ)中的起始字,M代表是詞語(yǔ)中的中間字,E代表是詞語(yǔ)中的結(jié)束字,S則代表是單字成詞;觀察值集合K =(所有的漢字);則中文分詞的問(wèn)題就是通過(guò)觀察序列來(lái)預(yù)測(cè)出最優(yōu)的狀態(tài)序列。

 

比如觀察序列為:

O = 小紅就職于達(dá)觀數(shù)據(jù)

預(yù)測(cè)的狀態(tài)序列為:

Q = BEBESBMME

根據(jù)這個(gè)狀態(tài)序列我們可以進(jìn)行切詞:

BE/BE/S/BMME/

所以切詞結(jié)果如下:

小紅/就職/于/達(dá)觀數(shù)據(jù)/

 

因?yàn)镠MM分詞算法是基于字的狀態(tài)(BEMS)來(lái)進(jìn)行分詞的,因此很適合用于新詞發(fā)現(xiàn),某一個(gè)新詞只要標(biāo)記為如“BMME”,就算它沒(méi)有在歷史詞典中出現(xiàn)過(guò),HMM分詞算法也能將它識(shí)別出來(lái)。

 

五、????? 基于條件隨機(jī)場(chǎng)的分詞算法

?

(1)?? 條件隨機(jī)場(chǎng)模型

條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)是一種判別式無(wú)向圖模型,它是隨機(jī)場(chǎng)的一種,常用于標(biāo)注或分析序列語(yǔ)料,如自然語(yǔ)言文字或是生物序列。跟隱馬爾可夫模型通過(guò)聯(lián)合分布進(jìn)行建模不同,條件隨機(jī)場(chǎng)試圖對(duì)多個(gè)變量在給定觀測(cè)值后的條件概率進(jìn)行建模。(達(dá)觀數(shù)據(jù) 江永青)

 

具體來(lái)說(shuō),若令x = {x1, x2, …, xn}為觀測(cè)序列,y = {y1, y2, …, yn}為與之對(duì)應(yīng)的標(biāo)記序列,則條件隨機(jī)場(chǎng)的目標(biāo)是構(gòu)建條件概率模型P(y | x)。令圖G = <V, E>表示結(jié)點(diǎn)與標(biāo)記變量y中元素一一對(duì)應(yīng)的無(wú)向圖,yv表示與結(jié)點(diǎn)v對(duì)應(yīng)的標(biāo)記變量,n(v)表示結(jié)點(diǎn)v的鄰接結(jié)點(diǎn),如果圖G的每個(gè)變量yv都滿足馬爾可夫性,即:

公式7

則(y, x)構(gòu)成一個(gè)條件隨機(jī)場(chǎng)。也就是說(shuō), 條件概率只與x和y的鄰接結(jié)點(diǎn)有關(guān),與其他的y結(jié)點(diǎn)沒(méi)有關(guān)系。

公式9

圖3:條件隨機(jī)場(chǎng)模型圖解

理論上來(lái)說(shuō),圖G可具有任意結(jié)構(gòu),只要能表示標(biāo)記變量之間的條件獨(dú)立性關(guān)系即可。但在現(xiàn)實(shí)應(yīng)用中,尤其是對(duì)標(biāo)記序列建模時(shí),最常用的仍然是上圖所示的鏈?zhǔn)浇Y(jié)構(gòu),即“鏈?zhǔn)綏l件隨機(jī)場(chǎng)”。

 

(2)?? 條件隨機(jī)場(chǎng)的求解方法

條件隨機(jī)場(chǎng)使用勢(shì)函數(shù)和圖結(jié)構(gòu)上的團(tuán)來(lái)定義條件概率P(y | x)。給定觀測(cè)序列x,鏈?zhǔn)綏l件隨機(jī)場(chǎng)主要包含兩種關(guān)于標(biāo)記變量的團(tuán),即單個(gè)標(biāo)記變量{yi}以及相鄰的標(biāo)記變量{yi-1,yi}。在條件隨機(jī)場(chǎng)中,通過(guò)選用合適的勢(shì)函數(shù),并引入特征函數(shù),可以得到條件概率的定義:

公式10

其中:

公式11

其中tk(yi – 1, yi, x, i)是定義在觀測(cè)序列的兩個(gè)相鄰標(biāo)記位置上的轉(zhuǎn)移特征函數(shù),用于刻畫(huà)相鄰標(biāo)記變量之間的相關(guān)關(guān)系以及觀測(cè)序列對(duì)它們的影響, (yi, x, i)是定義在觀測(cè)序列的標(biāo)記位置i上的狀態(tài)特征函數(shù),用于刻畫(huà)觀測(cè)序列對(duì)標(biāo)記變量的影響,λk和 為參數(shù),Z為規(guī)范化因子。

 

可以將tk(yi – 1, yi, x, i)和sl(yi, x, i)兩個(gè)特征函數(shù)統(tǒng)一為:fk(yi-1, yi, x, i),則有:

公式13

其中:

公式14

已知訓(xùn)練數(shù)據(jù)集,由此可知經(jīng)驗(yàn)概率分布 公式8,可以通過(guò)極大化訓(xùn)練數(shù)據(jù)的對(duì)數(shù)似然函數(shù)來(lái)求模型參數(shù)。加入懲罰項(xiàng)后,訓(xùn)練數(shù)據(jù)的對(duì)數(shù)似然函數(shù)為:

公式16

其中的σ是可以調(diào)節(jié)的懲罰權(quán)重。對(duì)似然函數(shù)L(w)中的w求偏導(dǎo),令:

公式17

可以依次求出wi。

 

(3)?? 條件隨機(jī)場(chǎng)分詞方法

條件隨機(jī)場(chǎng)和隱馬爾可夫一樣,也是使用BMES四個(gè)狀態(tài)位來(lái)進(jìn)行分詞。以如下句子為例:

中 ? 國(guó) ??是 ??泱 ??泱? ?大 ??國(guó)

B?? B? ? ?B? ??B ?? B? ??B?? ?B

M ? M ? M ? M ? M ? M ? M

E ? ?E ? ?E ? ?E ? ?E ? ?E ? ?E

S ? ?S ? ?S ? ?S ? ?S ? ?S ? ?S

條件隨機(jī)場(chǎng)解碼就是在以上由標(biāo)記組成的數(shù)組中搜索一條最優(yōu)的路徑。

 

我們要把每一個(gè)字(即觀察變量)對(duì)應(yīng)的每一個(gè)狀態(tài)BMES(即標(biāo)記變量)的概率都求出來(lái)。例如對(duì)于觀察變量“國(guó)”,當(dāng)前標(biāo)記變量為E,前一個(gè)觀察變量為“中”,前一個(gè)標(biāo)記變量為B,則:

t(B, E, ‘國(guó)’) 對(duì)應(yīng)到條件隨機(jī)場(chǎng)里相鄰標(biāo)記變量{yi-1, yi}的勢(shì)函數(shù):

公式18

s(E, ‘國(guó)’) 對(duì)應(yīng)到條件隨機(jī)場(chǎng)里單個(gè)標(biāo)記變量{yi}對(duì)應(yīng)的勢(shì)函數(shù)sl(yi, x, i):

公式19

t(B, E, ‘國(guó)’), s(E, ‘國(guó)’)相應(yīng)的權(quán)值λk, 都是由條件隨機(jī)場(chǎng)用大量的標(biāo)注語(yǔ)料訓(xùn)練出來(lái)。因此分詞的標(biāo)記識(shí)別就是求對(duì)于各個(gè)觀察變量,它們的標(biāo)記變量(BMES)狀態(tài)序列的概率最大值,即求:

公式20

的概率組合最大值。這個(gè)解法與隱馬爾可夫類似,都是可以用viterbi算法求解。

 

(4)?? 條件隨機(jī)場(chǎng)分詞的優(yōu)缺點(diǎn)

條件隨機(jī)場(chǎng)分詞是一種精度很高的分詞方法,它比隱馬爾可夫的精度要高,是因?yàn)殡[馬爾可夫假設(shè)觀察變量xi只與當(dāng)前狀態(tài)yi有關(guān),而與其它狀態(tài)yi1,yi+1無(wú)關(guān);而條件隨機(jī)場(chǎng)假設(shè)了當(dāng)前觀察變量xi與上下文相關(guān),如公式21 ,就是考慮到上一個(gè)字標(biāo)記狀態(tài)為B時(shí),當(dāng)前標(biāo)記狀態(tài)為E并且輸出“國(guó)”字的概率。因此通過(guò)上下文的分析,條件隨機(jī)場(chǎng)分詞會(huì)提升到更高的精度。但因?yàn)閺?fù)雜度比較高,條件隨機(jī)場(chǎng)一般訓(xùn)練代價(jià)都比較大。

 

六、????? 達(dá)觀數(shù)據(jù)分詞算法應(yīng)用

?

達(dá)觀數(shù)據(jù)是一家新興高科技大數(shù)據(jù)公司,創(chuàng)始人來(lái)自騰訊、百度、盛大、搜狗等知名企業(yè),具有非常深厚的技術(shù)實(shí)力。在分詞技術(shù)領(lǐng)域,達(dá)觀數(shù)據(jù)借鑒國(guó)內(nèi)外優(yōu)秀的項(xiàng)目,升級(jí)了不少分詞算法,并積累了大量的分詞詞典。此外,達(dá)觀文本挖掘融合了全套自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)技術(shù),在分詞基礎(chǔ)文字處理功能上集成了詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別、文本標(biāo)簽提取等功能模塊,基于此再結(jié)合SVM、GBRT、logistic regression等機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)認(rèn)知層次上的文本自動(dòng)分類、涉黃涉政分析、垃圾評(píng)論識(shí)別等功能。

?

總結(jié)

?

本文介紹了常見(jiàn)的幾種分詞算法及其原理,分析了它們對(duì)應(yīng)的優(yōu)缺點(diǎn)。應(yīng)用在文本挖掘、搜索引擎等領(lǐng)域,需要根據(jù)不同場(chǎng)景,使用不同的分詞算法及詞典,才能最有效地達(dá)到準(zhǔn)確分詞的效果。

 

江永青,浙江大學(xué)軟件工程專業(yè)碩士,曾在盛大創(chuàng)新院負(fù)責(zé)搜索引擎的索引和檢索模塊,在盛大文學(xué)數(shù)據(jù)中心負(fù)責(zé)大數(shù)據(jù)分布式系統(tǒng)、搜索引擎架構(gòu)、搜索行為分析?,F(xiàn)任達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,對(duì)搜索引擎、數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)有豐富的經(jīng)驗(yàn)和較深入的理解。