隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展與普及,如何對(duì)浩如煙海的數(shù)據(jù)進(jìn)行分類、組織和管理,已經(jīng)成為一個(gè)具有重要用途的研究課題。而在這些數(shù)據(jù)中,文本數(shù)據(jù)又是數(shù)量最大的一類。文本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過(guò)程。文本分類有著廣泛的應(yīng)用場(chǎng)景,例如:
- 新聞網(wǎng)站包含大量報(bào)道文章,基于文章內(nèi)容,需要將這些文章按題材進(jìn)行自動(dòng)分類(例如自動(dòng)劃分成政治、經(jīng)濟(jì)、軍事、體育、娛樂(lè)等)
- 在電子商務(wù)網(wǎng)站,用戶進(jìn)行了交易行為后對(duì)商品進(jìn)行評(píng)價(jià)分類,商家需要對(duì)用戶的評(píng)價(jià)劃分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià),來(lái)獲取各個(gè)商品的用戶反饋統(tǒng)計(jì)情況。
- 電子郵箱頻繁接收到垃圾廣告信息,通過(guò)文本分類技術(shù)從眾多的郵件中識(shí)別垃圾郵件并過(guò)濾,提高了郵箱用戶的使用效率。
- 媒體每日有大量投稿,依靠文本分類技術(shù)能夠?qū)?strong>文章進(jìn)行自動(dòng)審核,標(biāo)記投稿中的色情、暴力、政治、垃圾廣告等違規(guī)內(nèi)容。
20世紀(jì)90年代以前,占主導(dǎo)地位的文本分類方法一直是基于知識(shí)工程的方法:借助專業(yè)人員的幫助,為每個(gè)類別定義大量的推理規(guī)則,如果一篇文檔能滿足這些推理規(guī)則,則可以判定屬于該類別。但是這種方法有明顯的缺點(diǎn):分類的質(zhì)量依賴于規(guī)則的好壞;需要大量的專業(yè)人員進(jìn)行規(guī)則的制定;不具備可推廣性,不同的領(lǐng)域需要構(gòu)建完全不同的分類系統(tǒng),造成開(kāi)發(fā)資源和資金資源的巨大浪費(fèi)。
而機(jī)器學(xué)習(xí)技術(shù)能很好地解決上述問(wèn)題,以統(tǒng)計(jì)理論為基礎(chǔ),利用算法讓機(jī)器具有類似人類般的自動(dòng)“學(xué)習(xí)”能力——對(duì)已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計(jì)分析從而獲得規(guī)律,再運(yùn)用規(guī)律對(duì)未知數(shù)據(jù)做預(yù)測(cè)分析。機(jī)器學(xué)習(xí)方法運(yùn)用在文本分類上的基本過(guò)程就是:標(biāo)注——利用人工對(duì)一批文檔進(jìn)行了準(zhǔn)確分類,以作為訓(xùn)練集(進(jìn)行機(jī)器學(xué)習(xí)的材料);訓(xùn)練——計(jì)算機(jī)從這些文檔腫挖掘出一些能夠有效分類的規(guī)則,生成分類器(總結(jié)出的規(guī)則集合);分類——將生成的分類器應(yīng)用在有待分類的文檔集合中,獲取文檔的分類結(jié)果。由于機(jī)器學(xué)習(xí)方法在文本分類領(lǐng)域有著良好的實(shí)際表現(xiàn),已經(jīng)成為了該領(lǐng)域的主流。
達(dá)觀數(shù)據(jù)團(tuán)隊(duì)在處理海量數(shù)據(jù)方面具有豐富的經(jīng)驗(yàn),在文本分類技術(shù)方面有深入的實(shí)踐,并將文本分類技術(shù)成功運(yùn)用到了線上服務(wù)中,取得了良好的效果。本文整理了文本分類的基本方法和處理流程,進(jìn)行了綜述性介紹。
1????? 文本分類流程
文本分類的流程如圖 1所示,包括訓(xùn)練、特征抽取、訓(xùn)練模型、分類預(yù)測(cè)等幾個(gè)主要環(huán)節(jié)
圖 1 文本分類流程圖
2????? 文本預(yù)處理
2.1??? 文檔建模
機(jī)器學(xué)習(xí)方法讓計(jì)算機(jī)自己去學(xué)習(xí)已經(jīng)分類好的訓(xùn)練集,然而計(jì)算機(jī)是很難按人類理解文章那樣來(lái)學(xué)習(xí)文章,因此,要使計(jì)算機(jī)能夠高效地處理真實(shí)文本,就必須找到一種理想的形式化表示方法,這個(gè)過(guò)程就是文檔建模。文檔建模一方面要能夠真實(shí)地反映文檔的內(nèi)容另一方面又要對(duì)不同文檔的區(qū)分能力。文檔建模比較通用的方法包括布爾模型、向量空間模型(VSM)和概率模型。其中最為廣泛使用的是向量空間模型。
經(jīng)典的向量空間模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。VSM概念非常直觀——把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。文本處理中最常用的相似性度量方式是余弦距離。文本挖掘系統(tǒng)采用向量空間模型,用特征詞條(T1,T2,…Tn)及其權(quán)值Wi代表目標(biāo)信息,在進(jìn)行信息匹配時(shí),使用這些特征項(xiàng)評(píng)價(jià)未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運(yùn)行效果。
設(shè)D為一個(gè)包含m個(gè)文檔的文檔集合,Di為第i個(gè)文檔的特征向量,則有D={D1,D2,…,Dm}, Di=(di1,di2,…,dij),i=1,2,…,m j=1,2,…,n。其中dij(i=1,2,…,m;j=1,2,…,n)為文檔Di中第j個(gè)詞條tj的權(quán)值,它一般被定義為tj在Di中出現(xiàn)的頻率tij的函數(shù),例如采用TF-IDF函數(shù),即dij=tij*log(N/nj)。其中,N是文檔數(shù)據(jù)庫(kù)中文檔總數(shù),nj是文檔數(shù)據(jù)庫(kù)含有詞條tj的文檔數(shù)目。假設(shè)用戶給定的文檔向量為D2,未知的文檔向量為q,兩者的相似程度可用兩向量的夾角余弦來(lái)度量,夾角越小說(shuō)明相似度越高。相似度的計(jì)算公式如下:
圖 2 向量空間模型
通過(guò)上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問(wèn)題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問(wèn)題。
2.2?? 中文分詞技術(shù)
在使用向量模型表示文檔時(shí),首先要對(duì)文檔進(jìn)行詞匯化處理。對(duì)于英語(yǔ)或者法語(yǔ)等語(yǔ)言來(lái)說(shuō),將文檔轉(zhuǎn)化成詞的集合比較簡(jiǎn)單,但是對(duì)于漢語(yǔ)來(lái)說(shuō),不像英文文本的單詞那樣有空格來(lái)區(qū)分,這個(gè)處理過(guò)程要依賴于分詞技術(shù)。從簡(jiǎn)單的查詞典的方法,到后來(lái)的基于統(tǒng)計(jì)語(yǔ)言模型的分詞方法,中文分詞的技術(shù)已趨于成熟。但是,盡管現(xiàn)在分詞軟件的準(zhǔn)確率已經(jīng)比較高了,它對(duì)專業(yè)術(shù)語(yǔ)(稱為未登錄詞識(shí)別)的識(shí)別率還不是很好。例如“來(lái)自星星的你”,分詞可以成功切分為“來(lái)自\星星\的\你”,但是怎樣把“來(lái)自星星的你”作為一個(gè)完整的專有名詞(電視劇名稱)識(shí)別出來(lái),還有很多技術(shù)要解決。為了進(jìn)一步提高關(guān)鍵詞抽取的準(zhǔn)確率,通常需要在詞庫(kù)中添加專名詞表來(lái)保證分詞的質(zhì)量。
在完成分詞之后,我們對(duì)詞語(yǔ)的位置信息做進(jìn)一步的發(fā)掘,需要確定記錄位置信息的方式以及各個(gè)位置的詞在反映主題時(shí)的相對(duì)重要性。標(biāo)題、摘要和結(jié)論、正文等文章各個(gè)部分的位置權(quán)重是各不相同的,當(dāng)軟件逐詞掃描統(tǒng)計(jì)詞頻時(shí),記錄每個(gè)詞的位置信息。
在計(jì)算文檔的特征向量的值時(shí),還需要對(duì)文本集進(jìn)行一些處理,過(guò)濾掉無(wú)用的信息。濾除這些沒(méi)有作用的詞語(yǔ)可以減少文本特征向量的維數(shù),減少不必要的運(yùn)算。常見(jiàn)做法包括:
- 去掉一些低頻詞,比如某些單詞只在一兩個(gè)文本中出現(xiàn)過(guò),這樣詞留在集合中會(huì)導(dǎo)致大部分文本樣本的該屬性值為0。
- 去掉停止詞,一般這種詞幾乎不攜帶任何信息。例如:“的”、“地”、“得”之類的助詞,以及像“然而”、“因此”等只能反映句子語(yǔ)法結(jié)構(gòu)的詞語(yǔ),它們不但不能反映文獻(xiàn)的主題,而且還會(huì)對(duì)關(guān)鍵詞的抽取造成干擾,有必要將其濾除。去停用詞確定為所有虛詞以及標(biāo)點(diǎn)符號(hào)。
- 去掉一些標(biāo)記信息,這主要針對(duì)網(wǎng)頁(yè)文本或其他的標(biāo)記語(yǔ)言文本。
3????? 特征抽取
3.1??? 文本特征抽取
目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng),稱作特征詞。這些特征詞作為文檔的中間表示形式,用來(lái)實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算 。如果把所有的詞都作為特征項(xiàng),那么特征向量的維數(shù)將過(guò)于巨大,會(huì)對(duì)分類系統(tǒng)的運(yùn)算性能造成極大的壓力。在這樣的情況下,要完成文本分類幾乎是不可能的。尋求一種有效的特征降維方法,不僅能降低運(yùn)算復(fù)雜度,還能提高分類的效率和精度,因此事文本自動(dòng)分類中一項(xiàng)重要技術(shù)。
特征抽取的主要功能就是在不損傷核心信息的情況下降低向量空間維數(shù),簡(jiǎn)化計(jì)算,提高文本處理的速度和效率。相對(duì)于其他分類問(wèn)題,文本特征抽取的方式常見(jiàn)的有4種:
- 用映射或變換的方法把原始特征變換為較少的新特征;
- 從原始特征中挑選出一些最具代表性的特征;
- 根據(jù)專家的知識(shí)挑選最有影響的特征;
- 基于數(shù)學(xué)方法進(jìn)行選取,找出最具分類信息的特征。
其中基于數(shù)學(xué)方法進(jìn)行特征選擇比較精確,人為因素干擾少,尤其適合于文本應(yīng)用。這種方法通過(guò)構(gòu)造評(píng)估函數(shù),對(duì)特征集合中的每個(gè)特征進(jìn)行評(píng)估,并對(duì)每個(gè)特征打分,這樣每個(gè)詞語(yǔ)都獲得一個(gè)評(píng)估值,又稱為權(quán)值,然后將所有特征按權(quán)值大小排序,提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)果的特征子集。
3.2??? 評(píng)估函數(shù)
對(duì)用數(shù)學(xué)方法進(jìn)行特征選擇的算法,決定文本特征提取效果的主要因素是評(píng)估函數(shù)的質(zhì)量,常用評(píng)估函數(shù)包括:
- TF-IDF
單詞權(quán)重最為有效的實(shí)現(xiàn)方法就是TF-IDF, 它是由Salton在1988 年提出的。其中TF 稱為詞頻, 用于計(jì)算該詞描述文檔內(nèi)容的能力; IDF 稱為反文檔頻率, 用于計(jì)算該詞區(qū)分文檔的能力。TF*IDF 的指導(dǎo)思想建立在這樣一條基本假設(shè)之上: 在一個(gè)文本中出現(xiàn)很多次的單詞, 在另一個(gè)同類文本中出現(xiàn)次數(shù)也會(huì)很多, 反之亦然。所以如果特征空間坐標(biāo)系取TF 詞頻作為測(cè)度, 就可以體現(xiàn)同類文本的特點(diǎn)。另外還要考慮單詞區(qū)別不同類別的能力, TF*IDF 法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻率越小, 它區(qū)別不同類別的能力就越大, 所以引入了逆文本頻度IDF 的概念, 以TF 和IDF 的乘積作為特征空間坐標(biāo)系的取值測(cè)度。TF-IDF 法是以特征詞在文檔d中出現(xiàn)的次數(shù)與包含該特征詞的文檔數(shù)之比作為該詞的權(quán)重,即其中, Wi表示第i個(gè)特征詞的權(quán)重,TFi(t,d)表示詞t在文檔d中的出現(xiàn)頻率,N表示總的文檔數(shù),DF(t)表示包含t的文檔數(shù)。用TF-IDF算法來(lái)計(jì)算特征詞的權(quán)重值是表示當(dāng)一個(gè)詞在這篇文檔中出現(xiàn)的頻率越高,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對(duì)于表示這篇文檔的區(qū)分能力越強(qiáng),所以其權(quán)重值就應(yīng)該越大。將所有詞的權(quán)值排序, 根據(jù)需要可以有兩種選擇方式:
- 選擇權(quán)值最大的某一固定數(shù)n個(gè)關(guān)鍵詞;
- 選擇權(quán)值大于某一閾值的關(guān)鍵詞。
達(dá)觀數(shù)據(jù)的實(shí)踐經(jīng)驗(yàn)是,計(jì)算機(jī)機(jī)選擇的關(guān)鍵詞數(shù)量在10∽15個(gè),人工選擇的關(guān)鍵詞數(shù)量在4∽6個(gè)比較合適, 通常具有最好的覆蓋度和專指度。TFIDF算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔最有意義的詞語(yǔ)應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語(yǔ),所以如果特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán) ,并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無(wú)用,顯然這并不是完全正確的。IDF的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無(wú)法很好地完成對(duì)權(quán)值調(diào)整的功能,所以TF*IDF法的精度并不是很高。此外,在TFIDF算法中并沒(méi)有體現(xiàn)出單詞的位置信息,對(duì)于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁(yè)不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。
- 詞頻法
詞頻是一個(gè)詞在文檔中出現(xiàn)的次數(shù)。通過(guò)詞頻進(jìn)行特征選擇就是將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數(shù)。這個(gè)方法是基于這樣一個(gè)假設(shè),即出現(xiàn)頻率小的詞對(duì)過(guò)濾的影響也較小。但是在信息檢索的研究中認(rèn)為,有時(shí)頻率小的詞含有更多的信息。因此,在特征選擇的過(guò)程中不宜簡(jiǎn)單地根據(jù)詞頻大幅度刪詞。
- 文檔頻次法
文檔頻數(shù)(Document Frequency, DF)是最為簡(jiǎn)單的一種特征選擇算法,它指的是在整個(gè)數(shù)據(jù)集中有多少個(gè)文本包含這個(gè)單詞。在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)一算它的文檔頻次,并且根據(jù)預(yù)先設(shè)定的闌值去除那些文檔頻次特別低和特別高的特征。文檔頻次通過(guò)在訓(xùn)練文檔數(shù)量中計(jì)算線性近似復(fù)雜度來(lái)衡量巨大的文檔集,計(jì)算復(fù)雜度較低,能夠適用于任何語(yǔ)料,因此是特征降維的常用方法。在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它的文檔頻數(shù),若該項(xiàng)的DF 值小于某個(gè)閾值則將其刪除,若其DF 值大于某個(gè)閾值也將其去掉。因?yàn)樗麄兎謩e代表了“沒(méi)有代表性”和“沒(méi)有區(qū)分度”兩種極端的情況。DF 特征選取使稀有詞要么不含有用信息,要么太少而不足以對(duì)分類產(chǎn)生影響,要么是噪音,所以可刪去。DF 的優(yōu)點(diǎn)在于計(jì)算量小, 速度快,它的時(shí)間復(fù)雜度和文本數(shù)量成線性關(guān)系,所以非常適合于超大規(guī)模文本數(shù)據(jù)集的特征選擇。不僅如此,文檔頻數(shù)還非常地高效,在有監(jiān)督的特征選擇應(yīng)用中當(dāng)刪除90%單詞的時(shí)候其性能與信息增益和x2 統(tǒng)計(jì)的性能還不相上下。但如果某一稀有詞條主要出現(xiàn)在某類訓(xùn)練集中,卻能很好地反映類別的特征,而因低于某個(gè)設(shè)定的閾值而濾除掉,包含著重要的判斷信息被舍棄,這樣就會(huì)對(duì)分類精度有一定的影響。
- 互信息方法
互信息(Mutual Information)衡量的是某個(gè)詞和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,某個(gè)詞t和某個(gè)類別Ci傳統(tǒng)的互信息定義如下:互信息是計(jì)算語(yǔ)言學(xué)模型分析的常用方法,它度量?jī)蓚€(gè)對(duì)象之間的相互性。在過(guò)濾問(wèn)題中用于度量特征對(duì)于主題的區(qū)分度。
互信息的定義與交叉嫡近似?;バ畔⒈緛?lái)是信息論中的一個(gè)概念,用于表示信息之間的關(guān)系, 是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度,使用互信息理論進(jìn)行特征抽取是基于如下假設(shè):在某個(gè)特定類別出現(xiàn)頻率高,但在其他類別出現(xiàn)頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特征詞和類別之問(wèn)的測(cè)度,如果特征詞屬于該類的話,它們的互信息量最大。由于該方法不需要對(duì)特征詞和類別之問(wèn)關(guān)系的性質(zhì)作任何假設(shè),因此非常適合于文本分類的特征和類別的配準(zhǔn)工作。特征項(xiàng)和類別的互信息體現(xiàn)了特征項(xiàng)與類別的相關(guān)程度, 是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。
互信息與期望交叉熵的不同在于沒(méi)有考慮特征出現(xiàn)的頻率, 這樣導(dǎo)致互信息評(píng)估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。因?yàn)閷?duì)于每一主題來(lái)講,特征t的互信息越大,說(shuō)明它與該主題的共現(xiàn)概率越大,因此,以互信息作為提取特征的評(píng)價(jià)時(shí)應(yīng)選互信息最大的若干個(gè)特征。互信息計(jì)算的時(shí)間復(fù)雜度類似于信息增益, 互信息的平均值就是信息增益。互信息的不足之處在于得分非常受詞條邊緣概率的影響。達(dá)觀的實(shí)驗(yàn)數(shù)據(jù)顯示,互信息分類效果通常比較差,其次是文檔頻率、CC 統(tǒng)計(jì),CHI 統(tǒng)計(jì)分類效果最好。
對(duì)互信息而言,提高分類精度的方法有:1) 可以增加特征空間的維數(shù),以提取足夠多的特征信息,這樣就會(huì)帶來(lái)了時(shí)間和空間上的額外開(kāi)銷;2) 根據(jù)互信息函數(shù)的定義,認(rèn)為這些低頻詞攜帶著較為強(qiáng)烈的類別信息,從而對(duì)它們有不同程度的倚重. 當(dāng)訓(xùn)練語(yǔ)料庫(kù)沒(méi)有達(dá)到一定規(guī)模的時(shí)候,特征空間中必然會(huì)存在大量的出現(xiàn)文檔頻率很低(比如低于3 次) 的詞條,他們較低的文檔頻率導(dǎo)致了他們必然只屬于少數(shù)類別. 但是從抽取出來(lái)的特征詞觀察發(fā)現(xiàn),大多數(shù)為生僻詞,很少一部分確實(shí)帶有較強(qiáng)的類別信息,多數(shù)詞攜帶少量的類別信息,甚至是噪音詞
- 期望交叉熵(Expected Cross Entropy)
交叉嫡與信息量的定義近似,其公式為:交叉嫡 ,也稱KL距離。它反映了文本主題類的概率分布和在出現(xiàn)了某特定詞匯的條件下文本主題類的概率分布之間的距離,詞匯w的交叉嫡越大,對(duì)文本主題類分布的影響也越大。它與信息增益唯一的不同之處在于沒(méi)有考慮單詞未發(fā)生的情況,只計(jì)算出現(xiàn)在文本中的特征項(xiàng)。如果特征項(xiàng)和類別強(qiáng)相關(guān), P(Ci|w)就大,若P(Ci) 又很小的話,則說(shuō)明該特征對(duì)分類的影響大。交叉熵反映了文本類別的概率分布和在出現(xiàn)了某個(gè)特定詞的條件下文本類別的概率分布之間的距離, 特征詞t 的交叉熵越大, 對(duì)文本類別分布的影響也越大。熵的特征選擇效果都要優(yōu)于信息增益。
- 二次信息熵(QEMI)
將二次熵函數(shù)應(yīng)用于互信息評(píng)估方法中,取代互信息中的Shannon熵,就形成了基于二次熵的互信息評(píng)估函數(shù)。基于二次熵的互信息克服了互信息的隨機(jī)性,是一個(gè)確定的量,因此可以作為信息的整體測(cè)度,另外它還比互信息最大化的計(jì)算復(fù)雜度要小,所以可以比較高效地用在基于分類的特征選取上。
- 信息增益方法(Information Gain)
信息增益方法是機(jī)器學(xué)習(xí)的常用方法,在過(guò)濾問(wèn)題中用于度量已知一個(gè)特征是否出現(xiàn)于某主題相關(guān)文本中對(duì)于該主題預(yù)測(cè)有多少信息。通過(guò)計(jì)算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。信息增益G(w)的訓(xùn)算公式如下:其中P(w)是詞w出現(xiàn)的概率,P(Ci)是取第i個(gè)目錄時(shí)的概率,P(C,|w) 是假定w出現(xiàn)時(shí)取第i個(gè)目錄的概率。
信息增益是一種基于熵的評(píng)估方法,涉及較多的數(shù)學(xué)理論和復(fù)雜的熵理論公式,定義為某特征項(xiàng)為整個(gè)分類所能提供的信息量,不考慮任何特征的熵與考慮該特征后的熵的差值。他根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)特征項(xiàng)的信息增益,刪除信息增益很小的項(xiàng),其余的按照信息增益從大到小排序。信息增益是信息論中的一個(gè)重要概念, 它表示了某一個(gè)特征項(xiàng)的存在與否對(duì)類別預(yù)測(cè)的影響, 定義為考慮某一特征項(xiàng)在文本中出現(xiàn)前后的信息熵之差。某個(gè)特征項(xiàng)的信息增益值越大, 貢獻(xiàn)越大, 對(duì)分類也越重要。信息增益方法的不足之處在于它考慮了特征未發(fā)生的情況。特別是在類分布和特征值分布高度不平衡的情況下, 絕大多數(shù)類都是負(fù)類, 絕大多數(shù)特征都不出現(xiàn)。此時(shí)的函數(shù)值由不出現(xiàn)的特征決定, 因此, 信息增益的效果就會(huì)大大降低。信息增益表現(xiàn)出的分類性能偏低。因?yàn)樾畔⒃鲆婵紤]了文本特征未發(fā)生的情況,雖然特征不出現(xiàn)的情況腫可能對(duì)文本類別具有貢獻(xiàn),但這種貢獻(xiàn)往往小于考慮這種情況時(shí)對(duì)特征分值帶來(lái)的干擾。
- 統(tǒng)計(jì)量方法
x2統(tǒng)計(jì)量用于度量特征w和主題類C之間的獨(dú)立性。而表示除w以外的其他特征,C表示除C以外的其他主題類,那么特征w和主題類C的關(guān)系有以下四種情況: ,用A, B, C, D表示這四種情況的文檔頻次,總的文檔數(shù)N=A+B+C+D,擴(kuò)統(tǒng)計(jì)量的計(jì)算公式如下:當(dāng)特征w和主題類C之間完全獨(dú)立的時(shí)候,x2統(tǒng)計(jì)量為0。x2統(tǒng)計(jì)量和互信息的差別在于它是歸一化的統(tǒng)計(jì)量,但是它對(duì)低頻特征的區(qū)分效果也不好。X2 統(tǒng)計(jì)得分的計(jì)算有二次復(fù)雜度, 相似于互信息和信息增益。在 X2 統(tǒng)計(jì)和互信息之間主要的不同在于 X2 是規(guī)格化評(píng)價(jià), 因而 X2 評(píng)估分值對(duì)在同類中的詞是可比的, 但是 X2 統(tǒng)計(jì)對(duì)于低頻詞來(lái)說(shuō)是不可靠的。
利用x2 統(tǒng)計(jì)方法來(lái)進(jìn)行特征抽取是基于如下假設(shè):在指定類別文本中出現(xiàn)頻率高的詞條與在其他類別文本中出現(xiàn)頻率比較高的詞條,對(duì)判定文檔是否屬于該類別都是很有幫助的.采用x2估計(jì)特征選擇算法的準(zhǔn)確率在實(shí)驗(yàn)中最高,其分類效果受訓(xùn)練集影響較小,比較穩(wěn)定。而且在對(duì)文教類和政治類存在類別交叉現(xiàn)象的文本進(jìn)行分類時(shí),采用x2估計(jì)的分類系統(tǒng)表現(xiàn)出了優(yōu)于其它方法的分類性能。X2估計(jì)的可靠性較好,便于對(duì)程序的控制,無(wú)需因訓(xùn)練集的改變而人為的調(diào)節(jié)特征閥值的大小。
- 文本證據(jù)權(quán)(The Weight of Evidence for Text)
文本證據(jù)權(quán)衡量類的概率和給定特征時(shí)類的條件概率之間的差別。
- 優(yōu)勢(shì)率(Odds Ratio)
優(yōu)勢(shì)率只適用于二元分類的情況,其特點(diǎn)是只關(guān)心文本特征對(duì)于目標(biāo)類的分值。Pos表示目標(biāo)類,neg表示非目標(biāo)類。
- 遺傳算法(Genetic Algorithm, GA):
遺傳算法(Genetic Algorithm, GA)是一種通用型的優(yōu)化搜索方法,它利用結(jié)構(gòu)化的隨機(jī)信息交換技術(shù)組合群體中各個(gè)結(jié)構(gòu)中最好的生存因素,復(fù)制出最佳代碼串,并使之一代一代地進(jìn)化,最終獲得滿意的優(yōu)化結(jié)果。
文本實(shí)際上可以看作是由眾多的特征詞條構(gòu)成的多維空間,而特征向量的選擇就是多維空間中的尋優(yōu)過(guò)程,因此在文本特征提取研究中可以使用高效尋優(yōu)算法。在將文本特征提取問(wèn)題轉(zhuǎn)化為文本空間的尋優(yōu)過(guò)程中,首先對(duì)Web文本空間進(jìn)行遺傳編碼,以文本向量構(gòu)成染色體,通過(guò)選擇、交叉、變異等遺傳操作,不斷搜索問(wèn)題域空間,使其不斷得到進(jìn)化,逐步得到Web文本的最優(yōu)特征向量。?基于協(xié)同演化的遺傳算法不是使用固定的環(huán)境來(lái)評(píng)價(jià)個(gè)體,而是使用其他的個(gè)體來(lái)評(píng)價(jià)特定個(gè)體?;趨f(xié)同演化的遺傳算法不僅能反映其母體的特征,還能反映其他同類文本的共性,這樣可以有效地解決同一主題眾多文本的集體特征向量的提取問(wèn)題,獲得反映整個(gè)文本集合某些特征的最佳個(gè)體。
- 主成分分析法(Principal Component Analysis,PCA)
PCA是非常常用的一種通用特征降維方法,也同樣大規(guī)模用于文本特征抽取中,基于其處理方式的不同又分為數(shù)據(jù)方法和矩陣方法。
矩陣方法中,所有的數(shù)據(jù)通過(guò)計(jì)算方差一協(xié)方差結(jié)構(gòu)在矩陣中表示出來(lái),矩陣的實(shí)現(xiàn)目標(biāo)是確定協(xié)方差矩陣的特征向量,它們和原始數(shù)據(jù)的主要成分相對(duì)應(yīng)。在主成分方法中,由于矩陣方法的復(fù)雜度在n很大的情況 以二次方增長(zhǎng),因此人們又開(kāi)發(fā)使用了主要使用Hebbian學(xué)習(xí)規(guī)則的PCA神經(jīng)網(wǎng)絡(luò)方法。主成分分析法是特征選取常用的方法之一,它能夠揭示更多有關(guān)變量_豐要方向的信息。但它的問(wèn)題在于矩陣方法中要使用奇異值分解對(duì)角化矩陣求解方差一協(xié)方差。
- 模擬退火算法(Simulating Anneal,SA)
特征選取可以看成是一個(gè)組合優(yōu)化問(wèn)題,因而可以使用解決優(yōu)化問(wèn)題的方法來(lái)解決特征選取的問(wèn)題。模擬退火算法(Simulating Anneal,SA)就是其中一種方法。模擬退火算法是一個(gè)很好的解決優(yōu)化問(wèn)題的方法,將這個(gè)方法運(yùn)用到特征選取中,理論上能夠找到全局最優(yōu)解,但在初始溫度的選取和鄰域的選取t要恰當(dāng),必須要找到一個(gè)比較折中的辦法,綜合考慮解的性能和算法的速度。
- N—Gram算法
它的基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為N的滑動(dòng)窗口操作,形成長(zhǎng)度為N的字節(jié)片段序列。每個(gè)字節(jié)片段稱為gram,對(duì)全部gram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并按照事先設(shè)定的閾值進(jìn)行過(guò)濾,形成關(guān)鍵gram列表,即為該文本的特征向量空間,每一種gram則為特征向量維度。
由于N—Gram算法可以避免中文分詞的障礙,所以對(duì)中文分類有較高的實(shí)用性。中文文本處理大多采用雙字節(jié)進(jìn)行分解,稱之為bi-gram。但是bigram切分方法在處理20%左右的中文多字詞時(shí),往往產(chǎn)生語(yǔ)義和語(yǔ)序方面的偏差。而對(duì)于專業(yè)研究領(lǐng)域,多字詞常常是文本的核心特征,處理錯(cuò)誤會(huì)導(dǎo)致較大的負(fù)面影響?;贜—Gram改進(jìn)的文本特征提取算法,在進(jìn)行bigram切分時(shí),不僅統(tǒng)計(jì)gram的出現(xiàn)頻度,而且還統(tǒng)計(jì)某個(gè)gram與其前鄰gram的情況,并將其記錄在gram關(guān)聯(lián)矩陣中。對(duì)于那些連續(xù)出現(xiàn)頻率大于事先設(shè)定閾值的,就將其合并成為多字特征詞。這樣通過(guò)統(tǒng)計(jì)與合并雙字特征詞,自動(dòng)產(chǎn)生多字特征詞,可以較好地彌補(bǔ)N—Gram算法在處理多字詞方面的缺陷。
3.3??? 評(píng)估函數(shù)對(duì)比分析
上述羅列的幾種文檔特征評(píng)估函數(shù)的特點(diǎn)如何呢?信息增益的定義過(guò)于復(fù)雜,因此應(yīng)用較多的是交叉嫡和互信息。其中互信息的效果要好于交叉嫡,這是因?yàn)榛バ畔⑹菍?duì)不同的主題類分別抽取特征詞,而交叉嫡跟特征在全部主題類內(nèi)的分布有關(guān),是對(duì)全部主題類來(lái)抽取特征詞。這些方法,在英文特征提取方面都有各自的優(yōu)勢(shì),但用于中文文本,并沒(méi)有很高的效率。主要有2 個(gè)方面的原因:
1) 特征提取的計(jì)算量太大,特征提取效率太低,而特征提取的效率直接影響到整個(gè)文本分類系統(tǒng)的效率;
2) 經(jīng)過(guò)特征提取后生成的特征向量維數(shù)太高,而且不能直接計(jì)算出特征向量中各個(gè)特征詞的權(quán)重。
目前使用評(píng)估函數(shù)進(jìn)行特征選取越來(lái)越普遍,特征選取算法通過(guò)構(gòu)造一個(gè)評(píng)估函數(shù)的方法,選取預(yù)定數(shù)目的最佳特征作為特征子集的結(jié)果。在幾種評(píng)估方法中,每一種方法都有一個(gè)選詞標(biāo)準(zhǔn),遵從這個(gè)標(biāo)準(zhǔn),從文本集的所有詞匯中選取出有某個(gè)限定范圍的特征詞集。因?yàn)樵u(píng)估函數(shù)的構(gòu)造不是特別復(fù)雜,適用范圍又很廣泛,所以越來(lái)越多的人們喜歡使用構(gòu)造評(píng)估函數(shù)來(lái)進(jìn)行特征的選取,這些評(píng)估函數(shù)在Web文本挖掘中被廣泛使用,特征選擇精度普遍達(dá)到70%~80%,但也各自存在缺點(diǎn)和不足。例如,“信息增益”考慮了單詞未發(fā)生的情況,對(duì)判斷文本類別貢獻(xiàn)不大,而且引入不必要的干擾,特別是在處理類分布和特征值分布高度不平衡的數(shù)據(jù)時(shí)選擇精度下降。“期望交叉熵”與“信息增益”的唯一不同就是沒(méi)有考慮單詞未發(fā)生的情況,因此不論處理哪種數(shù)據(jù)集,它的特征選擇精度都優(yōu)于“信息增益”。與“期望交叉熵”相比,“互信息”沒(méi)有考慮單詞發(fā)生的頻度,這是一個(gè)很大的缺點(diǎn),造成“互信息”評(píng)估函數(shù)經(jīng)常傾向于選擇稀有單詞?!拔谋咀C據(jù)權(quán)”是一種構(gòu)造比較新穎的評(píng)估函數(shù),它衡量一般類的概率和給定特征類的條件概率之間的差別,這樣在文本處理中,就不需要計(jì)算W的所有可能值,而僅考慮W在文本中出現(xiàn)的情況?!皟?yōu)勢(shì)率”不像前面所述的其他評(píng)估函數(shù)將所有類同等對(duì)待,它只關(guān)心目標(biāo)類值,所以特別適用于二元分類器,可以盡可能多地識(shí)別正類,而不關(guān)心識(shí)別出負(fù)類。從考慮文本類間相關(guān)性的角度,可以把常用的評(píng)估函數(shù)分為兩類,即類間不相關(guān)的和類間相關(guān)的
“文檔頻數(shù)”(DF)是典型的類間不相關(guān)評(píng)估函數(shù), DF的排序標(biāo)準(zhǔn)是依據(jù)特征詞在文檔中出現(xiàn)篇數(shù)的百分比,或稱為篇章覆蓋率。這種類型的評(píng)估函數(shù),為了提高區(qū)分度,要盡量尋找篇章覆蓋率較高的特征詞,但又要避免選擇在各類文本中都多次出現(xiàn)的無(wú)意義高頻詞,因此類間不相關(guān)評(píng)估函數(shù)對(duì)停用詞表的要求很高。但是,很難建立適用于多個(gè)類的停用詞表,停用詞不能選擇太多,也不能選擇太少,否則都將會(huì)影響特征詞的選擇。同時(shí),類間不相關(guān)評(píng)估函數(shù)還存在一個(gè)明顯的缺點(diǎn),就是對(duì)于特征詞有交叉的類別或特征相近的類別,選擇的特征詞會(huì)出現(xiàn)很多相似或相同的詞條,造成在特定類別間的區(qū)分度下降。類間相關(guān)的評(píng)估函數(shù),例如期望交叉熵、互信息、文本證據(jù)權(quán)等,綜合考慮了詞條在已定義的所有類別中的出現(xiàn)情況,可以通過(guò)調(diào)整特征詞的權(quán)重,選擇出區(qū)分度更好的特征,在一定程度上提高了相近類別的區(qū)分度。但是,該區(qū)分度的提高僅體現(xiàn)在已定義的類別間,而對(duì)于尚未定義的域外類別,類間相關(guān)評(píng)估函數(shù)的選擇效果也不理想。因此,在評(píng)估函數(shù)選擇問(wèn)題上,提高對(duì)域外類別文本的區(qū)分度是十分重要的研究課題。
傳統(tǒng)的特征選擇方法大多采用以上各評(píng)估函數(shù)進(jìn)行特征權(quán)重的計(jì)算,由于這些評(píng)估函數(shù)是基于統(tǒng)計(jì)學(xué)的,其中一個(gè)主要缺陷就是需要用一個(gè)很龐大的訓(xùn)練集才能獲得幾乎所有的對(duì)分類起關(guān)鍵作用的特征.這需要消耗大量的時(shí)間和空間資源,況且,構(gòu)建這樣一個(gè)龐大的訓(xùn)練集也是一項(xiàng)十分艱巨的工作。然而,在現(xiàn)實(shí)應(yīng)用中,考慮到工作效率,不會(huì)也沒(méi)有足夠的資源去構(gòu)建一個(gè)龐大的訓(xùn)練集,這樣的結(jié)果就是:被選中的甚至是權(quán)重比較高的特征,可能對(duì)分類沒(méi)有什么用處,反而會(huì)干涉到正確的分類;而真正有用的特征卻因?yàn)槌霈F(xiàn)的頻率低而獲得較低的權(quán)重,甚至在降低特征空間維數(shù)的時(shí)候被刪除掉了?;谠u(píng)估函數(shù)的特征提取方法是建立在特征獨(dú)立的假設(shè)基礎(chǔ)上,但在實(shí)際中這個(gè)假設(shè)是很難成立的,因此需要考慮特征相關(guān)條件下的文本特征提取方法。
3.4??? 詞向量的應(yīng)用
特征選擇也可以通過(guò)用映射或變換的方法把原始特征變換為較少的新特征。上面提到的特征選擇模塊,在實(shí)際情況會(huì)碰到這樣的問(wèn)題:無(wú)論是采用文檔頻率、信息增益法、互信息法等得降維方法,都會(huì)損失了部分的文檔信息。以文檔頻率為例,在特征選擇過(guò)程中由于某些關(guān)鍵的詞語(yǔ)低于了人為設(shè)定的閾值,所以會(huì)被直接忽視掉,而很多情況這部分詞匯能包含較多的信息,對(duì)于分類的重要性比較大。怎么能夠進(jìn)一步理解這部分的信息,是急需要解決的問(wèn)題。一個(gè)想法是找到這些使用頻率比較低的詞語(yǔ)相似的高頻詞,譬如在討論“月亮”的古詩(shī)詞中,包含了很多低頻的同義詞,如“玉兔”,“嬋娟”等,如果我們能把這些低頻的詞語(yǔ)合并到一個(gè)維度,無(wú)疑是能夠增強(qiáng)分類系統(tǒng)對(duì)文檔的理解深度的。詞向量這一概念能夠有效地表示詞語(yǔ)之間的相似性,適用于這種方法。
先介紹一下詞向量的定義。一種最簡(jiǎn)單的詞向量是one-hot representation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度是詞典D的大小N,向量的分量只有一個(gè)為1,其他全為0,1的位置對(duì)應(yīng)該詞在詞典中的索引。這種詞向量表示有一些缺點(diǎn):容易受維數(shù)災(zāi)難的困擾。另一種詞向量是Distributed Representation,它最早是Hinton于1986年提出來(lái)的,可以克服one-hot representation的上述缺點(diǎn)。其基本想法是:通過(guò)訓(xùn)練將某種語(yǔ)言中的每個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量。所有這些向量構(gòu)成一個(gè)詞向量空間,每個(gè)向量是該空間中的一個(gè)點(diǎn),在這個(gè)空間上引入距離,就可以根據(jù)詞之間的距離來(lái)判斷它們之間的(詞法、語(yǔ)義上的)相似性了。如何獲取Distributed Representation的詞向量呢?有很多不同的模型可以用來(lái)估計(jì)詞向量,包括有名的LSA、LDA和神經(jīng)網(wǎng)絡(luò)算法。Word2Vec就是使用度比較廣的一個(gè)神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的詞向量計(jì)算工具。
現(xiàn)介紹詞向量在分類系統(tǒng)上的具體實(shí)踐。Word2Vec能夠?qū)⒃~映射成一個(gè)固定長(zhǎng)度的短向量,所以生成了文檔集合詞語(yǔ)的向量表示。由于向量的距離代表了詞語(yǔ)之間的相似性,我們可以通過(guò)聚類的方法(譬如K-Means)把相似的詞語(yǔ)合并到一個(gè)維度,重新計(jì)算該維度的特征向量權(quán)值。相比于原來(lái)的方法,使用詞向量能在一定程度保留了文檔的信息。此外,Word2Vec作為無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)實(shí)現(xiàn),能夠允許它從無(wú)標(biāo)注的文本進(jìn)行訓(xùn)練,能進(jìn)一步提升系統(tǒng)的性能。(達(dá)觀數(shù)據(jù)張健)
另外,基于向量空間模型的文本分類方法是沒(méi)有考慮到詞的順序的。基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)做文本分類,可以利用到詞的順序包含的信息。CNN模型把原始文本作為輸入,不需要太多的人工特征。下圖是CNN模型的一個(gè)實(shí)現(xiàn),共分四層,第一層是詞向量層,doc中的每個(gè)詞,都將其映射到詞向量空間,假設(shè)詞向量為k維,則n個(gè)詞映射后,相當(dāng)于生成一張n*k維的圖像;第二層是卷積層,多個(gè)濾波器作用于詞向量層,不同濾波器生成不同的feature map;第三層是pooling層,取每個(gè)feature map的最大值,這樣操作可以處理變長(zhǎng)文檔,因?yàn)榈谌龑虞敵鲋灰蕾囉跒V波器的個(gè)數(shù);第四層是一個(gè)全連接的softmax層,輸出是每個(gè)類目的概率。除此之外,輸入層可以有兩個(gè)channel,其中一個(gè)channel采用預(yù)先利用word2vec訓(xùn)練好的詞向量,另一個(gè)channel的詞向量可以通過(guò)backpropagation在訓(xùn)練過(guò)程中調(diào)整。
圖 3 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法
4????? 特征向量權(quán)值計(jì)算
特征權(quán)重用于衡量某個(gè)特征項(xiàng)在文檔表示中的重要程度或區(qū)分能力的強(qiáng)弱。選擇合適的權(quán)重計(jì)算方法,對(duì)文本分類系統(tǒng)的分類效果能有較大的提升作用。影響特征詞權(quán)值的因素包括以下幾點(diǎn):
- 詞頻和文檔頻度,
詞頻和文檔頻度,是特征項(xiàng)最重要的影響因素。文本內(nèi)中的中頻詞往往具有代表性,高頻詞區(qū)分能力較小,而低頻詞或者示出現(xiàn)詞也常常可以做為關(guān)鍵特征詞。而對(duì)于文檔頻度這一角度,出現(xiàn)文檔多的特征詞,分類區(qū)分能力較差,出現(xiàn)文檔少的特征詞更能代表文本的不同主題。結(jié)合詞頻和文檔頻度來(lái)評(píng)估特征的重要性有較強(qiáng)的區(qū)分能力,它們?cè)诓煌椒ㄖ杏胁煌膽?yīng)用公式,這些方法包括:絕對(duì)詞頻(TF)、倒排文檔頻度(IDF)、TF-IDF、TFC、ITC、TF-IWF,如下:
- 絕對(duì)詞頻(TF):直接使用特征項(xiàng)在文本中出現(xiàn)的頻度;
- 倒排文檔頻度(IDF):稀有特征比常用特征含有更新的信息;
- TF-IDF: 權(quán)重與特征項(xiàng)在文檔中出現(xiàn)的頻率成正比,與在整個(gè)語(yǔ)料中出現(xiàn)該特征項(xiàng)的文檔書(shū)成反比;
- TFC:對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF;
- ITC:在TFC基礎(chǔ)上,用tf的對(duì)數(shù)值代替tf值;
- TF-IWF:在TF-IDF算法的基礎(chǔ)上,用特征項(xiàng)頻率倒數(shù)的對(duì)數(shù)值IWF代替IDF,并且用IWF的平方平衡權(quán)重值對(duì)于特征項(xiàng)頻率的倚重。
- 詞性
漢語(yǔ)言中,能標(biāo)識(shí)文本特性的往往是文本中的實(shí)詞,如名詞、動(dòng)詞、形容詞等。而文本中的一些虛詞,如感嘆詞、介詞、連詞等,對(duì)于標(biāo)識(shí)文本的類別特性并沒(méi)有貢獻(xiàn),也就是對(duì)確定文本類別沒(méi)有意義的詞。如果把這些對(duì)文本分類沒(méi)有意思的虛詞作為文本特征詞,將會(huì)帶來(lái)很大噪音,從而直接降低文本分類的效率和準(zhǔn)確率。因此,在提取文本特征時(shí),應(yīng)首先考慮剔除這些對(duì)文本分類沒(méi)有用處的虛詞,而在實(shí)詞中,又以名詞和動(dòng)詞對(duì)于文本的類別特性的表現(xiàn)力最強(qiáng),所以可以只提取文本中的名詞和動(dòng)詞作為文本的一級(jí)特征詞。
- 標(biāo)題
標(biāo)題是作者給出的提示文章內(nèi)容的短語(yǔ),特別在新聞?lì)I(lǐng)域,新聞報(bào)道的標(biāo)題一般都要求要簡(jiǎn)練、醒目,有不少縮略語(yǔ),與報(bào)道的主要內(nèi)容有著重要的聯(lián)系,對(duì)摘要內(nèi)容的影響不可忽視。統(tǒng)計(jì)分析表明,小標(biāo)題的識(shí)別有助于準(zhǔn)確地把握文章的主題。主要體現(xiàn)在兩個(gè)方面:正確識(shí)別小標(biāo)題可以很好地把握文章的整體框架,理清文章的結(jié)構(gòu)層次;同時(shí),小標(biāo)題本身是文章中心內(nèi)容的高度概括。因此,小標(biāo)題的正確識(shí)別能在一定程度上提高文摘的質(zhì)量。
- 位置
美國(guó)的EE.Baxendale的調(diào)查結(jié)果顯示:段落的論題是段落首句的概率為85%,是段落末句的概率為7%。而且新聞報(bào)道性文章的形式特征決定了第一段一般是揭示文章主要內(nèi)容的。因此,有必要提高處于特殊位置的句子權(quán)重,特別是報(bào)道的首旬和末句。但是這種現(xiàn)象又不是絕對(duì)的,所以,我們不能認(rèn)為首句和末句就一定是所要摘要的內(nèi)容,因此可以考慮一個(gè)折衷的辦法,即首句和末句的權(quán)重上可通過(guò)統(tǒng)計(jì)數(shù)字?jǐn)U大一個(gè)常數(shù)倍。首段、末段、段首、段尾、標(biāo)題和副標(biāo)題、子標(biāo)題等處的句子往往在較大程度上概述了文章的內(nèi)容。對(duì)于出現(xiàn)在這些位置的句子應(yīng)該加大權(quán)重。Internet上的文本信息大多是HTML結(jié)構(gòu)的,對(duì)于處于Web文本結(jié)構(gòu)中不同位置的單詞,其相應(yīng)的表示文本內(nèi)容或區(qū)別文本類別的能力是不同的,所以在單詞權(quán)值中應(yīng)該體現(xiàn)出該詞的位置信息。
- 句法結(jié)構(gòu)
句式與句子的重要性之間存在著某種聯(lián)系,比如摘要中的句子大多是陳述句,而疑問(wèn)句、感嘆句等則不具內(nèi)容代表性。而通?!翱傊?、“綜上所述”等一些概括性語(yǔ)義后的句子,包含了文本的中心內(nèi)容。
- 專業(yè)詞庫(kù)
通用詞庫(kù)包含了大量不會(huì)成為特征項(xiàng)的常用詞匯,為了提高系統(tǒng)運(yùn)行效率,系統(tǒng)根據(jù)挖掘目標(biāo)建立專業(yè)的分詞表,這樣可以在保證特征提取準(zhǔn)確性的前提下,顯著提高系統(tǒng)的運(yùn)行效率。用戶并不在乎具體的哪一個(gè)詞出現(xiàn)得多,而在乎泛化的哪一類詞出現(xiàn)得多。真正起決定作用的是某一類詞出現(xiàn)的總頻率?;谶@一原理,我們可以先將詞通過(guò)一些方法依主題領(lǐng)域劃分為多個(gè)類,然后為文本提取各個(gè)詞類的詞頻特征,以完成對(duì)文本的分類??梢酝ㄟ^(guò)人工確定領(lǐng)域內(nèi)的關(guān)鍵詞集。
- 信息熵
熵(Entropy)在信息論中是一個(gè)非常重要的概念,它是不確定性的一種度量。信息熵方法的基本目的是找出某種符號(hào)系統(tǒng)的信息量和多余度之間的關(guān)系,以便能用最小的成本和消耗來(lái)實(shí)現(xiàn)最高效率的數(shù)據(jù)儲(chǔ)存、管理和傳遞。我們將可以將信息論中的熵原理引入到特征詞權(quán)重的計(jì)算中。
- 文檔、詞語(yǔ)長(zhǎng)度
一般情況下,詞的長(zhǎng)度越短,其語(yǔ)義越泛。一般來(lái)說(shuō),中文中詞長(zhǎng)較長(zhǎng)的詞往往反映比較具體、下位的概念,而短的詞常常表示相對(duì)抽象、上位的概念一般說(shuō)來(lái),短詞具有較高的頻率和更多的含義,是面向功能的;而長(zhǎng)詞的頻率較低,是面向內(nèi)容的,增加長(zhǎng)詞的權(quán)重,有利于詞匯進(jìn)行分割,從而更準(zhǔn)確地反映出特征詞在文章中的重要程度。詞語(yǔ)長(zhǎng)度通常不被研究者重視。但是本文在實(shí)際應(yīng)用中發(fā)現(xiàn),關(guān)鍵詞通常是一些專業(yè)學(xué)術(shù)組合詞匯,長(zhǎng)度較一般詞匯長(zhǎng)??紤]候選詞的長(zhǎng)度,會(huì)突出長(zhǎng)詞的作用。長(zhǎng)度項(xiàng)也可以使用對(duì)數(shù)函數(shù)來(lái)平滑詞匯間長(zhǎng)度的劇烈差異。通常來(lái)說(shuō),長(zhǎng)詞匯含義更明確,更能反映文本主題,適合作為關(guān)鍵詞,因此將包含在長(zhǎng)詞匯中低于一定過(guò)濾閾值的短詞匯進(jìn)行了過(guò)濾。所謂過(guò)濾閾值,就是指進(jìn)行過(guò)濾短詞匯的后處理時(shí),短詞匯的權(quán)重和長(zhǎng)詞匯的權(quán)重的比的最大值。如果低于過(guò)濾閾值,則過(guò)濾短詞匯,否則保留短詞匯。根據(jù)統(tǒng)計(jì),二字詞匯多是常用詞,不適合作為關(guān)鍵詞,因此對(duì)實(shí)際得到的二字關(guān)鍵詞可以做出限制。比如,抽取5個(gè)關(guān)鍵詞,本文最多允許3個(gè)二字關(guān)鍵詞存在。這樣的后處理無(wú)疑會(huì)降低關(guān)鍵詞抽取的準(zhǔn)確度和召回率,但是同候選詞長(zhǎng)度項(xiàng)的運(yùn)用一樣,人工評(píng)價(jià)效果將會(huì)提高。
- 詞語(yǔ)間關(guān)聯(lián)
詞匯間的關(guān)聯(lián)關(guān)系對(duì)提升文本理解的深度有非常重要的影響,例如中文中存在大量的同義詞,近義詞,中文簡(jiǎn)稱,指代等。在前文中計(jì)算詞頻、出現(xiàn)位置時(shí),如果沒(méi)有很好的考慮詞語(yǔ)間關(guān)聯(lián),則很容易錯(cuò)誤的識(shí)別文章的核心關(guān)鍵詞,影響文本分類精度。
- 單詞的區(qū)分能力
在TF*IDF公式的基礎(chǔ)上,又?jǐn)U展了一項(xiàng)單詞的類區(qū)分能力。新擴(kuò)展的項(xiàng)用于描述單詞與各個(gè)類別之間的相關(guān)程度。
- 詞語(yǔ)直徑(Diameter(t))
詞語(yǔ)直徑是指詞語(yǔ)在文本中首次出現(xiàn)的位置和末次出現(xiàn)的位置之間的距離。詞語(yǔ)直徑是根據(jù)實(shí)踐提出的一種統(tǒng)計(jì)特征。根據(jù)經(jīng)驗(yàn),如果某個(gè)詞匯在文本開(kāi)頭處提到,結(jié)尾又提到,那么它對(duì)該文本來(lái)說(shuō),是個(gè)很重要的詞匯。不過(guò)統(tǒng)計(jì)結(jié)果顯示,關(guān)鍵詞的直徑分布出現(xiàn)了兩極分化的趨勢(shì),在文本中僅僅出現(xiàn)了1 次的關(guān)鍵詞占全部關(guān)鍵詞的14.184%。 所以詞語(yǔ)直徑是比較粗糙的度量特征。
- 首次出現(xiàn)位置(FirstLoc(t))
Frank在Kea算法中使用候選詞首次出現(xiàn)位置作為Bayes概率計(jì)算的一個(gè)主要特征,他稱之為距離(Distance)。簡(jiǎn)單的統(tǒng)計(jì)可以發(fā)現(xiàn),關(guān)鍵詞一般在文章中較早出現(xiàn),因此出現(xiàn)位置靠前的候選詞應(yīng)該加大權(quán)重。實(shí)驗(yàn)數(shù)據(jù)表明,首次出現(xiàn)位置和詞語(yǔ)直徑兩個(gè)特征只選擇一個(gè)使用就可以了。由于文獻(xiàn)數(shù)據(jù)加工問(wèn)題導(dǎo)致中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)的全文數(shù)據(jù)不僅包含文章本身,還包含了作者、作者機(jī)構(gòu)以及引文信息,針對(duì)這個(gè)特點(diǎn),使用首次出現(xiàn)位置這個(gè)特征,可以盡可能減少全文數(shù)據(jù)的附加信息造成的不良影響。
- 詞語(yǔ)分布偏差(Deviation(t))
詞語(yǔ)分布偏差所考慮的是詞語(yǔ)在文章中的統(tǒng)計(jì)分布。在整篇文章中分布均勻的詞語(yǔ)通常是重要的詞匯。詞語(yǔ)的分布偏差計(jì)算公式如下: 其中,CurLoc(tj)是詞匯t在文章中第j次出現(xiàn)的位置;MeanLoc(t)是詞匯t在文章中出現(xiàn)的平均位置。
特征權(quán)重計(jì)算方法沒(méi)有最好的選擇,往往要依據(jù)現(xiàn)實(shí)的具體場(chǎng)景來(lái)選取適合的方法。在進(jìn)行特征權(quán)重的計(jì)算之后,已經(jīng)可以把測(cè)試集數(shù)據(jù)采用機(jī)器學(xué)習(xí)方法進(jìn)行分類訓(xùn)練。但是實(shí)際操作會(huì)遇到一些問(wèn)題。單詞并不都包含相同的信息。如果在一部分文件中有些單詞頻繁地出現(xiàn),那將擾亂分類系統(tǒng)的分析。我們想要對(duì)每一個(gè)詞頻向量進(jìn)行比例縮放,使其變得更具有代表性。換句話說(shuō),我們需要進(jìn)行向量標(biāo)準(zhǔn)化,譬如標(biāo)準(zhǔn)化向量使其L2范數(shù)為1。某種程度上,我們得到了一個(gè)在該詞的信息價(jià)值上衰減的結(jié)果。所以我們需要按比例縮小那些在一篇文檔中頻繁出現(xiàn)的單詞的值。
5 ? ? 樣本訓(xùn)練
5.1??? 文本分類算法
由于文本分類本身是一個(gè)分類問(wèn)題,所以一般的模式分類方法都可以用于文本分類應(yīng)用中。常用的分類算法包括:
- Rocchio分類器
Rocchio分類器的基本思想是,首先為每一個(gè)訓(xùn)練文本C建立一個(gè)特征向量,然后使用訓(xùn)練文本的特征向量為每個(gè)類建立一個(gè)原型向量(類向量)。當(dāng)給定一個(gè)待分類文本時(shí),計(jì)算待分類文本與各個(gè)類別的原型向量之間的距離,然后根據(jù)計(jì)算出來(lái)的距離值決定待分類文本屬于哪一類別。一個(gè)基本的實(shí)現(xiàn)方法就是把一個(gè)類別里的樣本文檔各項(xiàng)取個(gè)平均值,作為原型變量。
- 樸素貝葉斯分類器
利用特征項(xiàng)和類別的列和概率來(lái)估計(jì)給定文檔的類別概率。假設(shè)文本是基于詞的一元模型,即文本中當(dāng)前詞的出現(xiàn)依賴于文本類別,但不依賴于其他詞及文本的長(zhǎng)度,也就是說(shuō),詞與詞之間是獨(dú)立的。根據(jù)貝葉斯公式,文檔Doc屬于Ci類別的概率為P(Ci|Doc)=P(Doc|Ci)*P(Ci)/P(Doc)。
- 基于支持向量機(jī)的分類器
基于支持向量機(jī)(SVM)的分類方法主要用于解決二元模式分類問(wèn)題。SVM的基本思想是在向量空間中找到一個(gè)決策平面,這個(gè)平面能夠“最好”地分割兩個(gè)分類中的數(shù)據(jù)點(diǎn)。支持向量機(jī)分類法就是要在訓(xùn)練集中找到具有最大類間界限的決策平面,如圖4。
圖 4 基于支持向量機(jī)分類器原理圖
- k-最近鄰法
k-最近鄰方法的基本思想是:給定一個(gè)測(cè)試文檔,系統(tǒng)在訓(xùn)練集中查找離它最近的k個(gè)鄰近文檔,并且根據(jù)這些鄰近文檔的分類來(lái)給該文檔的候選類別評(píng)分。把鄰近文檔和測(cè)試文檔的相似度作為鄰近文檔所在類別的權(quán)重,如果這k個(gè)鄰近文檔中的部分文檔屬于同一個(gè)類別,那么將該類別中每個(gè)鄰近文檔的權(quán)重求和,并作為該類別和測(cè)試文檔的相似度。然后,通過(guò)對(duì)候選分類評(píng)分的排序,給出一個(gè)閾值。
- 基于神經(jīng)網(wǎng)絡(luò)的分類器
神經(jīng)網(wǎng)絡(luò)是人工智能中比較成熟的技術(shù)之一,基于該技術(shù)的分類器的基本思想是:給每一類文檔簡(jiǎn)歷一個(gè)神經(jīng)網(wǎng)絡(luò),輸入通常是單詞或者更加復(fù)雜的特征向量,通過(guò)機(jī)器學(xué)習(xí)方法獲得從輸入到分類的非線性映射。
- 決策樹(shù)
決策樹(shù)分類器把文本處理過(guò)程看作是一個(gè)等級(jí)分層分解完成的復(fù)雜任務(wù)。如圖5,決策樹(shù)是一棵樹(shù),樹(shù)的根節(jié)點(diǎn)是整個(gè)數(shù)據(jù)集合空間,每個(gè)分結(jié)點(diǎn)是對(duì)一個(gè)單一變量的測(cè)試,改測(cè)試將數(shù)據(jù)集合空間分割成兩個(gè)或更多個(gè)類別,及決策樹(shù)可以是二叉樹(shù)也可以是多叉樹(shù)。每個(gè)葉結(jié)點(diǎn)是屬于單一類別的記錄。構(gòu)造決策樹(shù)分類器時(shí),首先要通過(guò)訓(xùn)練生成決策樹(shù),然后再通過(guò)測(cè)試集對(duì)決策樹(shù)進(jìn)行修剪。一般可通過(guò)遞歸分割的過(guò)程構(gòu)建決策樹(shù),其生成過(guò)程通常是自上而下的,選擇分割的方法有很多種,但是目標(biāo)都是一致的,就是對(duì)目標(biāo)文檔進(jìn)行最佳分割。
圖 5 決策樹(shù)實(shí)例
5.2??? Ensemble方法
我們使用上述的經(jīng)典分類算法的過(guò)程中,很自然的想到一點(diǎn),我們是否能夠整合多個(gè)算法優(yōu)勢(shì)到解決某一個(gè)特定分類問(wèn)題中去?答案是肯定的。通過(guò)聚合多個(gè)分類器的預(yù)測(cè)來(lái)提高分類的準(zhǔn)確率。這種技術(shù)稱為Ensemble方法。Ensemble方法是提升機(jī)器學(xué)習(xí)精度的有效手段。它的基本思想,充分利用不同分類器的優(yōu)勢(shì),取長(zhǎng)補(bǔ)短,最后綜合多個(gè)分類器的結(jié)果。Ensemble可以設(shè)定一個(gè)目標(biāo)函數(shù)(組合多個(gè)分類器),通過(guò)訓(xùn)練得到多個(gè)分類器的組合參數(shù)(而不是簡(jiǎn)單的累加或者多數(shù))。 在Ensemble框架下將分類器分為兩個(gè)Level: L1層和L2層。L1層是基礎(chǔ)分類器,前面提到的分類器均可以作為L(zhǎng)1層分類器來(lái)使用;L2層基于L1層,將L1層的分類結(jié)果形成特征向量,再組合一些其他的特征后,形成L2層分類器(如SVM,AdaBoost等)的輸入。這里需要特別留意的是用于L2層的訓(xùn)練的樣本必須沒(méi)有在訓(xùn)練L1層時(shí)使用過(guò)。(達(dá)觀數(shù)據(jù)張健,陳運(yùn)文)
圖 6 Ensemble框架
6????? 文本分類評(píng)估
針對(duì)不同的目的,多種文本分類器性能評(píng)價(jià)方法被提出,包括召回率、正確率和F-測(cè)度值。設(shè)定a表示分類器將輸入文本正確分類到某個(gè)類別的個(gè)數(shù);b表示分類器將輸入文本錯(cuò)誤分類到某個(gè)類別的個(gè)數(shù);c表示分類器將輸入文本錯(cuò)誤地排除在某個(gè)類別之外的個(gè)數(shù);d表示分類器將輸入文本正確地排除在某個(gè)類別之外的個(gè)數(shù)。
該分類器的召回率、正確率和F-測(cè)度值分別采用以下公式計(jì)算:
- 召回率 r = a / (a + c) * 100%
- 正確率 p = a / (a + b) * 100%
- F-測(cè)度值 F = (2 * p * r) /(p + r)
由于在分類結(jié)果中,對(duì)應(yīng)每個(gè)類別都會(huì)有一個(gè)召回率和正確率,因此,可以根據(jù)每個(gè)類別的分類結(jié)果評(píng)價(jià)分類器的整體性能,通常方法有兩種:微平均和宏平均。微平均是根據(jù)正確率和召回率計(jì)算公式直接計(jì)算出總得正確率和召回率值。宏平均是指首先計(jì)算出每個(gè)類別的正確率和召回率,然后對(duì)正確率和召回率分別取平均得到總的正確率和召回率。不難看出,宏平均平等對(duì)待每一個(gè)類別,所以它的值主要受到稀有類別的影響,而微平均平等考慮文檔集中的每一個(gè)文檔,所以它的值受到常見(jiàn)類別的影響比較大。
結(jié)語(yǔ)
如今我們正處在一個(gè)信息爆炸的時(shí)代,如何在這樣一個(gè)巨大的信息海洋中更加有效的發(fā)現(xiàn)和使用信息以及如何利用這個(gè)信息寶庫(kù)為人們提供更高質(zhì)量和智能化的信息服務(wù),是值得探討的問(wèn)題。自動(dòng)文本分類技術(shù)作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),已經(jīng)成為關(guān)注焦點(diǎn),具有廣泛的應(yīng)用場(chǎng)景。達(dá)觀數(shù)據(jù)科技非常愿意與所有企業(yè)分享我們的經(jīng)驗(yàn)和能力,助力各個(gè)企業(yè)享受大數(shù)據(jù)技術(shù)的成果。