色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

數(shù)據(jù)挖掘 NLP 之文本挖掘文本處理通用流程

數(shù)據(jù)挖掘中的文本挖掘不論是對于企業(yè)應(yīng)用,還是研究者工作,或者是參與數(shù)據(jù)競賽項目,都是基礎(chǔ)的工作。通過前面的一些實踐工作,現(xiàn)總結(jié)出文本挖掘文本處理的通用流程。

注意,這里的文本挖掘任務(wù)主要指的是如文本分類、文本聚類、信息抽取、情感分類等等的常規(guī)NLP問題。

 

一、獲取語料

獲取文本語料通常有以下幾種方式:

1. 標(biāo)準(zhǔn)開放公開測試數(shù)據(jù)集,比如國內(nèi)的中文漢語有搜狗語料、人民日報語料;國際English的有stanford的語料數(shù)據(jù)集、semavel的數(shù)據(jù)集等等。

2. 爬蟲抓取,獲取網(wǎng)絡(luò)文本,主要是獲取網(wǎng)頁HTML的形式,利用網(wǎng)絡(luò)爬蟲在相關(guān)站點爬取目標(biāo)文本數(shù)據(jù)。

二、文本預(yù)處理

1.數(shù)據(jù)清洗

對于爬蟲爬取的HTML原始文本,需要進(jìn)行數(shù)據(jù)清洗過濾掉標(biāo)簽文本。網(wǎng)頁中存在很多不必要的信息,比如說一些廣告,導(dǎo)航欄,html、js代碼,注釋等等,我們并不感興趣的信息,可以delete掉。如果是需要正文提取,可以利用標(biāo)簽用途、標(biāo)簽密度判定、數(shù)據(jù)挖掘思想、視覺網(wǎng)頁塊分析技術(shù)等等策略抽取出正文。

2.分詞(只針對中文文本)

對于中文文本數(shù)據(jù),比如一條中文的句子,詞語詞之間是連續(xù)的,而數(shù)據(jù)分析的最小單位粒度我們希望是詞語,所以我們需要進(jìn)行分詞工作,這樣就給下一步的工作做準(zhǔn)備。而對于英文文本句子,就不存在分詞這一說法了,應(yīng)為英文的句子的最小單位就是詞語,詞語之間是有空格隔開的。

3.詞性標(biāo)注(可選)

詞性標(biāo)注POS的目的是為了讓句子在后面的處理中融入更多的有用的語言信息。詞性標(biāo)注是一個經(jīng)典的序列標(biāo)注問題。不過對于有些文本處理任務(wù),詞性標(biāo)注不是非必需的。

4.去停用詞

停用詞stopword是指那些對文本特征沒有任何貢獻(xiàn)作用的詞語,比如:啊、的、是的、你、我、…………還有一些標(biāo)點符號,這些我們不想在文本分析的時候引入,因此需要去掉,這些詞就是停用詞。因為這些詞在所有的文章中都大量存在,并不能反應(yīng)出文本的意思,可以處理掉。當(dāng)然針對不同的應(yīng)用還有很多其他詞性也是可以去掉的,比如形容詞等。

三、構(gòu)造文本特征

接下來,我們將考慮如何將文本符號轉(zhuǎn)換成或者表示成能讓學(xué)習(xí)模型能夠處理的數(shù)據(jù)類型。很明顯,我們需要將文本符號串轉(zhuǎn)變?yōu)閿?shù)字,更確切滴說是向量陣列:矩陣。

1.詞袋表示

詞袋表示(bag of word, BOW), 即不考慮詞語的原本在句子中的順序,直接將每一個詞語或者符號按照計數(shù)的方式,即出現(xiàn)的次數(shù)來進(jìn)行統(tǒng)計。當(dāng)然了,統(tǒng)計詞頻這只是最基本的方式。還有很多的處理,具體如下。

1.1?count

先將關(guān)鍵的keywords作為文本特征,然后再用此最直接的方式進(jìn)行句子表示,就是直接統(tǒng)計詞頻,然后將每一個句子或者文本篇章按照每一個特征出現(xiàn)的頻率進(jìn)行統(tǒng)計,這樣處理后將得到句子或者文檔對應(yīng)的一個特征向量,向量的每個元素便是對應(yīng)特征詞的出現(xiàn)頻數(shù)。

1.2 tf-idf

與count類似,不過對其進(jìn)行了改進(jìn)。TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TFIDF實際上是:TFIDF,TF詞頻(Term Frequency),IDF反文檔頻率(Inverse DocumentFrequency)。TF表示詞條,在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。

不進(jìn)行更多的描述,網(wǎng)上一大把。同樣的,處理后將得到一個句子的特征向量,不過每個元素應(yīng)該是一個[0, 1]的實數(shù),表示一個概率。一個好的tf-idf需要進(jìn)行很多的處理,比如進(jìn)行光滑處理。

2.詞向量表示

詞向量又名詞嵌入word embedding,具體的無門檻科普請參考隔壁一篇博客《DeepNLP的表示學(xué)習(xí)·詞嵌入來龍去脈·深度學(xué)習(xí)(Deep Learning)·自然語言處理(NLP)·表示(Representation)》。分布式表示的優(yōu)點就是1.維度低,節(jié)省計算等等一堆資源;2.capture了相對位置的語義信息,這一點革命性的。當(dāng)然了,不同類型的詞向量有不同的能力,這里不啰嗦。下面舉兩個例子。

2.1 word2vec

不是說word2vec只能用于神經(jīng)網(wǎng)絡(luò)的輸入,詞向量只是一種詞的表示方式,同樣適用于經(jīng)典的ML模型。具體請參考博客《DeepNLP的表示學(xué)習(xí)·詞嵌入來龍去脈·深度學(xué)習(xí)(Deep Learning)·自然語言處理(NLP)·表示(Representation)》

2.2 glove

likewise.

四、特征選擇處理

1.特征選擇

在文本挖掘與文本分類的有關(guān)問題中,常采用特征選擇方法。原因是文本的特征一般都是單詞(term),具有語義信息,使用特征選擇找出的k維子集,仍然是單詞作為特征,保留了語義信息,而特征提取則找k維新空間,將會喪失了語義信息。
在解決一個實際問題的過程中,選擇合適的特征或者構(gòu)建特征的能力特別重要。這成為特征選擇或者特征工程。特征選擇時一個很需要創(chuàng)造力的過程,更多的依賴于直覺和專業(yè)知識,并且有很多現(xiàn)成的算法來進(jìn)行特征的選擇。 對于一個語料而言,我們可以統(tǒng)計的信息包括文檔頻率和文檔類比例,所有的特征選擇方法均依賴于這兩個統(tǒng)計量, ? ? ? ? ? ? 目前,文本的特征選擇方法主要有:DF, MI, IG, CHI,WLLR,WFO六種。

1)DF(Document Frequency)
2)MI(Mutual Information)
3)IG(Information Gain)
4)CHI(Chi-square)
5)WLLR(Weighted Log Likelihood Ration)

具體地不過多地贅述,網(wǎng)絡(luò)有資料,可以查閱相關(guān)論文。還有這些:WET(文檔證據(jù)權(quán)重),OI,CC(相關(guān)系數(shù))等常用的特征選擇。

除此之外還可以利用LDA進(jìn)行特征優(yōu)化。

2.特征降維(非必須)

對于文本類的數(shù)據(jù)挖掘項目,基本不考慮降維的問題。

具體地有這些:LDA(線性特征抽?。?,PCA(主成分分析),F(xiàn)A(因子分析),SVD(奇異值分解),NMF(非負(fù)矩陣分解),LSI或者LSA(潛在語義分析)

 

五、學(xué)習(xí)模型訓(xùn)練&適用

接下來的工作就很清晰明了了,一旦將文本表示成了常規(guī)的廣義特征數(shù)據(jù)結(jié)構(gòu)后,我們所要做的就是跟其他的類型的數(shù)據(jù)挖掘一樣,將這些特征喂入學(xué)習(xí)模型,然后適用于心得測試數(shù)據(jù)集,最后得到結(jié)果。

1.模型訓(xùn)練學(xué)習(xí)

對于文本分類問題,我們可以采用KNN,SVM,Naive Bayes,決策樹,GBDT,當(dāng)然,直接上xgboost也是杠杠滴。

對于文本聚類問題,可選擇K-means,agent,divided,DBSCAN 等模型。

2.模型評估

當(dāng)然最后也需要對模型進(jìn)行必要的評估,以讓模型optimized。

具體有這些指標(biāo)可以參考:

2.1?保持、隨機(jī)二次抽樣、交叉驗證、自助法

2.2?準(zhǔn)確率,錯誤率,精確度,召回率

2.3?ROC曲線、AUC曲線。

refs:

http://www.cnblogs.com/wangbogong/p/3251132.html

http://blog.csdn.net/u011274209/article/details/51896757

http://blog.csdn.net/u011955252/article/details/50802437

 

文章來源:https://blog.csdn.net/scotfield_msn/article/details/72904092