色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達(dá)觀數(shù)據(jù)情感分析架構(gòu)演進(jìn)

未標(biāo)題-1

在互聯(lián)網(wǎng)日益發(fā)達(dá)的今天,許多消費(fèi)者不管是通過線上電商網(wǎng)站或者線下門店購買商品后,包括買車、買手機(jī)等,都會到品牌官網(wǎng)或者一些專業(yè)網(wǎng)站甚至社交媒體去發(fā)表對產(chǎn)品的評價(jià)。對于買家來說,買前查看評論是了解一款產(chǎn)品真實(shí)情況的重要途徑。對于商家而言,研讀評論則是了解客戶反饋、了解產(chǎn)品優(yōu)勢和潛在問題的第一手渠道。但對于評論數(shù)據(jù)的挖掘并不是簡單到可以信手拈來,首先一個(gè)產(chǎn)品往往會有非常大量的評論,買家和賣家都不可能仔細(xì)閱讀每一條評論從而得到對于一個(gè)產(chǎn)品的整體認(rèn)知。

利用計(jì)算機(jī),利用算法自動對評論進(jìn)行分析挖掘,是解決這個(gè)問題的最有效途徑。這些評論會涉及產(chǎn)品各方各面的屬性,用戶有的說好有的說不好,即使表達(dá)相同意思也會有不同的表述。以我們的經(jīng)驗(yàn),要完美解決評論的觀點(diǎn)挖掘問題,需要一套高復(fù)雜度的系統(tǒng)架構(gòu)。達(dá)觀數(shù)據(jù)基于在自然語言處理、機(jī)器學(xué)習(xí)算法和文本挖掘領(lǐng)域的多年技術(shù)積累,融合文本標(biāo)簽提取、文本分類和情感分析,打造了針對產(chǎn)品評論的觀念挖掘服務(wù),幫助用戶從海量評論數(shù)據(jù)中提煉出核心觀點(diǎn),從而對產(chǎn)品的真實(shí)情況一目了然。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

圖1?達(dá)觀針對某款汽車的評論觀點(diǎn)挖掘

一、觀點(diǎn)挖掘基礎(chǔ)——情感分析

情感分析是文本挖掘的重要基礎(chǔ)分支,也是評論挖掘的關(guān)鍵技術(shù),不管是買家還是賣家,首先都是想知道評論是說產(chǎn)品好還是不好,以及比例是多少。本篇將著重講解情感分析在達(dá)觀的實(shí)現(xiàn)架構(gòu)和經(jīng)驗(yàn)。情感分析可以看做一個(gè)二分分類問題,即將表達(dá)正面情感的文本作為類別“1”,以負(fù)面情感文本作為類別“0”。

二、規(guī)則算法——樸素思路的啟示

最樸素的情感分析實(shí)現(xiàn)方式是基于情感詞典和規(guī)則,大致分為三個(gè)步驟:

分詞

分詞是中文自然語言處理的基礎(chǔ),即把一個(gè)句子精確切分成一個(gè)個(gè)詞語。中文分詞長期以來都是文本挖掘領(lǐng)域的重要研究領(lǐng)域,因?yàn)橐坏┓衷~錯(cuò)誤,會直接導(dǎo)致上層文本挖掘功能的性能下降。達(dá)觀目前使用自助研發(fā)的一套內(nèi)部分詞系統(tǒng),也是經(jīng)過了長期打磨才能為上層文本功能提供基礎(chǔ)的效果保證。因?yàn)榉衷~算法不是本文重點(diǎn),在此不作展開。

設(shè)置情感詞典

情感詞典一般包括5個(gè)詞典,即正面情感詞典、負(fù)面情感詞典、否定詞典、程度副詞詞典和行業(yè)情感詞典。正面和負(fù)面情感詞典很好理解,比如“高興”、“悲傷”等等。否定詞典例如“不”,會使情感產(chǎn)生逆轉(zhuǎn)。程度副詞比如“非?!?、“極其”等,會對情感有增強(qiáng)作用,最終影響整個(gè)短語或句子的總體情感傾向。另外還有行業(yè)情感詞典,即只在某些特定領(lǐng)域具有情感傾向的詞,比如對于汽車,“塑料感”、“底盤硬”其實(shí)是表達(dá)負(fù)面情感。

基于規(guī)則匹配

基于分詞和情感詞典,即可以根據(jù)人們平時(shí)的語言表達(dá)習(xí)慣設(shè)置一些規(guī)則來計(jì)算文本的情感傾向,比如每遇到一個(gè)正面情感詞則+1分,遇到負(fù)面情感詞則-1分,遇到否定詞則乘以-1將情感反轉(zhuǎn),遇到程度副詞則將情感分?jǐn)?shù)乘以一個(gè)放大系數(shù)。最后根據(jù)計(jì)算出的分?jǐn)?shù)判斷情感傾向,分?jǐn)?shù)為正數(shù)則判斷為正面情感,負(fù)數(shù)則判定為負(fù)面情感,正負(fù)相抵則判定為中性。

圖2?基于規(guī)則的情感分析

基于規(guī)則的方法的好處是不需要標(biāo)注好的訓(xùn)練數(shù)據(jù),但是可擴(kuò)展性非常差,需要人工一個(gè)個(gè)配詞典加規(guī)則,才能識別足夠多的情感傾向,并且需要完全精確匹配,因此召回率比較差。同一個(gè)含義人可以有很多種表述方式,尤其在情感分析領(lǐng)域,常常出現(xiàn)雙重否定等復(fù)雜句式,規(guī)則必須設(shè)計(jì)得足夠復(fù)雜才能進(jìn)行識別。此外,當(dāng)配的規(guī)則比較多的時(shí)候,不同規(guī)則往往會發(fā)生互相沖突,這時(shí)候情感分析結(jié)果就不可控了,會導(dǎo)致準(zhǔn)確率下降。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

三、特征工程+機(jī)器學(xué)習(xí)——長久以來的業(yè)界標(biāo)桿

鑒于規(guī)則算法有這么明顯的缺陷,在過去很長的一段時(shí)間里,主流情感分析算法都是基于機(jī)器學(xué)習(xí)算法,比如基于Logistic Regression、SVM、隨機(jī)森林等經(jīng)典算法。機(jī)器學(xué)習(xí)可行的前提是要收集和標(biāo)注訓(xùn)練數(shù)據(jù)集。目前互聯(lián)網(wǎng)上也有很多公開語料可以使用。相比基于規(guī)則的方法,機(jī)器學(xué)習(xí)算法多了2個(gè)步驟:特征提取和模型訓(xùn)練。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

圖3?特征工程+機(jī)器學(xué)習(xí)方法

特征提取

文本挖掘領(lǐng)域最常用的也是最簡單的特征是詞袋模型(bag of words),即將文本轉(zhuǎn)換為基于詞語的一個(gè)向量,向量的每一維度是一個(gè)詞語,詞語可以基于分詞得到,也可以基于N-Gram模型得到。每一維度的特征取值也可以有多種計(jì)算法方式,比如經(jīng)典的one-hot編碼和tf-idf值。

模型訓(xùn)練

基于文本的標(biāo)注類別和提取好的特征向量,即可以使用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,模型訓(xùn)練完成之后即可用于判別文本的情感傾向。

圖4?詞袋模型特征提取

相比基于規(guī)則的方法,機(jī)器學(xué)習(xí)方法在可擴(kuò)展性和適應(yīng)性方面有著質(zhì)的飛躍,只需要準(zhǔn)備好標(biāo)注數(shù)據(jù),設(shè)計(jì)好特征提取方法,模型可以自動從數(shù)據(jù)中學(xué)習(xí)出一個(gè)復(fù)雜的高維分類模型實(shí)現(xiàn)情感分析。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

然而,基于傳統(tǒng)機(jī)器學(xué)習(xí)的情感分析方法也有一定的局限性,其效果主要取決于特征工程,即提取的特征是否能足夠很好的區(qū)別正面和負(fù)面情感。在相同的特征下,如果只使用簡單分類器,那選擇不同的分類算法,效果差別不會太大。要做好特征工程,非常依賴于人的先驗(yàn)知識,即需要我們對數(shù)據(jù)進(jìn)行足夠深入的觀察和分析,把那些對區(qū)分正負(fù)面情感最有用的特征一個(gè)一個(gè)找出來。特征工程做深入了也需要依賴情感詞典和規(guī)則方法,但不是直接判定文本的情感傾向,而是將規(guī)則命中的結(jié)果作為一維或者多維特征,以一種更為“柔性”的方法融合到情感分析中,擴(kuò)充我們的詞袋模型。

在達(dá)觀文本挖掘服務(wù),傳統(tǒng)機(jī)器學(xué)習(xí)方法仍占據(jù)一定比重,尤其是在數(shù)據(jù)量相對小的情況下。目前針對多個(gè)行業(yè)的文本數(shù)據(jù),我們都有對應(yīng)的行業(yè)詞典和特征工程算法。而且在分類算法方面,運(yùn)用了達(dá)觀自主研發(fā)的多模型融合算法,情感分析的效果可以達(dá)到業(yè)界較高水平,相比單模型算法效果可以提升10%。

圖5?達(dá)觀文本挖掘技術(shù)框架

四、深度學(xué)習(xí)——大數(shù)據(jù)時(shí)代的新銳力量

總體而言,傳統(tǒng)的機(jī)器學(xué)習(xí)方式還是比較費(fèi)時(shí)費(fèi)力的。普遍應(yīng)用的詞袋模型隱含了一個(gè)假設(shè),即詞語之間的語義是相互獨(dú)立的,因而丟失了文本的上下文信息。但真實(shí)情況往往并非如此,同一個(gè)詞語在不同的語義環(huán)境下是可以具有不同語義的。詞袋模型還會導(dǎo)致向量空間特別大,一般都是數(shù)十萬維。對于評論這種短文本,轉(zhuǎn)換成的向量會特別稀疏,也造成了模型的不穩(wěn)定性。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

如今大熱的深度學(xué)習(xí)技術(shù),代表了目前文本挖掘領(lǐng)域的最高水平,可以很好的解決上述問題。目前達(dá)觀情感分析包括其他文本挖掘系統(tǒng),已經(jīng)全面部署深度學(xué)習(xí)。

相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)至少有3大直接優(yōu)勢:

?無需特征工程

無需特征工程:深度學(xué)習(xí)可以自動從數(shù)據(jù)中學(xué)習(xí)出特征和模型參數(shù),省去了大量繁雜的特征工程工作,對行業(yè)先驗(yàn)知識的依賴也降低到最小程度。

?考慮語義上下文

考慮語義上下文:深度學(xué)習(xí)在處理文本數(shù)據(jù)的時(shí)候,往往是先把詞語轉(zhuǎn)成詞向量再進(jìn)行計(jì)算,詞向量的生成考慮了一個(gè)詞語的語義上下文信息,也就解決了詞袋模型的局限性。

?大幅減少輸入特征維度

大幅減少輸入特征維度:由于使用了詞向量,特征維度大幅減少,可以降低到百的量級,同時(shí)也使得文本向量變得“稠密”,模型變得更加穩(wěn)定。

 

深度學(xué)習(xí)主要包含兩個(gè)步驟:

?詞語轉(zhuǎn)成詞向量

google的word2vec算法是目前應(yīng)用最廣泛的詞向量生成算法,實(shí)踐證明其效果是非??煽康?,尤其是在衡量兩個(gè)詞語的相似度方面。Word2vec算法包含了CBOW(Continuous Bag-of-Word)模型和Skip-gram(Continuous Skip-gram)模型。簡單而言,CBOW模型的作用是已知當(dāng)前詞Wt的上下文環(huán)境(Wt-2,Wt-1,Wt+1,Wt+2)來預(yù)測當(dāng)前詞,Skip-gram模型的作用是根據(jù)當(dāng)前詞Wt來預(yù)測上下文(Wt-2,Wt-1,Wt+1,Wt+2)。因此,一次詞向量事實(shí)上是基于詞語的上下文來生成的,也就具備了詞袋模型所不具備的表意能力。(紀(jì)傳俊?達(dá)觀數(shù)據(jù))

圖6?基于詞向量的CNN模型

 

?利用深度學(xué)習(xí)框架進(jìn)行訓(xùn)練

利用深度學(xué)習(xí)框架進(jìn)行訓(xùn)練:詞轉(zhuǎn)成固定維度的詞向量之后,一個(gè)文本也就自然而然可以形成一個(gè)矩陣,如圖6所示。以矩陣作為輸入的深度學(xué)習(xí)算法,第一個(gè)想到的自然是在圖像識別領(lǐng)域獲得過成功的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。但CNN在文本挖掘領(lǐng)域的運(yùn)用具有一定局限性,因其每層內(nèi)部的節(jié)點(diǎn)之間是沒有連接的,即又丟失了詞與詞之間的聯(lián)系。前面已經(jīng)多次強(qiáng)調(diào),詞語的上下文關(guān)系對文本挖掘是至關(guān)重要的,尤其對情感分析,情感詞(“喜歡”)和否定詞(“不”)、程度詞(“很”)的搭配會對情感傾向產(chǎn)生根本性的影響。因此目前比較廣泛使用的是LSTM(Long Short-Term Memory,長短時(shí)記憶),LSTM能夠“記住”較長距離范圍內(nèi)的上下文對當(dāng)前節(jié)點(diǎn)的影響。

圖7 LSTM模型

 

五、總結(jié)

基于深度學(xué)習(xí)的文本情感分析,相比傳統(tǒng)機(jī)器學(xué)習(xí),效果可以提升15%左右,而且省去了繁復(fù)的特征工程工作,將人工依賴降低到最低程度。借由深度學(xué)習(xí)技術(shù),達(dá)觀文本挖掘架構(gòu)也在不斷的更新迭代,不斷的升級完善。