色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

干貨分享:深度解析文本分類與標(biāo)簽的應(yīng)用價(jià)值和原理

信息過載時(shí)代,文本分類和文本標(biāo)簽是我們整合閱讀文本信息的常用手段。本文系統(tǒng)介紹文本分類和文本標(biāo)簽的技術(shù)原理和應(yīng)用價(jià)值,并結(jié)合項(xiàng)目案例談?wù)剝烧叩氖褂眉记伞?/p>

一、分類和標(biāo)簽的共性與差異

圖書管理員在給圖書分類時(shí),會(huì)根據(jù)書的內(nèi)容、形式、體裁等信息,按照《中國圖書館圖書分類法》進(jìn)行分類。比如《射雕英雄傳》,會(huì)分到文學(xué)>當(dāng)代作品(1949–)>武俠小說。如果在豆瓣上收藏這本書時(shí),豆瓣會(huì)推薦一些常用標(biāo)簽,“武俠小說”,“金庸”,“香港”,用戶也可以自己創(chuàng)建標(biāo)簽,比如“郭靖黃蓉”“華山論劍”。

pic_001

圖書管理員對(duì)圖書進(jìn)行分類,屬于專業(yè)的分類。豆瓣推薦的標(biāo)簽,是基于某種策略從用戶打的標(biāo)簽庫中選出。可以看出,分類一般是有標(biāo)準(zhǔn)體系的,而且在制定這種標(biāo)準(zhǔn)時(shí),往往會(huì)考慮層次性和互斥性。逛圖書館時(shí)如果在A1類(馬克思、恩格斯著作)的書架上,看到一本《射雕英雄傳》,會(huì)覺得很突兀。標(biāo)簽是相對(duì)靈活和扁平的,豆瓣推薦的標(biāo)簽,“文學(xué)”、“中國文學(xué)”、“小說”、“武俠”、“武俠小說”,相互間有重疊交叉,用戶也能接受。但不管是分類還是標(biāo)簽,其實(shí)都是人們用來對(duì)凌亂信息進(jìn)行整合管理的手段。

 

二、文本分類和標(biāo)簽的意義與原理

在實(shí)際工程中,很多場(chǎng)景因?yàn)閿?shù)據(jù)量大、時(shí)效性高,人為分析幾乎不可能,比如客服對(duì)話文本、消費(fèi)者發(fā)表的口碑評(píng)價(jià)、每時(shí)每刻產(chǎn)生的海量金融資訊等,這就需要借助計(jì)算機(jī)對(duì)文本進(jìn)行自動(dòng)分類和標(biāo)簽。下圖就是通過達(dá)觀自然語言處理引擎,自動(dòng)對(duì)一篇紅旗H7的車評(píng)文章(樣本http://car.bitauto.com/hongqih7/koubei/977900/)打上標(biāo)簽和正負(fù)面類別。

pic_002

按照這種方式,我們分析更多篇車評(píng),再對(duì)每篇車評(píng)分析結(jié)果進(jìn)行一些統(tǒng)計(jì)和歸并:

pic_003

就得到下表的結(jié)果。

pic_004

可見對(duì)紅旗H7這款車,在消費(fèi)者眼中,內(nèi)飾豪華、外觀漂亮、高性價(jià)比、高品牌認(rèn)知度是其主要優(yōu)點(diǎn),油耗高、沒有全景天窗是其缺陷。這樣的分析結(jié)論對(duì)指導(dǎo)產(chǎn)品的營銷投放、市場(chǎng)競(jìng)爭(zhēng)、升級(jí)改款都具有很高價(jià)值。

 

上例中,從車評(píng)中提取觀點(diǎn)標(biāo)簽使用的是一種文本標(biāo)簽技術(shù),區(qū)分每個(gè)標(biāo)簽正負(fù)面,使用的是文本分類技術(shù)。計(jì)算機(jī)如何對(duì)文本進(jìn)行自動(dòng)分類和標(biāo)簽?zāi)???jiǎn)要闡述一下原理。先說分類。

 

文本分類的原理

文本分類是一種監(jiān)督機(jī)器學(xué)習(xí),一般包括如下環(huán)節(jié):

  1. 定義分類類型,如事先定義好觀點(diǎn)分為兩類,正面和負(fù)面
  2. 準(zhǔn)備標(biāo)注樣本,即準(zhǔn)備好屬于正面的觀點(diǎn)標(biāo)簽和屬于負(fù)面的觀點(diǎn)標(biāo)簽
  3. 交叉訓(xùn)練,上述步驟獲取的樣本會(huì)拆分成若干組,一部分用來訓(xùn)練分類模型,一部分用來測(cè)試訓(xùn)練好的模型效果,并交叉驗(yàn)證。訓(xùn)練過程中,主要用到各類文本分類算法,包括SVM,RF,XGBoost,TextCNN等
  4. 評(píng)估和調(diào)優(yōu),用一個(gè)量化指標(biāo),比如分類準(zhǔn)確率,去評(píng)估模型效果,如果效果不好,就需要通過調(diào)整算法、補(bǔ)充訓(xùn)練樣本、調(diào)整特征、規(guī)則后處理等手段去優(yōu)化,直到模型分類準(zhǔn)確率達(dá)到一定效果,比如85%,再上生產(chǎn)環(huán)境運(yùn)行

實(shí)際過程中,文本分類的效果取決于訓(xùn)練樣本的數(shù)量和質(zhì)量、選用的算法和特征、工程師的經(jīng)驗(yàn)等因素。

 

文本標(biāo)簽

前文說過文本分類一般是有標(biāo)準(zhǔn)的、層次的、互斥的,而文本標(biāo)簽是偏平而靈活的,所以到底什么是標(biāo)簽,其實(shí)沒有明確的定義。從應(yīng)用角度來看,文本標(biāo)簽是一些概括程度高、語義簡(jiǎn)明扼要、用戶耳熟能詳?shù)脑~或短語。豆瓣基于UGC票選產(chǎn)生的詞符合這個(gè)準(zhǔn)則,是一種標(biāo)簽。從紅旗H7車評(píng)中提取的觀點(diǎn)短語也符合這個(gè)準(zhǔn)則,所以它也是一種標(biāo)簽。

介紹一下觀點(diǎn)標(biāo)簽的提取原理。觀察上述觀點(diǎn)搭配,可以看出它們有一定規(guī)律,都是以觀點(diǎn)主體+該主體屬性構(gòu)成。比如空間是觀點(diǎn)的主體,夠用是這個(gè)主體的屬性。

pic_005

根據(jù)這種規(guī)律,結(jié)合自然語言處理中的依存句法分析,就可以做一些初始提取。依存句法分析可自動(dòng)分析出句子內(nèi)“主謂賓定狀補(bǔ)”等結(jié)構(gòu)元素,識(shí)別詞匯間依存關(guān)系。下圖是達(dá)觀依存句法分析模塊的分析結(jié)果,我們?nèi)【渥又械亩ㄖ嘘P(guān)系(用ATT表示)和主謂關(guān)系(用SBV表示),就可以提取“座椅舒適度棒”,“座椅寬敞”等觀點(diǎn)標(biāo)簽。

pic_006

按照這種方法提取初始的觀點(diǎn)標(biāo)簽,再結(jié)合詞性、主體詞庫等過濾篩選,就會(huì)得到比較好的觀點(diǎn)標(biāo)簽。除了UGC票選,觀點(diǎn)標(biāo)簽提取,還有一類關(guān)鍵詞標(biāo)簽。這類標(biāo)簽我們經(jīng)常在一些詞云分析中見到。還是那篇車評(píng),我們利用達(dá)觀的關(guān)鍵詞標(biāo)簽進(jìn)行分析,得到如下的分析結(jié)果,top5的關(guān)鍵詞標(biāo)簽依次是:舒適度、紅旗車、內(nèi)飾、平順、外觀設(shè)計(jì)(藍(lán)色值表示詞權(quán)重,綠色值表示詞頻)。

這類關(guān)鍵詞標(biāo)簽采用的主要算法包括TF-IDF及其衍生算法。TF-IDF的算法原理也很簡(jiǎn)潔。舉個(gè)例子,疫情期間一張熱干面加油的圖讓很多人感動(dòng)。

 

pic_008

 

為什么熱干面是武漢的一個(gè)標(biāo)簽?很多人說那是因?yàn)槲錆h很流行吃熱干面。但是武漢更流行吃白米飯,為什么不用白米飯做武漢的標(biāo)簽。有的人會(huì)解釋道,白米飯?zhí)R娏耍珖芏嗟貐^(qū)的人民都吃。所以,我們得到這樣一個(gè)結(jié)論:如果一樣?xùn)|西在某地區(qū)越普及越流行,而在其他地區(qū)越冷門越少見,那這種東西就越能作為該地區(qū)的標(biāo)簽。

再比如說方言,四川人總愛說“要的”,非川普很少有人說,所以“要的”也可以作為四川話的標(biāo)簽。TF-IDF的原理和此類似:如果一個(gè)詞在這篇文章中出現(xiàn)的次數(shù)越多,而在其他文章中越少出現(xiàn),那么這個(gè)詞相對(duì)于這篇文章就越具有代表性。感興趣的讀者可以去了解一下TF-IDF的具體公式。

總結(jié)一下:

利用大眾票選的標(biāo)簽雖然有代表性,但是需要經(jīng)過一定規(guī)模的用戶參與、一定時(shí)間的沉淀,很多網(wǎng)絡(luò)熱詞就是這一類,比如“地?cái)偨?jīng)濟(jì)”,“新基建”;利用依存句法獲取的標(biāo)簽,語義精煉,但提取難度大,需要結(jié)合業(yè)務(wù)梳理主體維度,因?yàn)闃?biāo)簽其實(shí)也是一種行話,不同行業(yè)場(chǎng)景關(guān)注的主體不一樣,比較適合垂直行業(yè)的觀點(diǎn)、緣由、動(dòng)機(jī)分析等場(chǎng)景;關(guān)鍵詞標(biāo)簽實(shí)現(xiàn)簡(jiǎn)單,但它缺乏上下文,語義有缺失,更多的是作為中間分析過程。

 

三、文本分類和標(biāo)簽的實(shí)施方法論

前文我們介紹了分類和標(biāo)簽的差異、共性、應(yīng)用價(jià)值和實(shí)現(xiàn)原理。最后一節(jié)介紹一下文本分類和標(biāo)簽的應(yīng)用實(shí)踐,并總結(jié)一些實(shí)施方法論(主要偏需求梳理和解決方案設(shè)計(jì))。

我們?cè)趯?shí)施文本分類和標(biāo)簽項(xiàng)目的時(shí)候,一開始接觸的是客戶籠統(tǒng)的需求,并不像算法競(jìng)賽題一樣已經(jīng)有明確輸入、輸出、評(píng)估標(biāo)準(zhǔn),需要我們?nèi)訉硬鸾狻?/p>

以達(dá)觀的真實(shí)項(xiàng)目為例,原始需求是客戶希望從海量財(cái)經(jīng)資訊中實(shí)時(shí)分析上市公司風(fēng)險(xiǎn)利好。

具體解題過程如下:

該需求解決誰的問題(用戶是誰)

經(jīng)溝通調(diào)研,需求的用戶包括股票基金債券等投資交易者,投研分析師,銀行負(fù)責(zé)企業(yè)貸款風(fēng)控的客戶經(jīng)理,政府監(jiān)管部門等。

了解具體用戶有助于我們從用戶視角去設(shè)計(jì)解決方案,因?yàn)楹玫姆诸惡蜆?biāo)簽都具有行業(yè)標(biāo)識(shí)性。

 

評(píng)估數(shù)據(jù)

包括評(píng)估數(shù)據(jù)質(zhì)量、規(guī)模、來源等。這里要分析的數(shù)據(jù)主要是財(cái)經(jīng)資訊,包括上市公司披露的信息、發(fā)布的公告、監(jiān)管部門公開的信息等,主要都是PGC,內(nèi)容質(zhì)量較高,數(shù)據(jù)規(guī)模大,分析的時(shí)效性要求非常高。用文本分類和標(biāo)簽技術(shù)是不錯(cuò)的選擇,因?yàn)槲谋痉诸惡蜆?biāo)簽就是幫助我們?nèi)ヅ块喿x和整合信息的。

 

站在用戶視角設(shè)計(jì)分類和標(biāo)簽

用戶希望從資訊中實(shí)時(shí)分析上市企業(yè)風(fēng)險(xiǎn)利好信息。分類可以設(shè)計(jì)成兩維,情感正面/負(fù)面,或者利好/利空,我們?nèi)『笳?。但需注意,分析的主體是上市公司,并不是整篇資訊,一篇資訊往往會(huì)涉及多個(gè)上市公司。比如這樣一條資訊:

“蘋果將歐菲光剔除供應(yīng)鏈名單后,歐菲光的觸控訂單大部分已歸藍(lán)思科技,藍(lán)思科技子公司藍(lán)思智控早已是大客戶觸控一級(jí)供應(yīng)商?!?/section>

對(duì)于同屬蘋果產(chǎn)業(yè)鏈的藍(lán)思科技和歐菲光來說,利好利空截然不同。所以我們要的分類是針對(duì)主體的分類。單單得到風(fēng)險(xiǎn)利好的結(jié)論還不夠,還需要更明細(xì)的分析出是什么風(fēng)險(xiǎn),哪里利好。分類顯然不能解決這個(gè)問題,需利用文本標(biāo)簽。關(guān)鍵詞標(biāo)簽的語義有缺失,大眾票選周期太長(zhǎng)、客觀條件不具備,考慮采用觀點(diǎn)標(biāo)簽。類比從油耗、空間、操控、內(nèi)飾等維度去分析汽車口碑,從哪些維度去衡量上市公司的風(fēng)險(xiǎn)利好呢?

結(jié)合一些業(yè)務(wù)知識(shí),梳理出如下維度:企業(yè)本身維度,比如市值,市盈率,股價(jià),財(cái)報(bào)中的具體科目,生產(chǎn)經(jīng)營層面(訂單、市場(chǎng)規(guī)模、行業(yè)占有率等),高管,股東,商譽(yù)等,另外一些政策緊密性行業(yè)還需要一些專屬的維度,比如醫(yī)藥許可,游戲版號(hào),金融牌照等。

 

準(zhǔn)備樣本訓(xùn)練模型

設(shè)計(jì)好分類和標(biāo)簽的框架,就準(zhǔn)備樣本。分類我們需要標(biāo)記出每篇資訊中上市公司實(shí)體和對(duì)應(yīng)的利好/利空類別。標(biāo)簽我們要梳理相關(guān)的實(shí)體維度,需要去梳理依存句法關(guān)系。盡量讓算法工程師拿到的是一個(gè)輸入輸出需求明確的問題。

 

結(jié)果調(diào)優(yōu)

按照上面的流程,(此處省去算法工程師的辛苦工作)我們做出了如下的效果。

pic_009

結(jié)果可以繼續(xù)調(diào)整優(yōu)化,比如利用文本相似度技術(shù),把一些同近義標(biāo)簽進(jìn)行歸并,“高管貪腐”和“董事長(zhǎng)助理受賄”歸并為一個(gè)“高管貪腐”。這里我們就從一個(gè)籠統(tǒng)的客戶需求到解決方案的實(shí)現(xiàn)。在這個(gè)過程中,我們依次完成需求拆解,用戶調(diào)研,評(píng)估數(shù)據(jù),選型方案,算法實(shí)現(xiàn),結(jié)果調(diào)優(yōu),同時(shí)還需要具備一定的業(yè)務(wù)知識(shí)。其實(shí)這不單是文本分類和標(biāo)簽的實(shí)施方法,也是大部分AI項(xiàng)目的實(shí)施框架。

希望通過這篇文章,能讓讀者真切感受到,文本分類和文本標(biāo)簽是我們整合文本信息實(shí)現(xiàn)機(jī)器閱讀的利器。