引言
國語有之“防民之口,甚于防川,”一句很簡單的話卻深刻地體現(xiàn)出了民眾輿情的重要性,由此可見,放在商業(yè)環(huán)境下“聽到客戶的聲音,對企業(yè)來說非常重要”。在如今移動互聯(lián)網(wǎng)時代,我們身邊充斥著各種各樣的數(shù)據(jù)與信息,這些數(shù)據(jù)與信息成為重要的企業(yè)、用戶輿情分析來源,有非常大的價值,那么如何高效地處理、分析這些數(shù)據(jù),都有哪些業(yè)務(wù)場景,讓我們來一起了解下。
一、做企業(yè)、客戶洞察分析,非結(jié)構(gòu)化的數(shù)據(jù)處理能力是關(guān)鍵
企業(yè)想要做大數(shù)據(jù)洞察分析要解決的問題有很多,從數(shù)據(jù)角度看關(guān)鍵的還是非結(jié)構(gòu)化的處理能力。結(jié)構(gòu)化的數(shù)據(jù)比如企業(yè)內(nèi)部管理系統(tǒng)數(shù)據(jù):ERP、CRM、客服系統(tǒng)以及各個終端的用戶行為數(shù)據(jù)等,半/非結(jié)構(gòu)化常見的如行網(wǎng)站留言、產(chǎn)品評論、微博評論、論壇、分析報告等,傳統(tǒng)的分析系統(tǒng)面對結(jié)構(gòu)化數(shù)據(jù)有較為成熟的解決方案,但是面對海量的半/非結(jié)構(gòu)化數(shù)據(jù)卻很難應(yīng)用起來,有些企業(yè)甚至還依賴一些傳統(tǒng)的操作方式,比如企業(yè)輿情人員在接受到任務(wù)后,直接從各種可能的信息源中查找出有參考價值的資料,手工整理、匯總后實現(xiàn)信息發(fā)現(xiàn)。
依靠人力只能分析局部信息,想要觀察某行業(yè)、某群體的趨勢、聲量等,基本難以實現(xiàn),因此如何從海量半/非結(jié)構(gòu)化數(shù)據(jù)中提煉出價值信息,并將其轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)用來統(tǒng)計、分析是目前眾多企業(yè)亟需解決的難題。
二、非結(jié)構(gòu)化數(shù)據(jù)處理,需要NLP能力
達觀自研NLP平臺融合多種機器學習算法,結(jié)合達觀數(shù)據(jù)獨特的語義理解、分析引擎,能夠?qū)ξ谋緮?shù)據(jù)進行詞匯級、句法級、篇章級的理解,一站式滿足用戶文本語義分析、文本分類、文本實體抽取、關(guān)系抽取、情感分析等需求,用戶無需擁有豐富的算法背景,僅需小樣本標注數(shù)據(jù),即可通過平臺快速創(chuàng)建算法模型并使用。
(圖:達觀NLP語義分析)
達觀的VOC系統(tǒng)以自研的NLP平臺為基礎(chǔ),能夠有效地把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)化,從而實現(xiàn)從海量且紛繁復雜的文本數(shù)據(jù)中提取有價值的信息,幫助企業(yè)實現(xiàn)感知社會輿論、挖掘用戶需求、了解競品動向、優(yōu)化運營效率的目標。
(圖:達觀VOC系統(tǒng)架構(gòu)圖)
三、客戶聲音洞察系統(tǒng)場景舉例
下面我們就通過幾個業(yè)務(wù)場景介紹達觀VOC系統(tǒng)的信息挖掘、分析能力。
場景1:以卡車之家論壇的用戶評論數(shù)據(jù)為基礎(chǔ),通過對文本內(nèi)容進行品牌抽取+時間維度+聲量統(tǒng)計,能夠獲得某品牌的整體聲量走勢分析。
場景2:以卡車之家論壇的用戶評論數(shù)據(jù)為基礎(chǔ),通過對文本內(nèi)容進行品牌抽取+觀點提取+情感分析+時間維度,能夠獲得某品牌的情感趨勢分析。
場景3:以卡車之家論壇的用戶評論數(shù)據(jù)為基礎(chǔ),通過文本內(nèi)容進行品牌抽取+觀點提取+產(chǎn)品配置/性能分析+情感分析+時間維度,能夠獲得產(chǎn)品整體評價分析。
場景4:以卡車之家論壇的用戶評論數(shù)據(jù)基礎(chǔ),通過對文本內(nèi)容進行品牌抽取+觀點提取+產(chǎn)品性能/配置分析+情感分析+時間維度,能夠獲得產(chǎn)品配置/性能分析。
場景5:以卡車之家論壇的用戶評論數(shù)據(jù)為基礎(chǔ),通過對文本內(nèi)容進行分析,挖掘出用戶對配置、性能潛在的需求分析。
場景6:以開源的資訊網(wǎng)站數(shù)據(jù)為基礎(chǔ),以企業(yè)為視角,對文本內(nèi)容進行分析,挖掘出公司實體+情感分析+風險標簽,能夠預(yù)警相關(guān)企業(yè)風險。
場景7:以行業(yè)分析報告為基礎(chǔ)數(shù)據(jù),總結(jié)、提煉報告核心觀點。
場景8:其他核心能力:數(shù)據(jù)清洗能力。
企業(yè)想要獲得精準的企業(yè)、客戶洞察分析,數(shù)據(jù)是基礎(chǔ),信息分析與挖掘能力決定系統(tǒng)的上限,但是往往數(shù)據(jù)的質(zhì)量卻是決定了系統(tǒng)水平的下限,垃圾數(shù)據(jù)會在整個分析過程中混淆用戶視線,甚至影響用戶決策,那么如何有效地清理垃圾數(shù)據(jù)呢?達觀的客戶聲音洞察系統(tǒng)則通過以下2種方式解決大部分垃圾數(shù)據(jù)問題。
1、基于規(guī)則的定向清洗:基于文本標題、內(nèi)容中包含某些關(guān)鍵詞進行過濾、清洗,往往依賴業(yè)務(wù)人員梳理大量的違禁詞典,效果比較精準,但是badcase較多,維護工作較為頻繁。
2、基于語義理解的模型清洗:可以根據(jù)實際的業(yè)務(wù)需要定制不同類型的模型,比如想配合營銷部門跟進微博、論壇、用戶評論中的某款手機的產(chǎn)品評價,很明顯評論中需要包含正/負面情感傾向以及有關(guān)于手機名字/型號的一些描述,則可以通過情感分析模型+命名實體模型過濾掉大部分垃圾數(shù)據(jù);如果擔心同一篇文章會被轉(zhuǎn)載到多個渠道,或者是一些惡意刷帖、灌水等造成的數(shù)據(jù)重復問題,則可以通過文本比對模型來應(yīng)對,文本相似度的閾值用戶可以根據(jù)實際情況靈活配置。
(圖:達觀模型自學習反饋機制)
說了這么多NLP給企業(yè)、用戶洞察分析帶來的優(yōu)點、好處,那么應(yīng)用過程中有哪些難點與挑戰(zhàn)呢?任何一個模型都不可能是百分百精準,可能會導致信息分類、提取不準的情況。但達觀的客戶聲音洞察系統(tǒng)的機器學習算法結(jié)合人工反饋機制,通過收集用戶的操作、修改記錄能夠讓模型的正樣本數(shù)量與質(zhì)量不停得到提升,結(jié)合算法工程師的輔助調(diào)優(yōu),從而讓模型效果越用越好。
作者:達觀數(shù)據(jù)萬國龍