色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了
新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

?

隨著企業(yè)收集的非結(jié)構(gòu)化數(shù)據(jù)不斷增加,文本智能處理的價(jià)值和流行趨勢(shì)也處于上升階段。越來越多的企業(yè)意識(shí)到利用文本挖掘從企業(yè)文本資源庫(kù)中提取知識(shí)和提升效率的重要性。

達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人桂洪冠,近日作為邀請(qǐng)嘉賓在年末億歐四周年慶典上和各領(lǐng)域嘉賓一同探討了文本挖掘在企業(yè)中的應(yīng)用現(xiàn)狀及未來前景展望。桂洪冠作為文本智能領(lǐng)域的處理專家,在大數(shù)據(jù)架構(gòu)與核心算法以及文本挖掘等領(lǐng)域有深厚的積累和豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。

和我們熟悉的結(jié)構(gòu)化數(shù)據(jù)不同,當(dāng)提到文本數(shù)據(jù)時(shí),常有以下幾種特點(diǎn):

?

1
數(shù)據(jù)無結(jié)構(gòu)化
文檔格式多樣化,通常以PDF、Word、Excel,PPT、TXT,HTML等多種格式存在。
2
文件形式多樣化
法律/人事/證券等行業(yè)的各類文書, 企業(yè)內(nèi)部的公文和辦公資料、VOC客戶評(píng)論意見、客服FAQ問答語(yǔ)料,各種合同標(biāo)書文件,以及各類新聞媒體資訊等。
3
多語(yǔ)言
中英文語(yǔ)料都有。

如果說上述各類復(fù)雜多樣的文本數(shù)據(jù)是我們的原始的礦產(chǎn)資源,那么文本語(yǔ)義引擎就是挖掘機(jī),這臺(tái)挖掘機(jī)能從原始文本數(shù)據(jù)中挖掘提煉出有價(jià)值的知識(shí)信息。

我把人工智能對(duì)文本的智能處理過程概括為四個(gè)詞語(yǔ),分別是對(duì)文本的抽取、劃分、匹配和生成。

1

抽取

 

抽取是從無結(jié)構(gòu)化到結(jié)構(gòu)化的關(guān)鍵信息抽取,具體來說就是從大量的文本中自動(dòng)抽取出指定類型的關(guān)鍵信息,比如對(duì)合同、商務(wù)票據(jù)人事簡(jiǎn)歷、法律文書等文檔中的核心內(nèi)容的自動(dòng)識(shí)別和提取。

2

劃分

劃分其實(shí)就是分類,比如對(duì)各類文檔內(nèi)容的自動(dòng)審閱和審核。更具體的場(chǎng)景比如對(duì)合同各條款的潛在風(fēng)險(xiǎn)識(shí)別,不一致性檢測(cè),自動(dòng)糾正文檔中錯(cuò)別字(目前很多文檔來自對(duì)紙質(zhì)文件的OCR掃描,存在大量形近字錯(cuò)誤)、涉黃涉政內(nèi)容識(shí)別、垃圾評(píng)論識(shí)別、廣告內(nèi)容識(shí)別等。

?

此外還有VOC客戶意見分析,自動(dòng)從用戶的評(píng)論數(shù)據(jù)中識(shí)別提煉出用戶的觀點(diǎn)、情感、意見,以此指導(dǎo)產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng)。

3

匹配

?

從文本的匹配的角度看, 利用語(yǔ)義分析技術(shù)提供的功能極為強(qiáng)大的搜索引擎服務(wù),支持各類模糊匹配、語(yǔ)義聯(lián)想、正文各個(gè)段落精確定位查找等功能,具體產(chǎn)品如HR人崗精準(zhǔn)匹配系統(tǒng),司法領(lǐng)域的案件智能匹配系統(tǒng)等。

?

再比如,根據(jù)用戶閱讀行為自動(dòng)生成用戶畫像模型,并從用戶的興趣偏好出發(fā),提供個(gè)性化的千人千面的信息推薦引擎。

4

生成

?

從文本生成的角度看,知識(shí)圖譜實(shí)現(xiàn)的是從面向字符串的文本世界到實(shí)體及關(guān)系的世界的一種生成,知識(shí)圖譜強(qiáng)調(diào)的是從關(guān)系的視角看世界。

谷歌在2012年率先提出知識(shí)圖譜的概念并基于大規(guī)模知識(shí)圖譜顯著地提升了搜索引擎的效果,讓搜索引擎能夠?qū)Α耙γ鞯睦掀诺呐畠旱纳砀摺边@樣復(fù)雜的問題直接給出答案,而普通的基于關(guān)鍵字匹配的搜索引擎對(duì)這樣的問題的召回結(jié)果可想而知。

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

?

知識(shí)圖譜通過知識(shí)卡片可以呈現(xiàn)出更豐富直觀的的知識(shí)結(jié)果。谷歌之后,國(guó)內(nèi)的百度和搜狗也先后推出了他們的知識(shí)圖譜產(chǎn)品知心和知立方。谷歌、百度、搜狗他們提供的都是通用的知識(shí)圖譜。對(duì)企業(yè)而言,更容易落地的是,我們基于客戶的行業(yè)特點(diǎn)、專業(yè)術(shù)語(yǔ)、知識(shí)結(jié)構(gòu),定制專屬于客戶的行業(yè)知識(shí)圖譜,并為客戶的各個(gè)業(yè)務(wù)系統(tǒng)輸出基于知識(shí)的服務(wù)。

我們說語(yǔ)言是構(gòu)建人類認(rèn)知體系的基礎(chǔ),而文字是語(yǔ)言的主要載體。所以,對(duì)文字的理解和運(yùn)用是機(jī)器通向認(rèn)知智能的必由之路。我們來看看文字?jǐn)?shù)據(jù)的特點(diǎn):

?

1
表達(dá)非常抽象而精煉的概念
文字可以表達(dá)非常抽象而精煉的概念,比如智能、高尚、美好、唯心主義等詞語(yǔ)。人類的智慧就是基于對(duì)概念的層次抽象向前演進(jìn)的。
2
蘊(yùn)含豐富的背景知識(shí)
文字背后蘊(yùn)含豐富的背景知識(shí),比如“萬(wàn)事俱備只欠東風(fēng)”的背景知識(shí)是三國(guó)赤壁之戰(zhàn)的火燒赤壁,? 再比如”to be, or not to be”的背后是莎士比亞的哈姆雷特式的艱難抉擇。
3
人類智慧存在的高級(jí)形態(tài)
人類的哲學(xué)經(jīng)典、宗教法則、歷史典籍、文化倫理、文學(xué)巨著等等無不是以文字的形態(tài)存在。
4
極為靈活、龐雜
文字還極為靈活、龐雜,尤其中文存在大量的歧義、隱喻、反諷、雙關(guān)、轉(zhuǎn)義、多義等特點(diǎn)。比如乒乓球拍賣了(球拍存在語(yǔ)義切分的問題),比如五個(gè)公司的工程師(五個(gè)修飾的對(duì)象),比如做手術(shù)的是他的父親(做的具體含義有歧義),比如咬死了獵人的狗(是否省略了咬死的動(dòng)作主語(yǔ)),比如他的儀表不好(儀表是器材還是外貌)等。

?

達(dá)觀數(shù)據(jù)在文本語(yǔ)義方面積累了獨(dú)到的核心技術(shù)和豐富的行業(yè)經(jīng)驗(yàn)。

?

在技術(shù)實(shí)力方面,達(dá)觀處于行業(yè)領(lǐng)先位置。 智能文檔審閱系統(tǒng)和語(yǔ)義匹配引擎的核心是自然語(yǔ)言處理技術(shù),達(dá)觀數(shù)據(jù)在相關(guān)領(lǐng)域擁有30多項(xiàng)的國(guó)家發(fā)明專利。

?

?在行業(yè)經(jīng)驗(yàn)方面,已經(jīng)給超過50個(gè)細(xì)分行業(yè)、數(shù)百家企業(yè)(包括很多500強(qiáng)企業(yè))提供合同像文檔自動(dòng)解析、智能客服問答、HR人崗精準(zhǔn)匹配、VOC客戶意見分析等多項(xiàng)文本智能處理服務(wù)。

達(dá)觀數(shù)據(jù)在文本語(yǔ)義方面積累了獨(dú)到的核心技術(shù)和豐富的行業(yè)經(jīng)驗(yàn)。在技術(shù)方面,達(dá)觀處于行業(yè)領(lǐng)先位置。 智能文檔審閱系統(tǒng)和語(yǔ)義匹配引擎的核心是自然語(yǔ)言處理技術(shù),達(dá)觀數(shù)據(jù)在相關(guān)領(lǐng)域擁有30多項(xiàng)的國(guó)家發(fā)明專利。 在行業(yè)經(jīng)驗(yàn)方面,已經(jīng)給超過50個(gè)細(xì)分行業(yè)、數(shù)百家企業(yè)(包括很多500強(qiáng)企業(yè))提供合同像文檔自動(dòng)解析、智能客服問答、HR人崗精準(zhǔn)匹配、VOC客戶意見分析等多項(xiàng)文本智能處理服務(wù)。

下面將結(jié)合達(dá)觀數(shù)據(jù)的實(shí)戰(zhàn)經(jīng)驗(yàn)為大家呈現(xiàn)文本智能處理的應(yīng)用案例。

1

自動(dòng)抽取文檔關(guān)鍵信息

?

 

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

這是一個(gè)通過達(dá)觀語(yǔ)義引擎自動(dòng)抽取合同文檔中的關(guān)鍵信息的例子,可以抽取出合同主體、完成時(shí)間、總金額、稅率、發(fā)票類型等關(guān)鍵信息,左側(cè)對(duì)自動(dòng)抽取的對(duì)不同類型的關(guān)鍵信息以不同顏色高亮顯示,可以直觀的顯示抽取的不同類型的關(guān)鍵信息。

右側(cè)展示抽取的結(jié)構(gòu)化標(biāo)簽信息,更進(jìn)一步這些結(jié)構(gòu)化標(biāo)簽信息被導(dǎo)入數(shù)據(jù)庫(kù)或其它應(yīng)用系統(tǒng),比如導(dǎo)入到搜索引擎中用于合同結(jié)構(gòu)化信息的精準(zhǔn)檢索。

?

2

自動(dòng)識(shí)別文檔風(fēng)險(xiǎn)內(nèi)容

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

在上這套系統(tǒng)之前,客戶基本是靠人去仔細(xì)閱讀合同的每一個(gè)條款,因?yàn)槊總€(gè)條款都可以存在各種潛在的風(fēng)險(xiǎn),比如財(cái)經(jīng)的風(fēng)險(xiǎn)、法務(wù)的風(fēng)險(xiǎn)、技術(shù)的風(fēng)險(xiǎn)、交付的風(fēng)險(xiǎn)等。對(duì)大型企業(yè)來說,通常合同信息很多, 而且每份合同都非常長(zhǎng)(平均百頁(yè)以上)。

人工通篇閱讀合同全文條款意味著巨大的工作量。 達(dá)觀的系統(tǒng)對(duì)合同文本中存在法律風(fēng)險(xiǎn)的條款預(yù)先識(shí)別和標(biāo)注, 訓(xùn)練生成一個(gè)風(fēng)險(xiǎn)判別模型,借助這個(gè)判別模型系統(tǒng)可以針對(duì)問題條款進(jìn)行法律風(fēng)險(xiǎn)識(shí)別提示, 還能提供標(biāo)準(zhǔn)條款示例以及相關(guān)案例信息關(guān)聯(lián),在應(yīng)用達(dá)觀的智能合同審閱系統(tǒng)之后,工作效率翻了數(shù)倍。

3

VOC評(píng)論觀點(diǎn)提取

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

以達(dá)觀服務(wù)的一個(gè)客戶為例,這個(gè)客戶也是國(guó)內(nèi)最大的手機(jī)廠商,客戶每天從全球多個(gè)渠道實(shí)時(shí)匯總了大量的(百萬(wàn)級(jí)的)用戶評(píng)論信息,達(dá)觀的VOC系統(tǒng)自動(dòng)從這些評(píng)論數(shù)據(jù)中實(shí)時(shí)提取用戶的意見、觀點(diǎn)和情感,進(jìn)一步通過對(duì)這些意見、觀點(diǎn)和情感的聚類分析,可以建立產(chǎn)品的危機(jī)模型,及時(shí)發(fā)現(xiàn)熱點(diǎn)問題,也可以通過詞云展示動(dòng)態(tài)監(jiān)控輿情。

另外通過對(duì)用戶的意見、觀點(diǎn)和情感的升降趨勢(shì)分析,輔助指導(dǎo)企業(yè)運(yùn)營(yíng)思路,及時(shí)優(yōu)化調(diào)整產(chǎn)品設(shè)計(jì)方向。

4

智能人才搜索平臺(tái)精準(zhǔn)匹配簡(jiǎn)歷

和普通的基于關(guān)鍵字的搜索不同,達(dá)觀的人才搜索平臺(tái)能根據(jù)JD的內(nèi)容從海量的簡(jiǎn)歷庫(kù)中自動(dòng)精準(zhǔn)匹配到最滿足JD條件的候選人簡(jiǎn)歷。人才搜索平臺(tái)背后是復(fù)雜的語(yǔ)義分析引擎,通過對(duì)JD和簡(jiǎn)歷構(gòu)建多維度的畫像模型,在語(yǔ)義空間對(duì)JD和候選簡(jiǎn)歷進(jìn)行相似度計(jì)算。

?

新年將至,沉睡的文本數(shù)據(jù)也該醒醒了

這套HR人崗精準(zhǔn)匹配系統(tǒng)不僅能實(shí)現(xiàn)以崗找人,還能實(shí)現(xiàn)以人找人,即通過一份候選人簡(jiǎn)歷可以自動(dòng)找到與這個(gè)候選類似簡(jiǎn)歷,這對(duì)HR進(jìn)行簡(jiǎn)歷篩選的幫助非常大。

隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這些技術(shù)的發(fā)展和應(yīng)用,文本挖掘在企業(yè)的應(yīng)用范圍會(huì)越來越廣。