
BOUT
1月13日下午,在滬江北京研發(fā)中心、滬江智能學(xué)習(xí)實(shí)驗(yàn)室和CCtalk在京舉辦的“智能引擎,驅(qū)動(dòng)教育”技術(shù)沙龍中,達(dá)觀數(shù)據(jù)創(chuàng)始人&CEO陳運(yùn)文作為受邀嘉賓,在大會(huì)上進(jìn)行了《文本智能處理在教育行業(yè)的應(yīng)用》的演講,與來(lái)自云知聲等企業(yè)嘉賓共話(huà)智能驅(qū)動(dòng)下的教育未來(lái)發(fā)展,上百位在線教育行業(yè)技術(shù)大咖共議智能技術(shù)在教育行業(yè)的應(yīng)用。
我們?nèi)粘9ぷ髦胁还苁亲鼋逃€是接受完教育后踏上工作崗位,都會(huì)面臨各種各樣的文檔資料和文本數(shù)據(jù)。
大家每天都在看的各種媒體內(nèi)容,公司里大量的公文和辦公資料,如果涉及到和客戶(hù)打交道的會(huì)有客戶(hù)評(píng)論意見(jiàn),中文、英文等各種不同跨語(yǔ)言的資料。
一些垂直應(yīng)用行業(yè),比如法律行業(yè)從業(yè)者,會(huì)涉及法律文書(shū),如果是人事會(huì)涉及到人事簡(jiǎn)歷;證券、金融行業(yè)會(huì)涉及到很多財(cái)報(bào)和公告。所有這些文檔資料,大部分今天還要靠人工來(lái)閱讀理解分析。
如果計(jì)算機(jī)系統(tǒng)能夠像人一樣閱讀文字內(nèi)容,理解文字含義,并把很多重復(fù)、枯燥的工作自動(dòng)化,很多人力就可以解放出來(lái)做更有意義的事情,這就是文本智能處理的目標(biāo)。
文本挖掘已有很多成功應(yīng)用,比如搜索引擎就是一個(gè)典型的自然語(yǔ)言處理(或叫文本挖掘)非常成功應(yīng)用案例,并且其商業(yè)化也非常成熟。個(gè)性化推薦這幾年風(fēng)起云涌地發(fā)展,但目前文本挖掘技術(shù)本身還有很多難題需要攻克,中文方面其實(shí)還有很多困難。
Datagrand
達(dá)觀數(shù)據(jù)
字詞關(guān)系其實(shí)是語(yǔ)言的基本構(gòu)成元素,但讓計(jì)算機(jī)來(lái)閱讀文字時(shí)就發(fā)現(xiàn),要理清楚字詞之間的關(guān)聯(lián)關(guān)系很難。
計(jì)算機(jī)處理這些詞會(huì)遇到很多嚴(yán)峻的問(wèn)題。就中文來(lái)講,中華人民共和國(guó)是大粒度的詞,講的是一個(gè)國(guó)家的概念,很多時(shí)候可以用單字“中”表達(dá)這個(gè)意思,比如中美關(guān)系、中俄建交,這個(gè)里面的單字中表達(dá)的就是中華人民共和國(guó)的意思。這個(gè)時(shí)候,粒度的大小表達(dá)的意思相同。
但另外一些情況,單字“中”有另外的含義,河南話(huà)的“中”是好的意思,什么時(shí)候這個(gè)詞應(yīng)該用大粒度表示,什么時(shí)候應(yīng)該用小粒度表示是自然語(yǔ)言技術(shù)的處理難題。
還有局部轉(zhuǎn)移,比如巧克力囊腫是很常見(jiàn)的疾病的名字,和巧克力沒(méi)有關(guān)系,如果找這個(gè)病把巧克力找出來(lái)就不行。
以及我們常說(shuō)的同義詞和近義詞,簡(jiǎn)單的方法是配一個(gè)同義詞辭典,但是很多場(chǎng)景下同樣意思的詞有微妙的差異,比如父親和爹,應(yīng)用場(chǎng)景不同,如果簡(jiǎn)單劃等號(hào)很容易出問(wèn)題。比如跑步鞋和球鞋意思接近,但當(dāng)我一定要找跑步鞋時(shí),你給我球鞋是不對(duì)的。
還有很多中文中比較混亂的情況,例如:“意思”、“方便等等”都是中文里非?;靵y的詞匯,它在不同應(yīng)用場(chǎng)景下意思很不一樣。
處理大量文本尤其長(zhǎng)文本的時(shí)候最重要的是指代歸屬問(wèn)題,比如合同里會(huì)說(shuō)該條款表示的是××,這個(gè)指代關(guān)系需要到上文里找,跨段落理解也非常復(fù)雜,需要做大量的算法研究。
Datagrand
達(dá)觀數(shù)據(jù)
語(yǔ)義的歧義層出不窮,比如:“咬死獵人的狗”, “五個(gè)公司的工程師”,這是一個(gè)典型的數(shù)量詞和修飾對(duì)象存在歧義問(wèn)題,我們需要了解到底是五個(gè)工程師還是五個(gè)公司。如果不給你上下文,兩種語(yǔ)義理解都是對(duì)的。
還有一種歧義切分的問(wèn)題,“乒乓球拍賣(mài)了”,一種斷法叫做乒乓球/拍賣(mài)了,還有一個(gè)是乒乓球拍/賣(mài)了,兩種斷字方法都有一定的合理性,一定要結(jié)合上下文理解。
最后一個(gè)例子是指代歧義的例子,比如:“小張欺負(fù)了小王,老師喊了他家長(zhǎng)”,想讓計(jì)算機(jī)理解語(yǔ)義內(nèi)容面臨的歧義問(wèn)題非常困難,我們也經(jīng)常發(fā)現(xiàn)一個(gè)系統(tǒng)做文字的理解時(shí)經(jīng)常發(fā)現(xiàn)答非所問(wèn),其實(shí)就是歧義在其中有很多障礙。
?
Datagrand
達(dá)觀數(shù)據(jù)
同一個(gè)意思我們可以用不同的方式表達(dá),這給計(jì)算機(jī)來(lái)做語(yǔ)義理解帶來(lái)了很大障礙。常見(jiàn)的做法很多時(shí)候把句字的主語(yǔ)、謂語(yǔ)、賓語(yǔ)等核心語(yǔ)法元素識(shí)別出來(lái),找到正常應(yīng)該對(duì)應(yīng)的位置才能更好地理解它的意思。
比如“你上班了嗎?”這是中文當(dāng)中常見(jiàn)的寒喧語(yǔ)言,這句話(huà)里的主謂賓位置可以任意調(diào)換,但意思不變。山東人特別愛(ài)上倒裝句,喜歡把主語(yǔ)放在最后說(shuō)。這句話(huà)便成了“上班了你?”
做語(yǔ)法理解的時(shí)候便要把“你”識(shí)別出來(lái),讓它再回到句子最前面才是正常的表達(dá)。做好這些復(fù)雜的語(yǔ)義結(jié)構(gòu)分析才能把這些解決好。
?
Datagrand
達(dá)觀數(shù)據(jù)
我們做智能處理的時(shí)候常用的技術(shù)是怎樣的?給大家分享一些計(jì)算機(jī)學(xué)界處理文本多年的進(jìn)化過(guò)程。
1956年達(dá)特茅斯會(huì)議以后,人工智能被正式提出來(lái),當(dāng)年科學(xué)家提出了兩個(gè)AI目標(biāo),第一,在國(guó)際象棋能夠戰(zhàn)勝人類(lèi),第二機(jī)器翻譯上能夠超越人類(lèi),這兩個(gè)目標(biāo)達(dá)到了,1956年的科學(xué)家便認(rèn)為AI就已經(jīng)實(shí)現(xiàn)了。
?1956年達(dá)特茅斯會(huì)議參與者首先提出了AI概念
今天來(lái)看,國(guó)際象棋上早就已經(jīng)超過(guò)人類(lèi)了,甚至圍棋也已經(jīng)超過(guò)人類(lèi),但是機(jī)器翻譯領(lǐng)域,和翻譯人士相比還有不小差距。所以語(yǔ)言的分析挖掘確實(shí)是一件很難的事情。
Hinton教授提出了深度學(xué)習(xí)的概念,最早的時(shí)候,五六十年代能想到的是詞典加符號(hào)規(guī)則的方法,七八十年代有很多技術(shù)專(zhuān)家研究不同語(yǔ)言的語(yǔ)言規(guī)則和語(yǔ)法模型,在九十年代以后,統(tǒng)計(jì)學(xué)習(xí)的方法衍生出來(lái),直到今天有大量技術(shù)是基于統(tǒng)計(jì)學(xué)習(xí)模型來(lái)實(shí)現(xiàn)。2010年以后,深度學(xué)習(xí)和知識(shí)圖譜這些新的技術(shù)涌現(xiàn)出來(lái)了。
總體來(lái)說(shuō)在學(xué)術(shù)界做文本智能處理技術(shù)分成兩大路線,一個(gè)是結(jié)構(gòu)主義,二是功能主義,從兩個(gè)角度進(jìn)行文本智能處理就是從詞匯、篇章做各種各樣的分析挖掘。
?
Datagrand
達(dá)觀數(shù)據(jù)
做文本的智能處理,如果把它從基礎(chǔ)功能抽象出來(lái)看,大概分成四類(lèi)。
第一類(lèi):抽取
第一類(lèi)是抽取。如果把文字處理看作一個(gè)信號(hào)處理問(wèn)題,輸入一串信號(hào),它由一堆字詞構(gòu)成,如ABCDEF,我們現(xiàn)在要做的事情就是從里面抽取出關(guān)鍵信息。比如常見(jiàn)的標(biāo)簽、提關(guān)鍵核心內(nèi)容等都是抽取的一部分。一個(gè)文本中的關(guān)鍵信息在不同應(yīng)用場(chǎng)景下是不同的,但抽取這個(gè)過(guò)程可以把它抽象出來(lái)變成一個(gè)通用的算法模型。
第二類(lèi):劃分
第二叫做劃分。同樣輸入一串信號(hào),是現(xiàn)在有一個(gè)跟不同應(yīng)用場(chǎng)景相關(guān)的預(yù)置好的若干類(lèi)別,在新聞行業(yè)中有自己的分類(lèi)體系,任何一篇文章過(guò)來(lái)可以自動(dòng)分到不同的類(lèi)別里。
?
如果做情感,人類(lèi)情感有幾十種甚至上百種,先定義好人類(lèi)情感類(lèi)型,任何一個(gè)文本進(jìn)來(lái)都可以看到它屬于哪一種情感類(lèi)型,這些都是分類(lèi)應(yīng)用。
第三類(lèi):轉(zhuǎn)換
第三類(lèi)叫做轉(zhuǎn)換,輸入一串XXX信號(hào),轉(zhuǎn)換成另外一串信號(hào)。
?
如上圖就是轉(zhuǎn)換的例子,輸?shù)氖且淮盘?hào),通過(guò)編碼、解碼、轉(zhuǎn)化可以映射成另外一種語(yǔ)言或者表達(dá)方法。比如機(jī)器翻譯,還有摘要,縮短了文本內(nèi)容,但意思不變。
第四類(lèi):合成
合成是給出幾個(gè)關(guān)鍵信息,把它合成一個(gè)文章,比如機(jī)器寫(xiě)作、機(jī)器潤(rùn)色等。
以上這些就是文本挖掘的基礎(chǔ)應(yīng)用類(lèi)型,抽取、劃分、轉(zhuǎn)換、合成。
Datagrand
達(dá)觀數(shù)據(jù)
文本智能處理在教育行業(yè)的具體應(yīng)用場(chǎng)景有哪些?
場(chǎng)景一:自動(dòng)閱卷
自動(dòng)閱卷是一個(gè)分類(lèi)過(guò)程。比如老師閱卷完了之后打的ABCD等級(jí)就是一個(gè)類(lèi)別,機(jī)器現(xiàn)在做的就是任何一段文本需要映射到一個(gè)對(duì)應(yīng)類(lèi)別里。
文本分類(lèi)原理可這樣理解:之前有大量老師給同學(xué)們的作業(yè)和做題的結(jié)果打上各種各樣的分?jǐn)?shù),這個(gè)分?jǐn)?shù)就是機(jī)器的訓(xùn)練樣本,我們基于訓(xùn)練樣本反過(guò)來(lái)構(gòu)造一個(gè)語(yǔ)言模型,去了解文章中到底有哪些特征可以映射到對(duì)應(yīng)的分類(lèi)里去,建立相應(yīng)分類(lèi)模型。建立好以后,便能夠幫助我們來(lái)完成文章的自動(dòng)閱卷的過(guò)程。
場(chǎng)景二:評(píng)論反饋觀點(diǎn)提取
教育行業(yè)中的用戶(hù)評(píng)論、評(píng)論的觀點(diǎn)提取也是非常重要的一個(gè)場(chǎng)景。很多企業(yè)里稱(chēng)它為VOC系統(tǒng),教育行業(yè)需要從學(xué)員的反饋信息中做各種各樣的核心內(nèi)容抽取,以及評(píng)論觀點(diǎn)的歸一,還有大量統(tǒng)計(jì)分析。
?
場(chǎng)景三:作文糾錯(cuò)
在我們?nèi)粘9ぷ鳟?dāng)中只要涉及到文本的寫(xiě)作,不管是不是作文,其實(shí)都需要糾錯(cuò)。比如一些上市公司發(fā)布的公告中經(jīng)常存在錯(cuò)誤,大家撰寫(xiě)的合同中也可存在錯(cuò)誤。
糾錯(cuò)方面計(jì)算機(jī)今天已經(jīng)可以幫大家做很多工作,最簡(jiǎn)單的糾錯(cuò)就是在word里拼很多單詞,如果錯(cuò)了它就給你標(biāo)注一個(gè)紅線。但更多應(yīng)用場(chǎng)景中需要融入這個(gè)行業(yè)里的專(zhuān)家邏輯、行業(yè)規(guī)則、經(jīng)驗(yàn)等,提供更高級(jí)別的糾錯(cuò),這也是達(dá)觀數(shù)據(jù)給客戶(hù)提供的服務(wù)之一。
場(chǎng)景四:搜索引擎
搜索是非常典型的基于文字衍生出來(lái)的應(yīng)用,當(dāng)文檔資料數(shù)量多的時(shí)候,搜索就變成了剛需。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),不同部門(mén)、不同業(yè)務(wù)場(chǎng)景都可以積累下來(lái)很多文檔資料,這些文檔資料有的存在郵件里,有的存在ERP等系統(tǒng)里,你需要找到核心內(nèi)容的時(shí)候就需要搜索系統(tǒng)。
簡(jiǎn)單用關(guān)鍵詞匹配容易丟失很多結(jié)果,所以我們要做大量的語(yǔ)義方面的理解,需要大量的文本挖掘功能。傳統(tǒng)的搜索比如數(shù)據(jù)庫(kù)搜索,需要搜索的文字?jǐn)?shù)量越多,等的時(shí)間就越久。今天用倒排搜索引擎,文本數(shù)量增加的時(shí)候等待時(shí)間通常不變,幾乎感知不到等待過(guò)程。
舉個(gè)例子,比如搜“英語(yǔ)四級(jí)課程”,同樣一個(gè)意思有很多種表達(dá)方法,我們需要把它都找出來(lái),就要做很多工作了,這就是語(yǔ)義延展。
場(chǎng)景五:建立學(xué)員的個(gè)人畫(huà)像
教育行業(yè)是一個(gè)充分講究個(gè)性化的行業(yè),做個(gè)性化的一個(gè)基礎(chǔ)技術(shù)就是做語(yǔ)義理解。
個(gè)人畫(huà)像首先要對(duì)學(xué)員所學(xué)習(xí)的課程做一個(gè)語(yǔ)義理解分析,打上個(gè)性化標(biāo)簽,再根據(jù)這些學(xué)員和內(nèi)容之間的交互行為給學(xué)員生成各種各樣的用戶(hù)畫(huà)像,基于這個(gè)可產(chǎn)生很多個(gè)性化推薦功能,比如可以進(jìn)行各種的內(nèi)容的推薦,既可以面向大學(xué)畢業(yè)生,又可以面向金融從業(yè)者,又可以面向小學(xué)生甚至科研從業(yè)者。
場(chǎng)景六:知識(shí)圖譜
知識(shí)圖譜是一個(gè)行業(yè)里專(zhuān)家經(jīng)驗(yàn)的沉淀,任何領(lǐng)域知識(shí)都像一個(gè)網(wǎng)狀結(jié)構(gòu),每個(gè)知識(shí)點(diǎn)在這個(gè)知識(shí)網(wǎng)絡(luò)里和其他知識(shí)點(diǎn)構(gòu)成了一個(gè)關(guān)聯(lián)關(guān)系。
?
在做教育時(shí)如果能建立一個(gè)知識(shí)圖譜,就可以看到現(xiàn)在掌握的知識(shí)點(diǎn)在整個(gè)領(lǐng)域的哪個(gè)位置,接下來(lái)還需要往哪個(gè)方向發(fā)展。這些是對(duì)每位教育行業(yè)參與者很有價(jià)值的應(yīng)用。