4月18日,達(dá)觀數(shù)據(jù)科學(xué)家團(tuán)隊(duì)再添專(zhuān)家,國(guó)內(nèi)知名自然語(yǔ)言處理領(lǐng)軍專(zhuān)家、復(fù)旦大學(xué)計(jì)算機(jī)教授黃萱菁博士正式受聘為達(dá)觀數(shù)據(jù)高級(jí)顧問(wèn),達(dá)觀數(shù)據(jù)在人工智能領(lǐng)域的研發(fā)實(shí)力又上新臺(tái)階,未來(lái)在深度學(xué)習(xí)、自然語(yǔ)言處理領(lǐng)域,達(dá)觀將繼續(xù)推動(dòng)文本智能處理在各行各業(yè)的應(yīng)用和普及。
在自然語(yǔ)言處理領(lǐng)域,黃萱菁教授赫赫有名,作為國(guó)內(nèi)早期從事人工智能、自然語(yǔ)言處理和信息檢索的學(xué)者,黃萱菁教授已經(jīng)在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, ISWC, EMNLP,WSDM和COLING等多個(gè)高水平國(guó)際學(xué)術(shù)期刊和會(huì)議上發(fā)表了近百篇論文,負(fù)責(zé)的多個(gè)科研項(xiàng)目受到國(guó)家自然科學(xué)基金、科技部、教育部、上海市科委的支持。
黃萱菁教授曾擔(dān)任過(guò)2004年自然語(yǔ)言處理青年學(xué)者研討會(huì)(YSSNLP)總召集人,2009年亞洲語(yǔ)義網(wǎng)學(xué)術(shù)會(huì)議(ASWC)組織委員會(huì)主席,2010年國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議(COLING)tutorial主席,2014年CIKM會(huì)議競(jìng)賽主席,2015年WSDM會(huì)議組織者,2016年全國(guó)計(jì)算語(yǔ)言學(xué)會(huì)議程序委員會(huì)副主席,2017年國(guó)際自然語(yǔ)言處理與中文計(jì)算程序委員會(huì)主席等。
本次受聘儀式上,黃萱菁教授做了“神經(jīng)網(wǎng)絡(luò)與中文分詞“的專(zhuān)題分享。
學(xué)術(shù)前沿:神經(jīng)網(wǎng)絡(luò)與中文分詞
在NLP(自然語(yǔ)言處理)領(lǐng)域,中文分詞是很多任務(wù)最需要的語(yǔ)言信息處理技術(shù),也是中文結(jié)構(gòu)和語(yǔ)義分析的基礎(chǔ)。黃萱菁教授詳細(xì)介紹了中文分詞的幾種方法:
- 基于序列標(biāo)注的中文分詞
- 基于神經(jīng)網(wǎng)絡(luò)的中文分詞
- 基于門(mén)遞歸神經(jīng)網(wǎng)絡(luò)的中文分詞
- 基于長(zhǎng)短期記憶網(wǎng)絡(luò)的中文分詞
- 基于對(duì)抗網(wǎng)絡(luò)的多標(biāo)準(zhǔn)分詞
黃萱菁教授強(qiáng)調(diào),在分詞中結(jié)合詞典特征來(lái)處理罕見(jiàn)詞,罕見(jiàn)詞常有兩個(gè)特征,它們是低頻詞匯,或者特定領(lǐng)域詞匯。在詞典中可能即包含了常用詞匯,也包含了低頻詞匯和特定領(lǐng)域詞匯。

業(yè)界前沿:深度學(xué)習(xí)與文本智能處理
在人工智能領(lǐng)域,達(dá)觀數(shù)據(jù)一致專(zhuān)注于NLP的研發(fā)與應(yīng)用,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人高翔隨后結(jié)合達(dá)觀在實(shí)際服務(wù)的業(yè)務(wù)場(chǎng)景中分享了深度學(xué)習(xí)在NLP中的具體應(yīng)用。
達(dá)觀數(shù)據(jù)研發(fā)的達(dá)觀智能文檔處理平臺(tái),受到了金融和保險(xiǎn)領(lǐng)域的眾多客戶青睞。其實(shí)現(xiàn)的風(fēng)險(xiǎn)智能審核、文檔智能抽取、錯(cuò)誤智能糾錯(cuò)和文檔智能對(duì)比,利用NLP技術(shù)解決了行業(yè)中繁雜的文字處理工作。
高翔詳細(xì)介紹了達(dá)觀數(shù)據(jù)在智能文檔審閱系統(tǒng)中的抽取核心算法:
高翔和大家介紹,和傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)(CNN、RNN)實(shí)現(xiàn)了端到端,無(wú)須大量特征工程,其次框架的通用性好,可以滿足多領(lǐng)域的需求,并且可以使用非監(jiān)督語(yǔ)料訓(xùn)練字詞向量提升效果。在其經(jīng)驗(yàn)看來(lái):
在業(yè)務(wù)場(chǎng)景下,盡量收集并理解數(shù)據(jù),分析問(wèn)題的本質(zhì),選擇合適的算法模型。在初始階段,可以使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型快速嘗試,疑難問(wèn)題使用端到端的方式也許會(huì)有驚喜。
活動(dòng)結(jié)束后,臺(tái)下同學(xué)分別就分詞的粒度劃分、深度學(xué)習(xí)調(diào)參和數(shù)據(jù)獲取以及處理的方式與黃萱菁教授和高翔展開(kāi)了深入的討論交流。
繼復(fù)旦大學(xué)知識(shí)圖譜專(zhuān)家肖仰華教授受聘達(dá)觀數(shù)據(jù)后,本次黃萱菁教授的受聘,再次提升了達(dá)觀數(shù)據(jù)科研團(tuán)隊(duì)的技術(shù)研發(fā)實(shí)力。
特此鳴謝浦軟孵化器對(duì)本次活動(dòng)的大力支持!