日前,第二十一屆中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)(CCL 2022)組織的漢語(yǔ)學(xué)習(xí)者文本糾錯(cuò)任務(wù)(Chinese Learner Text Correction,CLTC)結(jié)果發(fā)布,達(dá)觀數(shù)據(jù)以第一名、第二名的好成績(jī)分獲中文拼寫檢查與中文語(yǔ)法錯(cuò)誤檢測(cè)兩個(gè)賽道評(píng)測(cè)冠亞軍。本次評(píng)測(cè)歷經(jīng)一個(gè)多月的激烈角逐,期間共有140多支隊(duì)伍參賽,同臺(tái)競(jìng)技的隊(duì)伍來(lái)自清華大學(xué)、北京大學(xué)、中國(guó)科學(xué)院等高校和科研院所以及眾多NLP領(lǐng)域技術(shù)企業(yè)。
CCL2022大會(huì)為達(dá)觀數(shù)據(jù)獲獎(jiǎng)團(tuán)隊(duì)頒獎(jiǎng)
CCL 2022漢語(yǔ)學(xué)習(xí)者文本糾錯(cuò)任務(wù)(Chinese Learner Text Correction,CLTC)旨在自動(dòng)檢測(cè)并修改漢語(yǔ)學(xué)習(xí)者文本中的標(biāo)點(diǎn)、拼寫、語(yǔ)法、語(yǔ)義等錯(cuò)誤,從而獲得符合原意的正確句子。大會(huì)希望通過(guò)匯聚、開(kāi)發(fā)數(shù)據(jù)集,建立基于多參考答案的評(píng)價(jià)標(biāo)準(zhǔn),完善文本糾錯(cuò)數(shù)據(jù)及任務(wù),聚焦該研究領(lǐng)域中的前沿問(wèn)題,進(jìn)一步推動(dòng)文本糾錯(cuò)研究的發(fā)展。達(dá)觀在本次測(cè)評(píng)的糾錯(cuò)思路上使用了多種方式的整合。例如使用了拼音與字形編碼針對(duì)大多數(shù)拼寫類錯(cuò)誤;利用擴(kuò)展訓(xùn)練集來(lái)擴(kuò)充模型的學(xué)習(xí)范圍;使用多輪糾錯(cuò)的方式解決一個(gè)句子多種錯(cuò)誤的情況;使用困惑度、實(shí)體糾正以及Ngram后處理解決誤召回問(wèn)題等。保證效果的同時(shí)對(duì)于工程落地也進(jìn)行了一定的照顧,最終獲得了不錯(cuò)的效果,最終在CLTC中文拼寫檢查任務(wù)中達(dá)觀獲得第一名84.33的成績(jī),顯著超越第二名1.4分。
達(dá)觀數(shù)據(jù)相關(guān)技術(shù)負(fù)責(zé)人介紹:作為技術(shù)驅(qū)動(dòng)型公司,達(dá)觀數(shù)據(jù)始終在前沿技術(shù)上保持關(guān)注并將其轉(zhuǎn)化為生產(chǎn)力和社會(huì)價(jià)值,這次比賽中涉及的文本糾錯(cuò)技術(shù)正是應(yīng)用在公司智能文檔處理IDP系統(tǒng)、投行文檔質(zhì)控、公文處理平臺(tái)等多款商用產(chǎn)品中的核心技術(shù)之一。達(dá)觀數(shù)據(jù)在技術(shù)競(jìng)賽中頻獲佳績(jī),不但印證了公司業(yè)界領(lǐng)先的深厚技術(shù)實(shí)力,也給予我們更大的前進(jìn)動(dòng)力,未來(lái)繼續(xù)在文本智能處理領(lǐng)域做精做深。
達(dá)觀數(shù)據(jù)致力于文本智能處理的商業(yè)應(yīng)用,運(yùn)用全棧自研的前沿NLP技術(shù)和算法模型,結(jié)合行業(yè)專家經(jīng)驗(yàn)知識(shí)圖譜研發(fā)多款智能文本辦公產(chǎn)品,現(xiàn)已廣泛落地于金融、制造、地產(chǎn)、能源、通信、傳媒、醫(yī)藥、政務(wù)等領(lǐng)域,累積上千家知名政企客戶。洞識(shí)海量紛繁信息,讓文本智能賦能百業(yè)。