由國內(nèi)領(lǐng)先智能文本處理企業(yè)達(dá)觀數(shù)據(jù),與中國計(jì)算機(jī)學(xué)會(huì)聯(lián)合舉辦的2022CCF BDCI暨第六屆“達(dá)觀杯”工業(yè)知識(shí)圖譜關(guān)系抽取賽題參賽報(bào)名正如火如荼開展中。本屆賽事初賽報(bào)名截止時(shí)間為11月4日12:00,開賽至今已有來自國內(nèi)外的1000余名企業(yè)和高校算法精英參與到比賽中,累計(jì)提交次數(shù)已高達(dá)2000余次。
? ? 賽題培訓(xùn)? ??
達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人文輝作為本次競(jìng)賽的命題人,為助力各位打榜達(dá)人更快速上手比賽,更高效優(yōu)化模型,圍繞關(guān)系抽取賽題為大家進(jìn)行賽題講解與答疑,并分享其對(duì)知識(shí)圖譜技術(shù)應(yīng)用的相關(guān)心得。
(掃碼觀看培訓(xùn)視頻)
同時(shí)為幫助選手更好地摸清解題思路,主辦方達(dá)觀數(shù)據(jù)已完成官方baseline的優(yōu)化更新,歡迎各位選手前往比賽平臺(tái)下載。
?baseline思路簡(jiǎn)析
該baseline使用的是GRTE模型[1],模型主要思路是將關(guān)系抽取轉(zhuǎn)換為一個(gè)表格填充的任務(wù),通過不斷對(duì)表格特征,以及全局特征的學(xué)習(xí),對(duì)表格進(jìn)行分類,最終將表格的類別轉(zhuǎn)換為關(guān)系類別。
在保證baseline效果的前提下,代碼結(jié)構(gòu)盡量保持簡(jiǎn)潔明了,基于論文github中的代碼只做少量改動(dòng),并且基于此次比賽的數(shù)據(jù),增加數(shù)據(jù)處理的代碼。目前該baseline在A榜數(shù)據(jù)集上的micro-F1為0.653857,相信在此基礎(chǔ)上通過對(duì)數(shù)據(jù)處理的優(yōu)化,對(duì)模型的優(yōu)化后,你一定可以得到更好的分?jǐn)?shù)。代碼整體過程分為:模型數(shù)據(jù)生成、模型訓(xùn)練、模型預(yù)測(cè)、預(yù)測(cè)結(jié)果生成。選手可進(jìn)入賽事平臺(tái),自行下載baseline以供學(xué)習(xí)參考。
官方baseline下載通道
注:[1] A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling.
? ?賽題介紹? ?