作為國內(nèi)知名算法大賽,“達(dá)觀杯”已經(jīng)連續(xù)舉辦三屆,分別以備受關(guān)注的“個(gè)性化推薦“、“文本分類”、“智能信息抽取”作為賽事主題,吸引了全球近萬名NLP愛好者的關(guān)注和參與。
在達(dá)觀杯第四年之季,主辦方達(dá)觀數(shù)據(jù)將攜手國內(nèi)年度學(xué)術(shù)大會(huì)CCKS(全國知識圖譜與語義計(jì)算大會(huì)),圍繞“基于本體的金融知識圖譜自動(dòng)化構(gòu)建”這一主題,繼續(xù)和廣大技術(shù)愛好者們探索NLP前沿技術(shù)的產(chǎn)業(yè)應(yīng)用效果。
任務(wù)背景
CCKS(全國知識圖譜與語義計(jì)算大會(huì))是由中國中文信息學(xué)會(huì)語言與知識計(jì)算專委會(huì)定期舉辦的全國年度學(xué)術(shù)會(huì)議。其中技術(shù)評測旨在為研究人員提供測試知識圖譜與語義計(jì)算技術(shù)、算法、及系統(tǒng)的平臺和資源,促進(jìn)國內(nèi)知識圖譜領(lǐng)域的技術(shù)發(fā)展。以及學(xué)術(shù)成果與產(chǎn)業(yè)需求的融合和對接。
2020年CCKS大會(huì)召開在即,并設(shè)立8個(gè)相關(guān)主題評測任務(wù),達(dá)觀數(shù)據(jù)與百度、招商銀行、螞蟻金服、阿里巴巴等企業(yè)及各大高校研究學(xué)者分別單獨(dú)組織其中1個(gè)主題評測任務(wù)。此前,達(dá)觀數(shù)據(jù)曾在2019年用“智能文檔審閱系統(tǒng)”工業(yè)級的產(chǎn)品參與了學(xué)術(shù)評測,且僅用2周時(shí)間斬獲CCKS 2019“公眾公司公告信息抽取”任務(wù)亞軍殊榮,如今在2020年以評測任務(wù)組織方的身份,再次參與其中,并發(fā)布了以金融行業(yè)研報(bào)為數(shù)據(jù)基礎(chǔ)的“基于本體的金融知識圖譜自動(dòng)化構(gòu)建技術(shù)評測”任務(wù)。
任務(wù)介紹
金融研報(bào)是各類金融研究結(jié)構(gòu)對宏觀經(jīng)濟(jì)、金融、行業(yè)、產(chǎn)業(yè)鏈以及公司的研究報(bào)告。報(bào)告通常是有專業(yè)人員撰寫,對宏觀、行業(yè)和公司的數(shù)據(jù)信息搜集全面、研究深入,質(zhì)量高,內(nèi)容可靠。
報(bào)告內(nèi)容往往包含產(chǎn)業(yè)、經(jīng)濟(jì)、金融、政策、社會(huì)等多領(lǐng)域的數(shù)據(jù)與知識,是構(gòu)建行業(yè)知識圖譜非常關(guān)鍵的數(shù)據(jù)來源。另一方面,由于研報(bào)本身所容納的數(shù)據(jù)與知識涉及面廣泛,專業(yè)知識眾多,不同的研究結(jié)構(gòu)和專業(yè)認(rèn)識對相同的內(nèi)容的表達(dá)方式也會(huì)略有差異。
這些特點(diǎn)導(dǎo)致了從研報(bào)自動(dòng)化構(gòu)建知識圖譜困難重重,解決這些問題則能夠極大促進(jìn)自動(dòng)化構(gòu)建知識圖譜方面的技術(shù)進(jìn)步。
任務(wù)要求
本評測任務(wù)參考TAC KBP中的Cold Start評測任務(wù)的方案,圍繞金融研報(bào)知識圖譜的自動(dòng)化圖譜構(gòu)建所展開。評測從預(yù)定義圖譜模式(Schema)和少量的種子知識圖譜開始,從非結(jié)構(gòu)化的文本數(shù)據(jù)中構(gòu)建知識圖譜。其中圖譜模式包括10種實(shí)體類型,如機(jī)構(gòu)、產(chǎn)品、業(yè)務(wù)、風(fēng)險(xiǎn)等;20個(gè)實(shí)體間的關(guān)系,如(機(jī)構(gòu),生產(chǎn)銷售,產(chǎn)品)、(機(jī)構(gòu),投資,機(jī)構(gòu))等;以及若干實(shí)體類型帶有屬性,如(機(jī)構(gòu),英文名)、(研報(bào),評級)等。
在給定圖譜模式和種子知識圖譜的條件下,評測內(nèi)容為自動(dòng)地從研報(bào)文本中抽取出符合圖譜模式的實(shí)體、關(guān)系和屬性值,實(shí)現(xiàn)金融知識圖譜的自動(dòng)化構(gòu)建。所構(gòu)建的圖譜在大金融行業(yè)、監(jiān)管部門、政府、行業(yè)研究機(jī)構(gòu)和行業(yè)公司等應(yīng)用非常廣泛,如風(fēng)險(xiǎn)監(jiān)測、智能投研、智能監(jiān)管、智能風(fēng)控等,具有巨大的學(xué)術(shù)價(jià)值和產(chǎn)業(yè)價(jià)值。
評測本身不限制各參賽隊(duì)伍使用的模型、算法和技術(shù)。希望各參賽隊(duì)伍發(fā)揮聰明才智,構(gòu)建各類無監(jiān)督、弱監(jiān)督、遠(yuǎn)程監(jiān)督、半監(jiān)督等系統(tǒng),迭代的實(shí)現(xiàn)知識圖譜的自動(dòng)化構(gòu)建,共同促進(jìn)知識圖譜技術(shù)的進(jìn)步。
獎(jiǎng)勵(lì)安排
賽事官網(wǎng)
https://www.biendata.com/competition/ccks_2020_5/
交流平臺
交流平臺:QQ群(743057650)
- 在訓(xùn)練及驗(yàn)證數(shù)據(jù)發(fā)布的同時(shí)會(huì)發(fā)布任務(wù)交流平臺。
- 相關(guān)的問題說明、解答和通知會(huì)在該平臺中發(fā)布和交流。
- 所有參賽隊(duì)伍至少有一名成員加入到交流平臺中。
- 各參賽隊(duì)伍針對評測任務(wù)的交流在該平臺里進(jìn)行。
- 為公平起見,所有交流信息對所有參賽隊(duì)伍公開。