在2020年世界人工智能大會云端峰會中,達(dá)觀數(shù)據(jù)與浦東青聯(lián)聯(lián)合舉辦了“智能時代,語你同行”行業(yè)論壇,圍繞語言智能,與多位行業(yè)專家與學(xué)者展開了一場精彩線上交流盛宴。

深圳證券交易所總工程師喻華麗在論壇上進(jìn)行了《證券市場文本信息智能化應(yīng)用》的主題分享,以下為演講內(nèi)容精華整理,觀看大會回放可直接下拉最下方二維碼進(jìn)行精彩回顧。
很高興有機(jī)會給大家分享交流證券市場文本信息智能化應(yīng)用實踐,感謝達(dá)觀提供這樣的平臺。
證券行業(yè)文本信息應(yīng)用情況
深圳證券交易所作為一家全國性的交易所,肩負(fù)著市場組織、監(jiān)管和服務(wù)三大職能。經(jīng)過近30年的發(fā)展,深交所已進(jìn)入世界交易所的前列,主要業(yè)務(wù)和技術(shù)指標(biāo)表現(xiàn)突出,比如成交筆數(shù)連續(xù)多年全球第一。
證券市場參與者眾多,信息密集。市場每日運(yùn)行,產(chǎn)生和處理大量數(shù)據(jù)信息,包括結(jié)構(gòu)化的市場交易數(shù)據(jù),也包括非結(jié)構(gòu)化的信息披露公告、市場輿情資訊、公函報告等文本數(shù)據(jù)信息。
在當(dāng)今互聯(lián)網(wǎng)大數(shù)據(jù)時代,文本信息增長迅速,已成為一個重要的數(shù)據(jù)類型、各機(jī)構(gòu)重要的數(shù)據(jù)資產(chǎn)。有統(tǒng)計顯示,非結(jié)構(gòu)化數(shù)據(jù)的占比達(dá)到80%。在證券市場,文本信息量非常大,僅上市公司公告和研報,年增幅超過20%。
面對海量的文本信息,人們對其蘊(yùn)含的業(yè)務(wù)價值日益重視,文本信息對證券市場帶來的沖擊影響也加深。一個公司公告、新聞、甚至一條推特都有可能引發(fā)市場股價的大幅波動。也正因如此,無論市場經(jīng)營機(jī)構(gòu),還是監(jiān)管機(jī)構(gòu)近年來加大了對文本信息處理的關(guān)注度和投入。
文本信息處理是一個基于內(nèi)容理解的智能化處理。近年來AI、大數(shù)據(jù)技術(shù)的發(fā)展為這種智能化處理提供了可能。
要做好證券文本信息智能化處理并非一件易事。它通常需要將AI技術(shù)和證券行業(yè)領(lǐng)域知識相結(jié)合,理解好證券文本信息內(nèi)容,挖掘內(nèi)在的業(yè)務(wù)價值,從而賦能業(yè)務(wù)和市場。
相比其他行業(yè)文本處理,證券文本智能化處理具有自身需求:
-
文本信息量大且結(jié)構(gòu)復(fù)雜
-
資本市場專業(yè)性強(qiáng),涉及領(lǐng)域知識多,且處理要求高
-
實時性、準(zhǔn)確性要求高,文本信息深度價值挖掘能力要求強(qiáng)
針對證券文本信息需求,近年來行業(yè)機(jī)構(gòu)積極開展應(yīng)用探索。根據(jù)行業(yè)金融科技中心統(tǒng)計,最近三年有關(guān)文本信息處理課題逐年增加,主要聚焦在兩個領(lǐng)域:
-
側(cè)重于文本信息技術(shù)處理:例如金融文檔結(jié)構(gòu)的語義分析
-
圍繞金融信息場景應(yīng)用:例如智能輿情應(yīng)用、智能投顧和智能投研等
深交所在文本信息智能化應(yīng)用的實踐
圍繞著這資源的應(yīng)用處理,深交所經(jīng)歷了從有紙化到信息化、電子化再到最近的數(shù)字化三個階段;在處理方式上,也在從簡單的基于內(nèi)容展示到基于內(nèi)容的智能化理解,以更好地支持市場監(jiān)管和市場服務(wù)。
深交所在智能文本處理方面采用如下發(fā)展思路:一方面積極運(yùn)用當(dāng)前最新技術(shù)成果,如NLP和AI技術(shù),另一方面充分發(fā)揮行業(yè)自身的領(lǐng)域知識,加強(qiáng)領(lǐng)域知識訓(xùn)練。在此基礎(chǔ)上,先開展探索預(yù)研,將效果好的智能化分析模型算法進(jìn)行工程化落地研發(fā),將成果應(yīng)用于實際業(yè)務(wù)。在經(jīng)驗總結(jié)基礎(chǔ)上,再推廣應(yīng)用到其他場景、行業(yè)機(jī)構(gòu)。
智能化文本信息處理一項探索性很強(qiáng)的實踐工作。近年來,深交所依托行業(yè)金融科技中心,開展場景探索、關(guān)鍵技術(shù)研究和模型優(yōu)化等方面探索預(yù)研工作。已開展了證券文本信息抽取技術(shù)、面向證券市場運(yùn)行監(jiān)測智能化應(yīng)用技術(shù)、信息披露文檔合規(guī)性分析,智能輿情分析關(guān)鍵技術(shù)研究等課題研究。
深交所非常重視文本信息平臺工具建設(shè)。根據(jù)市場文本信息處理業(yè)務(wù)的各種場景,集成NLP主流常用的模型、算法、工具,構(gòu)建功能完善的自然語言處理平臺,以便更好地支持各種場景下文本處理分析業(yè)務(wù)。
該平臺可支持模型研究人員、工程開發(fā)人員、業(yè)務(wù)應(yīng)用人員的使用,并且形成了一個閉環(huán)。此外該平臺的模型具有開放性,支持業(yè)務(wù)模型算法的擴(kuò)充、遷移與優(yōu)化升級,以滿足不同業(yè)務(wù)場景的文本智能化處理需求。
其次,我們還同樣重視行業(yè)領(lǐng)域知識的積累與構(gòu)建。不僅積累大量的行業(yè)標(biāo)準(zhǔn)化標(biāo)注訓(xùn)練樣本,同時構(gòu)建了行業(yè)領(lǐng)域知識規(guī)則庫。此外,針對輿情資訊文本,為了更好研究資訊文本重要事件識別,構(gòu)建了公司輿情事件分類體系,以提供更加精細(xì)化的資訊內(nèi)容服務(wù)。
此外,深交所還關(guān)注行業(yè)知識圖譜構(gòu)建(如產(chǎn)業(yè)鏈知識圖譜,工商圖譜等),并將這些圖譜與文本智能化處理相結(jié)合,以發(fā)揮圖譜所蘊(yùn)含的知識,更好地去“讀懂”“理解”文檔信息內(nèi)容。
在具體應(yīng)用場景方面,目前智能文本處理已經(jīng)應(yīng)用于智能監(jiān)管、智能監(jiān)察、輿情風(fēng)控、智能輿情和智能服務(wù),在市場監(jiān)管和市場服務(wù)方面發(fā)揮了重要的作用。接下來,將結(jié)合智能監(jiān)管和智能輿情,具體介紹三個實際應(yīng)用案例。
上市公司信息披露公告類別識別應(yīng)用
該系統(tǒng)是針對上市公司提交的披露公告進(jìn)行公告別類自動識別,輔助業(yè)務(wù)監(jiān)管人員對重點公告類別進(jìn)行甄別復(fù)核,并提醒業(yè)務(wù)操作。該系統(tǒng)目前可支持:定期報告、臨時報告公告,文本類別涵蓋股東大會、資產(chǎn)操作、年報披露、利潤分配、停復(fù)牌等18類特定業(yè)務(wù)公告甄別等,系統(tǒng)準(zhǔn)確率已達(dá)92%以上,提升了公司信息披露監(jiān)管效率。?
重組公告信息抽取審核
依據(jù)業(yè)務(wù)監(jiān)管人員審查要點對重組公告的文檔進(jìn)行特定字段信息抽取,也是文檔數(shù)字化信息的重要基礎(chǔ)。該系統(tǒng)以前期技術(shù)攻關(guān)課題成果為基礎(chǔ),通過對原始的文檔進(jìn)行解析,然后對特定數(shù)據(jù)進(jìn)行標(biāo)注,運(yùn)用深度學(xué)習(xí)模型之后,實現(xiàn)了關(guān)鍵字段信息的結(jié)構(gòu)化抽取。目前這抽取技術(shù)能支持word和PDF文檔下的實體類型、概要類型、數(shù)字類型、關(guān)系類型、表格類型等類型字段抽取,總體抽取準(zhǔn)確率達(dá)到了90%?,F(xiàn)在這項技術(shù)還準(zhǔn)備拓展應(yīng)用于年報、基金公告、注冊制公告審核字段信息抽取。?
智能輿情分析系統(tǒng)
該系統(tǒng)是面向輿情資訊類的文本信息智能化處理,目前一期功能已經(jīng)上線,與其他系統(tǒng)相比,該系統(tǒng)具有以下特點:一是數(shù)據(jù)來源廣,涵蓋主流媒體、微信公眾號、微博等自媒體數(shù)據(jù);二是智能化應(yīng)用多,應(yīng)用了比較多的NLP技術(shù),三是分析功能多,如話題聚合,追蹤溯源,輿情訂閱等,四是推送速度快,支持網(wǎng)頁、微信和APP推送查閱。?
未來探索思路
最后,簡要分享深交所未來發(fā)展思路:
加強(qiáng)文本信息智能化業(yè)務(wù)賦能
一是要拓展業(yè)務(wù)監(jiān)管與服務(wù)應(yīng)用場景。例如,讓文本智能分析可以更加深入,支持更聚焦的專題分析,拓展服務(wù)至固收、基金等各個業(yè)務(wù)條線。二是提升服務(wù)模式,讓文本信息服務(wù)可更加便捷化和個性化。最后提升服務(wù)效果,讓文本信息服務(wù)智能更加精準(zhǔn),更加快捷和高效。
提升文本信息智能化平臺能力
繼續(xù)增強(qiáng)NLP平臺服務(wù)能力,完善行業(yè)領(lǐng)域知識庫,在此基礎(chǔ)上構(gòu)建數(shù)據(jù)中臺能力,從而全面支持各類文本信息智能化應(yīng)用。
積極推動行業(yè)成果交流共享與應(yīng)用推廣
作為行業(yè)核心機(jī)構(gòu),將繼續(xù)發(fā)揮行業(yè)引領(lǐng)作用,依托行業(yè)金融科技中心,加強(qiáng)與行業(yè)合作,組織行業(yè)課題聯(lián)合攻關(guān)研究,實現(xiàn)行業(yè)文本信息處理關(guān)鍵技術(shù)和應(yīng)用推廣上的突破。對于課題研究成果,例如NLP平臺,語料、模型算法以及應(yīng)用服務(wù)進(jìn)行行業(yè)共享,推動行業(yè)文本信息處理共同進(jìn)步發(fā)展,形成一個良好的文本信息處理數(shù)字化生態(tài)。
未來,深交所將密切跟進(jìn)數(shù)字科技變革浪潮,以數(shù)字化、智能化、網(wǎng)絡(luò)化、國際化為抓手,爭創(chuàng)世界一流交易所IT,全面服務(wù)于深交所成為國際領(lǐng)先的創(chuàng)新資本形成中心、打造世界一流證券交易所的發(fā)展愿景和戰(zhàn)略目標(biāo)。我的分享到此結(jié)束,謝謝大家!