人工智能新基建

2020“新冠”疫情發(fā)生以來，“新基建”成為熱議。2020年初，時任國家發(fā)展改革委高技術(shù)產(chǎn)業(yè)司、創(chuàng)新和高技術(shù)發(fā)展司司長伍浩曾介紹，新型基礎(chǔ)設(shè)施是以新發(fā)展理念為引領(lǐng)，以技術(shù)創(chuàng)新為驅(qū)動，以信息網(wǎng)絡(luò)為基礎(chǔ)，面向高質(zhì)量發(fā)展需要，提供數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系。

21世紀計算機及互聯(lián)網(wǎng)技術(shù)高度發(fā)展的今天，企業(yè)數(shù)字化、信息化、智能化已相對成熟，在此基礎(chǔ)上如何再創(chuàng)新？再發(fā)展？再升級？成為難題。據(jù)統(tǒng)計，就計算機應(yīng)用而言，用于數(shù)學(xué)計算的僅占 10%，用于過程控制的不到5%，其余85%左右都是用于語言文字的信息處理。文本數(shù)據(jù)的高效利用與科學(xué)管理，已經(jīng)成為各行各業(yè)升級發(fā)展的核心驅(qū)動力，特別對文本數(shù)據(jù)密集的企業(yè)而言，其主要業(yè)務(wù)基于大規(guī)模文本數(shù)據(jù)展開，面臨著更大的文本數(shù)據(jù)治理挑戰(zhàn)。例如，企業(yè)和機構(gòu)存在大量的用戶、產(chǎn)品、市場、采購等文本數(shù)據(jù)，數(shù)據(jù)難以利用；大量文本數(shù)據(jù)中多為非結(jié)構(gòu)化數(shù)據(jù)，需要處理大量WORD、PDF、圖片等非結(jié)構(gòu)化數(shù)據(jù)；人工進行分析、分類、提取文本的工作量大。

運用NLP技術(shù)處理文本數(shù)據(jù)在企業(yè)日常運營及業(yè)務(wù)拓展中的迫切應(yīng)用需要可見一斑。

NLP技術(shù)發(fā)展

自然語言是人類學(xué)習(xí)、生活的重要工具，區(qū)別于程序設(shè)計的人工語言，在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。

20 世紀 50 年代到 70 年代自然語言處理主要采用基于規(guī)則的方法，基于規(guī)則的方法不可能覆蓋所有語句，雖然這一階段雖然解決了一些簡單的問題，但是無法從根本上將自然語言理解實用化。70 年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展，豐富的語料庫成為現(xiàn)實以及硬件不斷更新完善，基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法，自然語言處理基于數(shù)學(xué)模型和統(tǒng)計的方法取得了實質(zhì)性的突破，從實驗室走向?qū)嶋H應(yīng)用。

pic_002

圖片來源：2019人工智能發(fā)展報告

2008 年以后，在圖像識別和語音識別領(lǐng)域的成果激勵下，人們也逐漸開始引入深度學(xué)習(xí)來做自然語言處理研究，由最初的詞向量到2013年的word2vec，將深度學(xué)習(xí)與自然語言處理的結(jié)合推向了高潮。

當下，應(yīng)用自然自然語言處理進行智能自動化升級，已經(jīng)成為很多企業(yè)的迫切需求，但常見的AI技術(shù)在應(yīng)用過程存在諸多問題，如：

技術(shù)門檻高：缺乏AI專業(yè)人才，開發(fā)及應(yīng)用部署門檻高；
工具多且雜：數(shù)據(jù)采集、預(yù)處理、標注、訓(xùn)練、評估、預(yù)測等各個環(huán)節(jié)應(yīng)用的工具不一，缺乏一站式AI平臺支撐；
操作復(fù)雜：模型開發(fā)及應(yīng)用過程復(fù)雜，難以快速上手操作；
數(shù)據(jù)泄露風(fēng)險高：開發(fā)過程數(shù)據(jù)幾經(jīng)轉(zhuǎn)換、傳輸，存在較大的數(shù)據(jù)泄露風(fēng)險；
模型持續(xù)優(yōu)化難：模型訓(xùn)練、應(yīng)用及優(yōu)化閉環(huán)流程難以持續(xù)；
開發(fā)成本高：開發(fā)速度慢、成本高、周期長。

針對以上問題，達觀自主研發(fā)的NLP自然語言處理平臺，不局限于解決企業(yè)運營、業(yè)務(wù)中的某一場景或某個需求，實現(xiàn)了模型數(shù)據(jù)標注、訓(xùn)練、評估、預(yù)測及應(yīng)用一站式服務(wù)，為企業(yè)處理文本數(shù)據(jù)提供基礎(chǔ)能力工具平臺，助力加快構(gòu)建企業(yè)智能化“新基建”體系。

達觀數(shù)據(jù) NLP平臺助推AI落地提速

企業(yè)落地一個AI應(yīng)用最快需要多久？在達觀NLP平臺的答案是三天，一個系統(tǒng)平臺即可實現(xiàn)數(shù)據(jù)的導(dǎo)入、標注、訓(xùn)練、評估、預(yù)測全流程，模型生產(chǎn)時間大大縮短。平臺內(nèi)即可進行多人數(shù)據(jù)標注，具備人性化的標注界面；內(nèi)置當前最先進的BERT、LSTM、CNN等NLP算法進行模型訓(xùn)練；支持針對訓(xùn)練的模型進行評估，確認模型效果；支持模型一鍵上線、批量進行模型預(yù)測；并提供模型導(dǎo)出及模型應(yīng)用API的服務(wù)。

pic_003

NLP平臺之常見項目類型

系統(tǒng)內(nèi)置四種常見的分類、抽取、分詞、實體關(guān)系項目類型，可以針對這些項目實現(xiàn)標注、訓(xùn)練、評估、預(yù)測的全流程，快速、方便的實現(xiàn)各類模型的訓(xùn)練與應(yīng)用。同時支持標簽提取、主題模型、依存句法分析、文本摘要、新詞發(fā)現(xiàn)、觀點提取等十余個NLP能力接口。實現(xiàn)如針對企業(yè)的用戶、產(chǎn)品、市場、采購數(shù)據(jù)的分類；針對市場對產(chǎn)品的評論的分類及文本情感的識別；針對財報、合同等文檔的抽取；針對特定領(lǐng)域進行的NER命名實體識別等。

NLP平臺之自定義模型

平臺支持自定義算法模型，不僅可以使用達觀內(nèi)置的算法，還可以自定義算法模型，通過算法注冊實現(xiàn)自定義算法模型在平臺的自動化生產(chǎn)。

NLP平臺之通用工具

NLP平臺內(nèi)置表格解析、文檔比對、OCR等文檔處理的通用工具，支持開箱即用。

小結(jié)

2019年達觀數(shù)據(jù)成功研發(fā)了基于Albert的深度神經(jīng)網(wǎng)絡(luò)算法模型，從根本上提升AI系統(tǒng)對語言文字的語義理解能力。目前達觀數(shù)據(jù)自然語言處理平臺已經(jīng)成功服務(wù)深交所、時代地產(chǎn)等多家機構(gòu)與企業(yè)。