人工智能新基建
2020“新冠”疫情發(fā)生以來,“新基建”成為熱議。2020年初,時任國家發(fā)展改革委高技術(shù)產(chǎn)業(yè)司、創(chuàng)新和高技術(shù)發(fā)展司司長伍浩曾介紹,新型基礎(chǔ)設(shè)施是以新發(fā)展理念為引領(lǐng),以技術(shù)創(chuàng)新為驅(qū)動,以信息網(wǎng)絡(luò)為基礎(chǔ),面向高質(zhì)量發(fā)展需要,提供數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系。
21世紀計算機及互聯(lián)網(wǎng)技術(shù)高度發(fā)展的今天,企業(yè)數(shù)字化、信息化、智能化已相對成熟,在此基礎(chǔ)上如何再創(chuàng)新?再發(fā)展?再升級?成為難題。據(jù)統(tǒng)計,就計算機應(yīng)用而言,用于數(shù)學(xué)計算的僅占 10%,用于過程控制的不到5%,其余85%左右都是用于語言文字的信息處理。文本數(shù)據(jù)的高效利用與科學(xué)管理,已經(jīng)成為各行各業(yè)升級發(fā)展的核心驅(qū)動力,特別對文本數(shù)據(jù)密集的企業(yè)而言,其主要業(yè)務(wù)基于大規(guī)模文本數(shù)據(jù)展開,面臨著更大的文本數(shù)據(jù)治理挑戰(zhàn)。例如,企業(yè)和機構(gòu)存在大量的用戶、產(chǎn)品、市場、采購等文本數(shù)據(jù),數(shù)據(jù)難以利用;大量文本數(shù)據(jù)中多為非結(jié)構(gòu)化數(shù)據(jù),需要處理大量WORD、PDF、圖片等非結(jié)構(gòu)化數(shù)據(jù);人工進行分析、分類、提取文本的工作量大。
運用NLP技術(shù)處理文本數(shù)據(jù)在企業(yè)日常運營及業(yè)務(wù)拓展中的迫切應(yīng)用需要可見一斑。
NLP技術(shù)發(fā)展
自然語言是人類學(xué)習(xí)、生活的重要工具,區(qū)別于程序設(shè)計的人工語言,在整 個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。
20 世紀 50 年代到 70 年代自然語言處理主要采用基于規(guī)則的方法,基于規(guī)則的方法不可能覆蓋所有語句,雖然這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。70 年代以后隨著互聯(lián)網(wǎng)的高速發(fā)展,豐富的語料庫成為現(xiàn)實以及硬件不斷更新完善,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法,自然語言處理基于數(shù)學(xué)模型和統(tǒng)計的方法取得了實質(zhì)性的突破,從實驗室走向?qū)嶋H應(yīng)用。
圖片來源:2019人工智能發(fā)展報告
-
技術(shù)門檻高:缺乏AI專業(yè)人才,開發(fā)及應(yīng)用部署門檻高; -
工具多且雜:數(shù)據(jù)采集、預(yù)處理、標注、訓(xùn)練、評估、預(yù)測等各個環(huán)節(jié)應(yīng)用的工具不一,缺乏一站式AI平臺支撐; -
操作復(fù)雜:模型開發(fā)及應(yīng)用過程復(fù)雜,難以快速上手操作; -
數(shù)據(jù)泄露風(fēng)險高:開發(fā)過程數(shù)據(jù)幾經(jīng)轉(zhuǎn)換、傳輸,存在較大的數(shù)據(jù)泄露風(fēng)險; -
模型持續(xù)優(yōu)化難:模型訓(xùn)練、應(yīng)用及優(yōu)化閉環(huán)流程難以持續(xù); -
開發(fā)成本高:開發(fā)速度慢、成本高、周期長。
達觀數(shù)據(jù) NLP平臺助推AI落地提速
企業(yè)落地一個AI應(yīng)用最快需要多久?在達觀NLP平臺的答案是三天,一個系統(tǒng)平臺即可實現(xiàn)數(shù)據(jù)的導(dǎo)入、標注、訓(xùn)練、評估、預(yù)測全流程,模型生產(chǎn)時間大大縮短。平臺內(nèi)即可進行多人數(shù)據(jù)標注,具備人性化的標注界面;內(nèi)置當前最先進的BERT、LSTM、CNN等NLP算法進行模型訓(xùn)練;支持針對訓(xùn)練的模型進行評估,確認模型效果;支持模型一鍵上線、批量進行模型預(yù)測;并提供模型導(dǎo)出及模型應(yīng)用API的服務(wù)。
NLP平臺之常見項目類型

NLP平臺之自定義模型

NLP平臺之通用工具

小結(jié)
2019年達觀數(shù)據(jù)成功研發(fā)了基于Albert的深度神經(jīng)網(wǎng)絡(luò)算法模型,從根本上提升AI系統(tǒng)對語言文字的語義理解能力。目前達觀數(shù)據(jù)自然語言處理平臺已經(jīng)成功服務(wù)深交所、時代地產(chǎn)等多家機構(gòu)與企業(yè)。