8月3日晚,復旦IT同學會攜手公益俱樂部特邀達觀數(shù)據(jù)聯(lián)合創(chuàng)始人、復旦大學計算機軟件與理論碩士張健為大家?guī)怼段谋局悄芴幚響脤嵺`與未來發(fā)展》線上分享活動,本次活動由達觀數(shù)據(jù)董事長兼CEO陳運文擔任嘉賓主持。
張健曾就職于盛大集團和騰訊文學,擔任人工智能和大數(shù)據(jù)技術專家職位,目前擔任達觀數(shù)據(jù)文本應用部總負責人,對于機器學習算法和自然語言處理領域的研發(fā)有豐富的實踐經(jīng)驗和技術積累,負責客戶意見洞察系統(tǒng)、智能客服工單分析系統(tǒng)、文本語義糾錯系統(tǒng)、事件分析平臺、文本智能審核系統(tǒng)等多個文本應用產(chǎn)品的開發(fā)和落地。他曾榮獲上海市浦東新區(qū)科學技術獎、“2021上??萍记嗄?5人引領計劃”、上海市青年科技啟明星等多個獎項。
活動伊始,張健為大家簡單介紹了達觀數(shù)據(jù)的主營業(yè)務、規(guī)模以及公司所獲榮譽。隨后,他分別就文本智能處理概述及發(fā)展歷程、具體任務功能介紹、文本智能處理應用的開發(fā)流程、項目應用與案例與校友們展開分享與討論,并對未來文字智能處理提出展望。
張健指出,文本自動處理屬于人工智能的三大塊領域之一,具有廣闊應用。在對圖像、語音等感知層面的處理完成后,進一步對文本進行認知層面的自動處理,模擬人類智慧分析過程,號稱是人工智能皇冠上的明珠。他提出,NLP,即自然語言處理,讓計算機代替人類自動化的進行文字(自然語言)相關處理,通過自動化的審批、核對、糾錯、搜索、推薦、比對、分析、評判等功能,大幅度減輕人工負擔,通過自動填表、摘要寫作、潤色修改、寫作提示、內(nèi)容擴充等功能實現(xiàn)自動寫作。
人工智能(Artificial Intelligence)概念在1956年被提出時,對機器翻譯和密碼破譯的興趣是重要的推動力之一。當時設想的 AI 技術成熟的兩個標志性任務分別為:1.在國際象棋上能夠戰(zhàn)勝人類、2:在機器翻譯上能夠超越人類。如今任務1在所有棋類上均已經(jīng)超越人類,但是任務2仍然未能完全實現(xiàn),可見語言理解的復雜度之高。
自然語言處理技術歷經(jīng)四代發(fā)展與演變。1950年開啟了第一代技術,即符號主義,靠查詞典和寫模版來匹配語義,但實際效果差強人意。第二代技術即語法規(guī)則始于1970年,靠語言學家書寫大量的語法規(guī)則來處理文本,語法規(guī)則數(shù)量龐大,難以窮盡所有情況,互相沖突,導致管理和維護困難。1990年,我們迎來了第三代技術,即統(tǒng)計學習,通過從大量文字語料中統(tǒng)計上下文分布規(guī)律來進行語義分析,字詞級的處理效果相較于前兩代有了大幅度的提升。2010年左右,誕生了第四代技術,即深度學習,通過深度神經(jīng)網(wǎng)絡技術,對整個篇章的內(nèi)容進行整體性的表示學習,在篇章級的文字閱讀理解效果上有大幅度提升,在一些評測上開始接近人類水平。
隨后,張健以兩個NLP技術的典型應用場景為例,詳細介紹了中文分詞與詞性分析、命名實體抽取、文本分類、關系抽取、事件抽取、語義匹配、關鍵標簽抽取、摘要生成、文本糾錯、機器翻譯、文本審核功能。
文本智能處理應用開發(fā)流程可分為六步,第一步,分析目標,決策者定義業(yè)務關注的維度,分析場景、訴求、情感、問題等,并梳理出對應的標簽類別體系,然后對接業(yè)務系統(tǒng)進行文本處理數(shù)據(jù)的采集,在完成數(shù)據(jù)清洗后,按照業(yè)務確立的標簽類別體系完成人工標注,之后使用深度學習算法構建語義模型,輸出結構化解析能力。完成算法建模后,分析算法模型能達到的性能效果,判斷是否達到業(yè)務預期,最后,構建場景應用,服務于線上系統(tǒng)。
張健表示,文字本身就像冰山一角,計算機在進行文本閱讀處理時必然會遇到許多問題,比如,對上下文語境的理解偏差、行業(yè)背景知識的缺乏等,這都需要我們在未來進一步鉆研技術,攻克這些難點。
對未來文字智能化處理的應用,張健代表達觀數(shù)據(jù)提出了展望與希冀。他指出,隨著技術的進一步迭代與更新,未來白領的日常工作方式將發(fā)生極大的轉(zhuǎn)變。由計算機智能語義理解系統(tǒng)加人工復查代替人工閱讀處理,極有可能大大縮短文檔審閱時間。展望未來,計算機在機械性、重復性的文字操作方面的能力將逐步超越人類,10年后,計算機有可能代替人類完成50%的基礎性文字工作,各類企業(yè)和機構都將配備相應的文本智能計算機軟件系統(tǒng)。雖然在技術進步之路上仍有重重阻礙與困難,但懷抱樂觀的心態(tài),不斷攜手共進,積極探索,相信未來會有無限美好的可能!
最后,兩位嘉賓介紹了公司對公益事業(yè)的長期追隨和堅持。在達觀黨支部的帶領下,每年都會聯(lián)合各單位、社會組織或相關機構發(fā)起向貧困地區(qū)小學捐贈圖書的公益活動。文字承載著知識、智慧和夢想。每一個孩子都有一個燦爛的讀書夢想,每一個夢想都值得放飛。他們倡議有意向的校友一同參與支持該公益活動,“點燃孩子心里的光,照亮前程的路”!
達觀愛心活動將持續(xù)進行,若您手上還有多余的書籍、衣物、文體用具等物品,可聯(lián)系安排時間上門收取,聯(lián)系人為賽娜(021-58569171,18516275919)。
文章來源:上海復旦大學校友會秘書處