?
近日,在全國兩會(huì)中山東臺(tái)引入人工智能技術(shù)進(jìn)行報(bào)導(dǎo)引起了廣泛關(guān)注。AI與新聞及寫作的融合早在10年前國外媒體便開始了商業(yè)化的嘗試,隨著國內(nèi)人工智能行業(yè)的飛速發(fā)展,智能寫作、機(jī)器閱讀、智能審閱逐漸走入了越來越多企業(yè)和辦公人員的視野。
閱讀、寫作做為人與人、企業(yè)與企業(yè)之間信息傳遞的主要方式,目前的發(fā)展現(xiàn)狀如何?未來又會(huì)產(chǎn)生哪些機(jī)遇?為此,達(dá)觀數(shù)據(jù)副總裁賈學(xué)鋒與張江新媒體“你好張江”聊了聊目前國內(nèi) AI+閱讀與寫作的發(fā)展近況和機(jī)遇挑戰(zhàn)。
賈學(xué)鋒:代寫機(jī)器人是人工智能一個(gè)非常重要的發(fā)展方向,在很多場景中是可以代替人的工作。但寫作是一個(gè)非常復(fù)雜的創(chuàng)造過程,以目前技術(shù)的發(fā)展情況來看,短時(shí)間內(nèi)是機(jī)器是沒辦法達(dá)到這種要求的。因此,短時(shí)間內(nèi)代寫機(jī)器人不能夠完全代替人的工作。我們這里舉一個(gè)簡單的例子,在我們達(dá)觀官網(wǎng)上,有智能作詩、智能寫對(duì)聯(lián)等功能,這些功能是我們的機(jī)器在閱讀了大量的古詩、對(duì)聯(lián)的基礎(chǔ)上,基于我們的NLP分析結(jié)果,通過“平仄”作詩、寫對(duì)聯(lián)的規(guī)則自動(dòng)生成。但是我們同樣給機(jī)器閱讀大量的小說,機(jī)器也是沒辦法寫出《流浪地球》這樣的小說。
?
也許你會(huì)說,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了很多關(guān)于代寫機(jī)器人的新聞,比如代寫新聞稿、代寫學(xué)生作業(yè)等,這樣的代寫能力在我們業(yè)內(nèi)看來是一個(gè)人工智能方向非常淺的應(yīng)用。以地震新聞為例,如果我們要機(jī)器寫一篇地震新聞稿,我們首先需要定義新聞稿的模板,就像下面這樣:
在類似這樣的新聞稿在定義好之后,當(dāng)?shù)卣鸢l(fā)生時(shí),我們的地震監(jiān)測設(shè)備會(huì)將把監(jiān)測獲取的數(shù)據(jù),即上述下劃線中的內(nèi)容,填寫進(jìn)對(duì)應(yīng)的字段中,新聞會(huì)在一分鐘內(nèi)生成,經(jīng)人員審核通過后就可以向外發(fā)布了。類似的場景有足球新聞中比賽結(jié)果的報(bào)告、極端天氣報(bào)告等等。我們可以看見,這些場景中的消息如果由人來進(jìn)行撰寫,那也是一些簡單、重復(fù)的工作。所以就現(xiàn)在的代寫機(jī)器人的應(yīng)用場景而言,確實(shí)是能在這些場景中代替人完成很多重復(fù)性的事務(wù)。
但人和機(jī)器一個(gè)非常重要的差別,是人的創(chuàng)造性。寫作與音樂創(chuàng)作、繪畫創(chuàng)作一樣,都是屬于創(chuàng)作的過程。我們以寫作中的翻譯來舉例子,看下面幾段話:
but you open your umbrella when it rains…
You say that you love the sun,
but you find a shadow spot when the sun shines…
You say that you love the wind,
but you close your windows when wind blows…
This is why I am afraid,
You say that you love me too…
常規(guī)情況下,我們?nèi)撕蜋C(jī)器來進(jìn)行翻譯,翻譯的結(jié)果是這樣:
你說你喜歡陽光,
但當(dāng)陽關(guān)播撒的時(shí)候,你卻躲在陰涼之地;
你說你喜歡風(fēng),
但當(dāng)清風(fēng)拂面的時(shí)候,你卻關(guān)上了窗。
所以我無比害怕,
因?yàn)槟阋苍f過喜歡我。
但下面這種翻譯方法是機(jī)器基本不可能達(dá)到的:
你說春光爛漫,綠袖紅香;
后來內(nèi)掩西樓,靜立卿旁。
你說軟風(fēng)輕拂,醉臥思量;
后來緊掩門窗,漫帳成殤。
你說情絲柔腸,如何相忘;
我卻眼波微轉(zhuǎn),兀自成霜。
在這里我們就能看出,機(jī)器和人的差異,人在翻譯的過程中加入了對(duì)詩詞意境的理解和自己的情感,這樣的理解方式與人自身個(gè)體在語言上的天賦、造詣、自身的修養(yǎng)、生活的環(huán)境是息息相關(guān)的。在短時(shí)間內(nèi)機(jī)器在這些方面是沒辦法達(dá)到人的高度。
總的來說,代寫機(jī)器人是一個(gè)非常有意義的產(chǎn)品,它能解放人的勞動(dòng)力,讓人在更多自己適合的領(lǐng)域中發(fā)揮自己的價(jià)值。同時(shí)代寫機(jī)器人不會(huì)代替人,它會(huì)在長時(shí)間內(nèi)與人一起,在寫作中各自發(fā)揮各自的作用,提升人的效率。
賈學(xué)鋒:2018年去世的偉大的物理學(xué)家霍金,他生前的三大預(yù)言之一,便和人工智能技術(shù)息息相關(guān):“徹底開發(fā)人工智能會(huì)使可能會(huì)使人類滅亡”。這里我們不危言聳聽,但是隨著技術(shù)的不斷發(fā)展,機(jī)器通過不斷學(xué)習(xí),已經(jīng)可以開始模仿人類的思維方式,之前廣受關(guān)注的AI+下棋,辯論等等都展示出了這一趨勢。
同時(shí),除了這些有趣的應(yīng)用,人工智能也在給各行各業(yè)包括我們的日常生活帶來改變,提供便利。舉幾個(gè)簡單的例子:
1.? 我們達(dá)觀的文本智能審閱系統(tǒng),可以幫助財(cái)務(wù)人員,法務(wù)人員快速的從大量文本中提取出他們關(guān)注的信息,節(jié)省閱讀時(shí)間,提高工作效率。讓他們有更多的時(shí)間可以投入到更具創(chuàng)新,更有意義的工作當(dāng)中。
2.? 又比如,現(xiàn)在流行的chatbot,智能客服,通過利用自然語言處理和知識(shí)圖譜,構(gòu)建實(shí)現(xiàn)了與人溝通的一個(gè)客服體系,可以幫助包括電商等服務(wù)密集型企業(yè)提高售后服務(wù)質(zhì)量,節(jié)省人力客服的成本。
3.? 還有很多企業(yè)場景都可以用到人工智能技術(shù)來幫助我們提高工作效率,如智慧醫(yī)療,智能安防。
4.? 不僅在to B的領(lǐng)域,在to C的領(lǐng)域,人工智能也在慢慢影響我們的生活,智能家居,智能穿戴設(shè)備,自動(dòng)駕駛等等。
我們也期待隨著技術(shù)的成熟,新技術(shù)的不斷涌現(xiàn),能有更多更實(shí)用的AI落地場景,給我們的工作和生活提供便利和樂趣。
賈學(xué)鋒:AI不僅可以對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算,而且還可以從海量數(shù)據(jù)中萃取出知識(shí),構(gòu)建知識(shí)的網(wǎng)絡(luò),進(jìn)而在這個(gè)網(wǎng)絡(luò)中進(jìn)行類似人的推理計(jì)算。
大數(shù)據(jù)時(shí)代,海量信息處理是無法通過人工處理的,需要依靠計(jì)算機(jī)進(jìn)行自動(dòng)化處理。最初的做法是人為設(shè)定好一些規(guī)則,由機(jī)器來執(zhí)行,但特征一多規(guī)則就很難制定,即使定下了規(guī)則也沒法根據(jù)實(shí)際情況靈活變化。通過機(jī)器學(xué)習(xí)、自然語言處理和知識(shí)圖譜技術(shù)可以很好的解決以上問題,機(jī)器學(xué)習(xí)是使計(jì)算機(jī)具有智能的根本途徑,特別是現(xiàn)在的深度學(xué)習(xí)技術(shù),更加有效。
賈學(xué)鋒:達(dá)觀的愿景就是成為文本智能處理專家,服務(wù)于中國乃至國外的有文字處理的客戶。文本智能處理包括NLU(自然語言理解)和 NLG(自然語言生成),我們在文本自動(dòng)生成技術(shù)方面在很積極研究和嘗試。在寬泛的意義上,文本生成可分為這4類:
文本到文本、數(shù)據(jù)到文本、圖像到文本和意義到文本。圖像到文本和意義到文本等有不少的公司在嘗試,后者難度更大。達(dá)觀目前專注在前兩個(gè)方向的商業(yè)化落地。
文本到文本
簡答來說就是對(duì)給定的一段文本,進(jìn)行變化處理后得到另外一段文本。典型的有:文本摘要、句子壓縮、句子融合 、文本復(fù)述等。 達(dá)觀目前和很多的客戶在落地這些功能,比如幫助資訊類App進(jìn)行文章摘要生成,讓用戶更快地判斷推薦的文章是否是自己感興趣的。幫助政府相關(guān)機(jī)構(gòu)對(duì)各種政策性文件進(jìn)行摘要生成等。
目前的文本摘要方法主要有抽取式和生成式兩種。抽取式是現(xiàn)在常用的方式,易于實(shí)現(xiàn)還能摘要中的句子具有良好的可讀性。該類方法主要包括兩個(gè)步驟:一是對(duì)文檔中的句子進(jìn)行重要性計(jì)算或排序,二是選擇重要的句子組合成最終摘要 。會(huì)用到CRF, HMM, SVM以及現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)技術(shù)等。
數(shù)據(jù)到文本
數(shù)據(jù)到文本的生成技術(shù)指根據(jù)給定的數(shù)值數(shù)據(jù)生成相關(guān)文本,例如基于數(shù)值數(shù)據(jù)生成天氣預(yù)報(bào)文本、體育新聞、財(cái)經(jīng)報(bào)道、醫(yī)療報(bào)告等。數(shù)據(jù)到文本的生成技術(shù)是具有極強(qiáng)的應(yīng)用前景的。目前達(dá)觀在和一些金融公司和商學(xué)院合作,去生成股評(píng)、公司基本面分析報(bào)告、以及某個(gè)主題的商業(yè)研究報(bào)告,例如從各種小米手機(jī)的營銷文章中,生成關(guān)于營銷策略的研究報(bào)告。這一方面國內(nèi)的研究不太多,不僅僅是技術(shù)層面的事情,更多還要和分析方式結(jié)合起來才能做好。
?
現(xiàn)在多采用基于人工模板,將需要的數(shù)據(jù)填入寫好的模板中,從而生成。由于采用的模板比較固定,所以生成的內(nèi)容會(huì)比較類似,缺乏生動(dòng)?,F(xiàn)在多會(huì)嘗試模板技術(shù)、基于NN的技術(shù)和強(qiáng)化學(xué)習(xí)等多種手段的融合來服務(wù)不同的業(yè)務(wù)場景。目前NLG的評(píng)估還不是很成熟,這也是制約NLG發(fā)展的一個(gè)重要原因,如果有更好的評(píng)估方法或者存在一個(gè)業(yè)內(nèi)公認(rèn)的高質(zhì)量數(shù)據(jù)集,相信NLG會(huì)快速發(fā)展。
?
賈學(xué)鋒:可以說凡是涉及到跟文字打交道行業(yè)都是可以用到AI+閱讀寫作。
1、涉及到跟文字打交道最為密切的行業(yè)
政府領(lǐng)域,在政府中每年涉及到大量文檔閱讀和寫作工作,比如每年會(huì)起草各種政府報(bào)告供參會(huì)及各界人士學(xué)習(xí),少則數(shù)千字多則數(shù)萬字,據(jù)統(tǒng)計(jì) 2017年兩會(huì)政府工作報(bào)告全文高達(dá)1.86萬字,全國各界人士據(jù)此進(jìn)行學(xué)習(xí)領(lǐng)會(huì)政府會(huì)議精神,這些文檔的編寫和閱讀涉及到了大量人力工作,如果通過AI技術(shù)首先進(jìn)行政府報(bào)告編寫然后人力進(jìn)行樣式的校驗(yàn),在閱讀方面通過AI技術(shù)自動(dòng)分析文檔的核心要義,這樣就會(huì)大大提高政府部門的工作效率;除此之外法律行業(yè)也是如此。
2、涉及到大量重復(fù)性人力勞動(dòng)的行業(yè)
比如金融行業(yè),金融行業(yè)我們一般會(huì)分為銀行、證券、保險(xiǎn)、基金等四類,以證券行業(yè)為例,券商中會(huì)涉及到大量不同種類文檔處理比如債券募集說明書,企業(yè)發(fā)債都需要提交債券募集說明書并對(duì)其進(jìn)行嚴(yán)格的審核才能夠通過并進(jìn)行發(fā)債,這里面涉及到債券募集說明書的編寫和審核工作,以審核為例從小到錯(cuò)別字和格式審核再到數(shù)據(jù)一致性、數(shù)據(jù)計(jì)算錯(cuò)誤最后到基于業(yè)務(wù)層面的完備性審核方面都會(huì)涉及到,審核原理其實(shí)就是通過閱讀理解文檔所表達(dá)含義進(jìn)行相關(guān)工作。
我們?nèi)祟愰喿x的速度要遠(yuǎn)遠(yuǎn)快于寫作的速度,與此類似在目前AI+閱讀的技術(shù)相比較AI+寫作技術(shù)也要更為成熟些,我們現(xiàn)在所面對(duì)的AI+閱讀寫作在行業(yè)的應(yīng)用還只是滄海一粟,隨著AI技術(shù)不斷發(fā)展行業(yè)需求不但激發(fā)他們結(jié)合會(huì)愈發(fā)緊密,我堅(jiān)信未來AI+閱讀寫作在行業(yè)中會(huì)有更廣闊的空間。