導(dǎo)語? ? ?
圖1. ChatGPT生成的關(guān)于智能寫作的介紹
智能寫作指使用自然語言處理技術(shù)來自動(dòng)生成文本內(nèi)容。這種技術(shù)通過分析給定語料庫,學(xué)習(xí)文本的結(jié)構(gòu)和語法,然后利用這些信息來生成新的文本。智能寫作可以用來快速生成高質(zhì)量的文本內(nèi)容,并且可以用來完成諸如文章寫作、報(bào)告生成和摘要提取等任務(wù)。
圖1為我們介紹了智能寫作的基本概念,而令人意想不到的是,這一段介紹的作者竟是AI本身!這一段AI自動(dòng)生成的“自我介紹”既富有邏輯條理,又闡述了正確的知識(shí),這便是當(dāng)下最火熱的AIGC技術(shù)的威力!
什么是AIGC?AIGC,即AI-generated Content,基于AI的內(nèi)容生產(chǎn),它是利用人工智能進(jìn)行內(nèi)容創(chuàng)作的方式,它被認(rèn)為是繼PGC(Professionally-generated Content)、UGC(User-generated Content)之后的新型內(nèi)容創(chuàng)作方式。AIGC在文本、圖像和音視頻等多領(lǐng)域都正在高速發(fā)展,近年來誕生了許多主打AIGC的創(chuàng)作體驗(yàn)平臺(tái),用戶可以輸入一句話讓AI合成一張與描述關(guān)聯(lián)的圖片,或者更為常見的是輸入一句文章的描述,或僅僅是一句故事的開頭,讓AI替你完成文章的續(xù)寫。智能寫作在我們的日常辦公中具有相當(dāng)好的落地前景,例如新聞寫作、詩歌春聯(lián)、故事寫作、廣告文案、金融報(bào)告、行政文書等辦公場景,這些場景都有相關(guān)智能寫作產(chǎn)品得到應(yīng)用,可以看到智能寫作技術(shù)能夠?yàn)榘ㄙY訊、金融、廣告、政法等各行各業(yè)的從業(yè)者提供便捷且高質(zhì)量的文本寫作服務(wù),幫助人們更快地理解和分析復(fù)雜的信息,從而幫助人們更好地做出決策,產(chǎn)生重要的價(jià)值。這一切生產(chǎn)力提高的愿景正在逐步成為現(xiàn)實(shí),背后原因是技術(shù)的發(fā)展和提升,下圖為筆者整理的AIGC用于智能寫作的相關(guān)技術(shù)發(fā)展脈絡(luò)。
圖2. 文本寫作的相關(guān)重要技術(shù)
文本寫作技術(shù)在很長一段時(shí)間里以RNN Seq2Seq為主,發(fā)展遲緩,而當(dāng)Transformer模型結(jié)構(gòu)問世后,這一領(lǐng)域的技術(shù)發(fā)展迅速爆發(fā),圍繞著Transformer的文本寫作技術(shù)噴涌而出,包括微軟亞洲研究院、谷歌AI、Facebook AI、OpenAI等諸多國際知名研究機(jī)構(gòu)都紛紛投入,先后誕生了UniLM(2019)、MASS(2019)、T5(2020)、BART(2020)、GPT系列(2018-2022)等多個(gè)影響力顯著的研究成果。本文將沿著這條技術(shù)發(fā)展脈絡(luò),從傳統(tǒng)的智能寫作到如今的前沿研究為讀者做詳細(xì)的闡述,并為大家介紹達(dá)觀數(shù)據(jù)的智能寫作產(chǎn)品實(shí)踐。
智能寫作相關(guān)技術(shù)背景?
01任務(wù)定義
在深入了解相關(guān)技術(shù)之前,我們先對(duì)文本寫作任務(wù)進(jìn)行一個(gè)數(shù)學(xué)上的形式化定義。文本寫作任務(wù)的核心是生成一個(gè)字符串組成的序列Y = (y1,…,yi,…,yn?),其中yi∈ν,ν是一個(gè)給定的詞匯表。在大多數(shù)情況下,文本寫作需要以輸入作為條件進(jìn)行生成,輸入的數(shù)據(jù)可能是文章主題,或者是文章的開頭句等等,我們用X表示輸入。基于以上定義,文本寫作任務(wù)建模可以表示為P(Y|X)? = P(y1,…,yi,…,yn?|X),其中P表示概率分布函數(shù)。
02數(shù)據(jù)集
寫作任務(wù)公開的評(píng)測數(shù)據(jù)集,在英文上有CommenGen、ROCStories、WritingPrompts等若干數(shù)據(jù)集,而在中文上有Couplets、AdvertiseGen等若干數(shù)據(jù)集,數(shù)據(jù)集的概述見表1。
表1. 文本寫作任務(wù)相關(guān)評(píng)測數(shù)據(jù)集
03評(píng)測指標(biāo)
文本寫作任務(wù)需要量身定制的指標(biāo)能夠?qū)夹g(shù)的優(yōu)劣進(jìn)行評(píng)測,通常寫作的好壞會(huì)從四個(gè)角度進(jìn)行度量:
- 流暢度(fluency):生成文本的流暢程度;
- 真實(shí)性(factuality):生成文本在多大程度上反映了語境;
- 語法(grammar):生成文本的語法正確性;
- 多樣性(diversity):生成的文本是否具有不同的類型或樣式。
通常此類任務(wù)的評(píng)測最好的方式當(dāng)屬人工,然而人工評(píng)測的成本巨大,為此,業(yè)界設(shè)計(jì)了以下幾種自動(dòng)評(píng)測的量化指標(biāo),這些指標(biāo)通常是量化生成文本和參考文本之間的相似度。比較常用的有基于詞匯和基于語義的相似度度量。
3.1?基于詞匯
基于詞匯的度量是衡量單詞或短語單元的重合度,然后聚合到整體句子級(jí)相似度,包括:
- BLEU-n,計(jì)算生成文本和參考文本的n-gram單元的重合度,最為廣泛使用的是BLEU和BLEU-2;
- Self-BLEU,用來衡量生成文本的多樣性,即在多條不同的生成文本之間計(jì)算BLEU值,Self-BLEU越小則多樣性越強(qiáng);
- ROUGE-n,同樣是計(jì)算生成文本和參考文本的ngram單元的重合度,不同點(diǎn)在于BLEU是重合n-gram數(shù)/生成文本n-gram數(shù),而ROUGE是重合n-gram數(shù)/參考文本n-gram數(shù),因此可以看做召回版本的BLEU;
- Perplexity(PPL)和Reverse PPL,PPL是在參考文本上訓(xùn)練語言概率模型,然后用它計(jì)算生成文本的概率,概率越高則表示生成文本越流暢;而Reverse PPL則是在生成文本上訓(xùn)練語言概率模型,然后反過來計(jì)算參考文本的概率,概率越高則表示生成文本越多樣。
3.2?基于語義
相比基于詞匯的方式,基于語義可以把字面不相似而語義相似的情況也納入考量,是一種更貼近人工評(píng)測的方式,這其中包括:
- dssm,利用深層語義相似模型分別將生成文本和參考文本映射到一個(gè)低維語義表示空間,并計(jì)算生成文本向量和參考文本向量的距離;
- BERTscores、BERTr、YiSi等,近年來涌現(xiàn)的基于預(yù)訓(xùn)練模型的評(píng)測方法,利用BERT的embedding表示代替n-gram,計(jì)算生成文本和參考文本的相似性。
04重要技術(shù)脈絡(luò)
圖3. 文本寫作的相關(guān)重要技術(shù)
圖3列舉了文本寫作領(lǐng)域中部分影響力較大的相關(guān)技術(shù)。在很長一段時(shí)間里文本寫作是以基于RNN的Seq2Seq模型為主流技術(shù),如圖4所示,其由兩個(gè)RNN網(wǎng)絡(luò)組成,第一個(gè)RNN是編碼器,第二個(gè)RNN是解碼器。模型先以循環(huán)單元將輸入文本編碼到隱向量,后再通過循環(huán)單元順序逐字解碼,順序解碼時(shí)將上一單元輸出和上一單元隱向量同時(shí)作為解碼器的輸入。RNN Seq2Seq生成的文本質(zhì)量通常欠佳,時(shí)常伴有語法錯(cuò)誤或語意不明的問題,主要原因是其逐字順序編碼解碼過程引起的誤差傳遞和放大。
圖4. RNN?Seq2Seq模型示意圖
圖5. Transformer模型
隨著2017年Transformer模型結(jié)構(gòu)(見圖5)的問世,世人驚嘆于其強(qiáng)大的捕捉超長距離依賴的特征表示能力,并且由于Transformer可以并行處理序列的特性,訓(xùn)練效率相比RNN也大幅提升,于是文本寫作算法研究投入也極速地向Transformer傾斜,隨之孕育而生了一系列的預(yù)訓(xùn)練模型(見表2),時(shí)至今日已經(jīng)成為文本寫作技術(shù)的主流前沿代表。下文將為讀者重點(diǎn)一一闡述。
表2. 文本寫作的相關(guān)預(yù)訓(xùn)練模型概述
AE=自編碼;AR=自回歸;SLM=標(biāo)準(zhǔn)語言模型;CTR=受損文本重建;NSP=下一句預(yù)測;FTR=全文重建。
前沿技術(shù)介紹?
當(dāng)下文本寫作的主流前沿技術(shù)是從不同類型、結(jié)構(gòu)組件和預(yù)訓(xùn)練任務(wù)中衍化的若干種預(yù)訓(xùn)練模型。本節(jié)內(nèi)容將為讀者做重點(diǎn)介紹。
01UniLM
UniLM的全稱是Unified Language Model,是2019年微軟亞洲研究院提出的生成式BERT 模型,和傳統(tǒng)的Seq2Seq不同的是,它只用了BERT,沒有Decoder部分。它集合了L2R-LM(ELMo,GPT),R2L-LM(ELMo)、BI-LM(BERT)以及Seq2Seq-LM幾個(gè)其他模型訓(xùn)練的方式,所以叫Unified模型。
圖6. UniLM模型概覽
UniLM的預(yù)訓(xùn)練分為三個(gè)部分,Left-to-Right、Bidirectional以及Seq-to-Seq(見圖6)。
對(duì)于這三種方式,不同點(diǎn)只是Transformer的mask矩陣的改動(dòng)而已:
- 對(duì)于Seq-to-Seq,前一句對(duì)后一句的Attention被mask,這樣一來前一句只能關(guān)注到自身,但不能關(guān)注到后一句;后一句每個(gè)詞向其之后的Attention被mask,只能關(guān)注到其之前的詞;
- 對(duì)于Left-to-Right,Transformer的Attention只關(guān)注這個(gè)詞本身以及前面的詞,后面的詞不做關(guān)注,所以mask矩陣是下三角矩陣;
- 對(duì)于Bidirectional,Transformer的Attention關(guān)注所有的詞,并且包含NSP任務(wù),和原本的BERT一樣。
在UniLM的預(yù)訓(xùn)練過程中,三種方式各訓(xùn)練1/3的時(shí)間,相比原始BERT,其添加的單向LM預(yù)訓(xùn)練加強(qiáng)了文本表示能力,而其添加的Seq-to-Seq LM預(yù)訓(xùn)練也使UniLM能夠很好地勝任文本生成/寫作的任務(wù)。
02T5
T5的全稱是Text-to-Text Transfer Transformer,是2020年谷歌提出的模型結(jié)構(gòu),其總體思路是用Seq2Seq文本生成來解決所有下游任務(wù):如問答、摘要、分類、翻譯、匹配、續(xù)寫、指代消解等。這個(gè)方式能夠使所有任務(wù)共享相同的模型,相同的損失函數(shù)和相同的超參數(shù)。
圖7. T5思維框架
T5的模型結(jié)構(gòu)是基于多層Transformer的Encoder-Decoder結(jié)構(gòu)。與其他模型的主要區(qū)別是,GPT系列是僅包含Decoder結(jié)構(gòu)的自回歸語言模型(AutoRegressive LM),BERT是僅包含Encoder的自編碼語言模型(AutoEncoder LM)。
圖8. T5預(yù)訓(xùn)練目標(biāo)示例
T5的預(yù)訓(xùn)練分為無監(jiān)督和有監(jiān)督兩個(gè)部分:
- 無監(jiān)督部分無監(jiān)督部分是采用類似BERT的MLM方法,不同的是BERT是mask單個(gè)詞,而T5是mask一段連續(xù)的詞,也就是text span。被mask的text span只用單個(gè)mask字符替換,也就是說對(duì)于mask后的文本而言,mask的序列長度也是不可知的。而在Decoder部分,只輸出被mask的text span,其它詞統(tǒng)一用設(shè)定的<X>、<Y>、<Z>符號(hào)替換。這樣做有三個(gè)好處,其一是加大了預(yù)訓(xùn)練難度,顯然預(yù)測一個(gè)長度未知的連續(xù)text span是比預(yù)測單個(gè)詞更難的任務(wù),這也使得訓(xùn)練的語言模型的文本表示能力更有普適性,在質(zhì)量較差的數(shù)據(jù)上的微調(diào)適應(yīng)性更強(qiáng);其二是對(duì)于生成任務(wù)而言輸出的序列就是長度未知的,T5的預(yù)訓(xùn)練很好適配了這一特性;另一個(gè)好處是縮短了序列長度,使得預(yù)訓(xùn)練的成本得以降低。T5所采用的這種預(yù)訓(xùn)練任務(wù)也被稱為CTR(Corrupted Text Reconstruction,受損文本重建)。
- 有監(jiān)督部分有監(jiān)督部分采用GLUE和SuperGLUE中包含的機(jī)器翻譯、問答、摘要、分類四大類任務(wù)。核心是Fine-tune時(shí)把這些數(shù)據(jù)集和任務(wù)合在一起作為一個(gè)任務(wù),為了能夠?qū)崿F(xiàn)這一點(diǎn)它的思路是給每個(gè)任務(wù)設(shè)計(jì)了不同的prefix,與任務(wù)文本一同輸入。舉例說翻譯任務(wù),把英語的“That is good.”翻譯為德語,那么訓(xùn)練時(shí)就輸入“translate English to German: That is good. target: Das ist gut.”,而預(yù)測時(shí)則輸入“translate English to German: That is good. target:”,模型輸出預(yù)測“Das ist gut.”。其中“translate English to German:”便是為此項(xiàng)翻譯任務(wù)添加的prefix。
03BART
BART的全稱是Bidirectional and Auto-Regressive Transformers,是2020年Facebook提出的模型結(jié)構(gòu)。正如其名,它是一種結(jié)合了雙向編碼和自回歸解碼結(jié)構(gòu)的模型結(jié)構(gòu)。
圖9. BART的基本原理
BART的模型結(jié)構(gòu)吸收了BERT的Bidirectional Encoder和GPT的Left-to-Right Decoder各自的特點(diǎn),建立在標(biāo)準(zhǔn)的Seq2Seq Transformer model的基礎(chǔ)之上,這使得它比BERT更適合文本生成的場景;同時(shí)相比GPT,也多了雙向上下文語境信息。
圖10. BART預(yù)訓(xùn)練采用的[noise]
BART的預(yù)訓(xùn)練任務(wù)采用基本理念同樣是還原文本中的[noise]。BART采用的[noise]具體有:
- Token Masking:和BERT一樣,隨機(jī)選擇token用[MASK]代替;
- Token Deletion:隨機(jī)刪除token,模型必須確定哪些位置缺少輸入;
- Text Infilling:和T5做法類似,mask一個(gè)text span,每個(gè)text span被一個(gè)[MASK]標(biāo)記替換。在T5做法基礎(chǔ)上,同時(shí)考慮了當(dāng)text span長度為0,此時(shí)則插入一個(gè)[MASK]標(biāo)記;
- Sentence Permutation:以句號(hào)作為分割符,將輸入分成多個(gè)句子,并隨機(jī)打亂;
- Document Rotation:隨機(jī)均勻地選擇一個(gè)token,以這個(gè)token為中心,旋轉(zhuǎn)輸入,選中的這個(gè)token作為新的開頭,此任務(wù)訓(xùn)練模型以識(shí)別文檔的開頭。
可以發(fā)現(xiàn)相比起B(yǎng)ERT或T5,BART在Encoder端嘗試了多種[noise],其原因和目的也很簡單:
- BERT的這種簡單替換導(dǎo)致的是Encoder端的輸入攜帶了有關(guān)序列結(jié)構(gòu)的一些信息(比如序列的長度等信息),而這些信息在文本生成任務(wù)中一般是不會(huì)提供給模型的;
- BART采用更加多樣的[noise],意圖是破壞掉這些有關(guān)序列結(jié)構(gòu)的信息,防止模型去“依賴”這樣的信息。針對(duì)各種不同的輸入[noise],BART在Decoder端采用了統(tǒng)一的還原形式,即輸出正確的原始整句。BART所采用的這種預(yù)訓(xùn)練任務(wù)也被稱為FTR(Full Text Reconstruction, 全文重建)
04GPTs
GPT的全稱是Generative Pre-Training, 是OpenAI在自然語言處理領(lǐng)域的一項(xiàng)極為重要的研究。GPT是一個(gè)循序迭代的預(yù)訓(xùn)練模型,其家族主要成員包括初代GPT、GPT-2、GPT-3、InstructGPT和如今炙手可熱的ChatGPT等。下面為大家逐一介紹。
4.1?GPT
圖11. 標(biāo)準(zhǔn)Transformer Decoder(左);GPT Decoder(右)
初代GPT是2018年OpenAI提出的一種預(yù)訓(xùn)練語言模型,它的誕生相比BERT更早,它的核心思想是基于大量無標(biāo)注數(shù)據(jù)進(jìn)行生成式預(yù)訓(xùn)練學(xué)習(xí),然后在特定任務(wù)上進(jìn)行微調(diào)。正因其專注于生成式預(yù)訓(xùn)練,GPT的模型結(jié)構(gòu)只使用了Transformer的Decoder部分,其標(biāo)準(zhǔn)結(jié)構(gòu)包含了Masked Multi-Head Attention和Encoder-Decoder Attention(圖11左)。GPT的預(yù)訓(xùn)練任務(wù)是SLM(Standard Language Model,標(biāo)準(zhǔn)語言模型),即基于上文(窗口)預(yù)測當(dāng)前位置的詞,因此要保留Mask Multi-Head Attention對(duì)詞的下文遮擋,防止信息泄露。因?yàn)闆]有使用Encoder,所以GPT的結(jié)構(gòu)中去除了Encoder-Decoder Attention(圖11右)。
4.2?GPT-2
初代GPT的問題是微調(diào)下游任務(wù)不具備遷移能力,F(xiàn)ine-Tuning層是不共享的,為了解決這個(gè)問題,2019年OpenAI又推出了GPT家族新的成員:GPT-2。
GPT-2的學(xué)習(xí)目標(biāo)是使用無監(jiān)督的預(yù)訓(xùn)練模型做有監(jiān)督的任務(wù),與初代GPT相比,GPT-2有如下改動(dòng):1)模型結(jié)構(gòu)去除Fine-Tuning層,所有任務(wù)都通過設(shè)計(jì)成合理的語句給語言模型進(jìn)行預(yù)訓(xùn)練,訓(xùn)練需保證每種任務(wù)的損失函數(shù)都收斂;2)Layer Normalization的位置移動(dòng)到了每個(gè)sub-block輸入的地方,在最后一個(gè)Self-Attention后面也加了一個(gè)Layer Normalization;3)采用了修正的初始化方法,在初始化時(shí)將殘差層的權(quán)重縮放到1?√N(yùn)倍,N為殘差層的數(shù)量;4)Vocabulary規(guī)模擴(kuò)展到了50257,輸入的上文大小由512擴(kuò)展到了1024,使用更大的batch_size訓(xùn)練。
GPT-2的多任務(wù)訓(xùn)練使其擁有更強(qiáng)的泛化能力,當(dāng)然這同時(shí)也是得益于其用了多達(dá)40G的訓(xùn)練語料。GPT-2的最大貢獻(xiàn)是驗(yàn)證了通過海量數(shù)據(jù)和大量參數(shù)訓(xùn)練出來的模型有遷移到其它類別任務(wù)中而不需要額外訓(xùn)練的能力。
4.3?GPT-3
2020年OpenAI在GPT-2的基礎(chǔ)上又進(jìn)一步推出了GPT-3。GPT-3的做法更加簡單粗暴,模型整體結(jié)構(gòu)和訓(xùn)練目標(biāo)與GPT-2基本無異,但GPT-3把模型尺寸增大到了1750億參數(shù)量(比GPT-2大115倍),并且使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練。得益于驚人龐大的參數(shù)量,GPT-3可以在不做梯度更新的情況下使用零樣本、少樣本進(jìn)行學(xué)習(xí)預(yù)測。
4.4?InstructGPT
超大模型的GPT-3在生成任務(wù)的效果上確實(shí)達(dá)到了空前的效果,特別是零樣本和少樣本場景下成為最佳,但GPT-3面臨了一項(xiàng)新的挑戰(zhàn):模型的輸出并不總是有用,它可能輸出不真實(shí)、有害或者反映不良情緒的結(jié)果。這個(gè)現(xiàn)象是可以被理解的,因?yàn)轭A(yù)訓(xùn)練的任務(wù)是語言模型,預(yù)訓(xùn)練的目標(biāo)是在輸入的限定下使輸出的結(jié)果為自然語言的可能性最大化,而這其中并沒有“用戶需要安全、有用”的要求。為了解決這個(gè)問題,2022年OpenAI基于GPT-3發(fā)表了一項(xiàng)重要研究:InstructGPT,引入從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)的技術(shù)。
圖12. InstructGPT操作過程
InstructGPT模型上基本和 GPT-3沒有太大變化,主要變化的是訓(xùn)練策略,總體思路是標(biāo)注人員對(duì)調(diào)用示例提供示范回答,然后用這些數(shù)據(jù)在模型上進(jìn)行微調(diào),從而使模型能夠做出更加合適的回答。
其訓(xùn)練步驟分為三步:
- 收集示范數(shù)據(jù),用監(jiān)督訓(xùn)練的方式訓(xùn)練一個(gè)模型。從prompt數(shù)據(jù)集中采樣一部分進(jìn)行人工標(biāo)注,然后將其用于GPT-3的Fine-Tune;
- 收集對(duì)比數(shù)據(jù),訓(xùn)練一個(gè)回報(bào)模型。采樣一批數(shù)據(jù)輸入第一步Fine-Tune之后的模型,標(biāo)注人員對(duì)模型的輸出按照優(yōu)劣進(jìn)行排序,然后用這些數(shù)據(jù)訓(xùn)練一個(gè)回報(bào)模型;
- 用強(qiáng)化學(xué)習(xí)來優(yōu)化模型的輸出。使用第二步得到的回報(bào)模型來對(duì)模型的輸出進(jìn)行打分,將得分作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì),基于PPO(Proximal Policy Optimization)算法來微調(diào)生成模型。
由此產(chǎn)生的 InstructGPT在遵循指令方面,遠(yuǎn)比GPT-3要好得多,同時(shí)InstructGPT也較少地憑空捏造事實(shí),有害輸出的產(chǎn)生呈現(xiàn)小幅下降趨勢(shì)。
4.5?ChatGPT
現(xiàn)在讓我們回顧本文的開頭,那個(gè)為我們準(zhǔn)確并有條理地解答了“什么是智能寫作”的AI模型——它就是ChatGPT,OpenAI于2022年11月30日正式發(fā)布了這一項(xiàng)最新研究。ChatGPT使用與InstructGPT相同的方法,使用來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來訓(xùn)練該模型,改進(jìn)點(diǎn)在于數(shù)據(jù)收集的方法(未具體公開)。
圖13. ChatGPT操作過程
可以看到,ChatGPT的訓(xùn)練流程與InstructGPT是一致的,差異只在于InstructGPT是在GPT-3上做Fine-Tune,而ChatGPT是在GPT-3.5上做Fine-Tune(GPT3.5是OpenAI在2021年四季度訓(xùn)練的InstructGPT模型,在自動(dòng)編寫代碼方面有較強(qiáng)的能力)。
縱觀從初代GPT到ChatGPT的發(fā)展,OpenAI證明了用超海量數(shù)據(jù)訓(xùn)練超大模型,這樣得到的預(yù)訓(xùn)練語言模型就足以應(yīng)對(duì)自然語言理解和自然語言生成的各種下游任務(wù),甚至不需要微調(diào),零/少樣本一樣能夠應(yīng)對(duì)。而在輸出的安全可控性上,OpenAI給出的答案是基于人力的強(qiáng)化學(xué)習(xí):雇傭了40名標(biāo)注人員全職工作近2年(標(biāo)注時(shí)間官方未公開,筆者僅從GPT-3到ChatGPT大約兩年半時(shí)間間隔推測,因?yàn)閺?qiáng)化學(xué)習(xí)需要不斷迭代),為模型的輸出進(jìn)行標(biāo)注反饋,由這些數(shù)據(jù)方可進(jìn)行強(qiáng)化學(xué)習(xí),指導(dǎo)模型優(yōu)化。Transformer+超海量數(shù)據(jù)+超大模型+龐大人力+強(qiáng)化學(xué)習(xí),造就了如今現(xiàn)象級(jí)的ChatGPT。
達(dá)觀數(shù)據(jù)的智能寫作應(yīng)用實(shí)踐
寫作一直是企事業(yè)單位的重要工作內(nèi)容,是公司數(shù)據(jù)資產(chǎn)的主要載體,是建立企業(yè)知識(shí)中臺(tái)的重要基石?;诖?,達(dá)觀數(shù)據(jù)以NLP技術(shù)綜合業(yè)務(wù)需求,全力投入研發(fā)并打造了兩款智能寫作產(chǎn)品——達(dá)觀智能寫作助手和達(dá)觀智能文檔寫作。
01達(dá)觀智能寫作助手
達(dá)觀智能寫作助手是一款A(yù)I寫作工具,以AI技術(shù)綜合寫作場景需求,為內(nèi)容創(chuàng)作和版式調(diào)整賦能,實(shí)現(xiàn)全場景的精彩表達(dá),提升寫作效率和質(zhì)量,成為寫作者的全能高效助手。
- 取代傳統(tǒng)格式刷:高自由度排版工具,批量操作效率翻倍
快速掃描全文,分析文章結(jié)構(gòu),識(shí)別出段落的類型,點(diǎn)擊即可一鍵應(yīng)用統(tǒng)一樣式。達(dá)觀智能寫作助手將依據(jù)文檔及段落類型,推薦標(biāo)準(zhǔn)樣式,用戶也可以創(chuàng)建自定義的樣式庫。
圖14.達(dá)觀智能寫作助手智能樣式排版
- 靈感激發(fā):啟發(fā)創(chuàng)作靈感
對(duì)于各類豐富場景的自由寫作,當(dāng)遇到寫作思路瓶頸時(shí),達(dá)觀智能寫作助手借助內(nèi)置的大語言模型算法能力,將根據(jù)已有段落的理解,自動(dòng)續(xù)寫出若干種最貼合的下文,激發(fā)寫作人創(chuàng)作的靈感。
圖15.達(dá)觀智能寫作助手根據(jù)上文段落自動(dòng)續(xù)寫
- 海量素材:AI據(jù)意查詢
達(dá)觀智能寫作助手內(nèi)置30萬+條素材,涵蓋公文、名人名言、古詩詞等類型。支持根據(jù)用戶輸入的想法、需求等描述性語句,通過智能分析搜索最適合的寫作素材。
圖16.達(dá)觀智能寫作助手支持據(jù)意查詢
- 全面校對(duì):快速發(fā)現(xiàn)文章錯(cuò)誤,保證文檔質(zhì)量
達(dá)觀智能寫作助手通過拼寫檢查、語法檢錯(cuò)和語法糾錯(cuò),嚴(yán)格校驗(yàn)100多種常見錯(cuò)誤,不放過任何差錯(cuò),確保文章高品質(zhì)。
達(dá)觀智能寫作助手能夠?yàn)楦餍懈鳂I(yè)的人員帶來巨大的價(jià)值:
- 新媒體運(yùn)營:公眾號(hào)、小紅書、新聞稿等文案創(chuàng)作;
- 辦公室白領(lǐng):政府、企事業(yè)單位員工等均可利用達(dá)觀智能寫作助手快速完成公文、報(bào)告、合同等文檔書寫;
- 創(chuàng)意寫作者:續(xù)寫提示,激發(fā)創(chuàng)作靈感,完成優(yōu)質(zhì)創(chuàng)作。
02達(dá)觀智能文檔寫作
達(dá)觀智能文檔寫作,是一款主要實(shí)現(xiàn)債券、基金、合同等各類業(yè)務(wù)文檔的智能寫作產(chǎn)品,實(shí)現(xiàn)從文檔的智能審閱到智能寫作的高度跨越。
- 開箱即用:內(nèi)置多種成熟模板
針對(duì)市面共性需求,達(dá)觀智能文檔寫作產(chǎn)品已內(nèi)置盡職調(diào)查報(bào)告、各板塊招股說明書、各債券類型的債券募集說明書、發(fā)行公告、持續(xù)督導(dǎo)核查報(bào)告等數(shù)十種文檔模板,并支持用戶根據(jù)業(yè)務(wù)需求修正及自定義。
圖18.達(dá)觀智能文檔寫作預(yù)制模板庫
- 模板自定義:高度靈活的模板配置方式
達(dá)觀智能文檔寫作可支持用戶自定義寫作模板,特別針對(duì)一二級(jí)市場及其他常用合同文檔寫作的需求,獨(dú)創(chuàng)了適用多數(shù)據(jù)、多表格的模板配置方式,支持模板中表格行數(shù)/列數(shù)自動(dòng)判斷,數(shù)據(jù)占比、變動(dòng)等信息自動(dòng)計(jì)算,多數(shù)據(jù)融合匯總等功能,以方便快捷地實(shí)現(xiàn)各類文檔的便捷模板定義及寫作。
圖19.達(dá)觀智能文檔寫作支持靈活的模板配置
- 數(shù)據(jù)來源:數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)均可利用
達(dá)觀智能文本寫作不僅支持接口對(duì)接、數(shù)據(jù)庫對(duì)接的形式自動(dòng)從外部數(shù)據(jù)源中獲取數(shù)據(jù)進(jìn)行自動(dòng)填充。同時(shí),得益于達(dá)觀成熟的文本理解能力,支持從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息,包括實(shí)體字段、組合字段、元素字段(圖、表、段落、標(biāo)題等)進(jìn)行自動(dòng)錄入。
以債承業(yè)務(wù)為例,系統(tǒng)可根據(jù)天眼查、企查查、WIND等第三方業(yè)務(wù)系統(tǒng),及企業(yè)內(nèi)部數(shù)據(jù)庫,如各類合同、往期財(cái)務(wù)數(shù)據(jù)、專利證照等信息,根據(jù)用戶自定義的模板信息完成文檔寫作任務(wù),并根據(jù)NLP技術(shù)潤色加工行文結(jié)構(gòu),生成適合行業(yè)寫作風(fēng)格及格式的文檔。
圖20.達(dá)觀智能文檔寫作支持豐富的數(shù)據(jù)來源
- 智能寫作:AI輔助非模板文檔寫作
針對(duì)非模板文檔寫作需求,達(dá)觀智能寫作利用行業(yè)最新算法技術(shù)實(shí)現(xiàn)摘要自動(dòng)生成、自動(dòng)續(xù)寫、實(shí)時(shí)聯(lián)想等功能。通過機(jī)器結(jié)合人工便捷實(shí)現(xiàn)各類文檔寫作。
圖21.達(dá)觀智能文檔寫作AI輔助高度智能化
- 結(jié)果復(fù)核:多功能協(xié)同保障寫作質(zhì)量
針對(duì)債承、股權(quán)、投研及法務(wù)財(cái)務(wù)等用戶對(duì)數(shù)據(jù)精確性、文本準(zhǔn)確性的需求,達(dá)觀智能寫作可與智能文檔審核、智能文檔比對(duì)功能協(xié)同。寫作結(jié)果完成后可由AI對(duì)其數(shù)據(jù)邏輯性與一致性、語義標(biāo)點(diǎn)規(guī)范性做審核。從細(xì)節(jié)入手,以人性化的交互設(shè)計(jì)降低用戶人工復(fù)核成本,充分滿足用戶在線流暢編輯超長文檔的需求。
圖22.達(dá)觀智能文檔寫作多功能協(xié)同,保障寫作結(jié)果準(zhǔn)確性
目前,達(dá)觀智能文檔寫作產(chǎn)品已在頭部券商、基金公司部署應(yīng)用。未來產(chǎn)品將持續(xù)積累,為用戶提供數(shù)字化智能轉(zhuǎn)型、建立企業(yè)知識(shí)中臺(tái)的便捷化、智能化利器。
挑戰(zhàn)與展望
AIGC用于智能寫作取得的進(jìn)展確實(shí)令人驚嘆,但是我們也不得不認(rèn)識(shí)到當(dāng)下依然存在許多挑戰(zhàn),包括:
- 缺乏創(chuàng)意:智能寫作的主要挑戰(zhàn)之一是AI算法很難生成真正原創(chuàng)和有創(chuàng)意的內(nèi)容。雖然人工智能可以產(chǎn)生語法正確且連貫的高質(zhì)量內(nèi)容,但它可能缺乏真正創(chuàng)造性寫作所必需的人情味和洞察力;
- 對(duì)上下文的理解有限:智能寫作的另一個(gè)挑戰(zhàn)是,AI算法可能很難完全理解給定情況的上下文細(xì)微差別。例如,人工智能可能無法準(zhǔn)確解讀書面內(nèi)容中的語氣、情感或文化差異;
- 偏見問題:AI算法的好壞取決于它們所訓(xùn)練的數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)有偏差,人工智能的輸出也會(huì)有偏差。這可能會(huì)導(dǎo)致道德問題,例如刻板印象和歧視的長期存在;
- 高成本落地:開發(fā)和落地 AI 算法和系統(tǒng)非常昂貴,以目前取得不錯(cuò)進(jìn)展的技術(shù)來說普遍需要龐大的數(shù)據(jù)、算力乃至人工支持,這將對(duì)面向工業(yè)的智能寫作落地形成挑戰(zhàn)
總體而言,智能寫作AIGC仍有極大的潛力尚未充分發(fā)揮,未來的研究工作也會(huì)著重在如何克服上述的挑戰(zhàn)。未來可能會(huì)在融入人工意見和強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步通過設(shè)計(jì)相關(guān)維度的量化指標(biāo)指導(dǎo)模型的優(yōu)化。隨著效果的日益增強(qiáng),相信會(huì)有更多研究工作投入到智能寫作的小樣本學(xué)習(xí)和模型壓縮技術(shù)上,降低落地成本,使得智能寫作產(chǎn)品能夠服務(wù)到每個(gè)人的日常工作中。
參考文獻(xiàn)
[1]?Lewis M, Liu Y, Goyal N, et al. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.
[2]?Dong L, Yang N, Wang W, et al. Unified language model pre-training for natural language understanding and generation[J]. Advances in Neural Information Processing Systems, 2019, 32.[3]?Li X L, Thickstun J, Gulrajani I, et al. Diffusion-LM Improves Controllable Text Generation[J]. arXiv preprint arXiv:2205.14217, 2022.
[4]?Li J, Tang T, Zhao W X, et al. Pretrained language models for text generation: A survey[J]. arXiv preprint arXiv:2105.10311, 2021.
[5]?Zhang H, Song H, Li S, et al. A survey of controllable text generation using transformer-based pre-trained language models[J]. arXiv preprint arXiv:2201.05337, 2022.
[6]?Liu Y, Gu J, Goyal N, et al. Multilingual denoising pre-training for neural machine translation[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 726-742.
[7]?Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.
[8]?Zhang Z, Han X, Zhou H, et al. CPM: A large-scale generative Chinese pre-trained language model[J]. AI Open, 2021, 2: 93-99.
[9]?Xue L, Constant N, Roberts A, et al. mT5: A massively multilingual pre-trained text-to-text transformer[J]. arXiv preprint arXiv:2010.11934, 2020.[10]?Montesinos D M. Modern Methods for Text Generation[J]. arXiv preprint arXiv:2009.04968, 2020.
[11]?Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[12]?Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.[13]?Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
[14]?Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
[15]?Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.[16]?ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/