色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達觀數(shù)據(jù)陳運文:探索大語言模型,“對癥下藥”很關鍵

內容來源:ChatGPT 及大模型專題研討會

分享嘉賓:達觀數(shù)據(jù)董事長兼CEO 陳運文博士

分享主題:《探索大語言模型垂直化訓練技術和應用》

轉載自CSDN稿件

本文整理自 3月11日 《ChatGPT 及大規(guī)模專題研討會》上,達觀數(shù)據(jù)董事長兼CEO 陳運文博士關于《探索大語言模型垂直化訓練技術和應用》的分享,將介紹達觀數(shù)據(jù)在大語言模型應用中的探索與思考。

此次分享的主要內容分為 6 塊,分別是:

  1. 參數(shù)規(guī)模和數(shù)據(jù)規(guī)模的探索
  2. 垂直領域適應預訓練
  3. 微調技術探索
  4. 提示工程和垂直優(yōu)化
  5. 模型訓練加速思路
  6. 模型功能的垂直效能增強

在探索大語言模型應用過程中,將團隊的思考列為了四點:

  • 整體來看,盡管模型的參數(shù)規(guī)模越大越好,但可探索性價比更高的參數(shù)規(guī)模方案
  • 訓練數(shù)據(jù)盡管越多越好,但針對垂直場景可探索更高效和有針對性的數(shù)據(jù)提煉方法
  • 為強化垂直方向的效果,可在模型預訓練和微調技術上探索一些好的思路
  • 為更貼合垂直場景的產(chǎn)品應用,探索模型的功能增強、以及 prompt 等方向的產(chǎn)品創(chuàng)新

陳運文,達觀數(shù)據(jù)董事長兼CEO,復旦大學博士,計算機技術專家,國際計算機學會(ACM)和電子電器工程師學會(IEEE)會員

 

參數(shù)規(guī)模和數(shù)據(jù)規(guī)模的探索

一、縮放法則 (Scaling Laws)

眾所周知,大模型的算力非常驚人。在 2020 年,從 OpenAI 在語言模型方面的研究可以看到,語言模型的效果與參數(shù)量、數(shù)據(jù)量、計算量基本呈平滑的冪定律——縮放法則 (Scaling Laws)?。隨著模型的參數(shù)量(Parameters)、參與訓練的數(shù)據(jù)量(Tokens)以及訓練過程累積的計算量(FLOPS)的指數(shù)性增大, 模型在測試集上的 Loss 就線性降低,也就意味著模型的效果越好。

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

如下圖所示,在運算量的增加過程中,參數(shù)規(guī)模的增加可以起到更關鍵的作用。在給定的計算量且參數(shù)規(guī)模較小時, 增大模型參數(shù)量對于模型效果的貢獻,遠優(yōu)于增加數(shù)據(jù)量和訓練步數(shù)。這也作為后續(xù)推出的 GPT-3(175B) 和其他千億級別模型奠定了理論基礎。

Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

二、Compute-Optimal?

在 2022 年,DeepMind 在 ScalingLaw 里又做了進一步分析。研究通過定量的實驗驗證,語言模型訓練數(shù)據(jù)大小,應該和模型參數(shù)量大小等比放大??梢钥吹剑谟嬎憧偭坎蛔兊那闆r下,模型訓練的效果在參數(shù)量和訓練數(shù)據(jù)量當中有個最優(yōu)平衡點,曲線下面的最低點是在參數(shù)規(guī)模和訓練數(shù)據(jù)量當中有個非常好的折中點。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

進一步研究表明,像 GPT-3(175B) 這么大規(guī)模的參數(shù)里,用這三種計算方式進行擬合的話,會發(fā)現(xiàn) GPT-3 并沒有充分得到訓練。

因此,我們需要考慮真正落地應用在垂直領域時,千億級別參數(shù)規(guī)模的龐大模型所消耗的巨大成本,以避免參數(shù)的浪費。

Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022.

三、Open and Efficient?

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

Meta 受到 DeepMind 理論的啟發(fā),在 2023 年推出了百億模型 LLaMA,經(jīng)過 1.4 萬億 Token(近 4.7 倍于 GPT-3 )的訓練數(shù)據(jù),在很多下游實驗任務當中效果明顯好于 GPT3 千億規(guī)模的參數(shù)。因此,即便你的參數(shù)規(guī)??赡軟]那么大,增加訓練 Token 量依然能夠看到效果。

Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv:2302.13971, 2023.

在訓練過程中,無論是 65B、33B、17B,甚至 7B 的小模型,在訓練數(shù)據(jù)接近超過萬億 Token 之后,下游任務的效果仍在提升,也就是說這些參數(shù)的潛力可以通過更多 Token 訓練進一步激發(fā)出來。故此可推測,百億模型的潛力仍有待深入挖掘,尤其在算力資源受限的情況下,存在性價比更高的優(yōu)化空間。

四、數(shù)據(jù)規(guī)模存在瓶頸 :開放數(shù)據(jù)即將耗盡? ??

Villalobos P, Sevilla J, Heim L, et al. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning[J]. arXiv preprint arXiv:2211.04325, 2022.

在我們做更大參數(shù)規(guī)模的模型訓練時,數(shù)據(jù)已經(jīng)逐步開始顯現(xiàn)出力不從心的地方。上圖是結合歷史數(shù)據(jù)增長率和數(shù)據(jù)使用率做出的推測,有研究預計互聯(lián)網(wǎng)上可用的數(shù)據(jù)資源很有可能會被耗盡。

  • 高質量的語言數(shù)據(jù)按照目前的發(fā)展速度,預計 2026 年可能就要耗盡;
  • 低質量的語言數(shù)據(jù)(如日常聊天等)到 2025 年就耗盡;
  • 多模態(tài)的數(shù)據(jù)(比如視覺圖像)到 2060 年要耗盡;

五、通用大模型的預訓練數(shù)據(jù)集研究???

大規(guī)模語言模型的預訓練數(shù)據(jù)規(guī)模不斷增加,但即使使用的是開放數(shù)據(jù),也少有團隊公開所使用的數(shù)據(jù)集和其包含的詳細信息。通過 Pile 數(shù)據(jù)集提供的為數(shù)不多的 “Datasheet for Datasets”? 信息可以看到,Wiki 百科、書籍、學術期刊等高質量語料數(shù)據(jù)起到關鍵性作用。

大模型預訓練數(shù)據(jù)可視化

Alan D. Thompson. What’s in my AI? A Comprehensive Analysis of Datasets used to Train GPT-1, GPT-2, GPT-3, GPT-NeoX-20B, Megatron-11B, MT-NLG, and Gopher. https://lifearchitect.ai/whats-in-my-ai. 2022

六、通用預訓練之對數(shù)據(jù)多樣性的分析? ?

The Pile v1數(shù)據(jù)集的構成(800GB)

Gao L, Biderman S, Black S, et al. The pile: An 800gb dataset of diverse text for language modeling[J]. arXiv preprint arXiv:2101.00027, 2020.

在通用預訓練過程中,不同類型的文本代表不同的能力。如綠色的文本是訓練通用的知識。像學術文本(藍色),包括一些出版物(橙色)等等,一部分是訓練專業(yè)領域的知識,另一部分是訓練一些帶有情感的講故事和創(chuàng)造性文藝創(chuàng)作的能力。對話文本(黃色)雖然規(guī)模不大,但是它對提升對話能力非常有幫助。除此之外,還有訓練 COT 能力的代碼、數(shù)學題等,這些數(shù)據(jù)規(guī)模參差不齊,但多樣性的數(shù)據(jù)對提升語言大模型的綜合性能起到非常重要的作用。

七、多語種和能力遷移?

?

Blevins T, Zettlemoyer L. Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 3563-3574.

今天我們看到多語種數(shù)據(jù)訓練和能力遷移非常有異議。研究表明,大規(guī)模單語種(英語)預訓練中,即使混入的不足 0.1% 其他語種,也會讓模型擁有顯著的跨語種能力。語言之間存在某種共性,且底層的知識和認知能力是跨語言的,因此混合訓練可以起到一定的增強作用。

單語種中其他語種 token 數(shù)量與占比

Blevins T, Zettlemoyer L. Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 3563-3574.

單語種下其他語種詞性標注任務性能

Blevins T, Zettlemoyer L. Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 3563-3574.

語種越接近,能力遷移作用越明顯。如上圖,漢語雖然語料占比非常低,但是效果不錯。因此,在訓練語料和語料集合構成中,不同語言的語料相互影響。

八、選擇最合適的訓練數(shù)據(jù)?

Madaan A, Zhou S, Alon U, et al. Language models of code are few-shot commonsense learners[J]. arXiv preprint arXiv:2210.07128, 2022.

在復雜任務如事件和圖推理上的實驗表明,代碼訓練顯著增強大模型的常識推理能力,且僅使用有限的代碼訓練量就 能取得比 fine-turned T5 模型明顯得多的效果提升。

Madaan A, Zhou S, Alon U, et al. Language models of code are few-shot commonsense learners[J]. arXiv preprint arXiv:2210.07128, 2022.

正確的訓練數(shù)據(jù)對提升某些能力有重要效果,“對癥下藥”很關鍵,未來在垂直領域任務中可能存在優(yōu)化空間。

九、探索預訓練的數(shù)據(jù)過濾和提純方法? ?

現(xiàn)在常用的模型數(shù)據(jù)提純方法有兩類,一類是上圖這個,它用到傳統(tǒng)的文本分類技術,將高質量的文本作為正面的樣本集合,一部分如大量帶有互聯(lián)網(wǎng)上的垃圾廣告或者低質量評論等數(shù)據(jù)做負面樣本。標注以后送到分類器里分類,再把高質量的文本提取出來。這是一種常規(guī)方法,但嚴重依賴文本分類、數(shù)據(jù)標注等,費時費力。

Xie S M, Santurkar S, Ma T, et al. Data Selection for Language Models via Importance Resampling[J]. arXiv preprint arXiv:2302.03169, 2023.

另一類是基于重要性采樣的數(shù)據(jù)提純方法。我們在目標樣本集里人為的挑出一些我們認可的高質量的數(shù)據(jù),對這個高質量的數(shù)據(jù)做一個 KL reduction,并且做相應分布計算。得出的目標樣本的集合越接近,重要性越高,這種方式相對更容易提純出優(yōu)質語料用來做模型訓練。

 

垂直領域適應預訓練

探索垂直領域大模型預訓練的三種思路:

  • 先用大規(guī)模通用語料預訓練,再用小規(guī)模領域語料二次訓練
  • 直接進行大規(guī)模領域語料預訓練
  • 通用語料比例混合領域語料同時訓練

一、探索路線一:自適應預訓練??

先大規(guī)模通用語料預訓練,再用小規(guī)模領域語料預訓練。

Gururangan S, Marasovi? A, Swayamdipta S, et al. Don’t stop pretraining: Adapt language models to domains and tasks[J]. arXiv preprint arXiv:2004.10964, 2020.

這里有兩種不同的處理方法,一種是領域自適應的預訓練,叫 “DAPT”,DAPT 后在領域任務上相比通用模型效果提升,但是 DAPT 后的領域模型在其它領域上效果比通用模型效果差。

Gururangan S, Marasovi? A, Swayamdipta S, et al. Don’t stop pretraining: Adapt language models to domains and tasks[J]. arXiv preprint arXiv:2004.10964, 2020.

另外一種叫任務自適應預訓練,它是在任務的數(shù)據(jù)集進行訓練,叫 “TAPT”。

TAPT 相比通用模型也更好,DAPT +TAPT 效果最佳?。

二、預微調

預微調(Pre-Finetuning)技術也是路線一當中可以嘗試的一個方法。在預微調的過程中不同任務的 loss 進行縮放后再累加,而且對預微調工作不進行數(shù)據(jù)采樣,維持它的自然分布效果最佳。

Aghajanyan A, Gupta A, Shrivastava A, et al. Muppet: Massive multi-task representations with pre-finetuning[J]. arXiv preprint arXiv:2101.11038, 2021.

如圖,多任務的數(shù)據(jù)集對它進行 Pre-Finetuning,不同的任務集合越多,最終得到的預微調的模型效果就越好。

Aghajanyan A, Gupta A, Shrivastava A, et al. Muppet: Massive multi-task representations with pre-finetuning[J]. arXiv preprint arXiv:2101.11038, 2021.

預微調模型的效果比原始模型的效果在上面幾個經(jīng)典的大語言模型上都取得了不錯的效果。

三、能力對比

“Codex comments tend to reproduce similar biases to GPT-3, albeit with less diversity in the outputs.” “when the model is used to produce comments in an out-of-distribution fashion, it tends to act like ?GPT-3.”

—— OpenAI

《Evaluating large language models trained on code》

Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.

OpenAI 有一篇論文里提到小規(guī)模語料預訓練后對通用文本的生成能力并沒有負面影響。當涉及與Code領域無關的文本生成時,Codex 的生成和 GPT-3 的生成差異不大,體現(xiàn)在兩者有很多共現(xiàn)的詞,區(qū)別是 GPT-3 表述更多樣性。由此猜想小規(guī)模領域語料預訓練后的大模型在自身領域內相比通用大模型增強,而在通用生成上表現(xiàn)與通用大模型相當。這是我們值得未來探索的。

四、探索路線二:效果分析?

直接進行大規(guī)模領域語料預訓練工作。

BioMedLM: a Domain-Specific Large Language Model for Biomedical Text(https://www.mosaicml.com/blog/introducing-pubmed-gpt)

一個醫(yī)學領域的代表模型 PubMedGPT 2.7 B。一個是金融領域 BBT-FinT5 模型。它們的參數(shù)規(guī)模都不大,但是這些用垂直領域的數(shù)據(jù)做的專用訓練,它的效果比參數(shù)規(guī)模更小一點的小模型來說有非常明顯的提升。另外,和相同規(guī)模通用大規(guī)模的 Finetune 相比,垂直領域大模型的效果仍然是領先的。

因此,路線二是一個性價比非常高的方案,它用到的參數(shù)規(guī)模并不大,但在垂直領域的效果不錯。同時,垂直領域大模型所用資源會比通用大模型少很多,并且和超大規(guī)模模型在垂直領域的效果是接近的,這種方式也給我們開啟了一些嘗試的空間。

五、知識增強

知識增強是專業(yè)領域的知識增強,可以較好的探索路線二時提升它的專業(yè)模型訓練效果。

Lu D, Liang J, Xu Y, et al. BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark[J]. arXiv preprint arXiv:2302.09432, 2023.

在這個知識三元組( head、relation、tail )里,把一部分內容做了一個掩碼,進行預訓練。

Lu D, Liang J, Xu Y, et al. BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark[J]. arXiv preprint arXiv:2302.09432, 2023.

應用了知識增強技術的領域大模型在領域任務上的效果, 好于領域小模型和通用大模型。所以這可能是一條值得去探索的中間道路,是一種垂直領域比大模型要略小一點,但比小模型要大的中間態(tài)的模型。

六、探索路線三:語料按比例混合,同時預訓練? ??

通用語料比例混合領域語料同時預訓練。這方面目前沒有研究報告,但是我們做了些猜測:

  • 數(shù)據(jù)規(guī)模:通用語料+領域語料 > 千億 tokens
  • 數(shù)據(jù)比例:領域語料占總語料比例應顯著高于通用語料中該領域的自然比例,且領域語料占總語料比例應顯著高于通用語料中各領域自然比例的最大值(顯著高于的含義:可能是至少高 1 個數(shù)量級)
  • 模型規(guī)模:> 10B
  • 保障訓練batch中數(shù)據(jù)異質性,使得 loss 下降在訓練過程中更平穩(wěn)
  • 知識增強技術
  • 微調領域增

微調技術探索

一、增量微調

我們對微調技術做了一些探索,目標是為了降低大模型的微調成本,同時能夠更高效地把一些專業(yè)領域的知識引入進來。

與微調進行的實驗對比

Ding N, Qin Y, Yang G, et al. Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models[J]. arXiv preprint arXiv:2203.06904, 2022.

結果顯示,delta tunig 和 fine tuning 之間的差距并非不可逾越,這證明了參數(shù)有效自適應的大規(guī)模應用的潛力。上圖列了不同研究者提出的增量微調的技術,比如有的是在 PLM 層之間加入一層適配器模塊,還有通過更新預先插入的參數(shù)來調整 PLM 等等。這些都是在局部來做模型參數(shù)的調整,能夠把這些理論知識加進去,同時又不影響整個模型大規(guī)模應用的潛力。

二、多任務提示/指令微調?

Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.

指令微調的目標是提升語言模型在多任務中的零樣本推理能力。微調后的語言模型具有很強的零任務概括能力。

Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.

上圖是其中一個研究結果,像 BLOOMZ、Flan-T5、mT0 這些模型上面,通過使用多任務的提示微調或者指令微調技術,效果有不錯的提升。

三、COT(Chain-of-Thought)微調? ?

Magister L C, Mallinson J, Adamek J, et al. Teaching small language models to reason[J]. arXiv preprint arXiv:2212.08410, 2022.

Ho N, Schmid L, Yun S Y. Large Language Models Are Reasoning Teachers[J]. arXiv preprint arXiv:2212.10071, 2022.

Fu Y, Peng H, Ou L, et al. Specializing Smaller Language Models towards Multi-Step Reasoning[J]. arXiv preprint arXiv:2301.12726, 2023.

COT 的微調也是一個很不錯的技術,將文本 (questions + prompt) 輸入給大模型,用大模型輸出含有思維鏈且正確的文本作為 label 。再用上述數(shù)據(jù)組成的數(shù)據(jù)對(Reasoning samples),直接對小模型進行微調。使小語言模型獲得思維鏈能力。

提示 Prompt 垂直優(yōu)化

一、提示工程( Prompt Engineering )??

在大模型領域里,Prompt 是一個新的研究領域,Prompt 能否用好,對未來在垂直領域能否做出優(yōu)秀的產(chǎn)品起到重要的作用。在這方面我們也做了一些思考,認為垂直領域的提示工程(Prompt Engineering)未來在垂直領域落地產(chǎn)品時會有很多創(chuàng)新點。在垂直領域創(chuàng)新工程方面,我們的大思路是讓模型完成垂直領域指定任務后,在 prompt 當中提出明確的要求,這樣能夠把垂直領域的專業(yè)任務變成模型期望的輸出。

這一過程當中,產(chǎn)品化很重要。今天所謂的指令提示工程,很多時候還是大段的文字,只不過不同的方式去描述而已。因此,未來在復雜的垂直領域任務可能需要極為豐富的 prompt 信息,包括各類事實、數(shù)據(jù)、要求等,并存在層層遞進的多步驟任務,因此值得探索產(chǎn)品化方案來生成 prompt。

二、提示工程的兩種思路?

現(xiàn)在我們嘗試兩種思路,一種是產(chǎn)品化思路。產(chǎn)品化的是請垂直領域的專家,針對每項垂直任務,來設計用于生成 prompt 的產(chǎn)品,由專家編寫大量不同的 prompt,評估或輸出好的 prompt 后,進行片段切分,形成相應的產(chǎn)品,這對未來 AIGC 任務會起到很好的作用。另一種是自動化的思路,通過借過外部工具,或通過自動化的流程方法和訓練方式,對 Prompt 進行自動優(yōu)化。

Automatic Prompt Engineer (APE)

Zhou Y, Muresanu A I, Han Z, et al. Large language models are human-level prompt engineers[J]. arXiv preprint arXiv:2211.01910, 2022.

Directional Stimulus Prompting(DSP)

Li Z, Peng B, He P, et al. Guiding Large Language Models via Directional Stimulus Prompting[J]. arXiv preprint arXiv:2302.11520, 2023.

這里有兩種不同的技術路線,一種叫 APE 的技術,一種叫 DSP 的技術,它們基本思想都是讓大語言模型加入到Prompt 過程當中。另外,我們可以訓練一個小的 LLM,它能夠對 Prompt 進行有效提示,未來都可以在很多垂直領域里得到創(chuàng)新和應用。

模型訓練加速思路

整體來說,在我們工業(yè)界的模型加速大致有兩塊思路,一是分布式并行,二是顯存優(yōu)化工作。

一、分布式并行的工作?

有 4 種常見技術:

1、數(shù)據(jù)并行(Data Parallelism):在不同的 CPU 上存放神經(jīng)網(wǎng)絡的副本,用更大的 batch size 來訓練模型,來提高并行能力。

2、模型并行(Tensor Parallelism):解決模型在一個 GPU 上放不下的問題。

3、流水線并行(Pipeline Parallelism):多個 GPU 之間高效利用它的資源。

4、混合并行(Hybrid Parallelism):這些并行工作能夠更好地充分利用 GPU 的并行運算能力,來提升模型迭代加速的速度。

二、顯存優(yōu)化

當然也有不錯顯存優(yōu)化方案,像混合精度訓練、降低深度學習訓練中間激活帶來的顯存占用、能夠降低模型加載到顯存當中的資源占用,以及我們通過去除冗余的參數(shù),引入 CPU 和內存等等方式,能夠解決顯存容量不夠導致的模型運算慢或者大模型跑不動的問題。

 

模型功能的垂直效能增強

大語言模型存在很多缺陷,如存在事實性錯誤以及關鍵數(shù)據(jù)錯誤、垂直領域可能存在復雜的推理任務等?;诖耍覀円苍趪L試一些不同的思路來做,比如在推理能力方面,我們也在嘗試把復雜任務分解為多個簡單任務,并且引入其他模型解決;在工具方面,有一些 ALM 的輸出中包含特定的 token,激活去調用規(guī)則;在行為方面,使用一些工具對虛擬和現(xiàn)實世界進行影響。

一、利用 CoT 增強模型復雜推理能力? ?

我們對原有的模型通過 CoT 做個增強訓練,能有效提升它的 Few-Shot 或者 Zero-Shot 的能力。

通過 CoT 可以顯著增強模型在 GSM8K 數(shù)據(jù)集上的準確率

Mialon G, Dessì R, Lomeli M, et al. Augmented Language Models: a Survey[J]. arXiv preprint arXiv:2302.07842, 2023.

二、使用其他模

在商業(yè)領域長文檔生成的需求很多,長文檔生成工作可以引入其他模型和技術,疊加在當前的大語言模型上,來提升它的長文本的生成效能。

Yang K, Peng N, Tian Y, et al. Re3: Generating longer stories with recursive reprompting and revision[J]. arXiv preprint arXiv:2210.06774, 2022.

由上往下,當計算機做一個長文檔的規(guī)劃協(xié)作生成的內容,我們讓相應的其他模型做一個生成后,引入分類模型,判斷生成段落的上下文和相關性,把其他的模型的結果串連在當前的模型當中,能夠進行迭代和順序的循環(huán)調用,這樣就能夠突破現(xiàn)有當前大語言模型在特別長的文本當中生成的短板,能夠提升它的寫作效能。

三、使用垂直知識庫

Izacard G, Lewis P, Lomeli M, et al. Few-shot learning with retrieval augmented language models[J]. arXiv preprint arXiv:2208.03299, 2022.

上圖是使用外部語料庫相應的一些算法研究出的成果??梢钥吹?,小模型如果用外部語料庫、專用語料庫的模式,在有些任務上可以和大模型相媲美。而且應用場景廣泛,實際落地中也探索了語言模型和知識圖譜的交互。

四、使用搜索引擎

Thoppilan R, De Freitas D, Hall J, et al. Lamda: Language models for dialog applications[J]. arXiv preprint arXiv:2201.08239, 2022.

搜索引擎在傳統(tǒng)意義上知識嚴重受限于語料庫的實現(xiàn),所以如果我們使用特定 token 激活或提示的方式生成查詢語言,去請求搜索引擎的結果,并融合到當前模型的訓練和輸出當中,是可以很好的來彌補語料庫更新不及時導致的很多信息滯后等問題。尤其是基于搜索引擎提供事實性的文檔,使用外部搜索引擎來補充相關的語料資源,可以增強回答問題的可解釋性,和用戶的習慣對齊。

五、內容轉換

Gao L, Madaan A, Zhou S, et al. PAL: Program-aided Language Models[J]. arXiv preprint arXiv:2211.10435, 2022.

我們發(fā)現(xiàn),在涉及數(shù)學領域的運算,今天的語言模型因為沒有實質理解數(shù)學運算背后的含義,所以往往這個結果會做錯。因此,我們可以利用 CoT 將復雜問題分解為若干個簡單問題并生成可執(zhí)行代碼,然后利用代碼解釋器獲得最終結果以輔助語言模型解決復雜推理問題。

 

? ? 總結? ?

達觀數(shù)據(jù)在垂直領域的語言模型方面的探索希望能夠讓大家對 LLM 的研發(fā)和落地有所啟發(fā)。目前達觀在研發(fā)“曹植模型”,未來希望能夠為每個行業(yè)賦能。雖然大語言模型算力非常龐大,但模型當中仍有很多難題需要我們克服,我們相信“只要我們找到了路,就不怕路有多長”。

作者簡介

陳運文,達觀數(shù)據(jù)董事長兼CEO,復旦大學計算機博士,計算機技術專家,2021年中國青年創(chuàng)業(yè)獎,中國五四青年獎章,上海市十大青年科技杰出貢獻獎獲得者;國際計算機學會(ACM)、電子電器工程師學會(IEEE)、中國計算機學會(CCF)、中國人工智能學會(CAAI)高級會員;上海市首批人工智能正高級職稱獲得者。在人工智能領域擁有近百項國家技術發(fā)明專利,是復旦大學、上海財經(jīng)大學、上海外國語學院聘任的校外研究生導師,在IEEE Transactions、SIGKDD等國際頂級學術期刊和會議上發(fā)表數(shù)十篇高水平科研成果論文;曾擔任盛大文學首席數(shù)據(jù)官、騰訊文學高級總監(jiān)、百度核心技術研發(fā)工程師。