色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

達(dá)觀數(shù)據(jù)陳運文:“曹植”大語言模型的創(chuàng)新與應(yīng)用

本文整理自7月7日世界人工智能大會“AI生成與垂直大語言模型的無限魅力”論壇上達(dá)觀數(shù)據(jù)董事長兼CEO陳運文博士《“曹植”大語言模型的創(chuàng)新與應(yīng)用》的主題分享。

達(dá)觀數(shù)據(jù)是一家2015年在上海浦東張江創(chuàng)立的人工智能企業(yè),專注于文本智能處理技術(shù),并以此在人工智能領(lǐng)域嶄露頭角。經(jīng)過幾年不斷發(fā)展,達(dá)觀已在行業(yè)中取得領(lǐng)先地位,并榮獲國家級“專精特新”小巨人獎。

書面類長文本更具價值

從本質(zhì)上來講,大語言模型的核心價值是發(fā)展大語言模型,提煉出知識,并以知識為驅(qū)動形成智能的過程。文字是人類文明的起點,也是實現(xiàn)人工智能的關(guān)鍵要素。大語言模型,尤其是GPT(Generative Pre-Trained Transformer)生成式預(yù)訓(xùn)練模型,近年來越來越受到關(guān)注,因為它解決了從文字中提煉人類知識的重要任務(wù)。文字資料處理人類知識有兩大應(yīng)用場景,一是用來做溝通和交流等短文本;二是用于書面文字資料,如文檔、書籍、報告、資料等長文本。盡管目前很多大模型如ChatGPT主要處理對話類的短文本,但書面類長文本更具價值。因為書面文字資料的知識密度高、專業(yè)化程度高,對于訓(xùn)練大語言模型有著重要價值。

過去幾年,達(dá)觀一直致力于優(yōu)化長文本處理的各個環(huán)節(jié),包括數(shù)據(jù)的積累、工程實踐以及產(chǎn)品系列的打磨。在模型層出不窮的今天,我們認(rèn)為,專業(yè)化、特長化、產(chǎn)品化的模型才是未來發(fā)展的關(guān)鍵。基于這種理念,達(dá)觀開發(fā)了自己的獨特大語言模型——“曹植”大語言模型。

他山之石可以攻玉,達(dá)觀參考海外經(jīng)驗,如今年3月份推出的BloombergGPT,它是全球第一個專門用于金融領(lǐng)域的優(yōu)秀大模型,為達(dá)觀提供了寶貴的參考。BloombergGPT的效果出眾,尤其在金融領(lǐng)域的專業(yè)任務(wù)上表現(xiàn)出色。

“曹植”大語言模型?

為此,達(dá)觀研發(fā)了自己的大語言模型技術(shù)架構(gòu),運用了通用無監(jiān)督訓(xùn)練和領(lǐng)域有監(jiān)督訓(xùn)練,以及大量的專業(yè)領(lǐng)域語料。最終成功開發(fā)出了自己的“曹植”大語言模型,這是一款垂直、專用、國產(chǎn)的大模型,具備長文本、多語言、垂直化三大特點。

“曹植”大語言模型,名字的靈感源自于曹植的“七步成詩”以及其作品《洛神賦》。前者展現(xiàn)了模型強大的寫作能力,后者作為一篇超過1000字的長文本,彰顯了“曹植”在處理長文本方面的專業(yè)性。在構(gòu)建這一模型的過程中,我們結(jié)合了通用語料和專業(yè)垂直語料的混合訓(xùn)練數(shù)據(jù)方案,其中包括50%的混合語料和50%的垂直專用語料,以確保模型既具備通用處理能力,又能夠?qū)I(yè)應(yīng)對特定行業(yè)領(lǐng)域的語言處理任務(wù)。

在研發(fā)過程中,我們充分利用了自身多年積累的專業(yè)文檔資料報告等信息,使得模型在垂直領(lǐng)域的語言能力和寫作能力都達(dá)到了優(yōu)秀的水平。我們也采用了多模型并聯(lián)(Ensemble)的創(chuàng)新方法,通過整合經(jīng)典的知識圖譜、搜索引擎等工具和大語言模型,實現(xiàn)了模型性能的優(yōu)化和提升。并且,模型包括了不同參數(shù)規(guī)模的多種模型,如數(shù)十億、數(shù)百億等,未來還將研發(fā)數(shù)千億的模型。同時,還可以與其他第三方的大模型進(jìn)行對接,實現(xiàn)模型間的融會貫通,進(jìn)一步提升模型的價值。

“曹植”特點1:長文本

“曹植”大語言模型也是針對處理長文本而特別研發(fā)的產(chǎn)品。長文本不僅包含文字信息,還包含許多復(fù)雜的結(jié)構(gòu),如表格、文檔樣式、簽名、蓋章等,甚至還有圖片等多模態(tài)的內(nèi)容。這些復(fù)雜的元素,需要大模型具備高級的理解和分析能力。對于長文本,我們進(jìn)行了詳盡的處理和優(yōu)化。例如,我們進(jìn)行了段落篇章的解析,表格的解析等工作,以應(yīng)對表格復(fù)雜的形式和樣式。此外,我們還進(jìn)行了版面分析,以深入了解文本的組織結(jié)構(gòu)和版面布局,這對于專業(yè)報告等文檔尤為重要。

因此,達(dá)觀的”曹植”大語言模型不僅具有優(yōu)秀的長文本寫作能力,更具備專業(yè)性的寫作能力。用戶只需提供標(biāo)題,模型即可生成文章的提綱,并根據(jù)提綱生成專業(yè)報告。

這一過程中,我們強大的AIGC多模態(tài)能力也會發(fā)揮作用,例如,可以根據(jù)用戶的文字描述生成相應(yīng)的圖表,并將其插入到文檔中。

“曹植”特點2:多語言?

此外,我們的大模型還具備多語言處理能力,可以根據(jù)用戶的需求生成不同語種的專業(yè)報告。

尤其是長文本的翻譯能力,這一能力不僅包括語義翻譯,還包括版面分析與版面還原。在翻譯過程中,我們能夠精確地提取原始報告的格式和版式,并在翻譯完成后進(jìn)行精確的還原,以確保報告的專業(yè)性和整潔性。

“曹植”特點3:垂直化

我們認(rèn)為,大模型的產(chǎn)品形態(tài)不應(yīng)只限于一問一答,而應(yīng)該和行業(yè)應(yīng)用相結(jié)合,才能打造出真正優(yōu)秀的產(chǎn)品。因此,我們的大模型已經(jīng)與多個行業(yè)專業(yè)領(lǐng)域的產(chǎn)品相結(jié)合,能夠處理各種報告,處理專業(yè)領(lǐng)域的應(yīng)用場景

我們還開發(fā)了專門的WPS和Office插件,讓用戶在專業(yè)寫作工具中直接使用“曹植”的能力。用戶在寫作過程中,可以直接從企業(yè)的知識庫中調(diào)取所需的數(shù)據(jù)和信息,大幅度提高工作效率。這一插件分為個人免費版本和企業(yè)專屬版本,我們可以為每個企業(yè)定制內(nèi)部的知識庫,使其更加專業(yè)和垂直。

“曹植”大模型能力拓展

在過去的幾年中,我們積極推動RPA產(chǎn)品的開發(fā),并將其視為大模型能力拓展的重要組成部分。在當(dāng)前的大語言模型時代,我們從企業(yè)的ERP、OA、知識庫以及各種外部數(shù)據(jù)源中獲取知識和數(shù)據(jù),以提升大模型的能力。在這方面,我們深受GPT和復(fù)旦最新版本的MOSS插件庫的設(shè)計理念的啟發(fā)。同時,我們也看到,具有豐富插件功能的大語言模型,才能真正具有生命力,并發(fā)揮出巨大價值。

經(jīng)過聯(lián)調(diào)對接,“曹植”大模型已成功運行在燧原科技的GPU上,這是一次非常重要的里程碑事件。未來,我們有信心提供全國產(chǎn)化的解決方案,從算力到模型,為眾多客戶提供服務(wù)。

“曹植”大語言模型的應(yīng)用開發(fā)仍在進(jìn)行中,包括知識問答、智能寫作、垂直搜索、文檔審閱和機器翻譯等。達(dá)觀專注于垂直化、長文本、多語言的專業(yè)模型和專業(yè)應(yīng)用的開發(fā),“曹植”的強大性能也將體現(xiàn)在專業(yè)的長文本寫作審核分析等方面。

未來,達(dá)觀數(shù)據(jù)將持續(xù)積極研發(fā)升級“曹植”大語言模型,進(jìn)一步夯實達(dá)觀產(chǎn)業(yè)應(yīng)用智能化基座,全面增強AI全產(chǎn)品矩陣能力?!安苤病贝笳Z言模型也是國內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級模型,可持續(xù)賦能金融、政務(wù)、制造等多個垂直領(lǐng)域和通用場景人工智能的落地和發(fā)展,幫助企業(yè)實現(xiàn)數(shù)字化升級,降本增效。

作者介紹

陳運文

達(dá)觀數(shù)據(jù)董事長兼CEO,復(fù)旦大學(xué)計算機博士,中國五四青年獎?wù)拢虾J惺笄嗄昕萍冀艹鲐暙I(xiàn)獎獲得者