達(dá)觀數(shù)據(jù)研發(fā)的一款大語言模型,該模型以“曹植”命名。曹植,東漢末年著名文人,他才情橫溢,贊美之聲和憂國(guó)之詞令人回味無窮,有“才高八斗”之稱。“七步成詩”的典故更是名垂千古。達(dá)觀“曹植”大語言模型之所以如此命名,也是源于“七步成詩”的典故。
在信息化時(shí)代,人工智能并不僅僅是一種技術(shù),更是一種文化的積淀與傳承。達(dá)觀數(shù)據(jù)有幸結(jié)識(shí)到曹植第70代后人曹珍富先生,并邀請(qǐng)其分享《我和我的治學(xué)人生》為主題的人生感悟。
曹珍富簡(jiǎn)介
曹珍富,現(xiàn)華東師范大學(xué)教授,其教授的學(xué)術(shù)生涯可以被概括為三個(gè)主要階段:解決別人的問題,開創(chuàng)自己的新方向,并走向應(yīng)用。
1983年至2001年,曹珍富教授在哈爾濱工業(yè)大學(xué)(哈工大)任教,先后擔(dān)任副教授、教授、博士生導(dǎo)師,創(chuàng)建并領(lǐng)導(dǎo)了信息安全研究所和直博部。他因解決了塔塔可夫斯基問題、莫德爾問題、埃爾多斯問題等重大學(xué)術(shù)問題,被越級(jí)提升為副教授,并破格提升為教授。
2001年至2016年,曹珍富教授離開了學(xué)習(xí)、工作22.5年的哈工大,回到南方,接受上海交通大學(xué)聘請(qǐng),擔(dān)任教授、博導(dǎo)、特聘教授等職務(wù),并創(chuàng)建了可信任數(shù)字技術(shù)實(shí)驗(yàn)室。在這個(gè)階段,他開始開創(chuàng)自己的新研究方向,超前地提出并解決問題。
自2014年5月至今,曹珍富教授在華東師范大學(xué)任教,擔(dān)任教授、博導(dǎo)、特聘教授等職務(wù),創(chuàng)建了密碼與安全研究中心和密碼與網(wǎng)絡(luò)安全系。他在此期間將研究重心轉(zhuǎn)向應(yīng)用,提出并采用了一種顛覆性的方法,進(jìn)一步推動(dòng)了學(xué)科的發(fā)展。
任教期間曹珍富教授發(fā)表了500余篇高水平學(xué)術(shù)論文,出版專著7部。先后主持國(guó)家自然科學(xué)基金項(xiàng)目 、科技部863計(jì)劃、鐵道部重點(diǎn)項(xiàng)目、教育部博士點(diǎn)優(yōu)先發(fā)展項(xiàng)目等,獲得省部級(jí)以上獎(jiǎng)勵(lì)9項(xiàng)。早年還獲得國(guó)家杰出青年基金、中國(guó)科學(xué)院青年獎(jiǎng)勵(lì)研究基金、霍英東教育基金會(huì)青年教師獎(jiǎng)、上海徐光啟科技獎(jiǎng)?wù)陆皙?jiǎng)、華東地區(qū)IT英才獎(jiǎng)、國(guó)際旗艦會(huì)議IEEE ICC最佳論文獎(jiǎng)等。
關(guān)于曹姓與曹植
分享中,曹教授還分享了曹姓的起源以及自己家族族譜的故事。曹姓源于黃帝第九代孫曹安,曾協(xié)助大禹治水,被封為曹官。但曹安的后代并未沿用曹姓,直到周朝初年,周武王的弟弟振鐸被封為曹國(guó)國(guó)君,開始以國(guó)為姓,使大部分曹姓的后代以他為始祖。同時(shí),還有另一支曹姓,源自曹安的后代曹俠,盡管歷史壓力使他們?cè)男折?,甚至鄒、朱,但部分家族又復(fù)姓曹。其中,曹操是曹振鐸第四十三代孫,曹植是曹操的第四個(gè)兒子。
曹植,字子建,被稱為歷代第一奇才?!赌鲜贰ぶx靈運(yùn)傳》載:“天下才共一石,曹子建獨(dú)得八斗?!辈苤彩藲q左右,寫了傳世之作《斗雞》、《娛賓賦》和《公宴》等,其中《斗雞》和《公宴》均為長(zhǎng)詩。曹植作為建安文學(xué)的代表人物與集大成者,他在兩晉南北朝時(shí)期,被推尊到文章典范的地位。其耳熟能詳?shù)膫魇来碜饔小堵迳褓x》、《白馬篇》、《七步詩》等。對(duì)曹植的評(píng)價(jià),除了前述《南史》評(píng)價(jià)他一人獨(dú)占80%世間之才,中國(guó)南朝文學(xué)批評(píng)家鐘嶸亦贊曹植“骨氣奇高,詞彩華茂,情兼雅怨,體被文質(zhì),粲溢今古,卓爾不群?!辈⒃凇对娖贰分邪阉袨槠返谧罡叩脑娙?。
“我”的治學(xué)人生
曹教授的成長(zhǎng)背景充滿挑戰(zhàn)。他出生于一個(gè)貧窮的農(nóng)村家庭,他是八個(gè)兄弟姐妹中的老七。雖然生活在物質(zhì)極度缺乏的環(huán)境中,曹教授憑借他的聰明才智和堅(jiān)毅精神,逐步學(xué)會(huì)了閱讀和寫作。他每天在腦海復(fù)習(xí)學(xué)過的內(nèi)容,逐漸形成了一種個(gè)人的學(xué)習(xí)方法。這種方法不僅讓他在學(xué)業(yè)上取得了顯著的成功,而且在他的整個(gè)生涯中也得到了應(yīng)用。1970年,他的父母鼓勵(lì)他上學(xué),因?yàn)樗麄儼l(fā)現(xiàn)他算數(shù)很快。他晚于同年齡的孩子上學(xué),但憑借自己的努力,他在二年級(jí)被老師接受進(jìn)入班級(jí),這節(jié)省了他一些時(shí)間。曹教授一直享受學(xué)習(xí),盡管在學(xué)習(xí)之前,他在家里做了很多勞動(dòng)。他5歲開始養(yǎng)豬,并從中推導(dǎo)出很多數(shù)學(xué)知識(shí)。他還分享了他在農(nóng)村理解人類生育規(guī)律的經(jīng)歷,這讓他發(fā)現(xiàn),只要用心去學(xué),就能自己做主,推導(dǎo)出許多知識(shí)。曹教授形成了不用筆和紙學(xué)習(xí)的習(xí)慣。當(dāng)他四年級(jí)時(shí),學(xué)校經(jīng)常讓和五年級(jí)合班,他順便也學(xué)會(huì)了五年級(jí)的知識(shí),甚至在一次五年級(jí)數(shù)學(xué)考試中,只有他一個(gè)人滿分。曹教授堅(jiān)稱他的學(xué)習(xí)方式很“笨”,但是他認(rèn)為只要堅(jiān)持,就能學(xué)到很多東西。他將自己的學(xué)習(xí)方式稱為“回憶法”,他每天都在腦中回想老師講過的東西。高中時(shí),他的家離學(xué)校有17里路,回家的路途中也用于學(xué)習(xí)。他發(fā)現(xiàn),當(dāng)他專心思考時(shí),他不會(huì)害怕任何事情,包括經(jīng)過墳場(chǎng)和被認(rèn)為是鬧鬼的地方。在高中時(shí)期受到關(guān)于陳景潤(rùn)的報(bào)告文學(xué)影響,對(duì)哥德巴赫猜想產(chǎn)生興趣。熱衷于自學(xué),并嘗試改進(jìn)學(xué)習(xí)到的知識(shí)和算法。大學(xué)期間,曹教授積極發(fā)表學(xué)術(shù)論文,畢業(yè)時(shí)已有50多篇稿件,其中8篇已發(fā)表。由于學(xué)術(shù)表現(xiàn)出眾,曹教授被學(xué)校邀請(qǐng)留校任教。在哈爾濱工作18年半期間,曹教授在學(xué)術(shù)上主要解決別人提出的問題,包括像塔塔科夫斯基和埃爾多斯這樣的大數(shù)學(xué)家提出的問題。然后曹教授來到上海,希望開創(chuàng)自己的研究方向。曹教授開始向?qū)W生傳授自己的知識(shí)和思想,并鼓勵(lì)他們?nèi)フ砗桶l(fā)表相關(guān)的學(xué)術(shù)論文。曹教授鼓勵(lì)學(xué)生在一個(gè)特定的研究領(lǐng)域建立自己的“成才樹”,在達(dá)到一定高度后再擴(kuò)展知識(shí)的寬度。曹教授分享到,”我有一個(gè)學(xué)生,利用這種方法和思想,贏得了全國(guó)36個(gè)國(guó)家級(jí)競(jìng)賽的最高獎(jiǎng)項(xiàng)。他的項(xiàng)目實(shí)施速度快,理解知識(shí)快,所以他在各種競(jìng)賽中總能拿到最高獎(jiǎng)。他的成就提升了華師大軟件學(xué)院的排名,目前我們的軟件工程學(xué)科僅次于清華,排名第二”。
分享過程中,曹教授講到了一個(gè)奇妙而有趣的數(shù)字故事——‘’22.5‘’,這是一個(gè)非常奇妙且有緣分的數(shù)字,曹教授上大學(xué)領(lǐng)取一等助學(xué)金是22.5元,他工作的城市哈爾濱防洪紀(jì)念塔高22.5米,曹教授也在北方生活了22.5年,最奇妙的是曹植的墓寬22.5米。
曹植大模型特聘顧問
由于曹珍富教授是曹植的第70代后人,并且有深厚學(xué)術(shù)底蘊(yùn),尤其是在信息安全和數(shù)字技術(shù)領(lǐng)域做出了卓越的貢獻(xiàn),解決了多個(gè)重大學(xué)術(shù)問題,創(chuàng)立了多個(gè)研究機(jī)構(gòu),并推動(dòng)了該領(lǐng)域的發(fā)展,因此達(dá)觀數(shù)據(jù)特邀曹珍富教授擔(dān)任曹植大模型的顧問。我們相信,曹珍富教授的加入將極大地推動(dòng)達(dá)觀曹植大模型的研發(fā)和優(yōu)化,幫助達(dá)觀數(shù)據(jù)做出更好的大模型產(chǎn)品。
?曹植大模型?
達(dá)觀目前正在積極研發(fā)國(guó)產(chǎn)版GPT“曹植”大語言模型系統(tǒng),作為垂直、專用、自主可控的國(guó)產(chǎn)版ChatGPT模型,其具有垂直行業(yè)、長(zhǎng)文本、產(chǎn)品化三大特點(diǎn)。
該系統(tǒng)結(jié)合先進(jìn)的自然語言處理(NLP)、智能文檔處理(IDP)、光學(xué)字符識(shí)別(OCR)、機(jī)器人流程自動(dòng)化(RPA)、知識(shí)圖譜等技術(shù),不僅能實(shí)現(xiàn)專業(yè)領(lǐng)域的AIGC智能化應(yīng)用,且可內(nèi)置在客戶各類業(yè)務(wù)系統(tǒng)中提供專用服務(wù),目前已獲得重要技術(shù)突破,以大量通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)自監(jiān)督訓(xùn)練的LLM為基座模型,通過大量通用任務(wù)數(shù)據(jù)和領(lǐng)域任務(wù)數(shù)據(jù)進(jìn)行Prompt Learning微調(diào),在垂直領(lǐng)域內(nèi)的理解和生成的任務(wù)上都達(dá)到了很好的效果。
未來,達(dá)觀將繼續(xù)致力于人工智能技術(shù)與產(chǎn)品的研究與落地。隨著技術(shù)和產(chǎn)品的發(fā)展,人工智能技術(shù)與產(chǎn)品將應(yīng)用到銀行、證券、政務(wù)、制造等各行業(yè)更廣更深的工作場(chǎng)景,達(dá)觀數(shù)據(jù)也會(huì)持續(xù)投入相關(guān)產(chǎn)品技術(shù)研發(fā),深耕行業(yè)場(chǎng)景應(yīng)用,為眾多行業(yè)持續(xù)創(chuàng)造更大的價(jià)值。