色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

曹植大模型只需少樣本即可實(shí)現(xiàn)知識(shí)抽取與知識(shí)圖譜自動(dòng)化構(gòu)建
  • 分類:未分類
  • 發(fā)表:2023-11-29

近年來(lái),隨著人工智能技術(shù)的迅速發(fā)展,大模型與知識(shí)圖譜成為了人工智能領(lǐng)域的研究熱點(diǎn)。大模型具有強(qiáng)大的特征表示能力和泛化性能,而知識(shí)圖譜則是一種語(yǔ)義網(wǎng)絡(luò),可以表達(dá)實(shí)體、概念和它們之間的關(guān)系。因此,將大模型與知識(shí)圖譜構(gòu)建相結(jié)合,可以進(jìn)一步提高人工智能系統(tǒng)的性能和實(shí)用性。本文將介紹知識(shí)圖譜的基本構(gòu)建流程,包括知識(shí)表示與建模、圖譜構(gòu)建、圖譜應(yīng)用三個(gè)環(huán)節(jié)。并著重介紹大模型在圖譜構(gòu)建環(huán)節(jié)中的應(yīng)用,主要體現(xiàn)在對(duì)非結(jié)構(gòu)化文檔的信息抽取中。

知識(shí)圖譜構(gòu)建

從知識(shí)圖譜構(gòu)建的流程開(kāi)始,傳統(tǒng)的知識(shí)圖譜構(gòu)建主要包括以下幾個(gè)步驟:

步驟1:知識(shí)表示與建模

也稱圖譜模式建立,指從現(xiàn)實(shí)世界中抽象出概念、實(shí)體及其關(guān)系,以結(jié)構(gòu)化的形式進(jìn)行描述,表達(dá)成計(jì)算機(jī)可存儲(chǔ)和計(jì)算的結(jié)構(gòu)。以投融資知識(shí)圖譜為例:

可以看到,整個(gè)圖譜模式包括【學(xué)校】、【人物】、【企業(yè)】、【行業(yè)】四個(gè)實(shí)體類型,不同實(shí)體之間存在不同關(guān)系,并且給【企業(yè)】實(shí)體增加了地址屬性。

步驟2:圖譜構(gòu)建

基于已定義的圖譜模式,從外界數(shù)據(jù)將符合圖譜模式的數(shù)據(jù)進(jìn)行實(shí)例化,形成圖結(jié)構(gòu)的語(yǔ)義網(wǎng)絡(luò)。這種圖譜語(yǔ)義網(wǎng)絡(luò)去冗余地表達(dá)了我們所關(guān)注的語(yǔ)義信息,同時(shí)提供了更直接的數(shù)據(jù)交互體驗(yàn)。以投融資圖譜模式為例,部分實(shí)例化數(shù)據(jù)如下所示:

在圖譜構(gòu)建中,往往會(huì)面臨不同類型的數(shù)據(jù)(如word、pdf、ppt、xml等),也因此給構(gòu)建過(guò)程帶來(lái)困難。傳統(tǒng)的信息抽取工作,包含大量的人工參與(如樣本標(biāo)注、模型迭代、定制化開(kāi)發(fā)等),所以對(duì)信息的抽取往往是整個(gè)圖譜構(gòu)建過(guò)程中最關(guān)鍵的一點(diǎn),因此,與大模型結(jié)合的圖譜構(gòu)建就是為了改善圖譜構(gòu)建過(guò)程中的信息抽取帶來(lái)的困難。

步驟3:圖譜應(yīng)用

圖譜應(yīng)用是圖譜的下游環(huán)節(jié),通常包括圖譜探索、路徑分析、語(yǔ)義檢索、知識(shí)問(wèn)答等基礎(chǔ)功能,以及針對(duì)不同業(yè)務(wù)場(chǎng)景的定制化功能。這里是知識(shí)圖譜結(jié)合大模型為業(yè)務(wù)直接賦能的環(huán)節(jié)。(也是大模型發(fā)揮更多價(jià)值的地方)。

大模型抽取?

大模型與圖譜構(gòu)建相結(jié)合的主要應(yīng)用集中在對(duì)圖譜的實(shí)體和關(guān)系的抽取上。接下來(lái)介紹一些常用的大模型抽取思路和實(shí)現(xiàn)步驟。

一、思路介紹

大模型信息抽取目的是從非結(jié)構(gòu)化文檔的文本中,通過(guò)prompt輸入大模型,抽取出符合圖譜模式的實(shí)體、關(guān)系、屬性。由于與傳統(tǒng)信息抽取模型不同,大模型的抽取缺少顯式的標(biāo)注和訓(xùn)練迭代的過(guò)程,這導(dǎo)致我們需要抓住更多有關(guān)圖譜的特征,用于對(duì)大模型做提示生成,確保抽取的結(jié)果能夠符合圖譜模式的定義。具體的抽取思路可參考下圖:

如上圖所示。大模型(LLMs)&知識(shí)圖譜(KG)結(jié)合在信息抽取方向的應(yīng)用,主要根據(jù)兩者特征進(jìn)行拆解,對(duì)拆解后的特征考慮在信息抽取領(lǐng)域的結(jié)合方案。

而大模型由于其黑盒性質(zhì),只能從輸入和輸出上進(jìn)行拆解。輸入即常說(shuō)的Prompt和生成文本。Prompt可以由三類消息(Message)組成,分別是系統(tǒng)消息(System message)、少樣本提示(Instance message)和輸入消息(Input message)。而輸出可以分為文本和向量表征(embedding),在不考慮引入其他模型的情況下,我們只需考慮輸出生成文本的情況。

二、抽取步驟

1.系統(tǒng)消息(System?Message)

這里根據(jù)圖譜的Schema和抽取任務(wù)定義,對(duì)整個(gè)生成任務(wù)做背景約定,如:

上述message中描述了NER任務(wù)、任務(wù)描述以及遵循條件。

2.少樣本(few-shot)提示(Instance?Message)本質(zhì)就是引入上下文學(xué)習(xí)(In-Context Learning,ICL)。如下例所示:

few-shot樣本主要源于圖譜中的標(biāo)注數(shù)據(jù),用于提供原始文本、抽取類型和抽取標(biāo)簽。主要用于few-shot和格式化輸出。

3.輸入消息(Input?Message)

輸入消息主要用于實(shí)例化當(dāng)前的抽取任務(wù)。結(jié)合原始文本和抽取條件,生成與few-shot中相同格式的query,讓大模型輸出對(duì)應(yīng)的抽取結(jié)果。最后,將上述消息組合成完整的Prompt,送入大模型完成相關(guān)任務(wù)。

三、輸出規(guī)范與后處理

目前大模型主流訓(xùn)練任務(wù)是NTP(Next Token Prediction),作為概率生成模型,盡管在prompt中定義了一些約束,但是仍然會(huì)存在生成文本與實(shí)際需求不符的情況。尤其是對(duì)于圖譜領(lǐng)域的任務(wù),對(duì)輸出的要求和限制更為明顯。如實(shí)體類型不符、關(guān)系的頭尾實(shí)體不在schema定義中、擅自生成不存在的關(guān)系名稱等等…

在NER-RE任務(wù)的約束上,需要根據(jù)實(shí)際需求背景和圖譜模式定義,引入規(guī)則或其他后處理手段,對(duì)生成文本進(jìn)行抽取和校驗(yàn)。提取出符合圖譜規(guī)范的實(shí)體或關(guān)系屬性。常用的一些手段包括:

1.輸出解析:我們常用的大模型接口一般以字符串(流)的形式輸出結(jié)果,在信息抽取中,我們往往需要對(duì)這些字符串(流)進(jìn)行解析并格式化為如json,list等數(shù)據(jù)結(jié)構(gòu)。以實(shí)體抽取為例,大模型的輸出為字符串變量output,經(jīng)解析函數(shù)output_parser,得到格式化結(jié)果formatted_output。

2.存在性檢驗(yàn):基于格式化結(jié)果,我們需要對(duì)抽取出的實(shí)體是否存在于待抽取文本中進(jìn)行檢驗(yàn),過(guò)濾掉大模型產(chǎn)生幻覺(jué)或擅自總結(jié)的情況(一般我們需要在prompt中做提示,盡量避免這一類情況)。

3.圖譜模式校驗(yàn):基于前2個(gè)步驟的輸出,我們需要對(duì)抽取的結(jié)果進(jìn)行進(jìn)一步校驗(yàn),確保每一個(gè)實(shí)體或關(guān)系三元組滿足圖譜模式的定義。如最終的格式化結(jié)果為:

圖譜模式定義為:

我們可以看到,實(shí)體“張江”并不屬于圖譜中的任一實(shí)體定義(應(yīng)該是實(shí)體“企業(yè)”的屬性),因此需要將該實(shí)體丟棄。諸如此類的數(shù)據(jù)應(yīng)當(dāng)在完成基本的解析驗(yàn)證后,與圖譜模式進(jìn)行校驗(yàn),保證輸出的合理性。

???總結(jié)? ??

大模型信息抽取的思路來(lái)源于對(duì)抽取任務(wù)、圖譜特征和大模型特征三方面的分析和結(jié)合。在不同的抽取任務(wù)中,結(jié)合當(dāng)前圖譜模式定義,加以少量的樣本提示,實(shí)現(xiàn)完整的抽取提示工程,讓大模型充分理解圖譜的定義和需要完成的任務(wù),輸出符合的文本抽取結(jié)果。最后,通過(guò)若干后處理和校驗(yàn)手段,對(duì)所有結(jié)果進(jìn)行驗(yàn)證、篩選,最終完成對(duì)非結(jié)構(gòu)化文本的抽取。