色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

R3-NL2GQL: 大小模型協(xié)同的NL2GQL生成技術(shù)
  • 分類:未分類
  • 發(fā)表:2025-01-14

(此論文內(nèi)容來自復(fù)旦-達(dá)觀金融垂域應(yīng)用大模型校企聯(lián)合研究中心研究成果)

背景

圖譜數(shù)據(jù)因其能夠有效表示復(fù)雜的關(guān)系和模式而變得日益重要,在這種趨勢下,基于圖的數(shù)據(jù)庫技術(shù)得到了迅速發(fā)展。圖數(shù)據(jù)庫利用節(jié)點(diǎn)、邊和屬性直觀地描繪數(shù)據(jù)關(guān)系,為復(fù)雜數(shù)據(jù)關(guān)系的分析和處理提供了強(qiáng)大的支持。為了能夠讓訓(xùn)練得到的金融垂直領(lǐng)域大模型能夠和圖數(shù)據(jù)庫直接交互,從而實(shí)現(xiàn)金融風(fēng)險發(fā)現(xiàn)和傳導(dǎo)過程的推理總結(jié),我們開發(fā)了一種新型的自然語言轉(zhuǎn)化為圖查詢語言的技術(shù)(NL2GQL),旨在降低用戶與復(fù)雜查詢語言之間的交互障礙,自動將用戶的自然語言輸入轉(zhuǎn)換為精確的圖數(shù)據(jù)庫查詢指令。

近年來NL2GQL技術(shù)的發(fā)展相對緩慢,面臨諸多挑戰(zhàn):

挑戰(zhàn)一:圖的復(fù)雜性與查詢多樣性。圖數(shù)據(jù)庫由于其復(fù)雜的節(jié)點(diǎn)-邊結(jié)構(gòu),使得查詢的構(gòu)造變得復(fù)雜,但圖查詢語言(GQL)通過支持如子圖和路徑查詢等多樣的查詢類型,增強(qiáng)了靈活性,如表1所示。這種組合提供了一個更豐富但更復(fù)雜的查詢環(huán)境。

表格?1?SQL 和GQL 語法中關(guān)鍵詞(nGQL 作為示例)

挑戰(zhàn)二:GQL語法不一致性。當(dāng)前不同圖數(shù)據(jù)庫的GQL之間缺乏統(tǒng)一性,與SQL的廣泛采用形成對比,這需要處理各種專有語言,如Cypher 用于Neo4j,nGQL 用于 NebulaGraph,以及 Gremlin 用于 JanusGraph。這種多樣性在創(chuàng)建數(shù)據(jù)集和設(shè)計(jì)通用模型時帶來了挑戰(zhàn)。

挑戰(zhàn)三:資源有限,缺乏數(shù)據(jù)集。在自然語言到圖查詢語言(NL2GQL)的技術(shù)領(lǐng)域中,研究者和開發(fā)者面臨著顯著的資源限制,尤其是在數(shù)據(jù)集和開發(fā)工具方面的稀缺。特別是缺少專門為圖查詢設(shè)計(jì)的大規(guī)模、高質(zhì)量數(shù)據(jù)集,這直接影響了算法的訓(xùn)練和評估。此外,圖查詢語言的開發(fā)工具和庫也遠(yuǎn)未達(dá)到SQL領(lǐng)域的豐富和完善,這限制了快速實(shí)驗(yàn)和原型開發(fā)的能力。

詳細(xì)技術(shù)方案

1.基于代碼結(jié)構(gòu)的圖模式表達(dá)

為了解決自然語言轉(zhuǎn)為圖譜模式(schema)過程中的信息損失,本任務(wù)中設(shè)計(jì)了一種創(chuàng)新性的模式和查詢的構(gòu)造方法,如圖 12 所示,包 基于代碼結(jié)構(gòu)的圖模式表達(dá),代碼結(jié)構(gòu)的GQL 骨架。

基于代碼結(jié)構(gòu)的圖模式表達(dá), 從自然語言描述過渡到基于代碼結(jié)構(gòu)的圖模式表達(dá)中,需要保證實(shí)體、關(guān)系和屬性的語義完整性。本文的技術(shù)方法中,這種轉(zhuǎn)變將架構(gòu)封裝在代碼結(jié)構(gòu)中,并利用 Python 的語法來反映圖的架構(gòu)。代碼結(jié)構(gòu)架構(gòu)采用了一種代碼風(fēng)格的方法,定義了各種架構(gòu)結(jié)構(gòu)。它主要包括兩種類型:標(biāo)簽(tag)和邊(edge),引入了子類來表示每個圖的架構(gòu),利用 Python 的特性進(jìn)行詳細(xì)和精確的描述:1)概念名稱由 Python 類表示;2)類注釋提供概念內(nèi)涵的深入解釋;3)類繼承模型描述了架構(gòu)概念之間的層級關(guān)系;4)初始化函數(shù)描述標(biāo)簽或邊的屬性。 通過維護(hù)語義一致性并利用圖數(shù)據(jù)與面向?qū)ο蠓妒街g的固有對齊,代碼結(jié)構(gòu)化架構(gòu)增強(qiáng)了模型的可解釋性,如圖1所示。

圖?1純文本模式、代碼結(jié)構(gòu)化模式、代碼結(jié)構(gòu)化骨架的示例

純文本模式作為最基本的提示模式(prompt),用自然語言書寫。代碼結(jié)構(gòu)化模式利用 Python 語言重新表達(dá)圖的模式,目的是增強(qiáng)模型的推理能力。代碼結(jié)構(gòu)化骨架能夠輔助大模型提取關(guān)鍵詞和子句的信息,專注于GQL的構(gòu)造過程。

2. 一種混合策略的 NL2GQL 方法:R3-NL2GQL

在我們的初步實(shí)驗(yàn)中發(fā)現(xiàn),受限于網(wǎng)絡(luò)中GQL的數(shù)據(jù)量,對小模型直接進(jìn)行NL2GQL的微調(diào)很難賦予其學(xué)會陌生語法的能力。R3-NL2GQL 方法開創(chuàng)了一種混合策略,整合多個模型以減輕單一模型依賴的局限性,利用微調(diào)后小模型的準(zhǔn)確性和大模型對上下文學(xué)習(xí)的泛化性進(jìn)行GQL生成。如圖2所示。該過程從一個經(jīng)過微調(diào)的小型模型開始,該模型作為排名器(ranker),擅長將用戶需求轉(zhuǎn)化為所需的語法結(jié)構(gòu)和模式,如CRUD 操作、子句和模式類。為了解決對齊的挑戰(zhàn),另一個小型模型利用小樣本(few-shot)學(xué)習(xí)來獲取和驗(yàn)證圖數(shù)據(jù)庫中的信息,充當(dāng)重寫器(rewriter)以確保數(shù)據(jù)的準(zhǔn)確性。這些模型的輸出隨后由一個更大的模型進(jìn)一步完善,其充當(dāng)微調(diào)器(refiner),利用其復(fù)雜的泛化和綜合能力,最終生成準(zhǔn)確的GQL 查詢。

圖?2?R3-NL2GQL方法框架流程圖

(1)排名器(ranker

將自然語言轉(zhuǎn)化為GQL存在幾個特定的步驟,每個步驟都面臨一些獨(dú)特的挑戰(zhàn)。第一步是需要識別自然語言輸入,判斷使用 CRUD 中的哪種操作,即 CRUD 關(guān)鍵詞篩選階段。第二步是 GQL 從句篩選,在選定了CRUD 關(guān)鍵詞之后,需要確定使用何種從句子句(如 WHERE BY)來構(gòu)建一個完整的連貫的GQL 語句。第三步是生成GQL 之后,需要準(zhǔn)確查找到圖數(shù)據(jù)庫中的對應(yīng)節(jié)點(diǎn)和邊。

為了有效地處理上述步驟,我們引入了一個較小的基礎(chǔ)模型作為排名器。利用代碼預(yù)訓(xùn)練的優(yōu)勢,增強(qiáng)模型的推理能力,我們使用代碼結(jié)構(gòu)化的模式來協(xié)助排名器完成其任務(wù)。

(2)重寫器(re-writer

為了確保生成的GQL 中圖數(shù)據(jù)的節(jié)點(diǎn)、邊和模式的準(zhǔn)確鏈接,我們采用了一個較小的模型作為精確對齊的重寫器。在用戶查詢與實(shí)際圖數(shù)據(jù)對齊中,存在諸多挑戰(zhàn),如查詢的實(shí)體與數(shù)據(jù)庫中的表示不匹配,如下圖所示。同時,該模型也可能創(chuàng)造出不在模式中的節(jié)點(diǎn)或邊類型,這種幻覺現(xiàn)象將導(dǎo)致錯誤。

圖?3?用戶查詢對齊面臨的挑戰(zhàn)

為了解決此種幻覺現(xiàn)象,需要將用戶查詢的內(nèi)容對齊到圖數(shù)據(jù)庫中的內(nèi)容。我們利用數(shù)據(jù)檢索來精確匹配用戶的自然語言查詢與圖數(shù)據(jù)庫中對應(yīng)的數(shù)據(jù),解決對齊問題。 這包括兩級檢索和對齊過程:

① 字符級對齊: 使用萊文斯坦距離(最小編輯距離)來計(jì)算查詢和數(shù)據(jù)庫實(shí)體之間的相似性,定義如下:

其中,Q是用戶輸入的自然語言查詢,而I代表圖譜中的數(shù)據(jù),如點(diǎn)、邊信息,信息中包含屬性數(shù)據(jù)。

② 語義對齊,對圖譜中數(shù)據(jù)及用戶查詢嵌入后進(jìn)行比較,定義如下:

經(jīng)過兩級檢索后,選取綜合排名靠前的Top k個信息,利用小模型的上下文學(xué)習(xí)能力對用戶自然語言查詢進(jìn)行改寫,得到對齊后的查詢。

(3)修改優(yōu)化器(Refiner

在使用了排名器和重寫器之后,我們最終使用一個較大的模型整合了之前較小模型的輸入,增強(qiáng)了GQL生成。它綜合了排名器識別的代碼結(jié)構(gòu)化模式,以及重寫器調(diào)整的查詢和相關(guān)檢索結(jié)果。這種融合,得益于較大模型先進(jìn)的零樣本能力,促進(jìn)了精煉GQL 查詢的創(chuàng)建。這些模型之間的協(xié)同作用增強(qiáng)了系統(tǒng)對復(fù)雜查詢的解讀和響應(yīng)能力,提高了準(zhǔn)確性和連貫性。

3.構(gòu)造新型的?NL2GQL?數(shù)據(jù)集

通過 300 人小時和 100 機(jī)時的共同努力,我們收集了 20,000 個英漢雙語數(shù)據(jù)樣本,并從中挑選出高質(zhì)量的子集。與眾多開源的NL2SQL 數(shù)據(jù)集(如 Spider 和KaggleDBQA)相比,GQL在大規(guī)模、多架構(gòu)的數(shù)據(jù)集方面存在不足,這些數(shù)據(jù)集能夠滿足真實(shí)世界工業(yè)需求。大多數(shù)現(xiàn)有數(shù)據(jù)集主要集中在Cypher 上,這使得創(chuàng)建GQL 數(shù)據(jù)集變得具有挑戰(zhàn)性。

圖?4數(shù)據(jù)集構(gòu)建流程圖

考慮到基礎(chǔ)模型能夠較為熟練地生成Cypher, 我們選擇了nGQL,一個GQL的特定類型,作為我們評估方法有效性的研究案例。我們的數(shù)據(jù)集創(chuàng)建包括兩種主要類型:一種用于訓(xùn)練小型模型,另一種用于評估模型性能。這一部分詳細(xì)描述了我們定義GQL 生成任務(wù)和合成數(shù)據(jù)生成策略的方法,如圖3所示。我們的數(shù)據(jù)來源包括NebulaGraph 的官方nGQL 文檔和從開源知識圖譜衍生的專有數(shù)據(jù)資產(chǎn)。

構(gòu)建 NL-GQL 對:在構(gòu)建數(shù)據(jù)集時,我們采用了一種復(fù)雜策略,而不是直接從GQL 文檔中提取NL-GQL 對, 因?yàn)楹笳邿o法捕捉復(fù)雜的人與數(shù)據(jù)庫的交互。研究從手工制作樣本對開始,優(yōu)先考慮代碼的可解釋性而不是生成。這有助于實(shí)現(xiàn)GQL2NL 策略,利用語言模型的解碼能力產(chǎn)生多種自然語言解釋,每個GQL查詢都能緊密模仿真實(shí)世界的查詢。

整合模式、框架和推理:在對數(shù)據(jù)對進(jìn)行細(xì)致的手工精煉之后,我們整合了模式、框架和推理方面以豐富數(shù)據(jù)集。模式通過基于代碼的結(jié)構(gòu)來表達(dá),以促進(jìn)精確的GQL 生成。 我們提出了一個精煉的三部分推理框架用于GQL 生成,包括:選擇最適合的 CRUD 操作基于用戶輸入的自然語言查詢中的約束;使用 LIMIT和WHERE 來滿足結(jié)果約束; 根據(jù)需要從模式中識別特定的節(jié)點(diǎn)或邊類型以構(gòu)建精確的GQL。這種方法最終形成了最終的訓(xùn)練數(shù)據(jù)集。

指標(biāo)設(shè)計(jì)及實(shí)驗(yàn)

我們利用了之前概述的雙語數(shù)據(jù)集,選擇了不同長度的樣本以確保數(shù)據(jù)集的豐富多樣性,這對于增強(qiáng)模型的泛化能力至關(guān)重要。我們將數(shù)據(jù)分為不同的架構(gòu)類型,并使用 K-Center Greedy 算法從每個類別中選擇數(shù)據(jù),以識別最多樣化的訓(xùn)練樣本。這種方法允許我們在組裝一個包含?5000 個樣本的雙語數(shù)據(jù)集時保持原始的架構(gòu)分布,這些樣本被分為訓(xùn)練集和測試集,比例為4:1。

鑒于圖數(shù)據(jù)庫的復(fù)雜性, 其中多種自然語言可以描述同一個GQL 反之亦然,傳統(tǒng)的NL2SQL 評估指標(biāo)如邏輯和執(zhí)行準(zhǔn)確性已不足以滿足需求。GQL 的復(fù)雜結(jié)構(gòu)能產(chǎn)生多樣的查詢結(jié)果,且同一自然語言查詢的功能性關(guān)鍵詞存在變異性,這需要一個量身定制的評估方法。我們通過提出以下三個關(guān)鍵問題來解決評估問題,每個問題都對應(yīng)特定的評估指標(biāo):

? Q1:生成GQL 的語法評估。

? Q2:模型的語義理解評估。

? Q3:查詢信息準(zhǔn)確性的確定。

對于 Q1,引入了語法準(zhǔn)確性(SA)指標(biāo),評估生成的 GQL 是否能被圖數(shù)據(jù)庫無語法錯誤地執(zhí)行;對于Q2,采用理解準(zhǔn)確性(CA)指標(biāo)來衡量模型生成的GQL 與標(biāo)準(zhǔn) GQL 之間的相似度,使用 text-embedding-ada-002 模型進(jìn)行代碼相似性比較,通過余弦相似性進(jìn)行比較;對于Q3,提出執(zhí)行準(zhǔn)確性(EA)和內(nèi)部執(zhí)行準(zhǔn)確性(IEA)指標(biāo)。EA 評估全局執(zhí)行準(zhǔn)確性,而IEA 評估語法正確的GQL 之間的準(zhǔn)確性??紤]到 GQL 結(jié)果格式的多樣性,采用了改進(jìn)的 Jaccard 算法和BM25 算法評估內(nèi)容的完整性和語義相似性,通過平均分?jǐn)?shù)進(jìn)行綜合評估。

最終,我們框架內(nèi)較大和較小模型的協(xié)同使用證明最為有效,巧妙地綜合關(guān)鍵信息并減少幻覺,以提供優(yōu)越的結(jié)果,如表2所示。R3-NL2GQL 的EA 指標(biāo)為51.09%,而其他方法的IEA 指標(biāo)幾乎都超過了70%,R3-NL2GQL 接近90%。

表格?2?實(shí)驗(yàn)結(jié)果對比