亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

一種葡萄酒領(lǐng)域知識多路徑檢索增強生成方法

文檔序號:43697368發(fā)布日期:2025-11-07 20:58閱讀:26來源:國知局

本發(fā)明涉及領(lǐng)域知識檢索增強生成的,尤其是一種葡萄酒領(lǐng)域知識多路徑檢索增強生成方法。


背景技術(shù):

1、領(lǐng)域知識檢索增強生成的實現(xiàn)主要分為基于模板匹配的方法、基于語義解析的方法和基于表示學(xué)習(xí)的方法?;谀0迤ヅ涞姆椒ㄡ槍μ囟ㄖR領(lǐng)域和用戶問題構(gòu)建嚴(yán)密的問題模板,再利用模板匹配生成查詢表達式進而生成最終答案,但性能依賴于模板數(shù)量,難以全面覆蓋用戶問題和知識庫?;谡Z義解析的方法通過對用戶問題進行解析獲取語義信息,將用戶問題轉(zhuǎn)換為邏輯形式并進一步生成結(jié)構(gòu)化查詢,從而在知識庫中查詢并得到答案,但語義解析的級聯(lián)誤差將有可能降低答案的準(zhǔn)確性?;诒硎緦W(xué)習(xí)的方法則將知識庫和用戶問題嵌入到連續(xù)低維的向量空間,通過計算相應(yīng)得分函數(shù)能夠快速實現(xiàn)知識推理,是目前智能問答研究的主流技術(shù)。近年來,許多研究機構(gòu)和學(xué)者基于表示學(xué)習(xí)方法對相關(guān)技術(shù)進行了廣泛的拓展和改進,但主要是通過單一檢索路徑實現(xiàn)對領(lǐng)域知識的檢索,盡管通過優(yōu)化知識結(jié)構(gòu)等策略在一定程度上提升了檢索結(jié)果的精準(zhǔn)度和召回率,但面對知識結(jié)構(gòu)復(fù)雜、專業(yè)術(shù)語繁多、工藝細節(jié)龐雜的葡萄酒領(lǐng)域知識時,其表現(xiàn)仍顯不足。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提出了一種葡萄酒領(lǐng)域知識多路徑檢索增強生成方法,能夠通過多樣化的檢索結(jié)構(gòu),綜合利用稀疏檢索、圖譜檢索和密集檢索三條路徑進行并行檢索,充分發(fā)揮不同檢索方式的獨特優(yōu)勢,從多個維度獲取相關(guān)知識,極大地拓寬了信息檢索的視野,大幅提升了從葡萄酒領(lǐng)域知識庫中檢索相關(guān)上下文內(nèi)容的精準(zhǔn)度和召回率,同時輔以用戶提問擴展、重排序、壓縮等關(guān)鍵步驟,極大提升了最終生成答案的質(zhì)量。

2、為實現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:一種葡萄酒領(lǐng)域知識多路徑檢索增強生成方法,包括以下步驟:

3、s1:獲取葡萄酒領(lǐng)域的知識文檔,并對知識文檔進行預(yù)處理,切分為格式統(tǒng)一、語義獨立的文本塊;

4、s2:對切分出的文本塊進行數(shù)據(jù)解析,精準(zhǔn)提取其中的知識數(shù)據(jù),并進行多元化存儲,從而構(gòu)建出葡萄酒領(lǐng)域知識庫;

5、s3:借助構(gòu)建出的葡萄酒領(lǐng)域知識庫,用戶進行相關(guān)提問,為確保對用戶提問意圖的全面理解,對用戶提問進行多角度、多層次的擴展,形成多個語義接近的并列提問;

6、s4:針對擴展形成的多個并列提問,在構(gòu)建出的葡萄酒領(lǐng)域知識庫中檢索相關(guān)知識,為了拓寬知識檢索的視野,提出了多路徑檢索方法,即整合稀疏檢索、圖譜檢索和密集檢索三條路徑進行并行檢索,充分發(fā)揮不同檢索路徑的獨特優(yōu)勢以實現(xiàn)多維度的知識獲取,其中,圖譜檢索擅長處理結(jié)構(gòu)化知識,能夠提供相互關(guān)聯(lián)的檢索結(jié)果,密集檢索借助預(yù)訓(xùn)練模型實現(xiàn)語義匹配,能捕捉深層語義,稀疏檢索則在處理大規(guī)模或海量知識時具備高效性優(yōu)勢,使用多路徑檢索方法能夠有效提升檢索階段的精準(zhǔn)度和召回率,最后會從每條路徑中檢索得到得分最高的topk個文本塊;

7、s5:使用開源重排序模型對從三條路徑檢索得到的多個文本塊進行綜合評估,進而精準(zhǔn)排序,再從這些經(jīng)過重排序后的文本塊中,選取相關(guān)性得分最高的topn個文本塊;

8、s6:將通用語言模型部分層中的歸一化塊由原始的層歸一化算法修改為反正切算法,減少輸入樣本均值和方差的計算,實現(xiàn)提質(zhì)增速的效果,然后對修改后的通用語言模型進行指令微調(diào)訓(xùn)練獲得壓縮模型,再使用壓縮模型對經(jīng)過重排序后得到的topn個文本塊進行更為細致的內(nèi)容篩選,提煉出每個文本塊中最為核心、與用戶提問關(guān)聯(lián)度最高的內(nèi)容,并將這些提煉出的內(nèi)容組織成最終的上下文內(nèi)容;

9、s7:將用戶提問與經(jīng)過壓縮后得到的上下文內(nèi)容進行深度融合,然后一起傳遞至大語言模型llm中生成最終答案。

10、進一步,在步驟s1中,對收集到的葡萄酒領(lǐng)域開源的知識文檔,包括科技論文、綜述文章、技術(shù)報告、國家標(biāo)準(zhǔn)、各省區(qū)地方標(biāo)準(zhǔn)以及經(jīng)典著作,按照權(quán)威性、時效性、實用性以及貢獻度指標(biāo)進行篩選,只保留高質(zhì)量的知識文檔;然后對保留下來的知識文檔進行預(yù)處理:切分和標(biāo)準(zhǔn)化,通過切分,將知識文檔分解為更小的、語義獨立的單元,而標(biāo)準(zhǔn)化則確保不同來源的文檔在格式上的統(tǒng)一,經(jīng)過預(yù)處理,知識文檔被轉(zhuǎn)化為格式統(tǒng)一、語義獨立的文本塊。

11、進一步,步驟s2的具體操作步驟如下:

12、s21:使用jieba分詞工具對文本塊進行精準(zhǔn)切分并提取詞元,再通過bm25算法計算每個詞元的tf-idf得分,生成一個能夠精確反映文本內(nèi)容焦點的統(tǒng)計字典,并為統(tǒng)計字典附加上詳細的元數(shù)據(jù),包括文本塊具體內(nèi)容、所屬文檔名稱及所在頁碼信息,形成完整的全信息字典,然后用這些全信息字典構(gòu)建pkl文件庫;

13、s22:使用嵌入模型對文本塊進行精確的向量化處理,將復(fù)雜的語義信息轉(zhuǎn)化為數(shù)值化的形式,形成適合計算機高效處理的嵌入向量,然后用這些嵌入向量構(gòu)建向量數(shù)據(jù)庫;

14、s23:使用llm從文本塊中抽取出知識元組,并為知識元組附加上詳細的元數(shù)據(jù)和文本塊對應(yīng)的嵌入向量,形成包含所有關(guān)鍵信息的全信息元組,然后用這些全信息元組構(gòu)建知識圖譜;

15、s24:經(jīng)過以上步驟s21-s23,文本塊中的知識數(shù)據(jù)被多元化存儲于pkl文件庫、向量數(shù)據(jù)庫和知識圖譜這三種不同的數(shù)據(jù)結(jié)構(gòu)中,三者相輔相成,共同構(gòu)成了一個全面而高效的葡萄酒領(lǐng)域知識庫。

16、進一步,在步驟s3中,綜合考慮用戶提問的語義信息及潛在的相關(guān)知識點,對用戶提問進行多角度、多層次的擴展,具體擴展方式包括:問題重述、同義詞替換和問題細化,從而形成多個語義接近的并列提問,以便更全面、更準(zhǔn)確地捕捉用戶的提問意圖。

17、進一步,步驟s4的具體操作步驟如下:

18、s41:稀疏檢索在多路徑檢索中肩負著高效檢索的重任,采用bm25算法,針對擴展形成的多個并列提問,利用詞頻信息進行檢索,迅速計算出各提問與步驟s21構(gòu)建的pkl文件庫中各個文本塊的bm25得分,進而對所有的文本塊進行排序,快速提取出得分最高的topk個文本塊;

19、s42:圖譜檢索在多路徑檢索中扮演著處理結(jié)構(gòu)化知識的角色,細致地分析擴展形成的多個并列提問,從中盡可能詳盡地提取出實體和關(guān)系,進而構(gòu)建出一系列的三元組,這些三元組能夠準(zhǔn)確地描繪實體之間的相互作用和聯(lián)系,然后使用這些三元組在步驟s23構(gòu)建的知識圖譜中進行精確的檢索,獲取與用戶提問直接相關(guān)的全信息元組,其中包括文本塊具體內(nèi)容及其對應(yīng)的嵌入向量,然后計算所有檢索出的文本塊的嵌入向量與用戶提問的嵌入向量之間的相似度分?jǐn)?shù),如果這些相似度分?jǐn)?shù)超過了預(yù)先設(shè)定的閾值score_threshold,表明已檢索到的文本塊足以滿足需求,直接保留相似度分?jǐn)?shù)最高的topk個文本塊;

20、s43:密集檢索是多路徑檢索中負責(zé)語義理解的關(guān)鍵組件,如果步驟s42中計算出的相似度分?jǐn)?shù)未達到預(yù)先設(shè)定的閾值score_threshold,則會針對擴展形成的多個并列提問,在步驟s22構(gòu)建的向量數(shù)據(jù)庫中繼續(xù)進行搜索,計算各個提問的嵌入向量與向量數(shù)據(jù)庫中所有文本塊的嵌入向量之間的相似度分?jǐn)?shù),尋找與各個提問最相關(guān)的文本塊,保留相似度分?jǐn)?shù)最高的topk個文本塊。

21、進一步,在步驟s5中,使用具備深度文本理解能力的開源重排序模型對從三條路徑檢索得到的多個文本塊進行綜合評估,進而精準(zhǔn)排序,確保最相關(guān)、最具信息價值的內(nèi)容優(yōu)先呈現(xiàn),無關(guān)或冗余的部分被自然篩除,然后從這些被重排序后的文本塊中,選取相關(guān)性最高的topn個文本塊。

22、進一步,步驟s6的具體操作步驟如下:

23、s61:將通用語言模型glm-large-chinese部分層中的歸一化塊由原始的層歸一化layernorm算法修改為反正切arctangent算法,原始layernorm算法依賴均值和方差實現(xiàn)歸一化效果,當(dāng)輸入樣本中存在極端值時,均值和方差會被拉偏,導(dǎo)致歸一化效果不穩(wěn)定,且計算輸入樣本的均值和方差,會產(chǎn)生較大的計算開銷,拖慢模型速度,而arctangent算法則能通過非線性映射直接壓縮極端值,可有效減少極端值對模型的影響,并且無需計算輸入樣本的均值和方差,能夠有效提升模型速度,arctangent算法如下:

24、

25、式中,x表示arctangent算法的輸入,是一個多維張量,arct(x)表示arctangent算法對輸入x的計算結(jié)果,也是一個多維張量,w和b分別表示權(quán)重和偏置,均為向量參數(shù),π表示圓周率,arctan(?)表示反正切函數(shù),α表示縮放因子,是一個在訓(xùn)練過程中可學(xué)習(xí)的標(biāo)量參數(shù);

26、s62:針對經(jīng)過步驟s61修改結(jié)構(gòu)后的glm-large-chinese模型,使用葡萄酒領(lǐng)域知識數(shù)據(jù)對其進行指令微調(diào)訓(xùn)練,使其在提質(zhì)增速的同時,獲得上下文壓縮的能力,獲得一個壓縮模型;

27、s63:使用在步驟s62中獲得的壓縮模型對經(jīng)過步驟s5重排序后得到的topn個文本塊進行更為細致的內(nèi)容篩選,提煉出每個文本塊中最為核心、與用戶提問關(guān)聯(lián)度最高的內(nèi)容,并將這些提煉出的內(nèi)容組織成最終的上下文內(nèi)容。

28、進一步,在步驟s7中,將用戶提問與經(jīng)過步驟s6壓縮后得到的上下文內(nèi)容進行深度融合,然后通過精心設(shè)計的提示詞框架,將其傳遞至開源llm中生成最終答案。

29、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點與有益效果:

30、1、本發(fā)明設(shè)計了一條領(lǐng)域知識庫構(gòu)建路線,充分發(fā)揮pkl文件庫、向量數(shù)據(jù)庫和知識圖譜的各自優(yōu)勢,對葡萄酒領(lǐng)域的龐雜知識進行全方位解析與結(jié)構(gòu)化存儲,集成度高、響應(yīng)速度快。

31、2、本發(fā)明提出了多路徑檢索方法,通過綜合利用稀疏檢索、圖譜檢索和密集檢索三條路徑進行并行檢索,充分發(fā)揮不同檢索方式的獨特優(yōu)勢,從多個維度獲取相關(guān)知識,極大地拓寬了信息檢索的視野,大幅提升了檢索的精準(zhǔn)度和召回率。

32、3、本發(fā)明使用反正切算法替換通用語言模型一部分層中的層歸一化算法,并使用葡萄酒領(lǐng)域知識數(shù)據(jù)對其進行指令微調(diào)訓(xùn)練,獲得一個提質(zhì)增速的壓縮模型,用來對多路徑檢索結(jié)果進行快速且精準(zhǔn)地壓縮,可以顯著縮短傳遞給llm的上下文內(nèi)容長度,減少不相關(guān)信息的干擾,極大提高了llm生成答案的質(zhì)量和準(zhǔn)確性。

33、總之,本發(fā)明能通過構(gòu)建多元化的葡萄酒領(lǐng)域知識庫、使用多路徑檢索方法、微調(diào)訓(xùn)練壓縮模型對檢索結(jié)果進行壓縮等策略,大幅提升傳遞至llm的上下文內(nèi)容的質(zhì)量,進而提升最終生成答案的效果。

當(dāng)前第1頁1 2 
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 留言:0條
  • 還沒有人留言評論。精彩留言會獲得點贊!
1