麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于TextRAG和VisRAG的融合方法與流程

文檔序號(hào):41774040發(fā)布日期:2025-04-29 18:46閱讀:6來源:國(guó)知局
基于TextRAG和VisRAG的融合方法與流程

本發(fā)明涉及檢索增強(qiáng)生成,尤其涉及一種基于textrag和visrag的融合方法。


背景技術(shù):

1、檢索增強(qiáng)生成(retrieval-augmented?generation,rag)是一種將信息檢索與文本生成相結(jié)合的技術(shù),旨在通過引入外部知識(shí)源來增強(qiáng)語(yǔ)言模型的生成能力。在知識(shí)問答等應(yīng)用場(chǎng)景中,rag方法具有顯著優(yōu)勢(shì),它能夠利用知識(shí)庫(kù)中的信息為模型提供更準(zhǔn)確、豐富的回答依據(jù),減少模型生成內(nèi)容的不確定性和錯(cuò)誤率。然而,傳統(tǒng)rag方法存在一些局限性,其主要依賴文本信息進(jìn)行檢索和回答,對(duì)于包含圖像等多模態(tài)信息的知識(shí)利用不足。在rag的體系中,textrag專注于文本層面的檢索增強(qiáng),visrag則致力于引入視覺信息,通過將文檔轉(zhuǎn)換成圖片,進(jìn)行檢索和增強(qiáng)生成。

2、textrag通過文本相似度計(jì)算來抽取與問題相關(guān)的top-k文本內(nèi)容,在處理文本信息方面具有一定的有效性。它能夠快速定位到知識(shí)庫(kù)中與問題語(yǔ)義相似的文本段落,為后續(xù)回答提供文本依據(jù)。但是,textrag的局限性在于僅依靠文本信息,對(duì)于一些需要視覺輔助理解的內(nèi)容(如包含圖像、圖表等的文檔)無法充分挖掘其信息價(jià)值,可能導(dǎo)致回答不夠全面或者準(zhǔn)確。

3、vis旨在將視覺信息融入rag框架,通過將一頁(yè)文檔看作是一張圖片,利用了豐富的視覺信息,為知識(shí)回答提供更豐富的信息來源。其優(yōu)勢(shì)在于能夠利用圖像中的視覺特征補(bǔ)充文本信息,使模型更好地理解復(fù)雜的知識(shí)內(nèi)容,尤其適用于涉及圖像描述、圖表解讀等場(chǎng)景,然而,visrag單獨(dú)使用時(shí),由于缺乏對(duì)文本信息的深度挖掘,可能在文本相關(guān)的語(yǔ)義理解和檢索準(zhǔn)確性上存在不足,無法充分發(fā)揮其在多模態(tài)知識(shí)問答中的潛力。

4、圖文大模型(例如:qwen2-72b-vl)在rag領(lǐng)域的應(yīng)用為解決上述問題提供了可能,這些模型具備處理圖文多模態(tài)信息的能力,能夠同時(shí)理解文本和圖像的語(yǔ)義,并在二者之間建立聯(lián)系。在rag應(yīng)用中,圖文大模型能夠接收文本問題和相關(guān)圖像作為輸入,生成綜合了文本和圖像信息的回答。但是,目前在如何將圖文大模型與textrag和visrag進(jìn)行有效整合,以構(gòu)建一個(gè)高效、準(zhǔn)確的rag系統(tǒng)方面,仍缺乏完善的解決方案。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題是:為了解決現(xiàn)有rag方法在利用多模態(tài)信息方面不足的技術(shù)問題,本發(fā)明提供一種基于textrag和visrag的融合方法,通過融合textrag和visrag,實(shí)現(xiàn)文本與圖像信息的有效協(xié)同,能夠提高知識(shí)問答的準(zhǔn)確性和豐富度,同時(shí),還能夠優(yōu)化檢索和生成的過程,提升系統(tǒng)整體性能,以適應(yīng)復(fù)雜的實(shí)際應(yīng)用場(chǎng)景。

2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于textrag和visrag的融合方法,包括以下步驟:

3、s1、問題切分和編碼,問題切分是指:采用字符級(jí)的切分方法對(duì)問題進(jìn)行切分,以得到一個(gè)字符級(jí)的單詞數(shù)組;

4、s2、文檔載入和圖片化,根據(jù)知識(shí)庫(kù)不同類型的文檔,采用對(duì)應(yīng)的載入方法將文檔轉(zhuǎn)換成文本形式;

5、s3、文檔信息增強(qiáng),采用文本切分方法將文本文檔切分成文本塊,然后采用llms生成文本塊的表和假想查詢問題,接著將標(biāo)題、假想查詢和文本內(nèi)容拼接起來,對(duì)其再進(jìn)行一次字符級(jí)的切分,然后去停用詞,每個(gè)文本塊都能夠得到一個(gè)詞組;

6、s4、文檔編碼,將每個(gè)文本塊的文本標(biāo)題、假想查詢、文本內(nèi)容進(jìn)行拼接,采用字符級(jí)的切分方式將文本塊切分成一個(gè)個(gè)詞語(yǔ),去停用詞后對(duì)每個(gè)單詞編碼;

7、s5、相似度計(jì)算,通過計(jì)算問題編碼和知識(shí)庫(kù)所有的文本塊編碼的相似度,篩選出與問題最為相關(guān)的前10個(gè)文本塊;

8、s6、top-k文本圖片檢索;

9、s7、多模態(tài)問答;

10、s8、回答引用生成,對(duì)llms的回答增加引用標(biāo)簽,以增加知識(shí)問答結(jié)果的準(zhǔn)確性。

11、由此,通過融合textrag和visrag,能夠直接借助textrag的rerank方法做進(jìn)一步的過濾,以獲取最相關(guān)的文本引用,同時(shí),在后續(xù)的大模型回答時(shí),還能夠添加引用位置對(duì)回答結(jié)果進(jìn)行溯源,以增加回答的容錯(cuò)率,在外,借助visrag,對(duì)于一些易在textrag中被拆分的表格,難以用文字完整描述的圖片,甚至一些思維導(dǎo)圖、邏輯代碼等多模態(tài)元素,能夠以完整的信息形式輸入給多模態(tài)大模型,從而保證了輸入數(shù)據(jù)的完整性,進(jìn)而保證了輸出結(jié)果的準(zhǔn)確性;

12、致力于突破傳統(tǒng)局限,為知識(shí)問答帶來更卓越的表現(xiàn);與傳統(tǒng)方法相比,該方法在提升準(zhǔn)確性方面獨(dú)居匠心;其核心在于采用基于字符級(jí)別的令牌編碼技術(shù),深入到文本的最基本構(gòu)成元素——字符層面;在自然語(yǔ)言處理中,令牌化雖常將文本分解為單詞或者短語(yǔ),但是該方法專注于字符級(jí)別的令牌處理;這種細(xì)顆粒的方式為理解和處理文本提供了全新視角,對(duì)提高知識(shí)問答系統(tǒng)的準(zhǔn)確性具有不可忽視的重要性;

13、構(gòu)建基于字符級(jí)別令牌編碼的知識(shí)問答系統(tǒng),無需額外增加知識(shí)輸入,卻能夠在保持高速運(yùn)行速度的同時(shí),顯著提升性能;

14、在融合textrag和visrag方面,該方式充分發(fā)揮二者的優(yōu)勢(shì),textrag在文本檢索中通過文本相似度計(jì)算抽取相關(guān)文本內(nèi)容,為后續(xù)處理提供基礎(chǔ)文本信息,而visrag則專注于引入視覺信息,將文本與圖像等視覺元素關(guān)聯(lián)起來,通過合理的流程設(shè)計(jì),使得文本信息與視覺信息得以協(xié)同工作,共同為知識(shí)問答貢獻(xiàn)力量。

15、進(jìn)一步地,所述s1包括以下步驟:

16、s1-1、采用jieba分詞器對(duì)問題切分成一個(gè)個(gè)單詞;

17、s1-2、基于一個(gè)常用的停用詞語(yǔ),去除其中的停用詞,以得到一個(gè)單詞數(shù)組q;

18、s1-3、采用一個(gè)深度學(xué)習(xí)的文本編碼器將每個(gè)單詞編碼成768維的數(shù)值向量

19、進(jìn)一步地,在s1-2中,單詞數(shù)組q的表達(dá)式為:

20、q=q1q2...qn;

21、在s1-3中,去停用詞后問題的第個(gè)i單詞qi的數(shù)值向量的表達(dá)式為:

22、

23、所有單詞的編碼構(gòu)成的矩陣vq的表達(dá)式為:

24、

25、其中:qi表示去停用詞后問題的第個(gè)i單詞。

26、進(jìn)一步地,在s2中,采用開源工具langchain提供的文檔載入函數(shù),支持doc、docx、pdf、markdown、csv、xslx、txt、html、ppt格式的文檔;

27、文檔圖片化是指:將文檔的每一頁(yè)轉(zhuǎn)換成圖片,并保存到文檔圖片數(shù)據(jù)庫(kù)中,為后續(xù)的多模態(tài)大模型問答提供方便;

28、文檔圖片化是將多種格式文檔的每一頁(yè)轉(zhuǎn)換成圖片的操作。

29、進(jìn)一步地,所述s3包括以下步驟:

30、s3-1、預(yù)設(shè)一個(gè)文本塊最大的長(zhǎng)度和相鄰文本塊之間最大重疊長(zhǎng)度,設(shè)置切分的關(guān)鍵字符為“\n”、“.”、“,”、“。”、“\t”;

31、s3-2、調(diào)用langchain的recursivecharactertextsplitter方法對(duì)每個(gè)文本塊進(jìn)行切分。

32、進(jìn)一步地,所述s4包括以下步驟:

33、s4-1、將文本標(biāo)題、假想查詢、文本內(nèi)容按照以下順序拼接起來:

34、“標(biāo)題:{文本標(biāo)題}

35、查詢:{假想查詢}

36、正文:{文本內(nèi)容}”;

37、s4-2、采用jieba分詞器將拼接的內(nèi)容進(jìn)行分詞,再使用通用的停用詞表去除停用詞,以得到一個(gè)詞語(yǔ)數(shù)組d;

38、s4-3、將詞語(yǔ)數(shù)組d中的每個(gè)詞語(yǔ)使用m3e文本編碼模型轉(zhuǎn)換成768維的數(shù)值向量所有單詞構(gòu)成了一個(gè)數(shù)值矩陣vd;

39、在s4-2中,詞語(yǔ)數(shù)組d的表達(dá)式為:

40、d=d1d2...dm;

41、其中:dj表示去停用詞后的文檔的第j個(gè)詞語(yǔ)

42、在s4-3中,數(shù)值向量的表達(dá)式為:

43、

44、數(shù)值矩陣vd的表達(dá)式為:

45、

46、進(jìn)一步地,所述s5包括以下步驟:

47、s5-1、對(duì)于問題編碼矩陣vq和文本塊編碼矩陣vd,計(jì)算問題q和文本塊d的maxsim值作為計(jì)算問題q和文本塊d的文本相似度;

48、s5-2、對(duì)于知識(shí)庫(kù)中所有的文本塊d1、d2、...、dv,分別計(jì)算其與問題q的maxsim值,以得到得分s1、s2、...、sv;

49、s5-3、對(duì)si按照從大到小進(jìn)行排序,篩選出前10個(gè)si對(duì)應(yīng)的文本塊d1、d2、...、d10;

50、其中:sj為dj和問題q的maxsim得分;

51、在s5-1中,maxsim值的計(jì)算公式為:

52、

53、進(jìn)一步地,所述s6包括以下步驟:

54、s6-1、根據(jù)s5抽取的top-10文本塊,通過其屬性doc_id和page_num定位到對(duì)應(yīng)的文檔和文檔的頁(yè)碼對(duì)應(yīng)的文檔圖片,假設(shè)對(duì)應(yīng)的文檔圖片為p1、p2、...、p10;

55、s6-2、根據(jù)doc_id和頁(yè)碼page_num刪除重復(fù)的文檔圖片,以得到文檔圖片p1、p2、...、pn;

56、其中:n≤10。

57、進(jìn)一步地,在s7中,將問題和最相關(guān)的前10個(gè)文本塊內(nèi)容對(duì)應(yīng)的文檔圖片p1、p2、...、pn通過構(gòu)造成vlms的輸入,vlms的輸出就是所給問題的答案。

58、進(jìn)一步地,所述s8包括以下步驟:

59、s8-1、以“。”、“、”、“!”、“?”、“\n”作為橘子的結(jié)束符,對(duì)llms的回答進(jìn)行句子級(jí)的切分;

60、s8-2、對(duì)每個(gè)句子采用jieba分詞器分詞,去停用詞后進(jìn)行單詞級(jí)別的編碼,以得到每個(gè)句子s的數(shù)據(jù)矩陣vs;

61、s8-3、計(jì)算句子s與s5獲取的10個(gè)相關(guān)文本塊的maxsim值,若這10相關(guān)文本塊d1、d2、...、d10的最大maxsim值大于預(yù)設(shè)閾值0.7,則執(zhí)行s8-4,否則,執(zhí)行s8-5;

62、s8-4、認(rèn)為該句子需要打上引用標(biāo)簽,引用標(biāo)簽為maxsim最大的文本塊在這10個(gè)相關(guān)文本塊中的序號(hào);

63、s8-5、認(rèn)為該句子僅起到過度作用,不需要引用標(biāo)簽;

64、其中:每個(gè)句子s的數(shù)據(jù)矩陣vs的表達(dá)式為:

65、

66、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

67、通過融合textrag和visrag,能夠直接借助textrag的rerank方法做進(jìn)一步的過濾,以獲取最相關(guān)的文本引用,同時(shí),在后續(xù)的大模型回答時(shí),還能夠添加引用位置對(duì)回答結(jié)果進(jìn)行溯源,以增加回答的容錯(cuò)率,在外,借助visrag,對(duì)于一些易在textrag中被拆分的表格,難以用文字完整描述的圖片,甚至一些思維導(dǎo)圖、邏輯代碼等多模態(tài)元素,能夠以完整的信息形式輸入給多模態(tài)大模型,從而保證了輸入數(shù)據(jù)的完整性,進(jìn)而保證了輸出結(jié)果的準(zhǔn)確性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 芜湖市| 邵阳县| 久治县| 香河县| 固安县| 建阳市| 兴安县| 凤凰县| 铜梁县| 综艺| 铜山县| 莒南县| 汕头市| 长泰县| 开化县| 清丰县| 马鞍山市| 武汉市| 桐柏县| 靖州| 获嘉县| 丹凤县| 曲阜市| 济源市| 桃园市| 永德县| 平乐县| 津南区| 夏河县| 肥西县| 綦江县| 教育| 庆云县| 嘉义市| 商城县| 大姚县| 海伦市| 鄂伦春自治旗| 洪湖市| 泰和县| 荣昌县|