本發明涉及文本處理,尤其是涉及一種llm文本處理方法。
背景技術:
1、llm是指一種大語言模型,llm的技術廣泛應用于自動回復、文本分類、情感分析、機器翻譯、智能問答、信息提取和摘要生成等。
2、llm包括檢索增強生成技術,增強生成技術目前一般先收集網絡上的資料并進行存儲以形成知識庫,再將輸入llm的問題文字與知識庫進行檢索對比后得到備選文本,經過問題文字與備選文本的對比情況對備選文本進行排序,使與問題文字最相關的片段放置在備選文本的段首,將排列后的備選文本輸送至llm進行回答。
3、在問題文字與知識庫進行檢索對比的過程中,知識庫會將存在與問題文字相關的整個段落進行輸送,從而影響llm檢索的準確性。
技術實現思路
1、為了提高llm檢索的準確性,本發明提供一種llm文本處理方法。
2、第一方面,本發明提供一種llm文本處理方法,采用如下的技術方案:
3、一種llm文本處理方法,包括:
4、獲取預設的識別區域中的輸入問題信息;
5、將輸入問題信息輸入至預設的分詞數據庫中以輸出問題詞匯;
6、將問題詞匯輸入至預設的詞匯數據庫中以輸出同義詞匯、互斥詞匯以及縮略詞匯,并將問題詞匯、同義詞匯、互斥詞匯以及縮略詞匯定義為詢問詞匯;
7、根據詢問詞匯以輸出最終問題信息;
8、根據最終問題信息通過預設的初檢方法以查找出基準回答信息與所對應的路徑;
9、將基準回答信息與路徑輸入至預設的優先數據庫中以匹配出優先級;
10、從匹配出的優先級中確定出優先級最高的基準回答信息,并將優先級最高的基準回答信息定義為初檢回答信息;
11、根據初檢回答信息通過預設的精檢方法以查找出精檢回答信息;
12、將精檢回答信息作為最終回答文本并進行上傳顯示。
13、通過采用上述技術方案,通過對輸入問題信息中的詞匯以及詞匯數據庫進行分析以得到最終問題信息,并通過初檢方法以得到基準回答信息與所對應的路徑,再通過優先數據庫對基準回答信息與路徑進行優先級區分以得到初檢回答信息,并通過精檢方法以查找出精檢回答信息,最后將精檢回答信息作為最終回答文本進行上傳顯示,通過初檢方法與精檢方法能夠進一步篩選出符合輸入問題信息的最終回答文本,以提高llm檢索的準確性。
14、可選的,初檢方法包括:
15、將預設的文本集中包含全部詢問詞匯的回答信息定義為第一級;
16、將第一級所對應的回答信息作為基準回答信息。
17、可選的,初檢方法還包括:
18、將路徑中的最后一級定義為最后路徑,將詢問詞匯在最后路徑中查找出的詞匯為已知詞匯,將詢問詞匯在最后路徑中未經查找出的詞匯為未知詞匯;
19、將最后路徑上包含至少兩個已知詞匯且于預設的文本集中包含至少一個未知詞匯的回答信息定義為第一級。
20、可選的,初檢方法還包括:
21、將詢問詞匯在預設的文本集中查找出的詞匯為文本已知詞匯,將詢問詞匯在預設的文本集中未經查找出的詞匯為文本未知詞匯;
22、將路徑中包含至少一個文本已知詞匯且預設的文本集中包含至多有兩個未知詞匯的回答信息定義為第二級;
23、將第二級所對應的回答信息為基準回答信息。
24、可選的,初檢方法還包括:
25、將第一級中最后路徑上的已知詞匯進行計數,以篩選出最多的已知詞匯所對應的回答信息并定義為第一級,將剩余的已知詞匯所對應的回答信息并定義為第三級;
26、將第三級所對應的回答信息為基準回答信息。
27、可選的,初檢方法還包括:
28、將最后路徑上包含兩個已知詞匯且于預設的文本集中不包含未知詞匯的回答信息定義為第三級。
29、通過采用上述技術方案,通過詢問詞匯于文本集中的存在情況以對輸入問題信息所相關的回答信息分為一級、二級以及三級,從而能夠減少llm的檢索范圍,提高llm檢索的效率,并且后續將優先級最高的回答信息進行輸出,從而能夠直接顯示與輸入問題信息相關的回答。
30、可選的,初檢方法還包括:
31、獲取預設的文本集中相鄰詢問詞匯的詞匯距離值;
32、確定詞匯距離值是否落入預設的基準位置距離值之間;
33、若詞匯距離值未落入預設的基準位置距離值之間,則確定詢問詞匯是否落入預設的表格特征中;
34、若詢問詞匯不落入預設的表格特征中,則進行剔除;
35、若詞匯距離值落入預設的基準位置距離值之間或詢問詞匯落入預設的表格特征中,則對預設的文本集中詞匯距離值落入基準位置距離值的詢問詞匯之間的文本進行標記;
36、于詢問詞匯超出1時,將詢問詞匯定義為詢問詞匯組;
37、于文本集中出現重復的詢問詞匯組,則對文本集中相鄰重復的詢問詞匯組之間的文本進行標記。
38、通過采用上述技術方案,通過對文本集中相鄰詢問詞匯的詞匯距離值進行了解,并通過詞匯距離值與基準位置距離值的落入情況以篩選文本集中的文本,使最終傳給llm的文本片段長度依據詞匯距離值能夠進行動態調整,可大可小,避免固定長度文本引起的關鍵知識點丟棄或者文本過長以干擾llm回答準確率的缺陷,從而能夠進一步篩選出與輸入問題信息相關的文本,提高llm檢索的準確性。
39、可選的,初檢方法還包括:
40、根據詢問詞匯以預設的缺少數量以修正最終問題信息。
41、通過采用上述技術方案,通過不同的詢問詞匯所對應的數量進行檢索,從而能夠在輸入問題信息所對應語義的范圍內繼續進行篩選,以提高llm檢索的準確性。
42、可選的,精檢方法包括:
43、將文本集中標記的文本定義為標記文本;
44、根據路徑與標記文本輸入至預設的評分數據庫以計算出目標評分;
45、將各個目標評分進行正序排列,并根據排列后的目標評分以選取最小的目標評分作為選定評分;
46、計算選定評分與預設的基準系數之間的乘積,并將乘積值定義為基準評分;
47、從目標評分中選取出小于基準評分的目標評分所對應的路徑與標記文本作為精檢回答信息。
48、通過采用上述技術方案,通過對路徑與標記文本以預設的評分數據庫計算出目標評分,并將小于基準評分的目標評分所對應的路徑與標記文本作為精檢回答信息,通過對路徑與標記文本所對應的分數進一步篩選,以提高llm檢索的準確性。
49、可選的,評分數據庫的計算方法:
50、score綜合=(score向量/log16[1/6(n-1)3+(n-1)2+5/6(n-1)+1])×1/[(2-index×0.1)×(10elog2(m+1)+1)],
51、score綜合為目標評分,index為輸入問題信息于預設的標題數據庫中所對應的排名或分數,score向量為將輸入問題信息和預設的切片文本數據庫進行向量比對后所得的分數,n為輸入問題信息中截取的不同長度的文本字數,m為經過預設的重排模型進行排序后標記文本所對應的排名。
52、綜上所述,本技術包括以下至少一種有益技術效果:
53、1.通過對輸入問題信息中的詞匯以及詞匯數據庫進行分析以得到最終問題信息,并通過初檢方法以得到基準回答信息與所對應的路徑,再通過優先數據庫對基準回答信息與路徑進行優先級區分以得到初檢回答信息,并通過精檢方法以查找出精檢回答信息,最后將精檢回答信息作為最終回答文本進行上傳顯示,通過初檢方法與精檢方法能夠進一步篩選出符合輸入問題信息的最終回答文本,以提高llm檢索的準確性;
54、2.通過對文本集中相鄰詢問詞匯的詞匯距離值進行了解,并通過詞匯距離值與基準位置距離值的落入情況以篩選文本集中的文本,從而能夠進一步篩選出與輸入問題信息相關的文本,提高llm檢索的準確性;
55、3.通過對路徑與標記文本以預設的評分數據庫計算出目標評分,并將小于基準評分的目標評分所對應的路徑與標記文本作為精檢回答信息,通過對路徑與標記文本所對應的分數進一步篩選,以提高llm檢索的準確性。