本發明涉及信息檢索,尤其涉及一種檢索增強系統的召回方法及裝置。
背景技術:
1、在現代信息檢索系統中,召回率和準確率是衡量系統性能的關鍵指標。隨著用戶對信息檢索要求的提升,傳統的基于關鍵詞匹配的檢索方法逐漸暴露出其局限性。例如關鍵詞匹配方法通過索引數據庫中的文檔,根據用戶輸入的查詢詞(query)進行檢索,找到與查詢詞匹配的文檔。然而,這種方法依賴于查詢詞和文檔中詞匯的一致性,無法有效處理同義詞、近義詞以及不同表述方式的語義問題,導致召回率和準確率的不足。
2、為了提升檢索性能,近年來許多研究者開始引入基于向量表示的方法。例如,基于詞嵌入(word?embeddings)的方法,如word2vec、bert等,可以將詞匯映射到向量空間,通過計算向量之間的距離或相似度來判斷文本之間的相似性。這種方法在一定程度上解決了語義匹配的問題。然而,詞嵌入方法仍然存在一些不足,如無法有效捕捉長文本的全局語義信息,對短文本或特定領域的文本處理效果有限。
3、隨著深度學習技術的發展,預訓練語言模型(如bert、gpt-3等)逐漸成為文本表示和檢索任務的主流方法。這些模型通過大規模語料的預訓練,能夠生成具有豐富語義信息的文本向量表示,并通過微調(fine-tuning)適應特定任務。
4、盡管現有的檢索技術在一定程度上提升了檢索系統的性能,但仍然存在以下幾方面的顯著缺陷和不足:
5、(1)關鍵詞匹配的局限性:傳統的關鍵詞匹配方法依賴于查詢詞與文檔中詞匯的一致性,無法有效處理同義詞、近義詞和不同表述方式的語義問題。這種方法對用戶輸入的查詢要求較高,容易導致召回率不足,尤其在語義復雜的檢索任務中表現不佳。
6、(2)詞嵌入方法的局限性:基于詞嵌入的檢索方法雖然能夠一定程度上處理語義問題,但對長文本的全局語義捕捉能力有限。詞嵌入方法通常只能表示單詞級別的語義關系,無法充分利用句子或段落級別的語義信息,導致在長文本和特定領域文本處理時效果欠佳。
7、(3)預訓練語言模型:預訓練語言模型(如bert、gpt-3等)盡管在許多自然語言處理任務中表現出色,但其應用仍面臨一些挑戰。某些特定領域或任務中,預訓練模型的泛化能力可能不足,導致檢索效果不理想。
8、(4)召回結果的一致性問題:現有的檢索方法在進行召回時,可能會返回相互矛盾或不一致的結果。這種不一致性會影響用戶的檢索體驗,降低檢索結果的可信度。在實際應用中,如何確保召回結果的一致性是一個重要的挑戰。
9、綜合上述問題,可以看出現有的檢索方法在提升系統召回率、準確率和結果一致性方面仍有很大的改進空間。
技術實現思路
1、針對背景技術中存在的問題,提出一種檢索增強系統的召回方法及裝置,通過主題模型和聚類模型提取和分析知識點的特征,提高了知識點的準確性和可用性。通過將es召回結果轉化為向量,使得文本信息得以量化和表征,提高了召回的精確性。通過對召回結果進行一致性檢驗,保證了召回結果的準確性和可靠性。
2、本發明提出一種檢索增強系統的召回方法,步驟包括:
3、s1、知識點入庫:使用模型提取和分析知識點的特征,得到知識點的主題詞和聚類的類別;在存入了知識點本身的同時,將知識點的主題詞和聚類的類別作為知識點的特征字段一同入庫;
4、s2、召回增強:用戶輸入的query,先經過es關鍵詞匹配召回,得到es召回結果,然后es召回結果轉化為向量,再從向量知識庫中匹配獲得相似的結果,以作為召回增強的方式;
5、s3、召回結果一致性檢驗:經過前一步的召回增強,獲得召回后的結果,但召回的結果可能存在相互矛盾的地方,此時通過模型輸出判斷一致性判斷結果;
6、s4、模型總結:將一致性檢驗后得到的召回結果放入生成式模型中,進行最終的結果總結,獲得最終的召回結果。
7、優選的,在知識點入庫的過程中,采用了兩種不同的模型來進一步提取和分析知識點的特征;第一種是有監督訓練的主題模型,另一種是聚類模型。
8、優選的,主題模型模型用于幫助找出知識點中的主題詞。
9、優選的,通過聚類模型將知識點根據其內容和特征進行分類,得到每個知識點所屬的類別。
10、優選的,在將知識點存入知識庫的時候,不僅存入了知識點本身,還將通過主題模型和聚類模型得到的主題詞和類別一同存入,使得每個知識點在知識庫中都有了自己的特征字段;字段包括知識點的主題詞和類別。
11、優選的,基于向量的相似度,找到和es召回結果最相似的文檔或者信息。
12、優選的,使用一致性判別模型,通過遍歷query和每條召回結果,給出一致性判斷結果;如果模型判斷召回結果中的信息是一致的,則保留這個召回結果,否則將丟棄這個召回結果。
13、本發明又提出檢索增強系統的召回裝置,基于上述的檢索增強系統的召回方法,包括:
14、知識點入庫模塊,知識點入庫模塊采用監督訓練的主題模型和聚類模型提取和分析知識點的特征,得到知識點的主題詞和聚類的類別;在對知識點本身入庫的同時,將知識點的主題詞和聚類的類別作為知識點的特征字段一同入庫;
15、召回增強模塊,召回增強模塊提供用戶輸入query的輸入端,經過es關鍵詞匹配召回后反饋es召回結果,然后將es召回結果轉化為向量,最后基于向量的相似度,找到和es召回結果最相似的文檔或者信息;
16、召回結果一致性檢驗模塊,召回結果一致性檢驗模塊通過一致性判別模型,配合遍歷query和每條召回結果,對獲得的召回后的結果進行一致性判斷;
17、以及模型總結模塊,模型總結模塊用于將一致性檢驗后得到的召回結果放入生成式模型中,進行最終的結果總結,以獲得最終的召回結果。
18、與現有技術相比,本發明具有如下有益的技術效果:
19、(1)本發明通過知識點入庫的方式,結合主題模型、聚類模型和召回增強機制,大幅提高了系統的召回率和準確率。與傳統關鍵詞匹配方法相比,基于本發明的方法能夠更準確地檢索到用戶所需的信息,尤其在處理復雜查詢和長文本時表現尤為突出。
20、(2)本發明通過一致性判別模型,對召回結果進行一致性檢驗和調整,確保最終結果在語義上的一致性。這一設計顯著提升了檢索結果的可信度和用戶體驗,避免了傳統檢索系統中常見的結果矛盾問題。
21、(3)本發明通過生成式模型對一致性檢驗后的召回結果進行總結,提供了簡潔、準確的最終檢索結果。
1.一種檢索增強系統的召回方法,其特征在于,步驟包括:
2.根據權利要求1所述的檢索增強系統的召回方法,其特征在于,在知識點入庫的過程中,采用了兩種不同的模型來進一步提取和分析知識點的特征;第一種是有監督訓練的主題模型,另一種是聚類模型。
3.根據權利要求2所述的檢索增強系統的召回方法,其特征在于,主題模型模型用于幫助找出知識點中的主題詞。
4.根據權利要求3所述的檢索增強系統的召回方法,其特征在于,通過聚類模型將知識點根據其內容和特征進行分類,得到每個知識點所屬的類別。
5.根據權利要求4所述的檢索增強系統的召回方法,其特征在于,在將知識點存入知識庫的時候,不僅存入了知識點本身,還將通過主題模型和聚類模型得到的主題詞和類別一同存入,使得每個知識點在知識庫中都有了自己的特征字段;字段包括知識點的主題詞和類別。
6.根據權利要求1所述的檢索增強系統的召回方法,其特征在于,基于向量的相似度,找到和es召回結果最相似的文檔或者信息。
7.根據權利要求1所述的檢索增強系統的召回方法,其特征在于,使用一致性判別模型,通過遍歷query和每條召回結果,給出一致性判斷結果;如果模型判斷召回結果中的信息是一致的,則保留這個召回結果,否則將丟棄這個召回結果。
8.檢索增強系統的召回裝置,其特征在于,基于權利要求1中的檢索增強系統的召回方法,包括: