麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種查詢改寫方法以及查詢改寫裝置與流程

文檔序號:41223771發布日期:2025-03-11 14:02閱讀:39來源:國知局
一種查詢改寫方法以及查詢改寫裝置與流程

本技術涉及云計算領域,尤其涉及一種查詢改寫方法以及查詢改寫裝置。


背景技術:

1、詞嵌入(word?embedding)技術也稱為詞向量技術,它是一種在自然語言處理領域中將詞轉換為向量的技術。

2、目前有一種詞嵌入方法大致如下:獲取查詢語句以及查詢語句對應的文檔,將文檔作為查詢語句的上下文,將查詢語句和上下文都轉為詞向量之后,根據向量相似度選取待改詞以及待改詞的近義詞,將查詢語句中的待改詞替換為近義詞之后,利用改寫后的查詢語句進行查詢。

3、但是,上述方法容易選取非指定領域的近義詞,這樣改寫查詢語句后,會查詢到不符合用戶期望的結果。


技術實現思路

1、本技術提供一種查詢改寫方法,該方法根據領域信息在指定領域中查找關鍵詞的近義詞,這樣可以減少用其他領域的近義詞改寫查詢語句的情況,能夠在查詢結果中減少與其他領域相關的內容,從而提高召回準確率。

2、第一方面提供一種查詢改寫方法,該方法包括:查詢改寫裝置從來自用戶的查詢語句獲取關鍵詞之后,確定關鍵詞的領域信息,然后從領域信息關聯的詞間關系本體中獲取關鍵詞的近義詞,將查詢語句改寫為包括近義詞的目標查詢語句。領域信息包括領域或領域中的場景。

3、依此實施,能夠根據領域信息在指定領域中查找關鍵詞的近義詞,這樣可以減少用其他領域的近義詞改寫查詢語句的情況,能夠在查詢結果中減少與其他領域相關的內容,從而提高召回準確率。

4、在一些可能的實現方式中,查詢改寫裝置從領域信息關聯的詞間關系本體中獲取關鍵詞的近義詞包括:查詢改寫裝置獲取領域信息關聯的目標向量空間之后,確定在目標向量空間中關鍵詞的詞向量到其他詞向量的詞向量距離,按照從小到大的次序將計算得到的全部向量距離排列,確定關鍵詞的n個近義詞為前n個詞向量距離對應的詞。其中,原始向量空間包括領域信息關聯的詞間關系本體中全部詞的初始詞向量。

5、由于目標向量空間的向量中非近義詞對的詞向量距離大于原始向量空間中非近義詞對的詞向量距離且目標向量空間的向量中近義詞對的詞向量距離小于原始向量空間中近義詞對的詞向量距離,因此與根據原始向量空間的向量距離獲取近義詞相比,根據目標向量空間的向量距離能夠更好地區分近義詞和非近義詞,能夠降低將非近義詞作為近義詞的概率,提高獲取近義詞的準確性,從而提高查詢改寫的準確性。

6、在一些可能的實現方式中,本技術的查詢改寫方法還包括:查詢改寫裝置根據n個目標查詢語句從知識庫中獲取n個文檔后,根據n個文檔與關鍵詞的相似度值中的最大相似度值確定第一目標文檔,將第一目標文檔輸入大語言模型,通過大語言模型輸出第一查詢結果。目標查詢語句與關鍵詞的近義詞一一對應。n個文檔與關鍵詞的相似度值可以反映文檔與用戶期望結果的相關度,最大相似度值對應的文檔可以認為是最符合用戶期望的文檔,將其輸入大語言模型之后,大語言模型可以根據該文檔生成最符合用戶期望的答案。

7、在一些可能的實現方式中,本技術的查詢改寫方法還包括:查詢改寫裝置根據查詢語句從知識庫中獲取第二目標文檔,當第一目標文檔與關鍵詞的相似度值大于第二目標文檔與關鍵詞的相似度值時,觸發查詢改寫裝置將第一目標文檔輸入大語言模型的步驟。這樣能夠比較改寫后的查詢語句對應的查詢結果(即第一目標文檔)和改寫前的查詢語句對應的查詢結果,根據比較結果可以判斷改寫是否改善了查詢準確性。

8、在一些可能的實現方式中,查詢改寫裝置從領域信息關聯的詞間關系本體中獲取關鍵詞的近義詞包括:查詢改寫裝置獲取領域信息關聯的目標向量空間,確定在目標向量空間中關鍵詞的詞向量到其他詞向量的詞向量距離,從確定的詞向量距離中確定最小詞向量距離,再確定關鍵詞的近義詞為最小詞向量距離對應的詞。其中,原始向量空間包括領域信息關聯的詞間關系本體中全部詞的初始詞向量。

9、由于目標向量空間的向量中非近義詞對的詞向量距離大于原始向量空間中非近義詞對的詞向量距離且目標向量空間的向量中近義詞對的詞向量距離小于原始向量空間中近義詞對的詞向量距離,因此與根據原始向量空間的向量距離獲取近義詞相比,根據目標向量空間的向量距離能夠更好地區分近義詞和非近義詞,能夠降低將非近義詞作為近義詞的概率,提高獲取近義詞的準確性,從而提高查詢改寫的準確性。

10、在一些可能的實現方式中,本技術的查詢改寫方法還包括:查詢改寫裝置根據目標查詢語句從知識庫中獲取第一組文檔,確定第一組文檔中全部文檔與關鍵詞的相似度值中的最大相似度值,再將最大相似度值對應的文檔輸入大語言模型,通過大語言模型輸出第二查詢結果。這樣能夠獲取文檔與關鍵詞的相似度值可以反映文檔與用戶期望結果的相關度,最大相似度值對應的文檔可以認為是最符合用戶期望的文檔,將其輸入大語言模型之后,大語言模型可以根據該文檔生成最符合用戶期望的答案。

11、在一些可能的實現方式中,本技術的查詢改寫方法還包括:查詢改寫裝置根據目標查詢語句從知識庫中獲取第二組文檔;對于第二組文檔中每個文檔,查詢改寫裝置獲取文檔與關鍵詞的相似度值以及文檔的困惑度值,根據文檔與關鍵詞的相似度值以及文檔的困惑度值確定文檔的分數,將最高分對應的文檔輸入大語言模型,通過大語言模型輸出第三查詢結果。由于分數與文檔與關鍵詞的相似度值正相關且和分數與文檔的困惑度值負相關,因此能夠選取符合用戶期望的文檔,還能夠保障文檔的準確性和泛化能力。

12、在另一些可能的實現方式中,目標向量空間是使用目標嵌入模型對原始向量空間處理所得,目標嵌入模型用于增加非近義詞對的詞向量距離以及減少近義詞對的詞向量距離。

13、在另一些可能的實現方式中,目標嵌入模型還用于降低目標向量空間中詞對的詞向量距離與原始向量空間中詞對的詞向量距離之間的距離差。

14、在一些可能的實現方式中,查詢改寫裝置從領域信息關聯的詞間關系本體中獲取關鍵詞的近義詞之前,本技術的查詢改寫方法還包括:查詢改寫裝置獲取領域信息關聯的詞間關系本體,根據領域信息關聯的詞間關系本體中全部詞的詞向量對初始嵌入模型進行訓練,將詞間關系本體中全部詞的詞向量輸入訓練得到的目標嵌入模型,通過目標嵌入模型輸出領域信息關聯的目標向量空間。

15、在一些可能的實現方式中,本技術的查詢改寫方法還包括:查詢改寫裝置將目標查詢語句的近義詞替換為用戶輸入的目標近義詞之后,將領域信息關聯的詞間關系本體更新為包括關鍵詞和目標近義詞的詞間關系本體。這樣能夠根據用戶改寫的近義詞更新領域信息關聯的詞間關系本體,基于更新后的詞間關系本體能夠對目標嵌入模型進行重訓練,從而更新目標向量空間,提高區分非近義詞和近義詞的能力。

16、在第一方面或第一方面的可能實現方式中,領域信息為領域,領域信息關聯的詞間關系本體包括通用同義詞集合、通用反義詞集合、領域近義詞集合和領域非近義詞集合。

17、在第一方面或第一方面的可能實現方式中,領域信息為領域中的場景,領域信息關聯的詞間關系本體包括通用同義詞集合、通用反義詞集合、場景近義詞集合和場景非近義詞集合。

18、第二方面提供一種查詢改寫裝置,其包括查詢改寫模塊,查詢改寫模塊用于從來自用戶的查詢語句獲取關鍵詞,確定關鍵詞的領域信息,從領域信息關聯的詞間關系本體中獲取關鍵詞的近義詞,將查詢語句改寫為包括近義詞的目標查詢語句。

19、在一些可能的實現方式中,查詢改寫模塊具體用于獲取領域信息關聯的目標向量空間,確定在目標向量空間中關鍵詞的詞向量到其他詞向量的詞向量距離;按照從小到大的次序將確定的詞向量距離排列;確定關鍵詞的n個近義詞為前n個詞向量距離對應的詞。

20、在一些可能的實現方式中,查詢改寫裝置還包括第一召回模塊和第一模型處理模塊,第一召回模塊用于根據n個目標查詢語句從知識庫中獲取n個文檔,根據n個文檔與關鍵詞的相似度值中的最大相似度值確定第一目標文檔;第一模型處理模塊用于將第一目標文檔輸入大語言模型,通過大語言模型輸出第一查詢結果。

21、在一些可能的實現方式中,第一召回模塊還用于根據查詢語句從知識庫中獲取第二目標文檔;當第一目標文檔與關鍵詞的相似度值大于第二目標文檔與關鍵詞的相似度值時,觸發第一模型處理模塊將第一目標文檔輸入大語言模型。

22、在一些可能的實現方式中,查詢改寫模塊具體用于獲取領域信息關聯的目標向量空間,確定在目標向量空間中關鍵詞的詞向量到其他詞向量的詞向量距離;確定關鍵詞的近義詞為最小詞向量距離對應的詞。

23、在一些可能的實現方式中,查詢改寫裝置還包括第二召回模塊和第二模型處理模塊,第二召回模塊用于查詢改寫裝置根據目標查詢語句從知識庫中獲取第一組文檔;確定第一組文檔中全部文檔與關鍵詞的相似度值中的最大相似度值;第二模型處理模塊用于將最大相似度值對應的文檔輸入大語言模型,通過大語言模型輸出第二查詢結果。

24、在一些可能的實現方式中,查詢改寫裝置還包括第三召回模塊和第三模型處理模塊,第三召回模塊還用于根據目標查詢語句從知識庫中獲取第二組文檔;對于第二組文檔中每個文檔,獲取文檔與關鍵詞的相似度值以及文檔的困惑度值;根據文檔與關鍵詞的相似度值以及文檔的困惑度值確定文檔的分數;第三模型處理模塊用于將最高分對應的文檔輸入大語言模型,通過大語言模型輸出第三查詢結果。

25、在一些可能的實現方式中,查詢改寫裝置還包括構建模塊,構建模塊用于獲取領域信息關聯的詞間關系本體;根據領域信息關聯的詞間關系本體中全部詞的詞向量對初始嵌入模型進行訓練;將詞間關系本體中全部詞的詞向量輸入訓練得到的目標嵌入模型,通過目標嵌入模型輸出領域信息關聯的目標向量空間。

26、在一些可能的實現方式中,查詢改寫模塊還用于將目標查詢語句的近義詞替換為用戶輸入的目標近義詞;?查詢改寫裝置還包括更新模塊,更新模塊用于將領域信息關聯的詞間關系本體更新為包括關鍵詞和目標近義詞的詞間關系本體。

27、第二方面中名詞解釋、各模塊執行的具體步驟和有益效果可參閱第一方面的相應描述。

28、第三方面提供一種計算設備集群。所述計算設備集群包括至少一臺計算設備,所述至少一臺計算設備包括至少一個處理器和至少一個存儲器。所述至少一個處理器、所述至少一個存儲器進行相互的通信。所述至少一個處理器用于執行所述至少一個存儲器中存儲的指令,以使得計算設備或計算設備集群執行如第一方面或第一方面的任一種實現方式所述的查詢改寫方法。

29、第四方面,本技術提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,所述指令指示計算設備或計算設備集群執行上述第一方面或第一方面的任一種實現方式所述的查詢改寫方法。

30、第五方面,本技術提供了一種包含指令的計算機程序產品,當其在計算設備或計算設備集群上運行時,使得計算設備或計算設備集群執行上述第一方面或第一方面的任一種實現方式所述的查詢改寫方法。

31、本技術在上述各方面提供的實現方式的基礎上,還可以進行進一步組合以提供更多實現方式。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 洪江市| 安庆市| 芦山县| 讷河市| 朔州市| 舒城县| 茶陵县| 梅州市| 壤塘县| 马鞍山市| 汝南县| 商城县| 兰坪| 平潭县| 贵德县| 丽水市| 会泽县| 武陟县| 南岸区| 亚东县| 和龙市| 万山特区| 武乡县| 射阳县| 年辖:市辖区| 阜南县| 临颍县| 仁化县| 乐业县| 泸州市| 基隆市| 青河县| 陇南市| 凤翔县| 九寨沟县| 泾阳县| 巩义市| 晋江市| 门头沟区| 台湾省| 高安市|