一種文檔檢索方法、裝置、設備和存儲介質與流程

文檔序號：41771665發布日期：2025-04-29 18:42閱讀：6來源：國知局

本發明涉及計算機，尤其涉及一種文檔檢索方法、裝置、設備和存儲介質。

背景技術：

1、在文檔檢索時，隨著知識庫數據量的快速增長，相關檢索方法面臨顯著挑戰。當知識庫數據量規模較小時，基于簡單索引就能高效地返回相關結果。然而，隨著知識庫數據量的急劇增加，相關方法的局限性也逐漸顯現。具體而言，知識庫內文檔數量和內容復雜性的增加，索引結構也變得龐大且復雜，不僅增加了維護和查詢索引的成本，也增加檢索過程的耗時，對計算資源的需求也大幅上升，最終導致檢索效率顯著下降。

技術實現思路

1、為了解決上述技術問題，本公開實施例提供了一種文檔檢索方法、裝置、設備和存儲介質。

2、第一方面，本公開實施例提供了一種文檔檢索方法，包括：

3、獲取查詢語句，并對所述查詢語句進行命名實體識別，得到第一實體列表；

4、將所述第一實體列表同預先構建的至少一個預設文檔類別對應的至少一個第二實體列表進行匹配，并根據生成的第一匹配結果確定至少一個候選文檔類別；

5、根據所述第一匹配結果對至少一個文本塊進行檢索，確定目標文本塊，其中，所述至少一個文本塊是對所述至少一個候選文檔類別包括的至少一個預設文檔進行文本解析得到的；

6、通過預先訓練好的語言模型對所述目標文本塊進行推理，生成所述查詢語句的回復語句。

7、可選的，所述將所述第一實體列表同預先構建的至少一個預設文檔類別對應的至少一個第二實體列表進行匹配，并根據生成的第一匹配結果確定至少一個候選文檔類別，包括：

8、查詢所述至少一個第二實體列表包括的至少一個第二命名實體中是否存在和所述第一實體列表包括的至少一個第一命名實體相同的目標命名實體，其中，所述至少一個第二命名實體是從所述至少一個預設文檔類別包括的至少一個預設文檔的摘要概括中識別到的；

9、若不存在所述目標命名實體，則計算所述第一實體列表和所述至少一個第二實體列表的相似度；并將計算得到的至少一個相似度中大于預設閾值的目標相似度對應的第二實體列表確定為目標實體列表；或者，

10、若存在所述目標命名實體，則將所述目標命名實體所在的第二實體列表確定為所述目標實體列表；

11、將所述目標實體列表對應的預設文檔類別確定為候選文檔類別。

12、可選的，所述根據所述第一匹配結果對至少一個文本塊進行檢索，確定目標文本塊，包括：

13、根據所述第一匹配結果對所述至少一個候選文檔類別包括的至少一個預設文檔進行篩選，確定至少一個候選文檔；

14、基于所述查詢語句對所述至少一個候選文檔進行檢索，確定目標文檔；

15、將所述第一實體列表和所述目標文檔對應的第三實體列表進行匹配，并根據生成的第二匹配結果在所述目標文檔包括的至少一個文本塊中確定目標文本塊，其中，所述第三實體列表包括從所述至少一個文本塊中識別到的至少一個第三命名實體。

16、可選的，所述第一匹配結果包括反應所述第一實體列表和所述至少一個第二實體列表匹配情況的第一匹配度，所述根據所述第一匹配結果對所述至少一個候選文檔類別包括的至少一個預設文檔進行篩選，確定至少一個候選文檔，包括：

17、獲取預先構建的所述至少一個候選文檔類別的文檔矩陣；

18、確定所述至少一個候選文檔類別對應的至少一個第二命名實體在所述文檔矩陣中的第一列序號以及第一行列數值，其中，所述第一列序號表示了第二命名實體在所述文檔矩陣中的列數，所述第一行列數值表示了第二命名實體在所述候選文檔類別包括的至少一個預設文檔中出現的次數；

19、根據所述第一匹配度、所述第一列序號和所述第一行列數值，生成所述候選文檔類別包括的至少一個預設文檔的第一排序結果；

20、根據所述第一排序結果，在所述候選文檔類別包括的至少一個預設文檔中確定至少一個候選文檔。

21、可選的，所述第二匹配結果包括反應所述第一實體列表和所述至少一個第三實體列表匹配情況的第二匹配度，所述根據生成的第二匹配結果在所述目標文檔包括的至少一個文本塊中確定目標文本塊，包括：

22、獲取預先構建的所述目標文檔的文本塊矩陣；

23、確定所述至少一個第三命名實體在所述文本塊矩陣中的第二列序號以及第二行列數值，其中，所述第二列序號表示了第三命名實體在所述文本塊矩陣中的列數，所述第二行列數值表示了第三命名實體在所述目標文檔包括的至少一個文本塊中出現的次數；

24、根據所述第二匹配度、所述第二列序號和所述第二行列數值，生成所述至少一個文本塊的第二排序結果；

25、根據所述第二排序結果，在所述至少一個文本塊中確定目標文本塊。

26、可選的，所述獲取查詢語句之前，所述方法還包括：

27、獲取所述至少一個預設文檔，并對所述至少一個預設文檔進行文檔解析生成所述至少一個文本塊；

28、對所述至少一個文本塊進行命名實體識別，得到第三實體列表，其中，所述第三實體列表包括至少一個第三命名實體；

29、統計所述至少一個第三命名實體在所述至少一個文本塊中出現的次數，得到第一次數；

30、根據所述第三實體列表、所述至少一個文本塊和所述第一次數，形成所述預設文檔的文本塊矩陣，其中，所述文本塊矩陣的列表示的是第三命名實體，所述文本塊矩陣的行表示的是文本塊，所述文本塊矩陣的行列數值表示的是所述第一次數。

31、可選的，對所述至少一個文本塊進行命名實體識別，得到第三實體列表，包括：

32、對所述至少一個文本塊進行命名實體識別，得到初始實體列表，其中，所述初始實體列表包括至少一個命名實體和至少一個指示代詞；

33、對所述至少一個文本塊進行語義分析，將所述至少一個指示代詞替換為對應的實體，得到第三實體列表。

34、可選的，所述獲取查詢語句之前，所述方法還包括：

35、對所述至少一個預設文檔的摘要概括進行命名實體識別，得到至少一個第二實體列表，其中，所述第二實體列表包括至少一個第二命名實體；

36、根據所述至少一個第二實體列表，計算所述至少一個預設文檔之間的相似度，并根據所述至少一個預設文檔之間的相似度將所述至少一個預設文檔劃分為至少一個預設文檔類別；

37、統計所述預設文檔類別對應的所述至少一個第二命名實體在所述預設文檔類別包括的至少一個預設文檔中出現的次數，得到第二次數；

38、針對所述預設文檔類別，根據對應的第二實體列表、至少一個預設文檔和所述第二次數，形成所述預設文檔類別的文檔矩陣，其中，所述文檔矩陣的列表示的是第二命名實體，所述文檔矩陣的行表示的是預設文檔，所述文檔矩陣的行列數值表示的是所述第二次數。

39、可選的，所述對所述查詢語句進行命名實體識別，得到第一實體列表之前，所述方法還包括：

40、獲取歷史數據，并基于所述歷史數據重寫所述查詢語句，其中，所述歷史數據是從所述查詢語句的至少一個之前語句中提取到的關鍵數據。

41、第二方面，本公開實施例提供了一種文檔檢索裝置，所述裝置包括：

42、獲取單元，用于獲取查詢語句，并對所述查詢語句進行命名實體識別，得到第一實體列表；

43、匹配單元，用于將所述第一實體列表同預先構建的至少一個預設文檔類別對應的至少一個第二實體列表進行匹配，并根據生成的第一匹配結果確定至少一個候選文檔類別；

44、檢索單元，用于根據所述第一匹配結果對至少一個文本塊進行檢索，確定目標文本塊，其中，所述至少一個文本塊是對所述至少一個候選文檔類別包括的至少一個預設文檔進行文本解析得到的；

45、推理單元，用于通過預先訓練好的語言模型對所述目標文本塊進行推理，生成所述查詢語句的回復語句。

46、第三方面，本公開實施例提供了一種文檔檢索設備，包括：

47、存儲器，用于存儲計算機程序；

48、處理器，用于執行所述計算機程序，所述計算機程序被所述處理器執行時實現第一方面方法的步驟。

49、第四方面，本公開實施例提供了一種可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現第一方面方法的步驟。

50、本技術提供的文檔檢索方法，包括：獲取查詢語句，并對所述查詢語句進行命名實體識別，得到第一實體列表；將所述第一實體列表同預先構建的至少一個預設文檔類別對應的至少一個第二實體列表進行匹配，并根據生成的第一匹配結果確定至少一個候選文檔類別；根據所述第一匹配結果對至少一個文本塊進行檢索，確定目標文本塊，其中，所述至少一個文本塊是對所述至少一個候選文檔類別包括的至少一個預設文檔進行文本解析得到的；通過預先訓練好的語言模型對所述目標文本塊進行推理，生成所述查詢語句的回復語句。本技術提供的方法，避免了文檔數據增加導致的查詢過慢的問題，不僅降低了維護成本，還提高了文檔檢索的準確率和效率。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：張家華
技術所有人：蘇州元腦智能科技有限公司
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種文檔檢索方法、裝置、設備和存儲介質與流程