本發明涉及知識產權檢索,尤其涉及一種專利檢索式的自動生成方法。
背景技術:
1、專利檢索常采用字段檢索模式,要求用戶將檢索目標轉化為檢索信息,并匹配正確的檢索字段,使用準確的檢索公式進行檢索。然而專利文獻中涉及大量專業術語,這些術語的多樣性和復雜性增加了自動分詞和匹配的難度,且專利數據庫龐大并不斷更新,在不同技術領域的專利文獻在表達方式和術語使用上存在差異,跨領域檢索需要更強大的語義理解和泛化能力。
2、目前不同檢索平臺的檢索的數據存在一定區別,還需要再篩選檢索的數據。如何實現全自動檢索式生成,且生成結果更準確、自然是亟待解決的。
技術實現思路
1、本發明針對現有技術中的不足,提供一種專利檢索式的自動生成方法,根據檢索目的,自動識別關鍵詞類別,使用權重分配算法為每個關鍵詞分配權重,利用貪心算法對關鍵詞進行篩選,生成最優的關鍵詞組合;根據關鍵詞組合生成檢索式,其中技術詞匯和功能詞匯通過布爾邏輯連接形成檢索式,并自動生成多種檢索式組合,確保檢索的全面性與靈活性。
2、為了實現上述目的,本發明采用了如下技術方案:
3、一種專利檢索式的自動生成方法,包括以下步驟:
4、獲取初步關鍵詞集合和檢索目的;
5、根據檢索目的,自動識別關鍵詞類別,所述類別包括技術詞匯、應用場景詞匯、功能詞匯及排除詞匯;
6、使用權重分配算法為每個關鍵詞分配權重;
7、利用貪心算法對關鍵詞進行篩選,生成最優的關鍵詞組合;
8、根據關鍵詞組合生成檢索式,其中技術詞匯和功能詞匯通過布爾邏輯連接形成檢索式,且同義詞和近義詞匯使用"or"連接,不同類別的關鍵詞使用"and"連接,反義詞使用"not"連接。
9、優選的,其中所述初步關鍵詞集合包括技術詞匯、應用場景詞匯、功能詞匯和排除詞匯,且根據檢索目的動態調整各類別關鍵詞的優先級。
10、優選的,其中對每個類別的關鍵詞使用詞嵌入模型或語義網絡進行同義詞和近義詞擴展,確保相關的詞匯被包含在檢索式中。
11、優選的,其中所述權重分配算法采用tf-idf算法,具體如下:
12、通過公式w(ki)=tf(ki)·idf(ki),計算每個關鍵詞的權重,以根據關鍵詞在技術文獻中的出現頻率和其在所有文獻中的分布來確定權重,且權重調整根據檢索目的動態變化。
13、優選的,所述tf以及idf通過對專利數據庫中的詞匯進行預處理以提前獲取,預處理的步驟如下:
14、構建倒排索引,記錄每個獨立詞匯及其在專利文獻中的出現頻率;
15、使用停用詞過濾器去除常見詞匯,減少不必要的計算量;
16、對專利數據庫中的所有文獻進行預處理,計算每個詞匯的tf和idf;
17、所述倒排索引和詞匯的tf-idf值在預處理后存儲,并根據數據庫中文獻的更新進行定期增量更新。
18、優選的,其中所述貪心算法的執行過程包括以下步驟:
19、對初步關鍵詞集合按權重從高到低排序;
20、每次迭代選擇權重最高的關鍵詞,判斷該關鍵詞與候選關鍵詞集合中的其他關鍵詞的相關性,若其與候選集中的關鍵詞相關性低,則加入候選集;
21、重復迭代,直到滿足預設的關鍵詞數量上限或覆蓋足夠多類別的關鍵詞。
22、優選的,其中所述關鍵詞的相關性通過余弦相似度計算,公式如下:
23、
24、其中,ki和kj為兩個關鍵詞,和為其向量表示。
25、優選的,所述檢索式生成過程包括:
26、將擴展后的關鍵詞集合根據權重排列;
27、使用布爾邏輯生成最終的檢索式;
28、為確保檢索結果的全面性和靈活性,自動生成多種檢索式組合,組合形式包括不同層次的同義詞擴展或功能詞匯和應用場景詞匯的組合。
29、優選的,所述貪心算法根據查準率優先或查全率優先進行優化:
30、當檢索目的為精準性時,優先選擇權重高的技術核心詞匯,剔除冗余或不相關的功能詞匯;
31、當檢索目的為全面性時,保留更多的擴展詞匯和近義詞,以確保覆蓋不同應用場景和功能描述。
32、與現有技術相比,本發明具有如下有益效果:
33、本發明提供的一種專利檢索式的自動生成方法,根據檢索目的,自動識別關鍵詞類別,使用權重分配算法為每個關鍵詞分配權重,利用貪心算法對關鍵詞進行篩選,生成最優的關鍵詞組合;根據關鍵詞組合生成檢索式,其中技術詞匯和功能詞匯通過布爾邏輯連接形成檢索式,并自動生成多種檢索式組合,確保檢索的全面性與靈活性。
34、本申請采用貪心算法的執行過程會根據不同的檢索目的進行調整,以平衡查準率和查全率。
1.一種專利檢索式的自動生成方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種專利檢索式的自動生成方法,其特征在于,其中所述初步關鍵詞集合包括技術詞匯、應用場景詞匯、功能詞匯和排除詞匯,且根據檢索目的動態調整各類別關鍵詞的優先級。
3.根據權利要求1或2所述的一種專利檢索式的自動生成方法,其特征在于,其中對每個類別的關鍵詞使用詞嵌入模型或語義網絡進行同義詞和近義詞擴展,確保相關的詞匯被包含在檢索式中。
4.根據權利要求1所述的一種專利檢索式的自動生成方法,其特征在于,其中所述權重分配算法采用tf-idf算法,具體如下:
5.根據權利要求4所述的一種專利檢索式的自動生成方法,其特征在于,所述tf以及idf通過對專利數據庫中的詞匯進行預處理以提前獲取,預處理的步驟如下:
6.根據權利要求1所述的一種專利檢索式的自動生成方法,其特征在于,其中所述貪心算法的執行過程包括以下步驟:
7.根據權利要求6所述的一種專利檢索式的自動生成方法,其特征在于,其中所述關鍵詞的相關性通過余弦相似度計算,公式如下:
8.根據權利要求3所述的一種專利檢索式的自動生成方法,其特征在于,所述檢索式生成過程包括:
9.根據權利要求1所述的一種專利檢索式的自動生成方法,其特征在于,所述貪心算法根據查準率優先或查全率優先進行優化: