本發明涉及專利檢索領域,尤其涉及一種基于技術需求的專利檢索關鍵詞提取方法及系統。
背景技術:
1、專利檢索專業度高,關鍵詞精確確定至關重要?。專利檢索是查找與特定技術主題相關的專利或非專利文獻的過程,對專利無效、侵權程序尤為重要。關鍵詞選擇不準確會導致檢索工作量增加,且難以找到高相關性文獻。因此,開發一種關鍵詞提取方法及系統顯得尤為迫切。該方法及系統需能基于技術人員撰寫的技術需求文件,自動分析其真實技術需求,并精準提取專利檢索關鍵詞,以提高檢索效率和準確性。
技術實現思路
1、本發明針對現有技術中的不足,提供一種基于技術需求的專利檢索關鍵詞提取方法及系統,對檢索的關鍵詞分析和提取采用多維度綜合評估,并生成近義詞和反義詞,在根據專利庫的歷史數據,優化關鍵詞組合,提高檢索效率。
2、為了解決上述技術問題,本發明通過下述技術方案得以解決
3、為了實現上述目的,本發明采用了如下技術方案:
4、一種基于技術需求的專利檢索關鍵詞提取方法,包括以下步驟:
5、1)文本預處理:對技術人員撰寫的技術需求文檔進行清理,包括句子分割、停用詞過濾、詞干提取或詞形還原、詞性標注;
6、2)技術需求分析:通過自然語言處理(nlp)技術,分析文檔中的技術需求,采用tf-idf、word2vec等算法計算詞匯的頻率和重要性;
7、3)關鍵詞提取:基于上下文語義相似度、詞匯共現頻率、領域特異性和時間敏感度多個維度綜合評估,提取關鍵詞;
8、4)近義詞和反義詞生成:基于詞典或嵌入模型,動態生成與關鍵詞相關的近義詞和反義詞;
9、5)關鍵詞優化:根據專利庫的歷史數據,優化關鍵詞組合,提高檢索效率。
10、優選的,所述的文本預處理包括:
11、停用詞過濾:去除常見的無意義詞匯;
12、詞干提取或詞形還原:將詞匯規范化為標準形式;
13、詞性標注:標注每個詞匯的詞性,用于后續分析。
14、優選的,所述的技術需求分析步驟通過tf-idf算法計算詞匯的頻率,公式如下:
15、
16、其中,t為詞匯,d為文檔,n為文檔總數,{d'∈d:t∈d'}為包含關鍵詞的文檔數量。
17、優選的,所述的關鍵詞提取步驟基于以下公式進行綜合評分:
18、final_score(w)=λ1·context_score(w)+λ2·co_occurrence_score(w)+λ3·domain_specificity_score(w)+λ4·temporal_score(w),其中,w為候選關鍵詞,λ1,λ2,λ3,λ4為各維度的權重系數。
19、優選的,所述的維度權重系數λ1,λ2,λ3,λ4可以通過自適應調整模塊,根據用戶反饋和檢索效果自動調整。
20、優選的,所述的近義詞和反義詞生成基于上下文的動態擴展,通過bert模型計算關鍵詞與同義詞候選的相似度,公式如下:
21、
22、其中,w為關鍵詞,si為同義詞候選,d為技術需求文檔。
23、優選的,根據相似度閾值threshold動態篩選出最相關的同義詞和反義詞。
24、優選的,所述的關鍵詞優化步驟包括:
25、1)專利庫頻率匹配:統計每個關鍵詞在專利文獻中的出現頻率;
26、2)檢索性能預測:計算關鍵詞的檢索性能,優先選擇性能較高的關鍵詞組合。
27、一種基于技術需求的專利檢索關鍵詞提取系統,包括:
28、1)文本預處理模塊:用于對技術需求文檔進行清理和格式化;
29、2)技術需求分析模塊:用于分析文檔中的技術需求,識別關鍵技術點;
30、3)關鍵詞提取模塊:基于多個維度提取技術關鍵詞;
31、4)近義詞和反義詞生成模塊:動態生成與關鍵詞相關的近義詞和反義詞;
32、5)關鍵詞優化模塊:對關鍵詞進行優化,生成最終的檢索關鍵詞列表。
33、優選的,所述的關鍵詞提取模塊通過自適應權重調整機制,動態調整各維度的權重系數,以提高關鍵詞提取的準確性。
34、與現有技術相比,本發明具有如下有益效果:
35、本發明的一種基于技術需求的專利檢索關鍵詞提取方法及系統,對檢索的關鍵詞分析和提取采用多維度綜合評估,并生成近義詞和反義詞,在根據專利庫的歷史數據,優化關鍵詞組合,提高檢索效率。
36、本發明提供了多個維度綜合評估的關鍵詞提取方法,并引入自適應權重調整機制,利用機器學習或深度學習模型,根據用戶的歷史反饋數據自動調整權重將通過機器學習方法動態調整各個維度的權重,以確保關鍵詞提取的效果在不同的技術需求場景下保持最優。
37、本發明在近義詞和反義詞生成中利用bert或其他上下文相關模型,分析技術需求的上下文,基于上下文動態調整,更加符合技術需求文檔中的實際語境,可以有效避免靜態詞典同義詞不適合當前語境的問題,提升檢索效果。
1.一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的文本預處理包括:
3.根據權利要求1所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的技術需求分析步驟通過tf-idf算法計算詞匯的頻率,公式如下:
4.根據權利要求1所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的關鍵詞提取步驟基于以下公式進行綜合評分:
5.根據權利要求4所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的維度權重系數λ1,λ2,λ3,λ4可以通過自適應調整模塊,根據用戶反饋和檢索效果自動調整。
6.根據權利要求1所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的近義詞和反義詞生成基于上下文的動態擴展,通過bert模型計算關鍵詞與同義詞候選的相似度,公式如下:
7.根據權利要求6所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:根據相似度閾值threshold動態篩選出最相關的同義詞和反義詞。
8.根據權利要求1所述的一種基于技術需求的專利檢索關鍵詞提取方法,其特征在于:所述的關鍵詞優化步驟包括:
9.一種采用權利要求1-8任一所述方法的基于技術需求的專利檢索關鍵詞提取系統,其特征在于:包括:
10.根據權利要求9所述的一種基于技術需求的專利檢索關鍵詞提取系統,其特征在于:所述的關鍵詞提取模塊通過自適應權重調整機制,動態調整各維度的權重系數,以提高關鍵詞提取的準確性。