技術特征:
技術總結
本發明公開一種基于改進TF?IDF關鍵詞提取算法,其包括以下步驟:S1:將文本的輸入形式統一格式化;S2:對Stanford?NLP加載配置文件;S3:在配置文件中得到文本中的所有句子集合Sentences;S4:每次從Sentences中取一句子;S5:獲取當前的句子中所有詞語集合Tokens;S6:每次從Tokens中取一token;S7:得到當前token的字/詞語和詞性,并賦予不同詞性權值;S8:計算當前句子中字/詞語的總數及其位置百分比;S9:獲取文本中所有字/詞語集合Words;S10:每次從Words取一word;S11:計算當前word的TF和IDF;S12:計算所有word詞語的權重W,依據詞語的權重W選取關鍵詞。本發明增加詞性因子,提高提取準確度,解決構造Pat?tree等空間復雜的問題。
技術研發人員:金彪;方敏霞;沙晉明;熊金波;李璇;林劼
受保護的技術使用者:福建師范大學
技術研發日:2017.05.23
技術公布日:2017.09.08