一種基于改進TF?IDF關(guān)鍵詞提取算法的制作方法

文檔序號：11230422閱讀：492來源：國知局

本發(fā)明涉及一種基于改進tf-idf關(guān)鍵詞提取算法。

背景技術(shù)：

目前在基于改進tf-idf關(guān)鍵詞提取算法相關(guān)方法中，主要缺點表現(xiàn)為：單純以"詞頻"衡量一個詞的重要性，不夠全面，有時重要的詞可能出現(xiàn)次數(shù)并不多。而且，這種算法無法體現(xiàn)詞語的詞性信息，屬性為名詞的詞與屬性為助詞等的詞，都被賦予了相同的重要性，這顯然是不合理的。其他相關(guān)技術(shù)中，提取關(guān)鍵詞的準確率相對提高了，但是在空間的復雜度上也提高了，現(xiàn)實要求中得不到滿足。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于改進tf-idf關(guān)鍵詞提取算法。

本發(fā)明采用的技術(shù)方案是：

一種基于改進tf-idf關(guān)鍵詞提取算法，其包括以下步驟：

s1：將文本的輸入形式統(tǒng)一格式化；

s2：將文本標準格式化，對stanfordnlp加載屬性properties配置文件；

s3：在properties配置文件中根據(jù)定義的句子分隔符號，得到文本中的所有句子的集合sentences；

s4：每次從集合sentences中取出一條句子；

s5：獲取當前的句子中所有的詞語集合tokens；

s6：每次從集合tokens中取出一個token；

s7：得到當前token的字/詞語和詞性，并賦予不同的詞性以不同的詞性權(quán)值；

s8：計算當前句子中字/詞語的總數(shù)及其位置百分比；

s9：在前面的操作中，獲取了文本中所有的字/詞語集合words；

s10：每次從集合words取出一個word；

s11：計算當前word的tf以及idf；

s12：得到所有word的詞性權(quán)值、位置權(quán)值、tf、idf后，計算詞語的權(quán)重w＝tf*idf+詞性權(quán)值+位置權(quán)值，選取詞語的權(quán)重w權(quán)值由大到小前5個word作為關(guān)鍵詞輸出。

進一步地，所述步驟s1中統(tǒng)一格式化所包括的參數(shù)分別為標題、標簽、摘要以及正文；若是對應的參數(shù)不存在則輸入“”。

所述步驟s2中，文本標準格式化首先設(shè)定管道中包含的annotators時分別選擇分詞、分隔、詞性標注、識別命名實體4個annotators，這四個annotators是對本發(fā)明進行文本處理所必須的；其次，加載各個annotator所需要的包以及設(shè)置對應的參數(shù)。

進一步地，所述步驟s8中計算當前句子中字/詞語的總數(shù)時除去不能成為關(guān)鍵詞的詞性的詞語。

進一步地，所述步驟s11，idf在傳統(tǒng)的算法中主要是通過包含了該詞語的文檔的數(shù)量和包含該詞語的文檔的總數(shù)量來比較的，公式如下：

其中|d|表示的文件總數(shù)，|{j:ti∈dj}|表示包含詞語ti的文件總數(shù)。

所述idf的大小是以采集得到的10000篇新聞為測試數(shù)據(jù)集，計算出其中包含的每個單詞的idf并存儲至配置文件(共包含了27萬左右常見詞語的idf)。需要使用時，直接從配置文件中讀取相應單詞的idf值即可，無需統(tǒng)計所有文檔中出現(xiàn)該單詞的文檔數(shù)，計算量相對比較小，運行速度快。對于未存儲在配置文件中的新詞或者生僻詞，將所有idf的均值作為該詞的idf

進一步地，所述步驟s12中作為關(guān)鍵詞的前5個word的每一個word的長度在2-6之間。

本發(fā)明采用以上技術(shù)方案，在提取關(guān)鍵詞中的過程中增加詞性因子，可以在提高關(guān)鍵詞提取的準確度的同時，有效解決相關(guān)方案中要構(gòu)造pat-tree等導致空間復雜度大等問題。

附圖說明

以下結(jié)合附圖和具體實施方式對本發(fā)明做進一步詳細說明；

圖1為本發(fā)明一種基于改進tf-idf關(guān)鍵詞提取算法的流程示意圖。

具體實施方式

如圖1所示，本發(fā)明公開了一種基于改進tf-idf關(guān)鍵詞提取算法，其包括以下步驟：

s1：將文本的輸入形式統(tǒng)一格式化；

s2：將文本標準格式化，對stanfordnlp加載屬性properties配置文件；

s3：在properties配置文件中根據(jù)定義的句子分隔符號，得到文本中的所有句子的集合sentences；

s4：每次從集合sentences中取出一條句子；

s5：獲取當前的句子中所有的詞語集合tokens；

s6：每次從集合tokens中取出一個token；

s7：得到當前token的字/詞語和詞性，并賦予不同的詞性以不同的詞性權(quán)值；

s8：計算當前句子中字/詞語的總數(shù)及其位置百分比；

s9：在前面的操作中，獲取了文本中所有的字/詞語集合words；

s10：每次從集合words取出一個word；

s11：計算當前word的tf以及idf；

s12：得到所有word的詞性權(quán)值、位置權(quán)值、tf、idf后，計算詞語的權(quán)重w＝tf*idf+詞性權(quán)值+位置權(quán)值，選取詞語的權(quán)重w權(quán)值由大到小前5個word作為關(guān)鍵詞，每一個word的長度在2-6之間輸出。

進一步地，所述步驟s1中統(tǒng)一格式化所包括的參數(shù)分別為標題、標簽、摘要以及正文；若是對應的參數(shù)不存在則輸入“”。

進一步地，所述步驟s8中計算當前句子中字/詞語的總數(shù)時除去停頓詞語。不僅對文本進行停用詞的過濾，而且同時也過濾了不可能成為關(guān)鍵詞的詞性，例如虛詞等。

進一步地，所述步驟s11，idf在傳統(tǒng)的算法中主要是通過包含了該詞語的文檔的數(shù)量和包含該詞語的文檔的總數(shù)量來比較的，公式如下：

其中|d|表示的文件總數(shù)，|{j:ti∈dj}|表示包含詞語ti的文件總數(shù)。如果該詞語不在文檔中，就會導致分母為零，為了避免該情況的出現(xiàn)，一般情況下使用1+|{j:ti∈dj}|作為分母。但是本發(fā)明中所討論的idf的大小是以采集得到的10000篇新聞為測試數(shù)據(jù)集，計算出其中包含的每個單詞的idf并存儲至配置文件(共包含了27萬左右常見詞語的idf)。需要使用時，直接從配置文件中讀取相應單詞的idf值即可，無需統(tǒng)計所有文檔中出現(xiàn)該單詞的文檔數(shù)，計算量相對比較小，運行速度快。對于未存儲在配置文件中的新詞或者生僻詞，將所有idf的均值作為該詞的idf。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金彪;方敏霞;沙晉明;熊金波;李璇;林劼
技術(shù)所有人：福建師范大學
我是此專利的發(fā)明人

上一篇：一種亞麻黏膠長絲色紡紗制備方法與流程
上一篇：磁性纖維布的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)鍵詞提取算法相關(guān)技術(shù)

文本關(guān)鍵詞提取算法相關(guān)技術(shù)

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于改進TF?IDF關(guān)鍵詞提取算法的制作方法