本發明涉及互聯網數據處理技術領域,具體涉及一種自動確定機構的所屬行業類別的方法存儲設備及終端。
背景技術:
機構(含企業、政府機構、事業單位等)的所屬行業在判斷一個機構的類型、經營狀況、以及未來的發展趨勢方面具有較高的參考價值,特別是在貸款資質考察和審批環節尤為重要。為了統一分類標準,國家頒布了《國民經濟行業分類gb/t4754-2011》的國家標準,標準規定了全社會經濟活動的分類與代碼,共分為4個類別層次,分別是門類、大類、中類、小類,最細的層次(小類)共有1094個類別。具體到一個實際的機構,該如何準確的判定其屬于哪個行業類別,屬于目前業界研究的重要課題。
目前常見的機構行業分類信息,主要為政府有關部門(如工商管理局)在機構設立或年檢的時候收集的信息,主要由機構自己進行申報,再由政府部門審核的方式完成。由于人工分類的主觀性較強,加上申報人員對國標行業標準本身的理解程度不一樣,導致不少機構被劃分到了錯誤的行業類別,且人工分類的效率較低,需要花費較大的人力、物力、財力,給實際應用帶來巨大的干擾。
因此,現有技術還有待于改進和發展。
技術實現要素:
本發明要解決的技術問題在于,針對現有技術的上述缺陷,提供一種自動確定機構的所屬行業類別的方法存儲設備及終端,旨在通過對機構的描述內容進行特征詞提取,并將特征詞在機構的描述內容中的位置作為用于確定機構所屬行業類別的附加特征,根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,結合附加特征綜合分析,確定機構的所屬行業類別,完成分類處理。提高了判別機構所屬行業類別的準確度,提升了機構的行業類別分類效率,有效降低了機構被劃分到錯誤行業類別的風險,確保了分類標準的統一。
本發明解決技術問題所采用的技術方案如下:
一種自動確定機構的所屬行業類別的方法,其中,所述方法包括:
步驟a、獲取機構的描述內容,對所述機構的描述內容進行分詞處理,并構建詞庫;
步驟b、從所述詞庫中提取特征詞,并將所述特征詞在機構的描述內容中的位置特征作為用于確定機構所屬行業類別的附加特征;
步驟c、分別計算所述特征詞的熵值以及逆向文檔頻率idf值,對所述特征詞進行兩次篩選;
步驟d、根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,同時結合所述附加特征綜合分析,確定所述機構的所屬行業類別,完成分類處理。
所述的自動確定機構的所屬行業類別的方法,其中,所述步驟a之前還包括:
步驟s、預先設置用于計算出所述特征詞屬于各行業類別的條件概率的分類器組,所述分類器組包括:分類器1、分類器2……分類器n,每個分類器對應一個行業類別。
所述的自動確定機構的所屬行業類別的方法,其中,所述分類器組是由訓練樣本集經兩次篩選特征詞后,根據樸素貝葉斯原理進行模型訓練構建而成;每個分類器包含特征詞與其對應的所屬行業類別的概率關系。
所述的自動確定機構的所屬行業類別的方法,其中,所述訓練樣本集為若干經人工分類且已核實過的機構信息;所述機構信息包括:各機構的描述內容與其對應的所屬行業類別。
所述的自動確定機構的所屬行業類別的方法,其中,所述步驟a具體包括:
步驟a1、獲取輸入的機構的描述內容,所述機構的描述內容為機構的名稱、經營范圍或其他描述;
步驟a2、對所述機構的描述內容采用逆向最大匹配法進行分詞處理,并將經分詞處理后獲得的詞匯構建成詞庫。
所述的自動確定機構的所屬行業類別的方法,其中,所述步驟b具體包括:
步驟b1、根據布爾模型表示方法從所述詞庫中提取特征詞;
步驟b2、獲取提取的特征詞在機構的描述內容中的位置特征,并將其作為用于確定機構所屬行業類別的附加特征。
所述的自動確定機構的所屬行業類別的方法,其中,所述步驟c具體包括:
步驟c1、計算提取的特征詞的信息熵的大小,將熵值小的特征詞篩除;
步驟c2、進一步計算經初步篩除后的特征詞的逆向文檔頻率idf值,將idf值小的特征詞篩除;計算idf值的公式為:
步驟c3、獲取經兩次篩除后所剩下的特征詞。
所述的自動確定機構的所屬行業類別的方法,其中,所述步驟d具體包括:
步驟d1、根據預設的分類器組計算經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率;
步驟d2、結合計算出的條件概率與所述附加特征進行綜合分析,篩選出條件概率最大的行業類別且特征詞的附加特征符合此行業類別的業務范圍,則此行業類別為所述機構的所屬行業類別;
步驟d3、根據所述機構的所屬行業類別,自動將所述機構劃分至對應的行業類別,完成分類處理。
一種存儲設備,其上存儲有多條指令,其中,所述指令適于由處理器加載并執行,以實現上述任一項所述自動切換鍵盤的方法。
一種終端,其中,包括:處理器、與處理器通信連接的存儲設備,
所述存儲設備適于存儲多條指令,所述處理器適于調用所述存儲設備中的指令,以執行實現上述任一項所述自動確定機構的所屬行業類別的方法。
本發明的有益效果:本發明通過對機構的描述內容進行特征詞提取,并將特征詞在機構的描述內容中的位置作為用于確定機構所屬行業類別的附加特征,根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,結合附加特征綜合分析,確定機構的所屬行業類別,完成分類處理。提高了判別機構所屬行業類別的準確度,提升了機構的行業類別分類效率,有效降低了機構被劃分到錯誤行業類別的風險,確保了分類標準的統一。
附圖說明
圖1是本發明的自動確定機構的所屬行業類別的方法的較佳實施例的流程圖。
圖2是本發明的自動確定機構的所屬行業類別的終端裝置的較佳實施例的結構示意圖。
具體實施方式
為使本發明的目的、技術方案及優點更加清楚、明確,以下參照附圖并舉實施例對本發明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
如圖1所示,圖1是本發明的自動確定機構的所屬行業類別的方法的較佳實施例的流程圖。所述自動確定機構的所屬行業類別的方法包括以下步驟:
步驟s100、獲取機構的描述內容,對所述機構的描述內容進行分詞處理,并構建詞庫。
較佳地,所述步驟s100具體包括:
步驟s101、獲取輸入的機構的描述內容,所述機構的描述內容為機構的名稱、經營范圍或其他描述;
步驟s102、對所述機構的描述內容采用逆向最大匹配法進行分詞處理,并將經分詞處理后獲得的詞匯構建成詞庫。
具體地,當用戶輸入某一機構的描述內容時,所述描述內容可以為機構的名稱、經營范圍或者其他描述,對所述機構的描述內容采用逆向最大匹配法進行分詞處理。所謂分詞處理就是將連續的字序列按照一定的規范切分成一個一個單獨的詞匯的過程。常用的中文分詞處理方法有正向最大匹配法、逆向最大匹配法、最少切分、雙向最大匹配法等,本發明采用逆向最大匹配法對所述機構的描述內容進行分詞處理,可以分詞更多的詞匯。例如將“我不知道你在說什么”進行分詞處理,如果使用正向最大匹配法進行分詞處理的結果是:“我、不知道、你、在、說什么”,而使用逆向最大匹配法進行分詞處理的結果是:“我、不、知道、你、在、說、什么”,由此可見,采用逆向最大匹配法可以切分出更多的詞匯,提高分詞的準確性,便于后續的識別與特征詞的提取。
進一步地,將經過分詞處理后獲得的詞匯構建成詞庫,例如上述例子中使用逆向最大匹配法進行分詞處理的結果是:“我、不、知道、你、在、說、什么”,將這些詞匯組成一個詞庫,便于后續的步驟中進行特征詞匯的提取與篩選,給用戶提供了方便。
步驟s200、從所述詞庫中提取特征詞,并將所述特征詞在機構的描述內容中的位置特征作為用于確定機構所屬行業類別的附加特征。
較佳地,所述步驟s200具體包括:
步驟s201、根據布爾模型表示方法從所述詞庫中提取特征詞;
步驟s202、獲取提取的特征詞在機構的描述內容中的位置特征,并將其作為用于確定機構所屬行業類別的附加特征。
具體地,當經過分詞處理后獲得的詞匯構建成詞庫之后,從所述詞庫中提取特征詞。常用的提取特征詞的方法有布爾模型表示法、向量空間模型表示法等,但是常用的布爾模型表示方法只是用最簡單的0和1表示特征詞,即文檔中是否包含某個詞匯,每個詞與其它詞之間具有同樣的權重,當該文檔中寶包含某個詞匯則返回為真,即特征詞為1。而向量空間模型表示方法一般采用tf-id(termfrequency–inversedocumentfrequency,一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度)歸一化技術表示特征詞,即同時考慮某個詞匯在本文檔出現的頻率,和在其他文檔出現的頻率,詞匯在本文檔出現的次數越多,同時在所有文檔中出現得越少,則該特征詞的所能反映的文本特征越明顯。
而在實際應用中,用于識別所述機構屬于什么行業的文本信息主要集中在機構名稱和經營范圍,在實際業務中,機構的命名和經營范圍的申報是嚴格按照政府機構的約定進行的,并且特征詞在文本中出現的位置比其出現的次數等更有代表性,如:“華南理工大學”屬于“普通高等教育”行業,但“華南理工大學大學城小賣部”屬于“其他綜合零售”行業,盡管后者的特征詞“大學”出現了2次,但這個詞在反映行業特征方面比不上出現在文本結尾的“小賣部”。由此可看出,通過確定某個詞匯出現的次數來提取特征詞并不準確,所以單使用布爾模型表示方法或者向量空間模型表示方法均不能滿足要求。因此,本發明在利用布爾模型表示方法從所述詞庫中提取特征詞之后,獲取所述特征詞在機構的描述內容中的位置特征,并將其作為用于確定機構所屬行業類別的附加特征。
具體地,01表示所述特征詞在機構的描述內容中處于開頭位置;02表示所述特征詞在機構的描述內容中處于非開頭的前50%的位置;03表示所述特征詞在機構的描述內容中處于非結尾的后50%的位置;
04表示所述特征詞在機構的描述內容中處于結尾位置。例如上述例子中,“華南理工大學”的特征詞“大學”的位置特征為“大學04”。
將特征詞在機構的描述內容中的位置特征作為特征詞的一部分,有利于增加提取特征詞的精確性,避免提取錯誤的特征詞,使得在后續的步驟中更好的確定所述特征詞所對應的行業類別。
步驟s300、分別計算所述特征詞的熵值以及逆向文檔頻率idf值,對所述特征詞進行兩次篩選。
較佳地,所述步驟s300具體包括:
步驟s301、計算提取的特征詞的信息熵的大小,將熵值小的特征詞篩除;
步驟s302、進一步計算經初步篩除后的特征詞的逆向文檔頻率idf值,將idf值小的特征詞篩除;計算idf值的公式為:
步驟s303、獲取經兩次篩除后所剩下的特征詞。
具體地,當所述特征詞被提取之后,對所述特征詞計算信息熵(某種特定信息的出現概率),熵值越大則代表該特詞在文本中越重要,所以,本發明將熵值小的特征詞初步篩除。為了提高特征詞提取的準確性,以便能夠準確地判定機構的所屬行業類別,本發明對經過初步篩選的特征詞進行二次篩選,二次篩選的方法采用計算特征詞的逆向文檔頻率idf(inversedocumentfrequency,指某一個特定的詞語在該文件中出現的頻率)值,常用的計算idf公式為:
步驟s400、根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,同時結合所述附加特征綜合分析,確定所述機構的所屬行業類別,完成分類處理。
較佳地,所述步驟s400具體包括:
步驟s401、根據預設的分類器組計算經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率;
步驟s402、結合計算出的條件概率與所述附加特征進行綜合分析,篩選出條件概率最大的行業類別且特征詞的附加特征符合此行業類別的業務范圍,則此行業類別為所述機構的所屬行業類別;
步驟s403、根據所述機構的所屬行業類別,自動將所述機構劃分至對應的行業類別,完成分類處理。
具體地,當提取的特征詞經過兩次篩選后,根據預先設置的分類器組分別計算經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率。較佳地,本發明在步驟s100之前還包括:
步驟s、預先設置用于計算出所述特征詞屬于各行業類別的條件概率的分類器組,所述分類器組包括:分類器1、分類器2……分類器n,每個分類器對應一個行業類別;
所述分類器組是由經兩次篩選特征詞的訓練樣本集根據樸素貝葉斯原理進行模型訓練構建而成;
所述訓練樣本集為若干經人工分類且已核實過的機構信息,所述機構信息包括:各機構的描述內容與其對應的所屬行業類別。
進一步具體地,預先從數據系統中選取若干經人工分類且已核實過的機構信息,所述機構信息包括:各機構的描述內容與其對應的所屬行業類別,將這些已經確定了行業類別的機構信息作為模型訓練的訓練樣本集。同樣地,分別對每個機構的描述內容進行分詞處理和特征詞的提取,此處分詞處理的方式同樣采用逆向最大匹配法,特征詞的提取方式同樣采用布爾模型表示方法并將特征詞在機構的描述內容中的位置特征作為用于確定機構所屬行業類別的附加特征。特征詞提取后,對提取的特征詞進行兩次篩選,兩次篩選的方式同樣與上述步驟s300中的一樣,分別計算特征詞的信息熵與idf值,篩選出最具代表性的特征詞。最后根據樸素貝葉斯原理對經兩次篩選特征詞的訓練樣本集進行模型訓練,從而構建多個分類器,包括分類器1、分類器2……分類器n,每個分類器對應一個行業類別;使得每個分類器包含特征詞與其所屬行業類別的概率關系。具體的所述樸素貝葉斯原理為:設
,根據上述公式就可計算出特征詞在個屬于各行業類別的條件概率。通過構建若干個分類器,使得可以快速的分析出特征詞屬于各行業的條件概率。
較佳地,為了更加準確的判別出篩選出的最具代表性的特征詞的所屬行業類別,本發明在計算條件概率后,結合計算出的條件概率與所述特征詞在機構描述內容中的的位置特征(即附加特征)進行綜合分析,篩選出條件概率最大的行業類別且特征詞的附加特征符合此行業類別的業務范圍,則判定此行業類別就為所述機構的所屬行業類別。例如,要需要確定“華南理工大學”的行業類別,經兩次篩選后的特征詞為“大學”,通過分類器計算其屬于“普通高等教育”行業的條件概率最大,并且附加特征“大學04”與“普通高等教育”行業的業務范圍相吻合,所以確定“普通高等教育”行業就為“華南理工大學”的所屬行業類別。通過計算特征詞屬于各行業的條件概率,并結合附加特征進行綜合分析,可以準確的判斷所述機構的行業類別,增加了判別的準確度。根據確定的所述機構的所屬行業類別,自動將所述機構劃分至對應的行業類別,完成分類處理。
具體地,根據實際的應用,通過本發明可實現:
(1)效率提升:針對已經人工分類好的200萬筆機構名稱和經營范圍進行模型訓練,按照數據來源(2個,機構名稱和經營范圍)、行業等級(4個等級,門類、大類、中類和小類)共訓練8個模型,由優化前的約24小時縮減到約12個小時(使用同樣的訓練程序及計算機資源)。
(2)分類效果提升:隨機抽取5000個人工分類的機構信息,對比本發明和人工分類的結果,準確率由優化前的54%提升到了76%,同時,在整個系統中加入業務經驗判斷規則環節,可以達到85%的分類準確率,符合實際業務應用要求。
基于上述實施例,本發明還公開了一種終端。如圖2所示,包括:處理器(processor)10、與處理器連接的存儲設備(memory)20;其中,所述處理器10用于調用所述存儲設備20中的指令,以執行上述實施例所提供的方法,例如執行:
步驟s100、獲取機構的描述內容,對所述機構的描述內容進行分詞處理,并構建詞庫;
步驟s200、從所述詞庫中提取特征詞,并將所述特征詞在機構的描述內容中的位置特征作為用于確定機構所屬行業類別的附加特征;
步驟s300、分別計算所述特征詞的熵值以及逆向文檔頻率idf值,對所述特征詞進行兩次篩選;
步驟s400、根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,同時結合所述附加特征綜合分析,確定所述機構的所屬行業類別,完成分類處理。
本發明實施例還提供一種存儲設備,所述存儲設備上存儲計算機指令,所述計算機指令使所述計算機執行上述實施例所提供的方法。
綜上所述,本發明提供的一種自動確定機構的所屬行業類別的方法存儲設備及終端,方法包括:獲取機構的描述內容,對機構的描述內容進行分詞處理,并構建詞庫;從詞庫中提取特征詞,并將特征詞在機構的描述內容中的位置特征作為用于確定機構所屬行業類別的附加特征;分別計算特征詞的熵值以及逆向文檔頻率idf值,對特征詞進行兩次篩選;根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,同時結合附加特征綜合分析,從而確定機構的所屬行業類別,完成分類處理。本發明通過對機構的描述內容進行特征詞提取,并將特征詞在機構的描述內容中的位置作為用于確定機構所屬行業類別的附加特征,根據預設的分類器組計算出經兩次篩選后所剩下的特征詞屬于各行業類別的條件概率,結合附加特征綜合分析,確定機構的所屬行業類別,完成分類處理。提高了判別機構所屬行業類別的準確度,提升了機構的行業類別分類效率,有效降低了機構被劃分到錯誤行業類別的風險,確保了分類標準的統一。
應當理解的是,本發明的應用不限于上述的舉例,對本領域普通技術人員來說,可以根據上述說明加以改進或變換,所有這些改進和變換都應屬于本發明所附權利要求的保護范圍。