麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于文本主題模型的商品分類的數據處理方法

文檔序號:6377885閱讀:379來源:國知局
專利名稱:基于文本主題模型的商品分類的數據處理方法
基于文本主題模型的商品分類的數據處理方法技術領域
本發明涉及一種電子商務的數據處理技術,涉及一種基于文本主題模型的商品分類的數據處理方法。背景技術
在互聯網的電子商務市場上,現有的商品分類系統都是通過網站編輯進行手工分類。存在3個問題1)大量的商品可能會導致過多人力的消耗;2) —個商品可能具有多個類別屬性,可以分到多個類別,而人工分類會因編輯個人對事物屬性理解的不到位或其對事物的某些偏見導致最終分類效果并不理想;3)對某個商品進行分類時,編輯無法準確地給出一個該分類的可信度。
2011-9-21公開的,公開號為102193936A的中國發明專利揭示了一種數據分類方法及裝置,該方法為獲取需要進行分類的各商品的相關數據,并提取出其中的商品標題; 對各商品標題分別進行分詞劃分,并確定各分詞的權重,其中,各分詞的權重用于表示該分詞的歷史出現頻率;針對不同的商品分別選取權重取值符合預設條件的分詞組成分詞序列;將針對各商品選取的分詞序列進行比較,并將分詞序列相同的商品的相關數據進行合并。這樣,大大減少了需要處理的商品相關數據的數量,可以在較短時間內迅速、準確地實現商品分類,從而有效提高了商品分類流程的執行效率,降低了商品相關數據的管理復雜度,也減輕了系統的運算負荷。但該專利仍存在如下不足
I、其僅針對商品標題文本進行分析,而未針對商品相關的所有文本,包括商品簡述,購買用戶評論等;
2、其使用文本分詞方法是為了得出關鍵詞(分詞結果)并通過出現頻率確定其權重,這種分類的結果不會很精確;
3、并未考慮文本的潛在語義問題,因此僅能從商品類型層面對其進行分類合并;
4、需要對分詞結果人工編輯各商品的主屬性,該方法依賴編輯人員的個人經驗, 由于編輯人員信息不足,可能導致結果偏離客觀事實。
發明內容
本發明要解決的技術問題,在于提供一種基于文本主題模型的商品分類的數據處理方法,考慮到潛在語義,降低編輯人員主觀因素的影響,使商品分類更為準確。
本發明是這樣實現的一種基于文本主題模型的商品分類的數據處理方法,包括 步驟10、對分詞系統的通用詞庫中導入業務相關的中英文詞匯,并針對品牌及常見商品英文,導入業務相關的白名英文單詞;同時,進一步擴充分詞系統的停用詞詞庫;步驟20、基于上一個步驟提供的分詞系統,對商品的描述文字部分進行分詞,繼而使每個商品擁有一個順序無關的詞袋;步驟30、根據對分詞結果進行統計后,得到頻率較高的非常用詞匯,以此構建一優先詞庫;并指定總體分類數量并設置相關參數,執行快速Gibbs抽樣,并獲得潛在語義關聯,分別與所述優先詞庫、通用詞庫以及停用詞詞庫比較,再對比較結果進行計算,得出商品最可能的分類并利用詞袋對分類進行標識。
進一步的,所述步驟20之前,還可包括步驟10 ’、先人工將商品簡單地分進具有明顯差異的大類;且所述步驟10’與步驟10無先后順序之分。
進一步的,所述步驟30中是根據TF-IDF算法過濾出對商品描述貢獻較大的關鍵詞,并統計得到頻率較高的非常用詞匯,以此構建一優先詞庫,其中,所述TF-IDF算法是先采用通用詞典進行分詞,然后統計每件商品文本描述中每個詞的出現次數以及每個詞在所 2.. 1有商品中出現的次數,然后通過TF-IDF公式t+fi.j = .ψ-一一計算出每件商品中每個詞的權重,根據閾值保留高權重的詞放入優先詞庫,式中,丨^^表示文檔i中詞匯j出現的頻率, Hij表示j在文檔i中出現的次數,分母則是文檔j中所有字詞出現的次數之和;再用逆向文檔頻率idf^計算一個詞普遍重要性的度量,計算式為
其中,|dI是文檔總數,分母是包含詞\的文檔數目;
tfidij權值Wij計算公式為
Wij = tfi, j*idfj*,
該權值即為詞j在文檔i中的TF-IDF值,該值表明了詞j能夠在多大程度上反映文檔i的內容。
進一步的,本發明還包括步驟40、對商品的描述進行分析,分析時假設所有商品的描述是一個LDA主題模型,LDA主題模型是一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構,文檔到主題服從Dirichlet分布,主題到詞服從多項式分布,LDA模型對每一個商品描述的文檔,從主題分布中抽取一個主題賦予給一個商品,并從上述被抽到的主題所對應的詞的分布中抽取一個詞,重復上述過程直至遍歷商品文檔中的每一個詞,由此得出的計算結果是,可以對每件商品賦予相關度最高的A個主題,A為可變閾值,同時可得出每個主題中各關鍵字對主題的貢獻度,抽取對商品主題貢獻度最高的10個關鍵詞作為商品的主要屬性,并以此計算各商品之間的相似度。
本發明具有如下優點本發明采用的LDA (Latent Dirichlet Allocation)模型, LDA是一種非監督機器學習技術,可以用來識別大規模文檔集(document col lection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息。由于本發明考慮到潛在語義,降低編輯人員主觀因素的影響,使商品分類更為準確。

下面參照附圖結合實施例對本發明作進一步的說明。
圖I為本發明方法一較佳實施例的執行流程圖。
具體實施方式
本發明的基于文本主題模型的商品分類的數據處理方法,包括
步驟10’、先人工將商品簡單地分進具有明顯差異的大類;
步驟10、對分詞系統的通用詞庫中導入業務相關的中英文詞匯,并針對品牌及常見商品英文,導入業務相關的白名英文單詞;同時,進一步擴充分詞系統的停用詞詞庫;
其中,所述步驟10’與步驟10無先后順序之分。
步驟20、基于上一個步驟提供的分詞系統,對商品的描述文字部分進行分詞,繼而使每個商品擁有一個順序無關的詞袋;
步驟30、根據對分詞結果進行統計后,根據TF-IDF算法過濾出對商品描述貢獻較大的關鍵詞,并統計得到頻率較高的非常用詞匯,以此構建一優先詞庫;并指定總體分類數量并設置相關參數,執行快速Gibbs抽樣,并獲得潛在語義關聯,分別與所述優先詞庫、通用詞庫以及停用詞詞庫比較,再對比較結果進行計算,得出商品最可能的分類并利用詞袋對分類進行標識。
其中,TF-IDF算法是一種簡單快捷的文檔特征詞抽取方法,通過統計文檔中的詞頻來對文檔進行主題分類。TF-IDF(term frequency-inverse document frequency)是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。TF-IDF其主要思想是,如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力, 適合用來分類。TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現的次數。IDF反文檔頻率(Inverse Document Frequency)是指,如果包含詞條的文檔越少,IDF 越大,則說明詞條具有很好的類別區分能力。使用TF-IDF可以計算某個關鍵字在某篇文章里面的重要性,可以用此關鍵詞來表達文檔所包含的含義。詞頻Term Frequency (tfj表示文檔i中詞匯j出現的頻率,計算公式如下
權利要求
1.一種基于文本主題模型的商品分類的數據處理方法,其特征在于包括 步驟10、對分詞系統的通用詞庫中導入業務相關的中英文詞匯,并針對品牌及常見商品英文,導入業務相關的白名英文單詞;同時,進一步擴充分詞系統的停用詞詞庫; 步驟20、基于上一個步驟提供的分詞系統,對商品的描述文字部分進行分詞,繼而使每個商品擁有一個順序無關的詞袋; 步驟30、根據對分詞結果進行統計后,得到頻率較高的非常用詞匯,以此構建一優先詞庫;并指定總體分類數量并設置相關參數,執行快速Gibbs抽樣,并獲得潛在語義關聯,分別與所述優先詞庫、通用詞庫以及停用詞詞庫比較,再對比較結果進行計算,得出商品最可能的分類并利用詞袋對分類進行標識。
2.根據權利要求I所述的基于文本主題模型的商品分類的數據處理方法,其特征在于所述步驟20之前,還包括 步驟10’、先人工將商品簡單地分進具有明顯差異的大類; 且所述步驟10’與步驟10無先后順序之分。
3.根據權利要求I所述的基于文本主題模型的商品分類的數據處理方法,其特征在于 所述步驟30中是根據TF-IDF算法過濾出對商品描述貢獻較大的關鍵詞,并統計得到頻率較高的非常用詞匯,以此構建一優先詞庫,其中,所述TF-IDF算法是先采用通用詞典進行分詞,然后統計每件商品文本描述中每個詞的出現次數以及每個詞在所有商品中出現的次數,然后通過TF-IDF公式tfy = : 計算出每件商品中每個詞的權重,根據閾值保留高權重的詞放入優先詞庫,式中,tfu表示文檔i中詞匯j出現的頻率,Iiij表示j在文檔i中出現的次數,分母則是文檔j中所有字詞出現的次數之和; 再用逆向文檔頻率idfi計算一個詞普遍重要性的度量,計算式為 .lf msdfi = i g P7i--Ji 其中,Id I是文檔總數,分母是包含詞\的文檔數目; tfidfij權值Wij計算公式為 Wij = tfi,j*idfJ, 該權值即為詞j在文檔i中的TF-IDF值,該值表明了詞j能夠在多大程度上反映文檔i的內容。
4.根據權利要求I所述的基于文本主題模型的商品分類的數據處理方法,其特征在于還包括 步驟40、對商品的描述進行分析,分析時假設所有商品的描述是一個LDA主題模型,LDA主題模型是一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構,文檔到主題服從Dirichlet分布,主題到詞服從多項式分布,LDA模型對每一個商品描述的文檔,從主題分布中抽取一個主題賦予給一個商品,并從上述被抽到的主題所對應的詞的分布中抽取一個詞,重復上述過程直至遍歷商品文檔中的每一個詞,由此得出的計算結果是,可以對每件商品賦予相關度最高的A個主題,A為可變閾值,同時可得出每個主題中各關鍵字對主題的貢獻度,抽取對商品主題貢獻度最高的10個關鍵詞作為商品的主要屬性,并以此計算各商品之間的相似 度。
全文摘要
本發明提供一種基于文本主題模型的商品分類的數據處理方法,對分詞系統的通用詞庫中導入業務相關的中英文詞匯,并針對品牌及常見商品英文,導入業務相關的白名英文單詞;進一步擴充分詞系統的停用詞詞庫;對商品的描述文字部分進行分詞,繼而使每個商品擁有一個順序無關的詞袋;根據對分詞結果進行統計后,得到頻率較高的非常用詞匯,以此構建一優先詞庫;并指定總體分類數量并設置相關參數,執行快速Gibbs抽樣,并獲得潛在語義關聯,分別與所述優先詞庫、通用詞庫以及停用詞詞庫比較,再對比較結果進行計算,得出商品最可能的分類并利用詞袋對分類進行標識。本發明考慮到潛在語義,降低編輯人員主觀因素的影響,使商品分類更為準確。
文檔編號G06F17/30GK102929937SQ20121036637
公開日2013年2月13日 申請日期2012年9月28日 優先權日2012年9月28日
發明者劉德建, 陳宏展, 歐寧, 吳擁民, 陳澄宇 申請人:福州博遠無線網絡科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 镇平县| 喀什市| 建水县| 长治市| 车险| 温州市| 广东省| 中宁县| 鄂尔多斯市| 道孚县| 聊城市| 饶河县| 堆龙德庆县| 镇安县| 东平县| 湾仔区| 新野县| 阿图什市| 新巴尔虎右旗| 星子县| 宜川县| 吉木乃县| 咸宁市| 江安县| 濮阳市| 南康市| 吴堡县| 阿拉尔市| 卓尼县| 民乐县| 甘谷县| 玉溪市| 门头沟区| 黔西| 罗源县| 唐海县| 武宣县| 柳州市| 阿荣旗| 阿鲁科尔沁旗| 南汇区|