麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

情感數據分類方法和系統的制作方法

文檔序號:6621448閱讀:342來源:國知局
情感數據分類方法和系統的制作方法
【專利摘要】本發明提供了一種情感數據分類方法和系統,所述方法包括:構造訓練數據集對應的文檔-文檔圖和詞-詞圖,所述文檔-文檔圖中,節點表示所述訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度,所述詞-詞圖中,節點表示所述訓練數據集中的詞,邊的幾何信息表示詞之間的相關度;根據所述文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項;對所述目標函數進行優化處理,輸出文檔-情感矩陣;獲取測試數據集中的文檔,根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向。采用該方法和系統,能夠提高情感分類精度。
【專利說明】情感數據分類方法和系統

【技術領域】
[0001]本發明涉及自然語言處理技術,特別是涉及一種情感數據分類方法和系統。

【背景技術】
[0002]隨著Web2.0的發展,越來越多的用戶在網頁中產生具有情感的數據,這些數據通常以網絡中的評論、博客數據的形式存在。情感分類指的是自動預測用戶產生的情感數據的情感傾向,比如,預測一條評論是積極的還是消極的。
[0003]近期,情感分類在自然語言處理中獲得了普遍關注,情感分類方法可分為有監督的情感分析和無監督的情感分析。有監督的情感分析依賴于人工標注的訓練數據,而在一些情況下,標注工作是費時和昂貴的,這促使了無監督或半監督的情感分析。
[0004]傳統的無監督(或半監督)的情感分析的方法是基于詞典的方法。基于詞典的方法采用情感詞匯來確定文檔的整體情感傾向。然而,很難去界定一個普適的最佳情感詞匯來涵蓋從不同領域的所有單詞。此外,大多數半自動的基于詞典的方法,都得不到令人滿意的結果。傳統的較為先進的基于詞典的方法是基于約束的非負矩陣三因子分解(Constrained Non-negative Matrix Tr1-factorizat1n,簡稱 CNMTF)的情感分類方法,其將與領域無關的情感詞匯作為先驗知識進行情感分類,然而實驗表明,基于CNMTF的情感分類方法的情感分類精度仍有待于提高。


【發明內容】

[0005]基于此,有必要針對上述問題,提供一種能提高分類精度的情感數據分類方法和系統。
[0006]一種情感數據分類方法,所述方法包括:
[0007]構造訓練數據集對應的文檔-文檔圖和詞-詞圖,所述文檔-文檔圖中,節點表示所述訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度,所述詞-詞圖中,節點表示所述訓練數據集中的詞,邊的幾何信息表示詞之間的相關度;
[0008]根據所述文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項;
[0009]對所述目標函數進行優化處理,輸出文檔-情感矩陣;
[0010]獲取測試數據集中的文檔,根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向。
[0011]一種情感數據分類系統,所述系統包括:
[0012]圖構造模塊,用于構造訓練數據集對應的文檔-文檔圖和詞-詞圖,所述文檔-文檔圖中,節點表示所述訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度,所述詞-詞圖中,節點表示所述訓練數據集中的詞,邊屬性表示詞之間的相關度;
[0013]正則化項構造模塊,用于根據所述文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項;
[0014]優化處理模塊,用于對所述目標函數進行優化處理,輸出文檔-情感矩陣;
[0015]情感傾向確定模塊,用于獲取測試數據集中的文檔,根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向。
[0016]上述情感數據分類方法和系統,通過構造訓練數據集對應的兩個圖,即文檔-文檔圖和詞-詞圖,在構造目標函數時,充分考慮到了文檔空間和詞空間中的幾何信息,利用了鄰近的詞或文檔往往有著相同的情感傾向的原理,對目標函數進行優化處理后,輸出的文檔-情感矩陣更加精確,使得對于測試數據集中的文檔,確定對應的情感傾向更加準確,從而提高了情感數據的分類精度。

【專利附圖】

【附圖說明】
[0017]圖1為一個實施例中情感數據分類方法的流程示意圖;
[0018]圖2為一個實施例中情感數據分類系統的結構框圖;
[0019]圖3為在兩個不同的數據集上的不同參數下的情感分類精度的對比示意圖;
[0020]圖4為在兩個不同數據集上的不同最鄰近值下的情感分類精度的對比示意圖;
[0021]圖5為在兩個數據集上的GNMTF的參數分析的對比示意圖;
[0022]圖6為半監督模式下具有不同百分比標記文件下的情感分類精度的對比示意圖。

【具體實施方式】
[0023]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
[0024]本發明實施例所提供的情感數據分類方法,可以對測試數據集中的文檔,確定其對應的情感傾向。測試數據集可以是用戶在互聯網中所產生的情感數據所組成的集合,比如,互聯網中存在的評論數據、博客數據等。情感數據分類方法則可對諸如評論的文檔確定其對應的情感傾向,比如確定是積極的還是消極的。具體的,先對訓練數據集中的數據進行訓練,訓練數據集可以是互聯網中已經存在的大量的情感數據所組成的集合,對這些數據進行訓練可以得到文檔-情感矩陣,該文檔-情感矩陣則為最優的文檔-情感矩陣,使用最優的文檔-情感數據對測試數據集中的文檔確定其對應的情感傾向,能夠獲得更為準確的分類結果。在訓練過程中,考慮到鄰近的詞或文檔往往有著相同的情感傾向,因此對訓練數據集構造兩個圖,即文檔-文檔圖和詞-詞圖,這兩個圖具有密切關系,且分別包含了文檔空間和詞空間中的幾何信息。將這兩個圖作為非負矩陣三因子分解的正則化,從而構造出目標函數中的基于圖的正則化項,再對目標函數進行優化處理,從而可以得到最優的文檔-情感矩陣。由于構造了兩個圖,且構造的目標函數中除了非負矩陣三因子分解項外,還包含了基于圖的正則化項,因此本發明實施例所采用的算法也稱之為基于圖正則化的非負矩陣三因子分角軍(Graph Co-regularized Non-negative Matrix Tr1-factorizat1n,簡稱GNMTF)算法,本發明實施例提出了一種基于圖正則化非負矩陣三因子分解的情感數據分類方法。
[0025]如圖1所示,在一個實施例中,提供了一種情感數據分類方法,包括:
[0026]步驟102,構造訓練數據集對應的文檔-文檔圖和詞-詞圖。
[0027]訓練數據集是用來進行訓練的數據集合,可選取互聯網中已存在的大量的情感數據作為訓練樣本,這些訓練樣本也可包含一些進行了人工標注的文檔。本實施例中,文檔-文檔圖中,節點表示訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度。詞-詞圖中,節點表示訓練數據集中的詞,邊屬性表示詞之間的相關度。因此,構造的這兩個圖中分別保留了文檔空間和詞空間中的幾何信息。
[0028]步驟104,根據文檔-文檔圖和詞-詞圖的幾何信息構造目標函數的基于圖的正則化項。
[0029]本實施例中,在構造目標函數時,在CNMTF基礎上增加基于圖的正則化項。CNMTF是指約束的非負矩陣三因子分解,其構造的目標函數包含非負矩陣三因子分解項和詞匯先驗知識項。具體的,可根據文檔-文檔圖獲取對應的相關度矩陣,根據詞-詞圖獲取對應的相關度矩陣,根據這兩個相關度矩陣獲取對應圖的拉普拉斯矩陣,再根據拉普拉斯矩陣構造目標函數中的基于圖的正則化項,從而保留了文檔空間和詞空間中的幾何信息。
[0030]步驟106,對目標函數進行優化處理,輸出文檔-情感矩陣。
[0031]具體的,單調減少所構造的目標函數直至收斂,最終得到使得目標函數最小化對應的參數,這些參數中包含文檔-情感矩陣。該文檔-情感矩陣即為最優的文檔-情感矩陣,標識了一個文檔所對應的情感(即情感傾向)。
[0032]步驟108,獲取測試數據集中的文檔,根據輸出的文檔-情感矩陣獲取與測試數據集中的文檔對應的情感傾向。
[0033]測試數據集是指需要確定其中文檔對應的情感傾向的數據組成的集合。對于測試數據集中的一個文檔,根據輸出的文檔-情感矩陣可找到該文檔對應的行,根據該行找到取最大值的情感傾向,即為該文檔對應的情感傾向。情感傾向為正,則表明該文檔對應的情感是積極的,情感傾向為負,表明該文檔對應的情感是消極的,以此實現對文檔的情感分類。
[0034]本實施例中,通過構造訓練數據集對應的兩個圖,即文檔-文檔圖和詞-詞圖,在構造目標函數時,充分考慮到了文檔空間和詞空間中的幾何信息,利用了鄰近的詞或文檔往往有著相同的情感傾向的原理,對目標函數進行優化處理后,輸出的最優的文檔-情感矩陣更加精確,使得對于測試數據集中的文檔,確定對應的情感傾向更加準確,從而提高了情感數據的分類精度。
[0035]由于本發明實施例所提出的GNMTF算法是在CNMTF基礎上提出的,而CNMTF是約束的 NMTF (Non-negative Matrix Tr1-factorizat1n,非負矩陣三因子分解)。為了更加清楚的理解本發明,以下相應的對NMTF和CNMTF進行說明以及介紹一些基本概念。
[0036]非負矩陣三因子分解(NMTF)可用于無監督(或半監督)情感分析,在這些模型中,一個詞-文檔矩陣可以近似為三因子矩陣,通過求解公式(I)中的優化問題來對詞和文檔指定類別標注:
[0037]
n mi參 οO = |X - UHVr||f— + ,T1 IjUrU - + CT2IVtV -1||J— υ:ΗΛ'~Μ(I)
[0038]其中,詞-文檔矩陣1=自,m為詞的個數,η為文檔的個數。σ:和σ 2是收縮正則化參數。t/ 二 [&...,&] GiCd+是詞-情感矩陣,F = R,...,FJeiC*是文檔-情感矩陣,k是文檔的情感類別數量,k = 2,即情感分類包含兩類:正和負。例如,Vil =
I(或Uil = I)表示文檔i (或詞i)的情感傾向為正,Vi2 = I (或Ui2 = I)表示文檔i (或詞i)的情感傾向為負。Vi# = 0(或Uw = O)表示未知,即:文檔i (或詞i)既不為正也不為負。Il.I If是Frobenius范數,I是所有條目都為I的單位矩陣。
[0039]對于公式(I),基于收縮技術,可通過防止第二項和第三項過于龐大以近似滿足U和V的正交約束。由于拉格朗日乘法,給定任意£1和ε2,有適當的01和Q2,使得滿足
II和lirV —/Ilpi2。
[0040]有關NMTF的一些概念如下:
[0041]給定一個矩陣Ze]R_,X的蹤跡計算為:
[0042]

【權利要求】
1.一種情感數據分類方法,所述方法包括: 構造訓練數據集對應的文檔-文檔圖和詞-詞圖,所述文檔-文檔圖中,節點表示所述訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度,所述詞-詞圖中,節點表示所述訓練數據集中的詞,邊的幾何信息表示詞之間的相關度; 根據所述文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項; 對所述目標函數進行優化處理,輸出文檔-情感矩陣; 獲取測試數據集中的文檔,根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向。
2.根據權利要求1所述的方法,其特征在于,所述文檔-文檔圖的相關度矩陣定義為:如果兩個文檔,其中任何一個文檔為另外一個文檔的最近鄰居,則這兩個文檔的相關度為這兩個文檔之間的余弦,否則相關度為O ; 所述詞-詞圖的相關度矩陣定義為:如果兩個詞,其中任何一個詞為另外一個詞的最近鄰居,則這兩個詞的相關度為這兩個詞之間的余弦,否則相關度為O。
3.根據權利要求1所述的方法,其特征在于,所述根據文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項的步驟,包括: 構造所述訓練數據集對應的文檔-情感矩陣和詞-情感矩陣; 獲取所述文檔-文檔圖的拉普拉斯矩陣和所述詞-詞圖的拉普拉斯矩陣; 根據所述訓練數據集對應的文檔-情感矩陣和所述文檔-文檔圖的拉普拉斯矩陣構造所述目標函數中基于文檔-文檔圖的正則化項,以及根據所述訓練數據集對應的詞-情感矩陣和所述詞-詞圖的拉普拉斯矩陣構造所述目標函數中基于詞-詞圖的正則化項。
4.根據權利要求3所述的方法,其特征在于,所述基于文檔-文檔圖的正則化項為預設的文檔空間的控制參數與第一蹤跡的乘積,所述基于詞-詞圖的正則化項為預設的詞空間的控制參數與第二蹤跡的乘積; 所述基于圖的正則化項為預設的文檔空間的控制參數與第一蹤跡的乘積和預設的詞空間的控制參數與第二蹤跡的乘積之和; 其中,所述第一蹤跡為將所述文檔-情感矩陣、文檔-情感矩陣的轉置矩陣、文檔-文檔圖的拉普拉斯矩陣相乘得到的矩陣的蹤跡,所述第二蹤跡為將所述詞-情感矩陣、詞-情感矩陣的轉置矩陣、詞-詞圖的拉普拉斯矩陣相乘得到的矩陣的蹤跡。
5.根據權利要求1所述的方法,其特征在于,所述對目標函數進行優化處理,輸出文檔-情感矩陣的步驟,包括: 按照預設次數進行迭代運算,不斷更新文檔-情感矩陣、詞-情感矩陣和文檔情感矩陣與詞-情感矩陣之間的關聯矩陣,根據更新的文檔-情感矩陣、詞-情感那矩陣和所述關聯矩陣單調減少所述目標函數直到收斂,輸出使得所述目標函數最小化的文檔-情感矩陣。
6.根據權利要求1所述的方法,其特征在于,所述根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向的步驟為: 對于所述測試數據集中的一個文檔,獲取該文檔在所述文檔-情感矩陣中所處的行,獲取所述行中對應的取最大值的情感傾向作為所述文檔對應的情感傾向。
7.一種情感數據分類系統,其特征在于,所述系統包括: 圖構造模塊,用于構造訓練數據集對應的文檔-文檔圖和詞-詞圖,所述文檔-文檔圖中,節點表示所述訓練數據集中的文檔,邊的幾何信息表示文檔之間的相關度,所述詞-詞圖中,節點表示所述訓練數據集中的詞,邊的幾何信息表示詞之間的相關度; 正則化項構造模塊,用于根據所述文檔-文檔圖和詞-詞圖的幾何信息構造目標函數中的基于圖的正則化項; 優化處理模塊,用于對所述目標函數進行優化處理,輸出文檔-情感矩陣; 情感傾向確定模塊,用于獲取測試數據集中的文檔,根據所述文檔-情感矩陣獲取與所述測試數據集中的文檔對應的情感傾向。
8.根據權利要求7所述的系統,其特征在于,所述文檔-文檔圖的相關度矩陣定義為:如果兩個文檔,其中任何一個文檔為另外一個文檔的最近鄰居,則這兩個文檔的相關度為這兩個文檔之間的余弦,否則相關度為O ; 所述詞-詞圖的相關度矩陣定義為:如果兩個詞,其中任何一個詞為另外一個詞的最近鄰居,則這兩個詞的相關度為這兩個詞之間的余弦,否則相關度為O。
9.根據權利要求7所述的系統,其特征在于,所述正則化項構造模塊用于構造所述訓練數據集對應的文檔-情感矩陣和詞-情感矩陣;獲取所述文檔-文檔圖的拉普拉斯矩陣和所述詞-詞圖的拉普拉斯矩陣;根據所述訓練數據集對應的文檔-情感矩陣和所述文檔-文檔圖的拉普拉斯矩陣構造所述目標函數中基于文檔-文檔圖的正則化項,以及根據所述訓練數據集對應的詞-情感矩陣和所述詞-詞圖的拉普拉斯矩陣構造所述目標函數中基于詞-詞圖的正則化項。
10.根據權利要求9所述的系統,其特征在于,所述基于文檔-文檔圖的正則化項為預設的文檔空間的控制參數與第一蹤跡的乘積,所述基于詞-詞圖的正則化項為預設的詞空間的控制參數與第二蹤跡的乘積; 所述基于圖的正則化項為預設的文檔空間的控制參數與第一蹤跡的乘積和預設的詞空間的控制參數與第二蹤跡的乘積之和; 其中,所述第一蹤跡為將所述文檔-情感矩陣、文檔-情感矩陣的轉置矩陣、文檔-文檔圖的拉普拉斯矩陣相乘得到的矩陣的蹤跡,所述第二蹤跡為將所述詞-情感矩陣、詞-情感矩陣的轉置矩陣、詞-詞圖的拉普拉斯矩陣相乘得到的矩陣的蹤跡。
11.根據權利要求7所述的系統,其特征在于,所述優化處理模塊用于按照預設次數進行迭代運算,不斷更新文檔-情感矩陣、詞-情感矩陣和文檔情感矩陣與詞-情感矩陣之間的關聯矩陣,根據更新的文檔-情感矩陣、詞-情感那矩陣和所述關聯矩陣單調減少所述目標函數直到收斂,輸出使得所述目標函數最小化的文檔-情感矩陣。
12.根據權利要求7所述的系統,其特征在于,所述情感傾向確定模塊用于對于所述測試數據集中的一個文檔,獲取該文檔在所述文檔-情感矩陣中所處的行,獲取所述行中對應的取最大值的情感傾向作為所述文檔對應的情感傾向。
【文檔編號】G06F17/30GK104199829SQ201410361587
【公開日】2014年12月10日 申請日期:2014年7月25日 優先權日:2014年7月25日
【發明者】周光有, 王巨宏, 蔣杰, 薛偉, 管剛, 趙軍 申請人:中國科學院自動化研究所, 騰訊科技(深圳)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 奉节县| 青州市| 昭苏县| 青冈县| 乌苏市| 焦作市| 福州市| 新龙县| 玛沁县| 铁力市| 铅山县| 荥经县| 阳泉市| 龙川县| 察隅县| 交口县| 微山县| 新化县| 西和县| 津南区| 宿州市| 禹州市| 荣昌县| 曲靖市| 延边| 馆陶县| 库伦旗| 建德市| 瑞金市| 卫辉市| 奉新县| 邹平县| 平邑县| 嘉定区| 许昌市| 阜阳市| 手机| 阿克陶县| 凌源市| 林西县| 泸水县|