一種基于認知結構模型的文本情感類型識別方法及裝置制造方法
【專利摘要】本發明公開了一種基于認知結構模型的文本情感類型識別方法及裝置,該方法包括:對于輸入的海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建情感維度詞典;對所構建的情感維度詞典進行求精,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,得到相應的情感類型。本發明的上述方案設計思路、可解釋性、使用靈活性及有效性上均明顯優于已有方法,可用于商務智能、社情輿情、決策評估等領域面向文本的情感分析與識別。
【專利說明】一種基于認知結構模型的文本情感類型識別方法及裝置
【技術領域】
[0001]本發明屬于計算機科學技術中的觀點挖掘和情感分析領域,尤其涉及一種基于情感的認知結構模型,采用統計方法構建情感維度詞典,自動識別出文本中的多種情感類型的方法及其裝置。
【背景技術】
[0002]觀點挖掘和情感分析在社會公共安全、商務智能、社情輿情等領域具有十分重要的應用價值。近年來,社會媒體(人人網、科學網、博客、微博、微信等)在互聯網中的蓬勃發展導致了用戶產生的內容在數量上呈爆炸式增長。用戶產生的內容中通常包含一定量的情感,能夠為社會、經濟、政治、文化相關的多個領域應用提供關鍵信息和決策支持。
[0003]目前觀點挖掘和情感分析方法主要是識別觀點的正負極性和文本中多種情感類型。識別觀點正負極性的方法主要包括文檔級、語句級、基于情感對象特征的識別方法。Turney (ACL, 2002)提出一種利用非監督學習方法計算詞之間的互信息(PMI)來判斷整個文檔的正負極性。Pang等(ACL,2002)提出采用多種機器學習方法分類每篇電影評論的正負極性。Wiebe等(Computational Linguistics, 2004)通過大量數據集學習線索和特征,區分主觀觀點和客觀事實,并在語句級判斷觀點的正負極性。張長利等(JASIST,2009)提出利用詞之間的依賴關系分析中文語句的正負傾向性。Hu等(SIGKDD,2004)利用頻繁挖掘算法獲得情感對象特征,再利用語義詞典確定情感詞的正負極性,從而輸出針對每個情感對象特征的相關正負評論。
[0004]文本中情感類型的識別目前以分類方法為主。Mishne (SIGIR,2005)提出一種基于特征的學習方法分類博文中的情感類型。Alm等(ACL,2005)提出利用與Mishne相似的方法分類敘事文本中的基本情感類型。Mostafa在博士論文(2008)中提出用大量手工標注的數據,基于主要的情感變量,計算語句中幾乎所有詞的情感變量值,進而計算出整個語句的情感。其中,Mostafa公開的方案不但需要大量人力標注數據,而且不加區分地計算句子中出現的詞,因而導致該方法的效率和性能較低。
【發明內容】
[0005]本發明要解決的技術問題是:給定大量的文本數據集,結合情感認知理論,自動識別出文本中所包含的主要情感類型。
[0006]為了識別文本中豐富的情感類型,同時盡可能避免手工標注等費時費力的方法,本發明提出了一種基于認知結構模型的文本情感類型識別方法,其包括:
[0007]步驟1、對于輸入的海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建不同的情感維度詞典;其中,每個情感維度詞典具有一個確定的情感維度值;
[0008]步驟2、對所構建的情感維度詞典進行求精得到高質量的情感維度詞典,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;[0009]步驟3、基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,生成相應的情感類型。
[0010]本發明還公開了一種基于認知結構模型的文本情感類型識別裝置,其包括:
[0011]情感維度詞典構造模塊,其用于對于輸入的海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建情感維度詞典;其中,不同的情感維度詞典具有各自的情感維度值;
[0012]情感維度詞典求精模塊,其用于對所構建的情感維度詞典進行求精得到高質量的情感維度詞典,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;
[0013]情感類型產生模塊,其用于基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,生成相應的情感類型。
[0014]與現有技術相比,本發明提出的基于認知結構模型來識別文本情感類型的方法由于利用了情感的認知結構理論,不但可以輸出豐富的情感類型,而且所需標注的數據量非常少。因此,在輸出結果的可解釋性、使用靈活性及有效性方面較已有方法具有明顯的優勢。
[0015]基于認知心理學領域成熟的情感認知結構模型,自動識別文本中所包含的主要情感類型;
[0016]采用統計方法,基于句法依存關系和通用語義詞典,通過少量的標注數據自動構建情感維度詞典;
[0017]賦予文本情感分析更深層次的認知結構關聯,從而給情感類型的輸出一個更加精細的符合認知心理學模型的合理解釋。
【專利附圖】
【附圖說明】
[0018]圖1是本發明中基于認知結構模型的文本情感類型的識別方法流程圖;
[0019]圖2是利用本發明提出的文本情感類型生成過程的示例圖。
【具體實施方式】
[0020]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明作進一步的詳細說明。
[0021]本發明以認知心理學中經典的情感認知結構模型(以OCC認知結構模型為代表[Ortony, Clore&Collins,1988])為理論基礎,建立自動識別文本中情感類型的方法。該模型可以描述多種不同情感類型的認知結構,在情感的計算建模中有著非常廣泛的應用。模型中每個情感類型的出現都由一定的條件觸發,這些條件可以用不同的情感維度值來表達,其中“合意性(Desirability) ”、“褒貶性(Praise-/Blame_worthiness) ” 和“可能性(Likelihood) ”是該模型中三個最為重要的情感維度變量?!昂弦庑浴迸c主體的目標相關聯,“褒貶性”與行為是否符合社會道德標準相關聯,而“可能性”則表示對事件發生的期望。
[0022]在情感認知結構理論中,每個情感維度變量有不同的取值?!昂弦庑浴本S度的取值包括“合意的(Desirable) ”和“不合意的(Undesirable) ”。當某些事件的發生有利于最終目標的實現時,這種情況對于主體而言是合意的;反之則是不合意的。類似地,“褒貶性”維度的取值有“值得稱贊的(Praiseworthy) ”和“應受責備的(Blameworthy)”?!翱赡苄浴本S度有“可能的(Likely)”和“確定的”這兩個取值。情感維度變量的不同取值及其組合可以生成不同的情感類型。例如,如果“合意的”事件的可能性是“確定的”,引發“高興”情感;否則引發“希望”。如果個體“值得表揚的”行為帶來合己意的行為后果,則導致“驕傲”情感的產生。本發明的工作可以生成六種主要情感類型:高興(Joy)、悲傷(Distress)、希望(Hope)、恐懼(Fear)、驕傲(Pride)和羞恥(Shame)。
[0023]為此,本發明提出了一種基于認知結構模型的文本情感類型的識別方法。該方法中,文本中情感類型的分析識別基于認知理論中的情感認知結構模型,模型中主要通過情感維度值來確定情感類型,因此,建立文本情感類型識別系統的關鍵是自動構建高質量的情感維度詞典。
[0024]圖1示出了本發明中基于認知結構模型的文本情感類型的識別方法流程圖。如圖1所示,該方法包括:
[0025]步驟1、面向海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建情感維度詞典;
[0026]步驟2、對所構建的情感維度詞典進行求精,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;
[0027]步驟3、基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,生成多種主要的情感類型。
[0028]下面詳細介紹上述各個步驟。
[0029]步驟1、情感維度詞典的建立:
[0030]情感維度詞典是基于句法依存關系和通用語義詞典,采用統計的方法自動構建的。輸入是海量的文本和關于某個情感維度值的種子詞,輸出是針對這個情感維度值建立起來的情感維度詞典。這里情感維度值可以是“合意的“(Desirable) ”、“不合意的(Undesirable) ”、“值得稱贊的(Praiseworthy) ”、“應受責備的(Blameworthy) ”和“可能的(Likely) ”。具體步驟如下:
[0031]步驟1.1、手工挑選少量高質量的每種情感維度種子詞,作為初始的情感維度詞典輸入;情感維度詞典包括DICrDICpDICpDIC;和DIQ,分別表示合意的情感維度詞典、不合意的情感維度詞典、值得稱贊的情感維度詞典、應受責備的情感維度詞典和可能的情感維度詞典;
[0032]步驟1.2、針對情感維度詞典中每個新加入的情感維度詞,基于通用語義詞典,找出其同義詞和反義詞,并將其同義詞和反義詞分別放入相應的情感維度詞典候選集中;
[0033]步驟1.3、利用句法依存關系(如:conj_and、conj_or、prep_in、parataxis 等)從輸入的海量文本中找出與所述相應的情感維度詞典中已有的情感維度詞具有依存關系的新情感維度詞,放入相應的情感維度詞典候選集中;
[0034]步驟1.4、利用評分函數對相應的情感維度詞典候選集進行評價與過濾,選取其中評分大于閾值的候選集中的情感詞,放入相應的情感維度詞典中;
[0035]步驟1.5、不斷重復步驟1.2-1.4,直到不再有新的情感維度詞加入;
[0036]步驟1.6、利用通用語義詞典中的派生以及還原關系擴充情感維度詞典。
[0037]其中,步驟1.4中所述的評分函數如下表示:
【權利要求】
1.一種基于認知結構模型的文本情感類型識別方法,其包括:步驟1、對于輸入的海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建不同的情感維度詞典;其中,每個情感維度詞典具有一個確定的情感維度值;步驟2、對所構建的情感維度詞典進行求精得到高質量的情感維度詞典,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;步驟3、基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,生成相應的情感類型。
2.如權利要求1所述的識別方法,其特征在于,步驟I中情感維度詞典包括合意的情感維度詞典、不合意的情感維度詞典、值得稱贊的情感維度詞典、應受責備的情感維度詞典和可能的情感維度詞典。
3.如權利要求1所述的識別方法,其特征在于,步驟I具體包括:步驟1.1、輸入每種情感維度種子詞,作為初始的情感維度詞典輸入;步驟1.2、針對每個情感維度詞典中新加入的情感維度詞,基于通用語義詞典,找出其同義詞和反義詞,并將其同義詞和反義詞放入相應的情感維度詞典候選集中;步驟1.3、利用句法依存關系,從輸入文本中找出與所述每個情感維度詞典中已有的情感維度詞具有依存關系的新情感維度詞,放入相應的情感維度詞典候選集中;步驟1.4、利用評分函數對所述情感維度詞典候選集進行評價與過濾,選取其中評分大于閾值的候選集中的情感詞,放入相應的情感維度詞典中;步驟1.5、不斷重復步驟1.2-1.4,直到不再有新的情感維度詞加入;步驟1.6、利用通用語義詞典中的派生以及還原關系擴充每個情感維度詞典。
4.如權利要求3所述的識別方法,其特征在于,步驟1.4中的評分函數既考慮當前情感維度詞典候選集中待評價的候選詞與其對應的情感維度詞典中的詞共現的次數,也考慮與其對應的情感維度詞典在所有情感維度詞典中所占的情感詞的比例。
5.如權利要求3所述的識別方法,其特征在于,步驟1.4中所述評分函數如下表示:
6.如權利要求1所述的識別方法,其特征在于,步驟2中所述語義不一致性是指同一個詞在同一情感維度值上具有相互矛盾的取值;情感傾向不一致性是指一個詞同時具有正負情感傾向上相互沖突的情感維度值。
7.如權利要求1所述的識別方法,其特征在于,步驟2中基于通用語義詞典中的同義和反義關系,去除語義不一致和情感傾向不一致的詞。
8.如權利要求1、6-7所述的識別方法,其特征在于,步驟2中對于當前待求精的情感詞根據下式求其計算得分,以過濾語義不一致和情感傾向不一致的詞:
9.如權利要求1所述的識別方法,其特征在于,步驟I中,所述該句法依存關系包括語義相近或者相反的詞。
10.一種基于認知結構模型的文本情感類型識別裝置,其包括:情感維度詞典構造模塊,其用于對于輸入的海量開源文本,基于通用語義詞典和句法依存關系,采用統計方法自動構建不同的情感維度詞典;其中,每個情感維度詞典具有一個確定的情感維度值;情感維度詞典求精模塊,其用于對所構建的情感維度詞典進行求精得到高質量的情感維度詞典,求精具體包括語義、情感傾向的不一致性處理和非情感詞的過濾;情感類型產生模塊,其用于基于求精后得到的高質量的情感維度詞典,結合情感認知結構模型中情感維度值與情感類型的對應關系,生成相應的情感類型。
【文檔編號】G06F17/27GK103440235SQ201310363414
【公開日】2013年12月11日 申請日期:2013年8月20日 優先權日:2013年8月20日
【發明者】毛文吉, 曾大軍, 皇甫璐雯, 王磊 申請人:中國科學院自動化研究所