事件情感類型的分析方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種事件情感類型的分析方法和裝置。其中,該分析方法包括:對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合;對(duì)詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)第一詞語的情感傾向性的標(biāo)注值;計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù);按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表;從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語;使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值;獲取加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。通過本發(fā)明,解決了現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,實(shí)現(xiàn)了提高分析事件的情感類型的效率和準(zhǔn)確度的效果。
【專利說明】事件情感類型的分析方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種事件情感類型的分析方法和裝置。
【背景技術(shù)】
[0002]對(duì)于人們關(guān)注的主題,如果給定一個(gè)關(guān)鍵詞,需要解決的問題是如何根據(jù)給定的大量文本信息快速有效的分析給定關(guān)鍵詞的關(guān)聯(lián)性事件的情感類型,即確定給定關(guān)鍵詞的關(guān)聯(lián)性事件的情感傾向性。為解決上述的問題,現(xiàn)有技術(shù)中的事件的情感類型分析方法主要是通過文本相似度匹配和文本距離間隔來識(shí)別給定關(guān)鍵詞的關(guān)聯(lián)性事件,并根據(jù)關(guān)聯(lián)性事件中包含的情感詞的傾向性來分析事件的情感類型,其中,情感詞的確定依據(jù)的是情感傾向性詞匯的語料庫,即將事件中的詞語與經(jīng)長(zhǎng)期積累的語料庫中的情感詞進(jìn)行匹配,以確定事件的情感詞。
[0003]但是,現(xiàn)有技術(shù)無法應(yīng)用于語料庫中未收錄的詞語(如新出現(xiàn)的網(wǎng)絡(luò)詞語)或者本身不帶有情感傾向性的詞語。
[0004]由于現(xiàn)有的解決方案運(yùn)用遍歷法查找給定關(guān)鍵詞的關(guān)聯(lián)性詞語并識(shí)別關(guān)聯(lián)性事件,在計(jì)算和存儲(chǔ)數(shù)據(jù)時(shí)耗費(fèi)的計(jì)算機(jī)資源都比較大,處理速度慢,而且通過匹配情感傾向性詞匯的語料庫中的詞匯的方法查找給定關(guān)鍵詞的關(guān)聯(lián)性事件的詞語傾向性,無法分析語料庫中未收錄的詞匯的詞語傾向性,導(dǎo)致了分析關(guān)聯(lián)性事件的準(zhǔn)確度差。
[0005]針對(duì)現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的主要目的在于提供一種事件情感類型的分析方法和裝置,以解決現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題。
[0007]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種事件情感類型的分析方法。
[0008]根據(jù)本發(fā)明的分析方法包括:對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合;對(duì)詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)第一詞語的情感傾向性的標(biāo)注值;計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù);按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表;從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語;使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值;獲取加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
[0009]進(jìn)一步地,在使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,分析方法還包括:從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本;獲取第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性的第一標(biāo)注值,以及第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性的第二標(biāo)注值,其中,標(biāo)注值包括第一標(biāo)注值和第二標(biāo)注值;基于第一詞語樣本中的第三詞語的第一多維數(shù)組和第三詞語的情感屬性計(jì)算第一情感類型的第一高斯分布參數(shù)和第二情感類型的第二高斯分布參數(shù);使用第一高斯分布參數(shù)和第二高斯分布參數(shù)計(jì)算第二詞語的對(duì)應(yīng)第一情感類型的第一概率和對(duì)應(yīng)第二情感類型的第二概率;基于第一概率和第二概率確定第二詞語的情感類型;使用第二詞語的情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0010]進(jìn)一步地,基于第一概率和第二概率確定第二詞語的情感類型包括:計(jì)算第一概率與第二概率的差值;判斷差值是否大于第一預(yù)設(shè)閾值;若差值大于第一預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第一情感類型;若差值不大于第一預(yù)設(shè)閾值,則判斷差值是否小于第二預(yù)設(shè)閾值;若差值小于第二預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第二情感類型;若差值不小于第二預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第三情感類型。
[0011]進(jìn)一步地,計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù)包括:獲取文本樣本中事件中各個(gè)第四詞語的第二多維數(shù)組;對(duì)各個(gè)第二多維數(shù)組進(jìn)行合并得到事件的事件向量;計(jì)算事件的事件向量與各個(gè)第一詞語的第三多維數(shù)組之間的歐式距離,得到關(guān)聯(lián)度數(shù)據(jù);按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表包括:使用歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0012]進(jìn)一步地,在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,分析方法還包括:通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組,其中,多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
[0013]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種事件情感類型的分析裝置。
[0014]根據(jù)本發(fā)明的分析裝置包括:分詞模塊,用于對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合;標(biāo)注模塊,用于對(duì)詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)第一詞語的情感傾向性的標(biāo)注值;第一計(jì)算模塊,用于計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù);排序模塊,用于按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表;提取模塊,用于從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語;第二計(jì)算模塊,用于使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值;第一獲取模塊,用于獲取加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
[0015]進(jìn)一步地,分析裝置還包括:抽取模塊,用于在使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本;第二獲取模塊,用于獲取第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性的第一標(biāo)注值,以及第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性的第二標(biāo)注值,其中,標(biāo)注值包括第一標(biāo)注值和第二標(biāo)注值;第三計(jì)算模塊,用于基于第一詞語樣本中的第三詞語的第一多維數(shù)組和第三詞語的情感屬性計(jì)算第一情感類型的第一高斯分布參數(shù)和第二情感類型的第二高斯分布參數(shù);第四計(jì)算模塊,用于使用第一高斯分布參數(shù)和第二高斯分布參數(shù)計(jì)算第二詞語的對(duì)應(yīng)第一情感類型的第一概率和對(duì)應(yīng)第二情感類型的第二概率;確定模塊,用于基于第一概率和第二概率確定第二詞語的情感類型;設(shè)置模塊,用于使用第二詞語的情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0016]進(jìn)一步地,確定模塊包括:計(jì)算子模塊,用于計(jì)算第一概率與第二概率的差值;第一判斷模塊,用于判斷差值是否大于第一預(yù)設(shè)閾值;第一確定子模塊,用于在差值大于第一預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第一情感類型;第二判斷模塊,用于在差值不大于第一預(yù)設(shè)閾值的情況下,判斷差值是否小于第二預(yù)設(shè)閾值;第二確定子模塊,用于在差值小于第二預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第二情感類型;第三確定子模塊,用于差值不小于第二預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第三情感類型。
[0017]進(jìn)一步地,第一計(jì)算模塊包括:獲取子模塊,用于獲取文本樣本中事件中各個(gè)第四詞語的第二多維數(shù)組;合并模塊,用于對(duì)各個(gè)第二多維數(shù)組進(jìn)行合并得到事件的事件向量;計(jì)算子模塊,用于計(jì)算事件的事件向量與各個(gè)第一詞語的第三多維數(shù)組之間的歐式距離,得到關(guān)聯(lián)度數(shù)據(jù);排序模塊包括:排序子模塊,用于使用歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0018]進(jìn)一步地,分析裝置還包括:第二獲取模塊,用于在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組,其中,多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
[0019]采用本發(fā)明實(shí)施例,在對(duì)文本樣本進(jìn)行分詞處理得到詞語集合之后,計(jì)算文本樣本中的事件與詞語集合中的各個(gè)詞語之間的關(guān)聯(lián)度數(shù)據(jù)并排序,得到詞語的排序表,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語,并使用第二詞語的情感傾向性的標(biāo)注值和關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,確定計(jì)算得到的加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍,將該預(yù)設(shè)加權(quán)范圍對(duì)應(yīng)的情感類型作為事件的情感類型。在本發(fā)明實(shí)施例中,根據(jù)詞語的情感傾向性的標(biāo)注值與關(guān)聯(lián)度數(shù)據(jù)計(jì)算加權(quán)值,并根據(jù)加權(quán)值確定事件的情感類型,提高了分析事件的情感類型的準(zhǔn)確度,無需手動(dòng)遍歷情感傾向性詞匯的語料庫以確定事件的情感傾向性(即情感類型),提高了分析事件的情感類型的效率。通過本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,實(shí)現(xiàn)了提高分析事件的情感類型的效率和準(zhǔn)確度的效果。
【專利附圖】
【附圖說明】
[0020]構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1是根據(jù)本發(fā)明實(shí)施例的事件情感類型的分析方法的流程圖;
[0022]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的事件情感類型的分析方法的流程圖;以及
[0023]圖3是根據(jù)本發(fā)明實(shí)施例的事件情感類型的分析裝置的示意圖。
【具體實(shí)施方式】
[0024]首先,在對(duì)本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或術(shù)語適用于如下解釋:
[0025]機(jī)器學(xué)習(xí)是通過從數(shù)據(jù)里提取規(guī)則或模式來把數(shù)據(jù)轉(zhuǎn)換成信息的一種方法,主要的機(jī)器學(xué)習(xí)方法有歸納學(xué)習(xí)法和分析學(xué)習(xí)法。在機(jī)器學(xué)習(xí)過程中,數(shù)據(jù)首先被預(yù)處理,形成特征,然后根據(jù)特征創(chuàng)建某種模型;機(jī)器學(xué)習(xí)算法分析收集到的數(shù)據(jù),分配權(quán)重、閾值和其他參數(shù)達(dá)到學(xué)習(xí)目的。
[0026]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0027]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0028]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0029]本發(fā)明實(shí)施例提供了一種事件情感類型的分析方法。
[0030]圖1是根據(jù)本發(fā)明實(shí)施例的事件情感類型的分析方法的流程圖。如圖1所示,該分析方法可以包括步驟如下:
[0031]步驟S102,對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合。
[0032]步驟S104,對(duì)詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)第一詞語的情感傾向性的標(biāo)注值。
[0033]步驟S106,計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù)。
[0034]步驟S108,按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表。
[0035]步驟S110,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語。
[0036]步驟S112,使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值。
[0037]步驟S114,獲取加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
[0038]采用本發(fā)明實(shí)施例,在對(duì)文本樣本進(jìn)行分詞處理得到詞語集合之后,計(jì)算文本樣本中的事件與詞語集合中的各個(gè)詞語之間的關(guān)聯(lián)度數(shù)據(jù)并排序,得到詞語的排序表,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語,并使用第二詞語的情感傾向性的標(biāo)注值和關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,確定計(jì)算得到的加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍,將該預(yù)設(shè)加權(quán)范圍對(duì)應(yīng)的情感類型作為事件的情感類型。在本發(fā)明實(shí)施例中,根據(jù)詞語的情感傾向性的標(biāo)注值與關(guān)聯(lián)度數(shù)據(jù)計(jì)算加權(quán)值,并根據(jù)加權(quán)值確定事件的情感類型,提高了分析事件的情感類型的準(zhǔn)確度,無需手動(dòng)遍歷情感傾向性詞匯的語料庫以確定事件的情感傾向性(即情感類型),提高了分析事件的情感類型的效率。通過本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,實(shí)現(xiàn)了提高分析事件的情感類型的效率和準(zhǔn)確度的效果。
[0039]在上述實(shí)施例中,文本信息可以為從互聯(lián)網(wǎng)中獲取的文本(如,一條新聞或者一篇文博評(píng)論),也可以是通過掃描或輸入紙質(zhì)文件的內(nèi)容得到的電子文本,還可以是用戶通過終端輸入的電子文本等;第一詞語是將文本樣本進(jìn)行分詞處理后得到的詞語。
[0040]進(jìn)一步地,對(duì)文本信息進(jìn)行分詞處理,得到詞語集合可以通過如下方法實(shí)現(xiàn):按照預(yù)設(shè)詞匯組合將文本信息拆分為多個(gè)詞語,保存多個(gè)詞語得到詞語集合。
[0041]具體地,可以從詞語數(shù)據(jù)庫中獲取預(yù)設(shè)詞匯組合,并將文本信息中的詞語與詞語數(shù)據(jù)庫中的預(yù)設(shè)詞匯組合進(jìn)行匹配,若文本信息中的詞語與預(yù)設(shè)詞匯組合相同,則將該詞語從文本信息中劃分出來,得到多個(gè)詞語。
[0042]可選地,可以使用分詞工具對(duì)文本信息進(jìn)行分詞處理。
[0043]例如,若文本信息為“今天天氣很好”,在使用分詞工具對(duì)該文本信息進(jìn)行分詞處理之后,得到的詞語可以為“今天”、“天氣”、“很”以及“好”。
[0044]在本發(fā)明上述實(shí)施例中,在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,分析方法還可以包括:通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組,其中,多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
[0045]具體地,通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組可以通過機(jī)器學(xué)習(xí)的方法(如,機(jī)器學(xué)習(xí)程序)來實(shí)現(xiàn)。可選地,該實(shí)施例中的多維數(shù)組可以為500維的向量,在該實(shí)施例中采用500維的向量可以保證終端的運(yùn)行效率和運(yùn)行結(jié)果準(zhǔn)確性。
[0046]其中,可以使用工具word2vec將詞語表征為多維數(shù)組。word2vec是一個(gè)將單詞轉(zhuǎn)換成向量形式的工具。
[0047]在一個(gè)可選的實(shí)施例中,在通過機(jī)器學(xué)習(xí)得到文本樣本中各個(gè)詞語對(duì)應(yīng)的多維數(shù)組之后,基于每個(gè)詞語的多維數(shù)組對(duì)詞語進(jìn)行聚類,得到多個(gè)類,其中,每個(gè)類中包括多個(gè)詞語;獲取事件中的各個(gè)詞語,并查找事件中的各個(gè)詞語所在的類,計(jì)算事件中的各個(gè)詞語的多維數(shù)組與類中其他詞語的多維數(shù)組之間的歐式距離(即上述實(shí)施例中的關(guān)聯(lián)度數(shù)據(jù));將得到的歐式距離進(jìn)行倒序排序,得到該事件的各個(gè)詞語的詞語排序表(即上述實(shí)施例中的第一詞語的排序表),其中,詞語排序表中包括該事件的各個(gè)詞語的多個(gè)關(guān)聯(lián)性詞語(即上述實(shí)施例中的第一詞語)及對(duì)應(yīng)的歐式距離。
[0048]在該實(shí)施例中,在得到詞語排序表之后,從詞語排序表中讀取前N(即上述實(shí)施例中的第一預(yù)設(shè)數(shù)量)位的詞語,得到第二詞語,其中,N為自然數(shù)。
[0049]通過本發(fā)明上述實(shí)施例,使用向量標(biāo)識(shí)詞語,并通過機(jī)器學(xué)習(xí)得到文本樣本中各個(gè)詞語的多維數(shù)組,在計(jì)算事件的詞語與文本樣本中的其他詞語的關(guān)聯(lián)度數(shù)據(jù)時(shí),無需逐一匹配文本樣本中的所有詞語,只需進(jìn)行簡(jiǎn)單的數(shù)學(xué)計(jì)算即可獲得詞語排序表,并可從表中讀取第一預(yù)設(shè)數(shù)量的第二詞語,加快了計(jì)算關(guān)聯(lián)度數(shù)據(jù)的速度,進(jìn)而提高了分析事件的情感類型的效率;并且由于使用向量客觀標(biāo)識(shí)詞語,使得計(jì)算得到的結(jié)果更加客觀準(zhǔn)確。
[0050]根據(jù)本發(fā)明上述實(shí)施例,在使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,分析方法還可以包括:從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本;獲取第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性的第一標(biāo)注值,以及第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性的第二標(biāo)注值,其中,標(biāo)注值包括第一標(biāo)注值和第二標(biāo)注值;基于第一詞語樣本中的第三詞語的第一多維數(shù)組和第三詞語的情感屬性計(jì)算第一情感類型的第一高斯分布參數(shù)和第二情感類型的第二高斯分布參數(shù);使用第一高斯分布參數(shù)和第二高斯分布參數(shù)計(jì)算第二詞語的對(duì)應(yīng)第一情感類型的第一概率和對(duì)應(yīng)第二情感類型的第二概率;基于第一概率和第二概率確定第二詞語的情感類型;使用第二詞語的情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0051]具體地,從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語的第一詞語樣本,并使用各個(gè)情感類型的標(biāo)注值標(biāo)注第一詞語樣本中各個(gè)詞語的情感屬性,基于第一詞語樣本中各個(gè)詞語的多維數(shù)組和文本樣本的詞語集合中第一詞語的情感屬性計(jì)算各個(gè)情感類型的高斯分布參數(shù),然后使用各個(gè)情感類型的高斯分布參數(shù)計(jì)算從第一詞語排序表中提取的第二詞語對(duì)應(yīng)各個(gè)情感類型的概率,基于各個(gè)情感類型的概率確定第二詞語的情感類型,并使用該情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0052]在本發(fā)明上述實(shí)施例中,第一情感類型可以為正面情感類型,第二情感類型可以為負(fù)面情感類型。
[0053]進(jìn)一步地,使用第一標(biāo)注值設(shè)置第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性,并使用第二標(biāo)注值設(shè)置第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性可以包括:在數(shù)據(jù)表中讀取第三詞語的情感傾向詞;確定情感傾向詞所屬的情感類型,其中,情感類型包括第一情感類型和第二情感類型;使用第一標(biāo)注值設(shè)置屬于第一情感類型的第三詞語的情感屬性,并使用第二標(biāo)注值設(shè)置屬于第二情感類型的第三詞語的情感屬性。
[0054]具體地,在數(shù)據(jù)表中讀取第一詞語的情感傾向詞之后,確定情感傾向詞所屬的情感類型,并使用各個(gè)標(biāo)注值分別標(biāo)注第一詞語樣本中屬于各個(gè)情感類型的詞語的情感屬性。
[0055]上述的情感類型中還可以包括第三情感類型,第三情感類型可以為中立情感類型,其標(biāo)注值可以為第三標(biāo)注值。
[0056]在本發(fā)明的上述實(shí)施例中,數(shù)據(jù)表中的情感傾向詞可以包括預(yù)設(shè)的多種詞義的詞語,如,表示正面情感類型的詞語,如表示贊揚(yáng)的詞語或者積極詞等;情感傾向詞也可以包括表示負(fù)面情感類型的詞語,如貶義詞或者消極詞等;情感傾向詞還可以包括表示中立情感類型的詞語。
[0057]可選地,第一標(biāo)識(shí)值可以為1,表示正面情感類型(即第一情感類型);第二標(biāo)識(shí)值可以為-1,表示負(fù)面情感類型(即第二情感類型);第三標(biāo)識(shí)值可以為0,表示中立情感類型(即第三情感類型)。
[0058]根據(jù)本發(fā)明上述實(shí)施例,基于第一概率和第二概率確定第二詞語的情感類型可以包括:計(jì)算第一概率與第二概率的差值;判斷差值是否大于第一預(yù)設(shè)閾值;若差值大于第一預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第一情感類型;若差值不大于第一預(yù)設(shè)閾值,則判斷差值是否小于第二預(yù)設(shè)閾值;若差值小于第二預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第二情感類型;若差值不小于第二預(yù)設(shè)閾值,則判斷出第二詞語的情感類型為第三情感類型。
[0059]具體地,計(jì)算第一概率與第二概率的差值并判斷差值是否大于第一預(yù)設(shè)閾值,在差值大于第一預(yù)設(shè)閾值時(shí),判斷出第二詞語的情感類型為第一情感類型;在差值不大于第一預(yù)設(shè)閾值時(shí),判斷差值是否小于第二預(yù)設(shè)閾值;在差值小于第二預(yù)設(shè)閾值時(shí),判斷出第二詞語的情感類型為第二情感類型;在差值不小于第二預(yù)設(shè)閾值時(shí),則判斷出第二詞語的情感類型為第三情感類型。
[0060]在一個(gè)可選的實(shí)施例中,第一預(yù)設(shè)閾值與第二預(yù)設(shè)閾值的絕對(duì)值(可以記為預(yù)設(shè)概率值)可以相等,并且可以取第一預(yù)設(shè)閾值為正值,第二預(yù)設(shè)閾值為負(fù)值。在該實(shí)施例中,當(dāng)?shù)谝桓怕逝c第二概率的差值的絕對(duì)值大于預(yù)設(shè)概率值時(shí),判斷出第一概率和第二概率對(duì)應(yīng)的詞語具有明顯的情感傾向性(即情感類型),并且較大的概率所對(duì)應(yīng)的情感類型即為該詞語的情感類型;當(dāng)?shù)谝桓怕屎偷诙怕实牟钪挡淮笥陬A(yù)設(shè)概率值時(shí),判斷出該詞語的情感類型不明顯,為第三情感類型(即中立情感類型)。
[0061]通過本發(fā)明上述實(shí)施例,根據(jù)預(yù)先設(shè)定的閾值來確定第一概率與第二概率對(duì)應(yīng)的詞語的情感類型,提高了確定的詞語的情感類型的準(zhǔn)確度。
[0062]根據(jù)本發(fā)明上述實(shí)施例,計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù)包括:獲取文本樣本中事件中各個(gè)第四詞語的第二多維數(shù)組;對(duì)各個(gè)第二多維數(shù)組進(jìn)行合并得到事件的事件向量;計(jì)算事件的事件向量與各個(gè)第一詞語的第三多維數(shù)組之間的歐式距離,得到關(guān)聯(lián)度數(shù)據(jù);按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表包括:使用歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0063]具體地,在獲取文本樣本中事件的各個(gè)詞語的多維數(shù)組之后,將各個(gè)詞語的多維數(shù)組合并得到事件的事件向量,計(jì)算事件向量與詞語集合中各個(gè)第一詞語的多維數(shù)組之間的歐式距離,并按照歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0064]在本發(fā)明一個(gè)可選的上述實(shí)施例中,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語可以包括:對(duì)計(jì)算得到的歐式距離進(jìn)行倒序排序,得到排序表;將排序表中排序前N位的歐式距離的第一詞語提取為第二詞語,其中,N為自然數(shù)。
[0065]在本發(fā)明的另一個(gè)可選的實(shí)施例中,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語可以包括:計(jì)算事件向量與第一詞語的多維數(shù)組之間的歐式距離;將不大于預(yù)設(shè)閾值的歐式距離的第一詞語作為第二詞語。
[0066]具體地,在計(jì)算事件向量與第一詞語的多維數(shù)組之間的歐式距離之后,可以將計(jì)算得到的歐式距離進(jìn)行倒序排序得到排序表,并將排序表中排序前N位的歐式距離的第一詞語提取為第二詞語;還可以將不大于預(yù)設(shè)閾值的歐式距離的第一詞語作為第二詞語。
[0067]其中,N和預(yù)設(shè)閾值可以根據(jù)獲取請(qǐng)求而確定。
[0068]通過本發(fā)明上述實(shí)施例,使用向量標(biāo)識(shí)詞語,在計(jì)算關(guān)聯(lián)度數(shù)據(jù)時(shí),通過向量之間的歐式距離來客觀地計(jì)算關(guān)聯(lián)度數(shù)據(jù),增加了獲取到的關(guān)聯(lián)度數(shù)據(jù)的精確度。在上述實(shí)施例中,通過簡(jiǎn)單的數(shù)據(jù)處理即可獲取關(guān)聯(lián)度數(shù)據(jù),提升了獲取事件的關(guān)聯(lián)度數(shù)據(jù)的速度,進(jìn)而提高了分析事件的情感類型的效率。
[0069]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的事件情感類型的分析方法的流程圖,下面結(jié)合圖2詳細(xì)介紹本發(fā)明上述實(shí)施例。
[0070]如圖2所示,該分析方法可以包括如下步驟:
[0071]步驟S202,對(duì)文本訓(xùn)練樣本進(jìn)行分詞處理,用數(shù)組表示每個(gè)詞語,通過機(jī)器學(xué)習(xí)方法得到每個(gè)詞語唯一對(duì)應(yīng)的數(shù)組。
[0072]其中,文本訓(xùn)練樣本即本發(fā)明上述實(shí)施例中的文本樣本;數(shù)組即本發(fā)明上述實(shí)施例中的多維數(shù)組,數(shù)組可以為500維的數(shù)組。
[0073]步驟S204,采用隨機(jī)抽樣法對(duì)預(yù)設(shè)數(shù)量的詞語子樣本進(jìn)行詞語的情感傾向性標(biāo)注。
[0074]具體地,將正面情感類型的詞語的情感因子標(biāo)為1,負(fù)面情感類型的詞語的情感因子標(biāo)為-1,否則標(biāo)注為0。
[0075]其中,子樣本數(shù)組即本發(fā)明上述實(shí)施例中的第一詞語樣本;情感因子即上述實(shí)施例中的情感傾向性的標(biāo)注值。
[0076]步驟S206,分別對(duì)正面情感類型的詞語和正面情感類型的詞語用最大似然法計(jì)算各自的高維高斯分布參數(shù)。
[0077]步驟S208,獲取文本訓(xùn)練樣本中的事件。
[0078]步驟S210,查找事件中包含的所有詞語對(duì)應(yīng)的數(shù)組,并按詞語關(guān)聯(lián)分析方法得到情感詞得分的排序表。
[0079]其中,情感詞得分即本發(fā)明上述實(shí)施例中的關(guān)聯(lián)度數(shù)據(jù);情感詞即本發(fā)明上述實(shí)施例中的第二詞語。
[0080]步驟S212,以情感詞得分為權(quán)重,以該情感詞的情感因子為權(quán)重因子,計(jì)算事件的情感傾向期望值。
[0081]具體地,將各個(gè)情感詞的權(quán)重和權(quán)重因子的乘積之和作為事件的情感傾向期望值。
[0082]步驟S214,判斷情感傾向期望值是否在情感傾向性得分范圍內(nèi)。
[0083]其中,若情感傾向期望值在情感傾向性得分范圍內(nèi),則執(zhí)行步驟S216 ;若情感傾向期望值不在情感傾向性得分范圍內(nèi),則執(zhí)行步驟S218。
[0084]步驟S216,確定事件的情感傾向性為中立。
[0085]步驟S218,判斷情感傾向期望值是否不小于情感傾向性得分范圍的上限值。
[0086]其中,在情感傾向期望值不小于情感傾向性得分范圍的上限值時(shí),執(zhí)行步驟S220 ;在情感傾向期望值小于情感傾向性得分范圍的上限值(即概率閾值設(shè)置)時(shí),執(zhí)行步驟S222。
[0087]步驟S220,確定事件的情感傾向性為正面。
[0088]步驟S222,確定事件的情感傾向性為負(fù)面。
[0089]通過本發(fā)明上述實(shí)施例,采用數(shù)組方式表示詞語,并用機(jī)器學(xué)習(xí)方法到詞語的唯一數(shù)組標(biāo)識(shí),計(jì)算速度快;基于情感傾向性標(biāo)注,并通過最大似然法計(jì)算高維高斯分布參數(shù),使得情感詞分類更加準(zhǔn)確;采用概率閾值設(shè)置,使得判斷事件的情感類型的準(zhǔn)確性可以根據(jù)分析者的要求進(jìn)行調(diào)整,增加了結(jié)果的可用性;通過情感詞得分權(quán)重與情感因子計(jì)算事件的情感傾向性期望值,得到事件的情感傾向性,識(shí)別效率高。
[0090]本發(fā)明實(shí)施例還提供了一種事件情感類型的分析裝置。該裝置可以通過本發(fā)明上述實(shí)施例中的事件情感類型的分析方法實(shí)現(xiàn)其功能。
[0091]圖3是根據(jù)本發(fā)明實(shí)施例的事件情感類型的分析裝置的示意圖。如圖3所示,該分析裝置可以包括:分詞模塊10,用于對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合;標(biāo)注模塊30,用于對(duì)詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)第一詞語的情感傾向性的標(biāo)注值;第一計(jì)算模塊50,用于計(jì)算文本樣本中的事件與詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù);排序模塊70,用于按照關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到第一詞語的排序表;提取模塊90,用于從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語;第二計(jì)算模塊110,用于使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值;第一獲取模塊130,用于獲取加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
[0092]采用本發(fā)明實(shí)施例,在對(duì)文本樣本進(jìn)行分詞處理得到詞語集合之后,計(jì)算文本樣本中的事件與詞語集合中的各個(gè)詞語之間的關(guān)聯(lián)度數(shù)據(jù)并排序,得到詞語的排序表,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語,并使用第二詞語的情感傾向性的標(biāo)注值和關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,確定計(jì)算得到的加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍,將該預(yù)設(shè)加權(quán)范圍對(duì)應(yīng)的情感類型作為事件的情感類型。在本發(fā)明實(shí)施例中,根據(jù)詞語的情感傾向性的標(biāo)注值與關(guān)聯(lián)度數(shù)據(jù)計(jì)算加權(quán)值,并根據(jù)加權(quán)值確定事件的情感類型,提高了分析事件的情感類型的準(zhǔn)確度,無需手動(dòng)遍歷情感傾向性詞匯的語料庫以確定事件的情感傾向性(即情感類型),提高了分析事件的情感類型的效率。通過本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,實(shí)現(xiàn)了提高分析事件的情感類型的效率和準(zhǔn)確度的效果。
[0093]在上述實(shí)施例中,文本信息可以為從互聯(lián)網(wǎng)中獲取的文本(如,一條新聞或者一篇文博評(píng)論),也可以是通過掃描或輸入紙質(zhì)文件的內(nèi)容得到的電子文本,還可以是用戶通過終端輸入的電子文本等;第一詞語是對(duì)文本樣本進(jìn)行分詞處理得到的詞語。
[0094]進(jìn)一步地,對(duì)文本信息進(jìn)行分詞處理,得到詞語集合可以通過如下方法實(shí)現(xiàn):按照預(yù)設(shè)詞匯組合將文本信息拆分為多個(gè)詞語,保存多個(gè)詞語得到詞語集合。
[0095]具體地,可以從詞語數(shù)據(jù)庫中獲取預(yù)設(shè)詞匯組合,并將文本信息中的詞語與詞語數(shù)據(jù)庫中的預(yù)設(shè)詞匯組合進(jìn)行匹配,若文本信息中的詞語與預(yù)設(shè)詞匯組合相同,則將該詞語從文本信息中劃分出來,得到多個(gè)詞語。
[0096]可選地,可以使用分詞工具對(duì)文本信息進(jìn)行分詞處理。
[0097]在本發(fā)明上述實(shí)施例中,分析裝置還可以包括:第二獲取模塊,用于在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組,其中,多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
[0098]具體地,通過機(jī)器學(xué)習(xí)方法獲取文本樣本中各個(gè)詞語的多維數(shù)組可以通過機(jī)器學(xué)習(xí)的方法(如,機(jī)器學(xué)習(xí)程序)來實(shí)現(xiàn)。可選地,該實(shí)施例中的多維數(shù)組可以為500維的向量,在該實(shí)施例中采用500維的向量可以保證終端的運(yùn)行效率和運(yùn)行結(jié)果準(zhǔn)確性。
[0099]其中,可以使用工具word2vec將詞語表征為多維數(shù)組。word2vec是一個(gè)將單詞轉(zhuǎn)換成向量形式的工具。
[0100]在一個(gè)可選的實(shí)施例中,在通過機(jī)器學(xué)習(xí)得到文本樣本中各個(gè)詞語對(duì)應(yīng)的多維數(shù)組之后,基于每個(gè)詞語的多維數(shù)組對(duì)詞語進(jìn)行聚類,得到多個(gè)類,其中,每個(gè)類中包括多個(gè)詞語;獲取事件中的各個(gè)詞語,并查找事件中的各個(gè)詞語所在的類,計(jì)算事件中的各個(gè)詞語的多維數(shù)組與類中其他詞語的多維數(shù)組之間的歐式距離(即上述實(shí)施例中的關(guān)聯(lián)度數(shù)據(jù));將得到的歐式距離進(jìn)行倒序排序,得到該事件的各個(gè)詞語的詞語排序表(即上述實(shí)施例中的第一詞語的排序表),其中,詞語排序表中包括該事件的各個(gè)詞語的多個(gè)關(guān)聯(lián)性詞語(即上述實(shí)施例中的第一詞語)及對(duì)應(yīng)的歐式距離。
[0101]在該實(shí)施例中,在得到詞語排序表之后,從詞語排序表中讀取前N(即上述實(shí)施例中的第一預(yù)設(shè)數(shù)量)位的詞語,得到第二詞語,其中,N為自然數(shù)。
[0102]通過本發(fā)明上述實(shí)施例,使用向量標(biāo)識(shí)詞語,并通過機(jī)器學(xué)習(xí)得到文本樣本中各個(gè)詞語的多維數(shù)組,在計(jì)算事件的詞語與文本樣本中的其他詞語的關(guān)聯(lián)度數(shù)據(jù)時(shí),無需逐一匹配文本樣本中的所有詞語,只需進(jìn)行簡(jiǎn)單的數(shù)學(xué)計(jì)算即可獲得詞語排序表,并可從表中讀取第一預(yù)設(shè)數(shù)量的第二詞語,加快了計(jì)算關(guān)聯(lián)度數(shù)據(jù)的速度,進(jìn)而提高了分析事件的情感類型的效率;并且由于使用向量客觀標(biāo)識(shí)詞語,使得計(jì)算得到的結(jié)果更加客觀準(zhǔn)確。
[0103]根據(jù)本發(fā)明上述實(shí)施例,分析裝置還可以包括:抽取模塊,用于在使用第二詞語的情感傾向性的標(biāo)注值和第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本;第二獲取模塊,用于獲取第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性的第一標(biāo)注值,以及第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性的第二標(biāo)注值,其中,標(biāo)注值包括第一標(biāo)注值和第二標(biāo)注值;第三計(jì)算模塊,用于基于第一詞語樣本中的第三詞語的第一多維數(shù)組和第三詞語的情感屬性計(jì)算第一情感類型的第一高斯分布參數(shù)和第二情感類型的第二高斯分布參數(shù);第四計(jì)算模塊,用于使用第一高斯分布參數(shù)和第二高斯分布參數(shù)計(jì)算第二詞語的對(duì)應(yīng)第一情感類型的第一概率和對(duì)應(yīng)第二情感類型的第二概率;確定模塊,用于基于第一概率和第二概率確定第二詞語的情感類型;設(shè)置模塊,用于使用第二詞語的情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0104]具體地,從詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語的第一詞語樣本,并使用各個(gè)情感類型的標(biāo)注值標(biāo)注第一詞語樣本中各個(gè)詞語的情感屬性,基于第一詞語樣本中各個(gè)詞語的多維數(shù)組和文本樣本的詞語集合中第一詞語的情感屬性計(jì)算各個(gè)情感類型的高斯分布參數(shù),然后使用各個(gè)情感類型的高斯分布參數(shù)計(jì)算從第一詞語排序表中提取的第二詞語對(duì)應(yīng)各個(gè)情感類型的概率,基于各個(gè)情感類型的概率確定第二詞語的情感類型,并使用該情感類型的標(biāo)注值設(shè)置第二詞語的情感傾向性的標(biāo)注值。
[0105]在本發(fā)明上述實(shí)施例中,第一情感類型可以為正面情感類型,第二情感類型可以為負(fù)面情感類型。
[0106]進(jìn)一步地,使用第一標(biāo)注值設(shè)置第一詞語樣本中的屬于第一情感類型的第三詞語的情感屬性,并使用第二標(biāo)注值設(shè)置第一詞語樣本中的屬于第二情感類型的第三詞語的情感屬性可以包括:在數(shù)據(jù)表中讀取第三詞語的情感傾向詞;確定情感傾向詞所屬的情感類型,其中,情感類型包括第一情感類型和第二情感類型;使用第一標(biāo)注值設(shè)置屬于第一情感類型的第三詞語的情感屬性,并使用第二標(biāo)注值設(shè)置屬于第二情感類型的第三詞語的情感屬性。
[0107]具體地,在數(shù)據(jù)表中讀取第一詞語的情感傾向詞之后,確定情感傾向詞所屬的情感類型,并使用各個(gè)標(biāo)注值分別標(biāo)注第一詞語樣本中屬于各個(gè)情感類型的詞語的情感屬性。
[0108]上述的情感類型中還可以包括第三情感類型,第三情感類型可以為中立情感類型,其標(biāo)注值可以為第三標(biāo)注值。
[0109]在本發(fā)明的上述實(shí)施例中,數(shù)據(jù)表中的情感傾向詞可以包括預(yù)設(shè)的多種詞義的詞語,如,表示正面情感類型的詞語,如表示贊揚(yáng)的詞語或者積極詞等;情感傾向詞也可以包括表示負(fù)面情感類型的詞語,如貶義詞或者消極詞等;情感傾向詞還可以包括表示中立情感類型的詞語。
[0110]可選地,第一標(biāo)識(shí)值可以為1,表示正面情感類型(即第一情感類型);第二標(biāo)識(shí)值可以為-1,表示負(fù)面情感類型(即第二情感類型);第三標(biāo)識(shí)值可以為0,表示中立情感類型(即第三情感類型)。
[0111]根據(jù)本發(fā)明上述實(shí)施例,確定模塊可以包括:計(jì)算子模塊,用于計(jì)算第一概率與第二概率的差值;第一判斷模塊,用于判斷差值是否大于第一預(yù)設(shè)閾值;第一確定子模塊,用于在差值大于第一預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第一情感類型;第二判斷模塊,用于在差值不大于第一預(yù)設(shè)閾值的情況下,判斷差值是否小于第二預(yù)設(shè)閾值;第二確定子模塊,用于在差值小于第二預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第二情感類型;第三確定子模塊,用于差值不小于第二預(yù)設(shè)閾值的情況下,確定第二詞語的情感類型為第三情感類型。
[0112]具體地,計(jì)算第一概率與第二概率的差值并判斷差值是否大于第一預(yù)設(shè)閾值,在差值大于第一預(yù)設(shè)閾值時(shí),判斷出第二詞語的情感類型為第一情感類型;在差值不大于第一預(yù)設(shè)閾值時(shí),判斷差值是否小于第二預(yù)設(shè)閾值;在差值小于第二預(yù)設(shè)閾值時(shí),判斷出第二詞語的情感類型為第二情感類型;在差值不小于第二預(yù)設(shè)閾值時(shí),則判斷出第二詞語的情感類型為第三情感類型。
[0113]在一個(gè)可選的實(shí)施例中,第一預(yù)設(shè)閾值與第二預(yù)設(shè)閾值的絕對(duì)值(可以記為預(yù)設(shè)概率值)可以相等,并且可以取第一預(yù)設(shè)閾值為正值,第二預(yù)設(shè)閾值為負(fù)值。在該實(shí)施例中,當(dāng)?shù)谝桓怕逝c第二概率的差值的絕對(duì)值大于預(yù)設(shè)概率值時(shí),判斷出第一概率和第二概率對(duì)應(yīng)的詞語具有明顯的情感傾向性(即情感類型),并且較大的概率所對(duì)應(yīng)的情感類型即為該詞語的情感類型;當(dāng)?shù)谝桓怕屎偷诙怕实牟钪挡淮笥陬A(yù)設(shè)概率值時(shí),判斷出該詞語的情感類型不明顯,為第三情感類型(即中立情感類型)。
[0114]通過本發(fā)明上述實(shí)施例,根據(jù)預(yù)先設(shè)定的閾值來確定第一概率與第二概率對(duì)應(yīng)的詞語的情感類型,提高了確定的詞語的情感類型的準(zhǔn)確度。
[0115]根據(jù)本發(fā)明上述實(shí)施例,第一計(jì)算模塊可以包括:獲取子模塊,用于獲取文本樣本中事件中各個(gè)第四詞語的第二多維數(shù)組;合并模塊,用于對(duì)各個(gè)第二多維數(shù)組進(jìn)行合并得到事件的事件向量;計(jì)算子模塊,用于計(jì)算事件的事件向量與各個(gè)第一詞語的第三多維數(shù)組之間的歐式距離,得到關(guān)聯(lián)度數(shù)據(jù);排序模塊包括:排序子模塊,用于使用歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0116]具體地,在獲取文本樣本中事件的各個(gè)詞語的多維數(shù)組之后,將各個(gè)詞語的多維數(shù)組合并得到事件的事件向量,計(jì)算事件向量與詞語集合中各個(gè)第一詞語的多維數(shù)組之間的歐式距離,并按照歐式距離對(duì)第一詞語進(jìn)行倒序排序,得到排序表。
[0117]在本發(fā)明一個(gè)可選的上述實(shí)施例中,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語可以包括:對(duì)計(jì)算得到的歐式距離進(jìn)行倒序排序,得到排序表;將排序表中排序前N位的歐式距離的第一詞語提取為第二詞語,其中,N為自然數(shù)。
[0118]在本發(fā)明的另一個(gè)可選的實(shí)施例中,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語可以包括:計(jì)算事件向量與第一詞語的多維數(shù)組之間的歐式距離;將不大于預(yù)設(shè)閾值的歐式距離的第一詞語作為第二詞語。
[0119]具體地,在計(jì)算事件向量與第一詞語的多維數(shù)組之間的歐式距離之后,可以將計(jì)算得到的歐式距離進(jìn)行倒序排序得到排序表,并將排序表中排序前N位的歐式距離的第一詞語提取為第二詞語;還可以將不大于預(yù)設(shè)閾值的歐式距離的第一詞語作為第二詞語。
[0120]其中,N和預(yù)設(shè)閾值可以根據(jù)獲取請(qǐng)求而確定。
[0121]通過本發(fā)明上述實(shí)施例,使用向量標(biāo)識(shí)詞語,在計(jì)算關(guān)聯(lián)度數(shù)據(jù)時(shí),通過向量之間的歐式距離來客觀地計(jì)算關(guān)聯(lián)度數(shù)據(jù),增加了獲取到的關(guān)聯(lián)度數(shù)據(jù)的精確度。在上述實(shí)施例中,通過簡(jiǎn)單的數(shù)據(jù)處理即可獲取關(guān)聯(lián)度數(shù)據(jù),提升了獲取事件的關(guān)聯(lián)度數(shù)據(jù)的速度,進(jìn)而提高了分析事件的情感類型的效率。
[0122]本實(shí)施例中所提供的各個(gè)模塊與方法實(shí)施例對(duì)應(yīng)步驟所提供的使用方法相同、應(yīng)用場(chǎng)景也可以相同。當(dāng)然,需要注意的是,上述模塊涉及的方案可以不限于上述實(shí)施例中的內(nèi)容和場(chǎng)景,且上述模塊可以運(yùn)行在計(jì)算機(jī)終端或移動(dòng)終端,可以通過軟件或硬件實(shí)現(xiàn)。
[0123]從以上的描述中,可以看出,本發(fā)明實(shí)現(xiàn)了如下技術(shù)效果:
[0124]采用本發(fā)明實(shí)施例,在對(duì)文本樣本進(jìn)行分詞處理得到詞語集合之后,計(jì)算文本樣本中的事件與詞語集合中的各個(gè)詞語之間的關(guān)聯(lián)度數(shù)據(jù)并排序,得到詞語的排序表,從排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語,并使用第二詞語的情感傾向性的標(biāo)注值和關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,確定計(jì)算得到的加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍,將該預(yù)設(shè)加權(quán)范圍對(duì)應(yīng)的情感類型作為事件的情感類型。在本發(fā)明實(shí)施例中,根據(jù)詞語的情感傾向性的標(biāo)注值與關(guān)聯(lián)度數(shù)據(jù)計(jì)算加權(quán)值,并根據(jù)加權(quán)值確定事件的情感類型,提高了分析事件的情感類型的準(zhǔn)確度,無需手動(dòng)遍歷情感傾向性詞匯的語料庫以確定事件的情感傾向性(即情感類型),提高了分析事件的情感類型的效率。通過本發(fā)明實(shí)施例,解決了現(xiàn)有技術(shù)中手動(dòng)分析事件的情感類型的效率低、準(zhǔn)確度差的問題,實(shí)現(xiàn)了提高分析事件的情感類型的效率和準(zhǔn)確度的效果。
[0125]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0126]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種事件情感類型的分析方法,其特征在于,包括: 對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合; 對(duì)所述詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)所述第一詞語的情感傾向性的標(biāo)注值; 計(jì)算所述文本樣本中的事件與所述詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù); 按照所述關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到所述第一詞語的排序表; 從所述排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語; 使用所述第二詞語的情感傾向性的標(biāo)注值和所述第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值; 獲取所述加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
2.根據(jù)權(quán)利要求1所述的分析方法,其特征在于,在使用所述第二詞語的情感傾向性的標(biāo)注值和所述第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,所述分析方法還包括: 從所述詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本; 獲取所述第一詞語樣本中的屬于第一情感類型的所述第三詞語的情感屬性的第一標(biāo)注值,以及所述第一詞語樣本中的屬于第二情感類型的所述第三詞語的情感屬性的第二標(biāo)注值,其中,所述標(biāo)注值包括所述第一標(biāo)注值和所述第二標(biāo)注值; 基于所述第一詞語樣本中的所述第三詞語的第一多維數(shù)組和所述第三詞語的情感屬性計(jì)算所述第一情感類型的第一高斯分布參數(shù)和所述第二情感類型的第二高斯分布參數(shù); 使用所述第一高斯分布參數(shù)和所述第二高斯分布參數(shù)計(jì)算所述第二詞語的對(duì)應(yīng)所述第一情感類型的第一概率和對(duì)應(yīng)所述第二情感類型的第二概率; 基于所述第一概率和所述第二概率確定所述第二詞語的情感類型; 使用所述第二詞語的情感類型的標(biāo)注值設(shè)置所述第二詞語的情感傾向性的標(biāo)注值。
3.根據(jù)權(quán)利要求2所述的分析方法,其特征在于,基于所述第一概率和所述第二概率確定所述第二詞語的情感類型包括: 計(jì)算所述第一概率與所述第二概率的差值; 判斷所述差值是否大于第一預(yù)設(shè)閾值; 若所述差值大于所述第一預(yù)設(shè)閾值,則判斷出所述第二詞語的情感類型為所述第一情感類型; 若所述差值不大于所述第一預(yù)設(shè)閾值,則判斷所述差值是否小于第二預(yù)設(shè)閾值;若所述差值小于所述第二預(yù)設(shè)閾值,則判斷出所述第二詞語的情感類型為所述第二情感類型; 若所述差值不小于所述第二預(yù)設(shè)閾值,則判斷出所述第二詞語的情感類型為第三情感類型。
4.根據(jù)權(quán)利要求1所述的分析方法,其特征在于, 計(jì)算所述文本樣本中的事件與所述詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù)包括:獲取所述文本樣本中所述事件中各個(gè)第四詞語的第二多維數(shù)組;對(duì)各個(gè)所述第二多維數(shù)組進(jìn)行合并得到所述事件的事件向量;計(jì)算所述事件的事件向量與各個(gè)所述第一詞語的第三多維數(shù)組之間的歐式距離,得到所述關(guān)聯(lián)度數(shù)據(jù); 按照所述關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到所述第一詞語的排序表包括:使用所述歐式距離對(duì)所述第一詞語進(jìn)行倒序排序,得到所述排序表。
5.根據(jù)權(quán)利要求1至4中任意一項(xiàng)所述的分析方法,其特征在于,在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,所述分析方法還包括: 通過機(jī)器學(xué)習(xí)方法獲取所述文本樣本中各個(gè)詞語的多維數(shù)組,其中,所述多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
6.一種事件情感類型的分析裝置,其特征在于,包括: 分詞模塊,用于對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合; 標(biāo)注模塊,用于對(duì)所述詞語集合中的第一詞語的情感傾向性進(jìn)行標(biāo)注,得到各個(gè)所述第一詞語的情感傾向性的標(biāo)注值; 第一計(jì)算模塊,用于計(jì)算所述文本樣本中的事件與所述詞語集合中的第一詞語的關(guān)聯(lián)度數(shù)據(jù); 排序模塊,用于按照所述關(guān)聯(lián)度數(shù)據(jù)倒序排序,得到所述第一詞語的排序表; 提取模塊,用于從所述排序表中提取第一預(yù)設(shè)數(shù)量的第二詞語; 第二計(jì)算模塊,用于使用所述第二詞語的情感傾向性的標(biāo)注值和所述第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值; 第一獲取模塊,用于獲取所述加權(quán)值所屬的預(yù)設(shè)加權(quán)范圍的情感類型。
7.根據(jù)權(quán)利要求6所述的分析裝置,其特征在于,所述分析裝置還包括: 抽取模塊,用于在使用所述第二詞語的情感傾向性的標(biāo)注值和所述第二詞語的關(guān)聯(lián)度數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,得到加權(quán)值之前,從所述詞語集合中抽取預(yù)設(shè)數(shù)量的第三詞語得到第一詞語樣本; 第二獲取模塊,用于獲取所述第一詞語樣本中的屬于第一情感類型的所述第三詞語的情感屬性的第一標(biāo)注值,以及所述第一詞語樣本中的屬于第二情感類型的所述第三詞語的情感屬性的第二標(biāo)注值,其中,所述標(biāo)注值包括所述第一標(biāo)注值和所述第二標(biāo)注值; 第三計(jì)算模塊,用于基于所述第一詞語樣本中的所述第三詞語的第一多維數(shù)組和所述第三詞語的情感屬性計(jì)算所述第一情感類型的第一高斯分布參數(shù)和所述第二情感類型的第二高斯分布參數(shù); 第四計(jì)算模塊,用于使用所述第一高斯分布參數(shù)和所述第二高斯分布參數(shù)計(jì)算所述第二詞語的對(duì)應(yīng)所述第一情感類型的第一概率和對(duì)應(yīng)所述第二情感類型的第二概率; 確定模塊,用于基于所述第一概率和所述第二概率確定所述第二詞語的情感類型; 設(shè)置模塊,用于使用所述第二詞語的情感類型的標(biāo)注值設(shè)置所述第二詞語的情感傾向性的標(biāo)注值。
8.根據(jù)權(quán)利要求7所述的分析裝置,其特征在于,所述確定模塊包括: 計(jì)算子模塊,用于計(jì)算所述第一概率與所述第二概率的差值; 第一判斷模塊,用于判斷所述差值是否大于第一預(yù)設(shè)閾值; 第一確定子模塊,用于在所述差值大于所述第一預(yù)設(shè)閾值的情況下,確定所述第二詞語的情感類型為所述第一情感類型; 第二判斷模塊,用于在所述差值不大于所述第一預(yù)設(shè)閾值的情況下,判斷所述差值是否小于第二預(yù)設(shè)閾值; 第二確定子模塊,用于在所述差值小于所述第二預(yù)設(shè)閾值的情況下,確定所述第二詞語的情感類型為所述第二情感類型; 第三確定子模塊,用于所述差值不小于所述第二預(yù)設(shè)閾值的情況下,確定所述第二詞語的情感類型為第三情感類型。
9.根據(jù)權(quán)利要求6所述的分析裝置,其特征在于, 所述第一計(jì)算模塊包括:獲取子模塊,用于獲取所述文本樣本中所述事件中各個(gè)第四詞語的第二多維數(shù)組;合并模塊,用于對(duì)各個(gè)所述第二多維數(shù)組進(jìn)行合并得到所述事件的事件向量;計(jì)算子模塊,用于計(jì)算所述事件的事件向量與各個(gè)所述第一詞語的第三多維數(shù)組之間的歐式距離,得到所述關(guān)聯(lián)度數(shù)據(jù); 所述排序模塊包括:排序子模塊,用于使用所述歐式距離對(duì)所述第一詞語進(jìn)行倒序排序,得到所述排序表。
10.根據(jù)權(quán)利要求6至9中任意一項(xiàng)所述的分析裝置,其特征在于,所述分析裝置還包括: 第二獲取模塊,用于在對(duì)文本樣本進(jìn)行分詞處理,得到詞語集合之后,通過機(jī)器學(xué)習(xí)方法獲取所述文本樣本中各個(gè)詞語的多維數(shù)組,其中,所述多維數(shù)組中的一維數(shù)據(jù)用于描述該詞語的一個(gè)屬性信息。
【文檔編號(hào)】G06F17/30GK104462065SQ201410779064
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月15日 優(yōu)先權(quán)日:2014年12月15日
【發(fā)明者】劉粉香 申請(qǐng)人:北京國雙科技有限公司