本發(fā)明提出了一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng),屬于情緒識別。
背景技術(shù):
1、在當(dāng)前的通信環(huán)境中,用戶通話的情緒識別技術(shù)正逐漸成為提升客戶服務(wù)質(zhì)量和增強(qiáng)人機(jī)交互體驗(yàn)的關(guān)鍵技術(shù)之一。傳統(tǒng)的情緒識別方法往往依賴于人工標(biāo)注或事后分析,這不僅效率低下,而且無法實(shí)時捕捉和響應(yīng)用戶的情緒變化。隨著語音識別(asr,automatic?speech?recognition)技術(shù)的快速發(fā)展,通過asr技術(shù)實(shí)現(xiàn)用戶通話內(nèi)容的自動識別,進(jìn)而分析用戶情緒成為可能。
2、然而,直接將asr技術(shù)應(yīng)用于情緒識別面臨諸多挑戰(zhàn)。首先,用戶通話過程中的語音數(shù)據(jù)往往包含各種背景噪音、語速變化以及方言口音等因素,這些因素會嚴(yán)重影響asr系統(tǒng)的識別準(zhǔn)確率。其次,即便是asr系統(tǒng)能夠準(zhǔn)確識別語音內(nèi)容,將其轉(zhuǎn)換為文本后,如何從這些文本數(shù)據(jù)中有效提取情緒特征并進(jìn)行準(zhǔn)確分析,也是一個復(fù)雜的問題。現(xiàn)有的文本情緒分析技術(shù)大多基于靜態(tài)文本數(shù)據(jù),而對于實(shí)時通話這種動態(tài)、連續(xù)的語音數(shù)據(jù),其適用性有限。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng),用以解決上述現(xiàn)有技術(shù)的技術(shù)問題,所采取的技術(shù)方案如下:
2、一種基于asr的用戶通話情緒實(shí)時識別方法,所述基于asr的用戶通話情緒實(shí)時識別方法包括:
3、實(shí)時采集用戶通話過程中的語音數(shù)據(jù),并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理,獲取多個待識別語音數(shù)據(jù)段;
4、利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換,獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù);
5、結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理,獲取預(yù)處理后的文本數(shù)據(jù);
6、將所述預(yù)處理后的文本數(shù)據(jù)輸入至已完成訓(xùn)練的深度學(xué)習(xí)模型進(jìn)行情緒分析,獲取預(yù)處理后的文本數(shù)據(jù)對應(yīng)的情緒識別結(jié)果。
7、進(jìn)一步地,實(shí)時采集用戶通話過程中的語音數(shù)據(jù),并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理,獲取多個待識別語音數(shù)據(jù)段,包括:
8、實(shí)時采集用戶通話過程中的語音數(shù)據(jù);
9、利用預(yù)設(shè)的初始語速閾值對語音數(shù)據(jù)進(jìn)行初始分段,獲取第一語音數(shù)據(jù)和第二語音數(shù)據(jù);
10、其中,所述第一語音數(shù)據(jù)為速度超過預(yù)設(shè)的初始語速閾值的語音數(shù)據(jù);所述第二語音數(shù)據(jù)為速度未超過預(yù)設(shè)的初始語速閾值的語音數(shù)據(jù);
11、利用所述綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)分別對第一語音數(shù)據(jù)和第二語音數(shù)據(jù)進(jìn)行分段處理,獲取所述第一語音數(shù)據(jù)和第二語音數(shù)據(jù)對應(yīng)的待識別語音數(shù)據(jù)段。
12、進(jìn)一步地,所述綜合語音分段策略,包括:
13、調(diào)取第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率;
14、利用所述第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第一分段系數(shù),并利用第一分段系數(shù)對預(yù)設(shè)的第一分段語速閾值進(jìn)行調(diào)整,獲取調(diào)整后的第一分段語速閾值;
15、將所述第一語音數(shù)據(jù)中的語速與調(diào)整后的第一分段語速閾值進(jìn)行比較,獲取第一目標(biāo)語音數(shù)據(jù)和第二目標(biāo)語音數(shù)據(jù);
16、其中,所述第一目標(biāo)語音數(shù)據(jù)為語速超過調(diào)整后的第一分段語速閾值的第一語音數(shù)據(jù);所述第二目標(biāo)語音數(shù)據(jù)為語速未超過調(diào)整后的第一分段語速閾值的第一語音數(shù)據(jù);
17、并且,所述第一目標(biāo)語音數(shù)據(jù)和第二目標(biāo)語音數(shù)據(jù)即為所述待識別語音數(shù)據(jù)段。
18、進(jìn)一步地,所述第一分段系數(shù)的獲取過程包括:
19、調(diào)取第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率;
20、利用所述第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第一語音數(shù)據(jù)對應(yīng)的第一分段系數(shù);
21、其中,所述第一分段系數(shù)通過如下公式獲取:
22、
23、其中,s01表示第一分段系數(shù);n表示第一語音數(shù)據(jù)所包含的單位時間的個數(shù),并且,單位時間的取值為5s-3min;ki表示第i個單位時間的第一語音數(shù)據(jù)所包含的音節(jié)個數(shù);kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值;psi表示第i個單位時間的起始時刻的基音變化率;pzi表示第i個單位時間的終止時刻的基音變化率;tdi表示第i個單位時間對應(yīng)的時間長度;pmaxi表示第i個單位時間的基音變化率最大值;pmini表示第i個單位時間的基音變化率最小值;tmi表示第i個單位時間對應(yīng)的基音變化率最大值時刻與基音變化率最小值時刻之間的時間間隔;bmaxi表示第i個單位時間出現(xiàn)的音量強(qiáng)度最大值;bmini表示第i個單位時間出現(xiàn)的音量強(qiáng)度最小值;bzpi表示第i個單位時間出現(xiàn)的所有音節(jié)對應(yīng)的音節(jié)音量強(qiáng)度平均值;kdi表示第i個單位時間的音量強(qiáng)度最大值時刻和音量強(qiáng)度最小值時刻之間的時間段內(nèi)出現(xiàn)的音節(jié)數(shù)量;
24、利用所述第一分段系數(shù)對第一分段語速閾值進(jìn)行調(diào)整,獲取調(diào)整后的第一分段語速閾值;
25、其中,所述調(diào)整后的第一分段語速閾值通過如下公式獲取:
26、
27、其中,kt01表示調(diào)整后的第一分段語速閾值;k01表示第一分段語速閾值;s01表示第一分段系數(shù);xp01表示第一語音數(shù)據(jù)的n個單位時間對應(yīng)的基音變化率的斜率平均值。
28、進(jìn)一步地,所述綜合語音分段策略,還包括:
29、調(diào)取第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率;
30、利用所述第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第二分段系數(shù),并利用第二分段系數(shù)對預(yù)設(shè)的第二分段語速閾值進(jìn)行調(diào)整,獲取調(diào)整后的第二分段語速閾值;
31、將所述第二語音數(shù)據(jù)中的語速與調(diào)整后的第二分段語速閾值進(jìn)行比較,獲取第三目標(biāo)語音數(shù)據(jù)和第四目標(biāo)語音數(shù)據(jù);
32、其中,所述第三目標(biāo)語音數(shù)據(jù)為語速超過調(diào)整后的第二分段語速閾值的第二語音數(shù)據(jù);所述第四目標(biāo)語音數(shù)據(jù)為語速未超過調(diào)整后的第二分段語速閾值的第二語音數(shù)據(jù);
33、并且,所述第三目標(biāo)語音數(shù)據(jù)和第四目標(biāo)語音數(shù)據(jù)即為所述待識別語音數(shù)據(jù)段。
34、進(jìn)一步地,所述第二分段系數(shù)的獲取過程包括:
35、調(diào)取第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率;
36、利用所述第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第二語音數(shù)據(jù)對應(yīng)的第二分段系數(shù);
37、其中,所述第二分段系數(shù)通過如下公式獲取:
38、
39、其中,s02表示第二分段系數(shù);m表示第二語音數(shù)據(jù)所包含的單位時間的個數(shù),并且,單位時間的取值為20s-3mjn;kj表示第j個單位時間的第二語音數(shù)據(jù)所包含的音節(jié)個數(shù);kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值;tdj表示第j個單位時間對應(yīng)的時間長度;pmaxj表示第j個單位時間的基音變化率最大值;pmjnj表示第j個單位時間的基音變化率最小值;tmj表示第j個單位時間對應(yīng)的基音變化率最大值時刻與基音變化率最小值時刻之間的時間間隔;bmaxj表示第j個單位時間出現(xiàn)的音量強(qiáng)度最大值;bmjnj表示第j個單位時間出現(xiàn)的音量強(qiáng)度最小值;bzpj表示第j個單位時間出現(xiàn)的所有音節(jié)對應(yīng)的音節(jié)音量強(qiáng)度平均值;kdj表示第j個單位時間的音量強(qiáng)度最大值時刻和音量強(qiáng)度最小值時刻之間的時間段內(nèi)出現(xiàn)的音節(jié)數(shù)量;
40、利用所述第二分段系數(shù)對第二分段語速閾值進(jìn)行調(diào)整,獲取調(diào)整后的第二分段語速閾值;
41、其中,所述調(diào)整后的第二分段語速閾值通過如下公式獲取:
42、
43、其中,kt02表示調(diào)整后的第二分段語速閾值;k02表示第二分段語速閾值;s02表示第二分段系數(shù);xp02表示第二語音數(shù)據(jù)的m個單位時間對應(yīng)的基音變化率的斜率平均值。
44、進(jìn)一步地,利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換,獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù),包括:
45、提取多個待識別語音數(shù)據(jù)段;
46、對單位時間進(jìn)行調(diào)整,獲取調(diào)整后的單位時間長度,并將調(diào)整后的單位時間作為單位時段;其中,所述單位時段的取值范圍為10s-1min;
47、對每個待識別語音數(shù)據(jù)段進(jìn)行語音預(yù)處理,獲取預(yù)處理后的多個待識別語音數(shù)據(jù)段;其中,所述預(yù)處理包括但不限制于噪聲抑制處理和回聲消除處理;
48、調(diào)取預(yù)處理后的每個待識別語音數(shù)據(jù)段對應(yīng)的語速參數(shù);
49、提取預(yù)設(shè)的分幀處理對應(yīng)的時間幀長度;
50、利用所述每個待識別語音數(shù)據(jù)段對應(yīng)的語速參數(shù)獲取重疊比例;
51、其中,所述重疊比例通過如下公式獲取:
52、
53、其中,pbi表示重疊比例;pbl0表示預(yù)設(shè)的重疊比例基準(zhǔn)值;k表示每個待識別語音數(shù)據(jù)段所包含的單位時段的個數(shù);kxi表示第i個單位時段對應(yīng)的音節(jié)個數(shù);kwp表示每個待識別語音數(shù)據(jù)段對應(yīng)的上級語音數(shù)據(jù)段的單位時間對應(yīng)的音節(jié)個數(shù)平均值;kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值;
54、按照所述預(yù)設(shè)的分幀處理對應(yīng)的時間幀長度結(jié)合重疊比例對預(yù)處理后的每個待識別語音數(shù)據(jù)段進(jìn)行分幀處理,獲取每個待識別語音數(shù)據(jù)段對應(yīng)的音頻數(shù)據(jù)幀;
55、將所述每個待識別語音數(shù)據(jù)段對應(yīng)的音頻數(shù)據(jù)幀輸入至asr語音自動識別系統(tǒng)生成每個待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)。
56、進(jìn)一步地,結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理,獲取預(yù)處理后的文本數(shù)據(jù),包括:
57、調(diào)取每個待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù);
58、去除文本數(shù)據(jù)開頭和幾位的空白字符、多余空格以及非漢字、非數(shù)字和非英文的特殊符號,獲取第一樣本數(shù)據(jù);
59、利用分詞工具對所述第一樣本數(shù)據(jù)進(jìn)行分詞處理,獲取分詞處理后的第二樣本數(shù)據(jù);
60、對所述第二樣本數(shù)據(jù)進(jìn)行糾錯和修正處理,獲取糾錯和修正后的文本數(shù)據(jù);
61、其中,所述糾錯和修正后的文本數(shù)據(jù)即為預(yù)處理后的文本數(shù)據(jù)。
62、進(jìn)一步地,所述深度學(xué)習(xí)模型為卷積神經(jīng)網(wǎng)絡(luò),并且,所述深度學(xué)習(xí)模型的結(jié)構(gòu)如下:
63、輸入層,用于接收預(yù)處理后的文本數(shù)據(jù);
64、嵌入層,用于所述文本數(shù)據(jù)中的每個詞語的索引映射到一個固定維度的稠密向量空間;
65、卷積層,用于對所述文本數(shù)據(jù)進(jìn)行特征提取,獲取所述文本數(shù)據(jù)對應(yīng)的特征圖;
66、池化層,用于對所述特征圖進(jìn)行降維處理;
67、拼接層,用于對降維處理后的特征圖進(jìn)行拼接,形成特征向量;
68、全連接層,用于對特征向量進(jìn)行特征整合;
69、輸出層,用于輸出情緒識別結(jié)果。
70、一種基于asr的用戶通話情緒實(shí)時識別系統(tǒng),所述基于asr的用戶通話情緒實(shí)時識別系統(tǒng)包括:
71、語音分段模塊,用于實(shí)時采集用戶通話過程中的語音數(shù)據(jù),并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理,獲取多個待識別語音數(shù)據(jù)段;
72、文本數(shù)據(jù)獲取模塊,用于利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換,獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù);
73、文本數(shù)據(jù)預(yù)處理模塊,用于結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理,獲取預(yù)處理后的文本數(shù)據(jù);
74、情緒識別模塊,用于將所述預(yù)處理后的文本數(shù)據(jù)輸入至已完成訓(xùn)練的深度學(xué)習(xí)模型進(jìn)行情緒分析,獲取預(yù)處理后的文本數(shù)據(jù)對應(yīng)的情緒識別結(jié)果。
75、本發(fā)明有益效果:
76、本發(fā)明提出的一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng),該方法能夠?qū)崟r采集用戶通話過程中的語音數(shù)據(jù),并進(jìn)行分段處理和文本轉(zhuǎn)換,從而實(shí)現(xiàn)情緒的實(shí)時識別。這有助于及時捕捉用戶的情緒變化,為后續(xù)的決策和服務(wù)提供依據(jù)。通過綜合語音分段策略和asr語音自動識別系統(tǒng)的應(yīng)用,該方法能夠更準(zhǔn)確地識別用戶的語音內(nèi)容,并將其轉(zhuǎn)換為文本信息。同時,深度學(xué)習(xí)模型的應(yīng)用也提高了情緒識別的準(zhǔn)確性。該方法可以應(yīng)用于多種場景,如客戶服務(wù)、智能家居、醫(yī)療健康等領(lǐng)域。通過調(diào)整分段系數(shù)和深度學(xué)習(xí)模型的參數(shù),可以適應(yīng)不同場景下的情緒識別需求。針對不同用戶群體和應(yīng)用場景的需求,該方法可以提供更加個性化的定制服務(wù)。