一種基于ASR的用戶通話情緒實(shí)時識別方法及系統(tǒng)與流程

文檔序號：41223682發(fā)布日期：2025-03-11 14:02閱讀：103來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明提出了一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng)，屬于情緒識別。

背景技術(shù)：

1、在當(dāng)前的通信環(huán)境中，用戶通話的情緒識別技術(shù)正逐漸成為提升客戶服務(wù)質(zhì)量和增強(qiáng)人機(jī)交互體驗(yàn)的關(guān)鍵技術(shù)之一。傳統(tǒng)的情緒識別方法往往依賴于人工標(biāo)注或事后分析，這不僅效率低下，而且無法實(shí)時捕捉和響應(yīng)用戶的情緒變化。隨著語音識別（asr,automatic?speech?recognition）技術(shù)的快速發(fā)展，通過asr技術(shù)實(shí)現(xiàn)用戶通話內(nèi)容的自動識別，進(jìn)而分析用戶情緒成為可能。

2、然而，直接將asr技術(shù)應(yīng)用于情緒識別面臨諸多挑戰(zhàn)。首先，用戶通話過程中的語音數(shù)據(jù)往往包含各種背景噪音、語速變化以及方言口音等因素，這些因素會嚴(yán)重影響asr系統(tǒng)的識別準(zhǔn)確率。其次，即便是asr系統(tǒng)能夠準(zhǔn)確識別語音內(nèi)容，將其轉(zhuǎn)換為文本后，如何從這些文本數(shù)據(jù)中有效提取情緒特征并進(jìn)行準(zhǔn)確分析，也是一個復(fù)雜的問題。現(xiàn)有的文本情緒分析技術(shù)大多基于靜態(tài)文本數(shù)據(jù)，而對于實(shí)時通話這種動態(tài)、連續(xù)的語音數(shù)據(jù)，其適用性有限。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng)，用以解決上述現(xiàn)有技術(shù)的技術(shù)問題，所采取的技術(shù)方案如下：

2、一種基于asr的用戶通話情緒實(shí)時識別方法，所述基于asr的用戶通話情緒實(shí)時識別方法包括：

3、實(shí)時采集用戶通話過程中的語音數(shù)據(jù)，并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理，獲取多個待識別語音數(shù)據(jù)段；

4、利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換，獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)；

5、結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理，獲取預(yù)處理后的文本數(shù)據(jù)；

6、將所述預(yù)處理后的文本數(shù)據(jù)輸入至已完成訓(xùn)練的深度學(xué)習(xí)模型進(jìn)行情緒分析，獲取預(yù)處理后的文本數(shù)據(jù)對應(yīng)的情緒識別結(jié)果。

7、進(jìn)一步地，實(shí)時采集用戶通話過程中的語音數(shù)據(jù)，并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理，獲取多個待識別語音數(shù)據(jù)段，包括：

8、實(shí)時采集用戶通話過程中的語音數(shù)據(jù)；

9、利用預(yù)設(shè)的初始語速閾值對語音數(shù)據(jù)進(jìn)行初始分段，獲取第一語音數(shù)據(jù)和第二語音數(shù)據(jù)；

10、其中，所述第一語音數(shù)據(jù)為速度超過預(yù)設(shè)的初始語速閾值的語音數(shù)據(jù)；所述第二語音數(shù)據(jù)為速度未超過預(yù)設(shè)的初始語速閾值的語音數(shù)據(jù)；

11、利用所述綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)分別對第一語音數(shù)據(jù)和第二語音數(shù)據(jù)進(jìn)行分段處理，獲取所述第一語音數(shù)據(jù)和第二語音數(shù)據(jù)對應(yīng)的待識別語音數(shù)據(jù)段。

12、進(jìn)一步地，所述綜合語音分段策略，包括：

13、調(diào)取第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率；

14、利用所述第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第一分段系數(shù)，并利用第一分段系數(shù)對預(yù)設(shè)的第一分段語速閾值進(jìn)行調(diào)整，獲取調(diào)整后的第一分段語速閾值；

15、將所述第一語音數(shù)據(jù)中的語速與調(diào)整后的第一分段語速閾值進(jìn)行比較，獲取第一目標(biāo)語音數(shù)據(jù)和第二目標(biāo)語音數(shù)據(jù)；

16、其中，所述第一目標(biāo)語音數(shù)據(jù)為語速超過調(diào)整后的第一分段語速閾值的第一語音數(shù)據(jù)；所述第二目標(biāo)語音數(shù)據(jù)為語速未超過調(diào)整后的第一分段語速閾值的第一語音數(shù)據(jù)；

17、并且，所述第一目標(biāo)語音數(shù)據(jù)和第二目標(biāo)語音數(shù)據(jù)即為所述待識別語音數(shù)據(jù)段。

18、進(jìn)一步地，所述第一分段系數(shù)的獲取過程包括：

19、調(diào)取第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率；

20、利用所述第一語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第一語音數(shù)據(jù)對應(yīng)的第一分段系數(shù)；

21、其中，所述第一分段系數(shù)通過如下公式獲取：

22、

23、其中，s01表示第一分段系數(shù)；n表示第一語音數(shù)據(jù)所包含的單位時間的個數(shù)，并且，單位時間的取值為5s-3min；ki表示第i個單位時間的第一語音數(shù)據(jù)所包含的音節(jié)個數(shù)；kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值；psi表示第i個單位時間的起始時刻的基音變化率；pzi表示第i個單位時間的終止時刻的基音變化率；tdi表示第i個單位時間對應(yīng)的時間長度；pmaxi表示第i個單位時間的基音變化率最大值；pmini表示第i個單位時間的基音變化率最小值；tmi表示第i個單位時間對應(yīng)的基音變化率最大值時刻與基音變化率最小值時刻之間的時間間隔；bmaxi表示第i個單位時間出現(xiàn)的音量強(qiáng)度最大值；bmini表示第i個單位時間出現(xiàn)的音量強(qiáng)度最小值；bzpi表示第i個單位時間出現(xiàn)的所有音節(jié)對應(yīng)的音節(jié)音量強(qiáng)度平均值；kdi表示第i個單位時間的音量強(qiáng)度最大值時刻和音量強(qiáng)度最小值時刻之間的時間段內(nèi)出現(xiàn)的音節(jié)數(shù)量；

24、利用所述第一分段系數(shù)對第一分段語速閾值進(jìn)行調(diào)整，獲取調(diào)整后的第一分段語速閾值；

25、其中，所述調(diào)整后的第一分段語速閾值通過如下公式獲取：

26、

27、其中，kt01表示調(diào)整后的第一分段語速閾值；k01表示第一分段語速閾值；s01表示第一分段系數(shù)；xp01表示第一語音數(shù)據(jù)的n個單位時間對應(yīng)的基音變化率的斜率平均值。

28、進(jìn)一步地，所述綜合語音分段策略，還包括：

29、調(diào)取第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率；

30、利用所述第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第二分段系數(shù)，并利用第二分段系數(shù)對預(yù)設(shè)的第二分段語速閾值進(jìn)行調(diào)整，獲取調(diào)整后的第二分段語速閾值；

31、將所述第二語音數(shù)據(jù)中的語速與調(diào)整后的第二分段語速閾值進(jìn)行比較，獲取第三目標(biāo)語音數(shù)據(jù)和第四目標(biāo)語音數(shù)據(jù)；

32、其中，所述第三目標(biāo)語音數(shù)據(jù)為語速超過調(diào)整后的第二分段語速閾值的第二語音數(shù)據(jù)；所述第四目標(biāo)語音數(shù)據(jù)為語速未超過調(diào)整后的第二分段語速閾值的第二語音數(shù)據(jù)；

33、并且，所述第三目標(biāo)語音數(shù)據(jù)和第四目標(biāo)語音數(shù)據(jù)即為所述待識別語音數(shù)據(jù)段。

34、進(jìn)一步地，所述第二分段系數(shù)的獲取過程包括：

35、調(diào)取第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率；

36、利用所述第二語音數(shù)據(jù)對應(yīng)的語速參數(shù)、音量強(qiáng)度和基音變化率獲取第二語音數(shù)據(jù)對應(yīng)的第二分段系數(shù)；

37、其中，所述第二分段系數(shù)通過如下公式獲取：

38、

39、其中，s02表示第二分段系數(shù)；m表示第二語音數(shù)據(jù)所包含的單位時間的個數(shù)，并且，單位時間的取值為20s-3mjn；kj表示第j個單位時間的第二語音數(shù)據(jù)所包含的音節(jié)個數(shù)；kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值；tdj表示第j個單位時間對應(yīng)的時間長度；pmaxj表示第j個單位時間的基音變化率最大值；pmjnj表示第j個單位時間的基音變化率最小值；tmj表示第j個單位時間對應(yīng)的基音變化率最大值時刻與基音變化率最小值時刻之間的時間間隔；bmaxj表示第j個單位時間出現(xiàn)的音量強(qiáng)度最大值；bmjnj表示第j個單位時間出現(xiàn)的音量強(qiáng)度最小值；bzpj表示第j個單位時間出現(xiàn)的所有音節(jié)對應(yīng)的音節(jié)音量強(qiáng)度平均值；kdj表示第j個單位時間的音量強(qiáng)度最大值時刻和音量強(qiáng)度最小值時刻之間的時間段內(nèi)出現(xiàn)的音節(jié)數(shù)量；

40、利用所述第二分段系數(shù)對第二分段語速閾值進(jìn)行調(diào)整，獲取調(diào)整后的第二分段語速閾值；

41、其中，所述調(diào)整后的第二分段語速閾值通過如下公式獲取：

42、

43、其中，kt02表示調(diào)整后的第二分段語速閾值；k02表示第二分段語速閾值；s02表示第二分段系數(shù)；xp02表示第二語音數(shù)據(jù)的m個單位時間對應(yīng)的基音變化率的斜率平均值。

44、進(jìn)一步地，利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換，獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)，包括：

45、提取多個待識別語音數(shù)據(jù)段；

46、對單位時間進(jìn)行調(diào)整，獲取調(diào)整后的單位時間長度，并將調(diào)整后的單位時間作為單位時段；其中，所述單位時段的取值范圍為10s-1min；

47、對每個待識別語音數(shù)據(jù)段進(jìn)行語音預(yù)處理，獲取預(yù)處理后的多個待識別語音數(shù)據(jù)段；其中，所述預(yù)處理包括但不限制于噪聲抑制處理和回聲消除處理；

48、調(diào)取預(yù)處理后的每個待識別語音數(shù)據(jù)段對應(yīng)的語速參數(shù)；

49、提取預(yù)設(shè)的分幀處理對應(yīng)的時間幀長度；

50、利用所述每個待識別語音數(shù)據(jù)段對應(yīng)的語速參數(shù)獲取重疊比例；

51、其中，所述重疊比例通過如下公式獲取：

52、

53、其中，pbi表示重疊比例；pbl0表示預(yù)設(shè)的重疊比例基準(zhǔn)值；k表示每個待識別語音數(shù)據(jù)段所包含的單位時段的個數(shù)；kxi表示第i個單位時段對應(yīng)的音節(jié)個數(shù)；kwp表示每個待識別語音數(shù)據(jù)段對應(yīng)的上級語音數(shù)據(jù)段的單位時間對應(yīng)的音節(jié)個數(shù)平均值；kc表示是預(yù)設(shè)的音節(jié)個數(shù)參考值；

54、按照所述預(yù)設(shè)的分幀處理對應(yīng)的時間幀長度結(jié)合重疊比例對預(yù)處理后的每個待識別語音數(shù)據(jù)段進(jìn)行分幀處理，獲取每個待識別語音數(shù)據(jù)段對應(yīng)的音頻數(shù)據(jù)幀；

55、將所述每個待識別語音數(shù)據(jù)段對應(yīng)的音頻數(shù)據(jù)幀輸入至asr語音自動識別系統(tǒng)生成每個待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)。

56、進(jìn)一步地，結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理，獲取預(yù)處理后的文本數(shù)據(jù)，包括：

57、調(diào)取每個待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)；

58、去除文本數(shù)據(jù)開頭和幾位的空白字符、多余空格以及非漢字、非數(shù)字和非英文的特殊符號，獲取第一樣本數(shù)據(jù)；

59、利用分詞工具對所述第一樣本數(shù)據(jù)進(jìn)行分詞處理，獲取分詞處理后的第二樣本數(shù)據(jù)；

60、對所述第二樣本數(shù)據(jù)進(jìn)行糾錯和修正處理，獲取糾錯和修正后的文本數(shù)據(jù)；

61、其中，所述糾錯和修正后的文本數(shù)據(jù)即為預(yù)處理后的文本數(shù)據(jù)。

62、進(jìn)一步地，所述深度學(xué)習(xí)模型為卷積神經(jīng)網(wǎng)絡(luò)，并且，所述深度學(xué)習(xí)模型的結(jié)構(gòu)如下：

63、輸入層，用于接收預(yù)處理后的文本數(shù)據(jù)；

64、嵌入層，用于所述文本數(shù)據(jù)中的每個詞語的索引映射到一個固定維度的稠密向量空間；

65、卷積層，用于對所述文本數(shù)據(jù)進(jìn)行特征提取，獲取所述文本數(shù)據(jù)對應(yīng)的特征圖；

66、池化層，用于對所述特征圖進(jìn)行降維處理；

67、拼接層，用于對降維處理后的特征圖進(jìn)行拼接，形成特征向量；

68、全連接層，用于對特征向量進(jìn)行特征整合；

69、輸出層，用于輸出情緒識別結(jié)果。

70、一種基于asr的用戶通話情緒實(shí)時識別系統(tǒng)，所述基于asr的用戶通話情緒實(shí)時識別系統(tǒng)包括：

71、語音分段模塊，用于實(shí)時采集用戶通話過程中的語音數(shù)據(jù)，并利用綜合語音分段策略結(jié)合第一分段系數(shù)和第二分段系數(shù)對所述語音數(shù)據(jù)進(jìn)行分段處理，獲取多個待識別語音數(shù)據(jù)段；

72、文本數(shù)據(jù)獲取模塊，用于利用asr語音自動識別系統(tǒng)對待識別語音數(shù)據(jù)段進(jìn)行文本轉(zhuǎn)換，獲取所述待識別語音數(shù)據(jù)段對應(yīng)的文本數(shù)據(jù)；

73、文本數(shù)據(jù)預(yù)處理模塊，用于結(jié)合待識別語音數(shù)據(jù)段對所述文本數(shù)據(jù)進(jìn)行預(yù)處理，獲取預(yù)處理后的文本數(shù)據(jù)；

74、情緒識別模塊，用于將所述預(yù)處理后的文本數(shù)據(jù)輸入至已完成訓(xùn)練的深度學(xué)習(xí)模型進(jìn)行情緒分析，獲取預(yù)處理后的文本數(shù)據(jù)對應(yīng)的情緒識別結(jié)果。

75、本發(fā)明有益效果：

76、本發(fā)明提出的一種基于asr的用戶通話情緒實(shí)時識別方法及系統(tǒng)，該方法能夠?qū)崟r采集用戶通話過程中的語音數(shù)據(jù)，并進(jìn)行分段處理和文本轉(zhuǎn)換，從而實(shí)現(xiàn)情緒的實(shí)時識別。這有助于及時捕捉用戶的情緒變化，為后續(xù)的決策和服務(wù)提供依據(jù)。通過綜合語音分段策略和asr語音自動識別系統(tǒng)的應(yīng)用，該方法能夠更準(zhǔn)確地識別用戶的語音內(nèi)容，并將其轉(zhuǎn)換為文本信息。同時，深度學(xué)習(xí)模型的應(yīng)用也提高了情緒識別的準(zhǔn)確性。該方法可以應(yīng)用于多種場景，如客戶服務(wù)、智能家居、醫(yī)療健康等領(lǐng)域。通過調(diào)整分段系數(shù)和深度學(xué)習(xí)模型的參數(shù)，可以適應(yīng)不同場景下的情緒識別需求。針對不同用戶群體和應(yīng)用場景的需求，該方法可以提供更加個性化的定制服務(wù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：白峻峰,高爽,高鵬飛
技術(shù)所有人：北京基智科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于ASR的用戶通話情緒實(shí)時識別方法及系統(tǒng)與流程