本技術涉及智能語音處理,特別涉及一種語音情感的識別方法、裝置、電子設備及計算機存儲介質。
背景技術:
1、語音情感識別(speech?emotion?recognition,ser)旨在利用計算機自動分析理解語音信號中傳遞的情感,因其在人機交互(human-computer?interaction,hci)領域有著廣泛的應用前景,近年來已成為備受矚目的研究熱點。得益于深度學習在模式識別領域的迅猛發展,以深度神經網絡為基礎的語音情感識別方法取得了不錯的效果。
2、情感作為一種主觀的心理狀態,其表達方式是復雜而多樣的,受說話人特性、對話主題、語種等多重因素的影響,情感特征不可避免地帶有顯著的域特異性。具體而言,不同說話人的情感表達存在偏差,使得現有的語音情感識別方法在對未知說話人的測試上性能出現較大的下降。另外,即使相同的說話人也會因主題和言語內容的差異,在情感表達上存在一定的差異。由于情感數據標注成本高昂,往往只能對段級語音進行簡單的情感類別標注,不同標注者之間的主觀評判差異進一步影響了數據的標注質量,這也極大的限制了模型的建模能力及模型的域魯棒性。
技術實現思路
1、有鑒于此,本技術提供一種語音情感的識別方法、裝置、電子設備及計算機存儲介質,有效的減小了域間差異對情感識別性能的影響,大幅提升了情感特征的魯棒性與推廣性。
2、本技術第一方面提供了一種語音情感的識別方法,包括:
3、接收語音數據;
4、將所述語音數據輸入至語音情感識別模型中,輸出得到情感分類結果;其中,所述語音情感識別模型包括特征提取器、目標情感表征適配器和目標情感分配器;所述語音情感識別模型由多域情感數據集對初始情感表征適配器和初始情感分類器進行訓練得到;所述多域情感數據集包括多個屬性信息,每一個屬性信息對應多個域的數據;所述語音情感識別模型在接收到語音數據后,將語音數據輸入至特征提取器中,輸出得到語音特征;將所述語音特征輸入目標情感表征適配器中,輸出得到局部特征的映射;將所述局部特征的映射輸入至目標情感分配器,輸出得到情感分類結果。
5、可選的,所述語音情感識別模型的構建方法,包括:
6、在多域情感數據集中隨機選取一個屬性信息;
7、針對所述屬性信息,抽取得到第一域的數據和第二域的數據;
8、分別將第一域的數據和第二域的數據輸入至特征提取器,輸出得到第一語音特征和第二語音特征;
9、根據第一語音特征和第二語音特征對初始情感表征適配器進行訓練,得到預訓練情感表征適配器;
10、根據第一域的數據和第二域的數據對預訓練情感表征適配器以及初始情感分配器進行訓練,得到目標情感表征適配器和目標情感分配器。
11、可選的,所述根據第一語音特征和第二語音特征對初始情感表征適配器進行訓練,得到預訓練情感表征適配器,包括:
12、根據所述第一語音特征以及所述第二語音特征構建局部屬性集合;其中,所述局部屬性集合為使用對比損失函數進行訓練得到;
13、第一域的數據和第二域的數據分別與所述局部屬性集合進行映射,得到第一局部特征映射和第二局部特征映射;
14、根據第一局部特征映射和第二局部特征映射,確定局部域間分布損失,利用所述局部域間分布損失對初始情感表征適配器進行預訓練,得到預訓練情感表征適配器。
15、可選的,所述根據第一域的數據和第二域的數據對預訓練情感表征適配器以及初始情感分配器進行訓練,得到目標情感表征適配器和目標情感分配器,包括:
16、將第一域的數據輸入至所述預訓練情感表征適配器和初始情感分配器中,計算得到第一情感分類損失;
17、根據所述第一情感分類損失更新預訓練情感表征適配器中的參數,得到更新情感表征適配器;
18、將第二域的數據輸入至所述更新情感表征適配器和初始情感分配器中,計算得到第二情感分類損失;
19、根據所述第二情感分類損失更新初始情感分配器中的參數,得到目標情感分配器;
20、將第一域的數據和第二域的數據輸入至所述預訓練情感表征適配器中,計算得到全局域間分布損失;
21、將第一域的數據輸入至所述預訓練情感表征適配器和目標情感分配器中,計算得到第三情感分類損失;
22、根據所述第三情感分類損失和所述全局域間分布損失對預訓練情感表征適配器中的參數進行更新,得到目標情感表征適配器。
23、可選的,所述特征提取器包括波形編碼器和bert編碼器。
24、可選的,所述初始情感表征適配器包括兩個局部適配層、一個1×1卷積層和局部屬性對比模塊。
25、可選的,所述初始情感分配器包括全局最大值池化層、波形編碼器和全連接層。
26、本技術第二方面提供了一種語音情感的識別裝置,包括:
27、接收單元,用于接收語音數據;
28、識別單元,用于將所述語音數據輸入至語音情感識別模型中,輸出得到情感分類結果;其中,所述語音情感識別模型包括特征提取器、目標情感表征適配器和目標情感分配器;所述語音情感識別模型由多域情感數據集對初始情感表征適配器和初始情感分類器進行訓練得到;所述多域情感數據集包括多個屬性信息,每一個屬性信息對應多個域的數據;所述語音情感識別模型在接收到語音數據后,將語音數據輸入至特征提取器中,輸出得到語音特征;將所述語音特征輸入目標情感表征適配器中,輸出得到局部特征的映射;將所述局部特征的映射輸入至目標情感分配器,輸出得到情感分類結果。
29、可選的,所述語音情感識別模型的構建單元,包括:
30、隨機單元,用于在多域情感數據集中隨機選取一個屬性信息;
31、抽取單元,用于針對所述屬性信息,抽取得到第一域的數據和第二域的數據;
32、特征提取單元,用于分別將第一域的數據和第二域的數據輸入至特征提取器,輸出得到第一語音特征和第二語音特征;
33、第一訓練單元,用于根據第一語音特征和第二語音特征對初始情感表征適配器進行訓練,得到預訓練情感表征適配器;
34、第二訓練單元,用于根據第一域的數據和第二域的數據對預訓練情感表征適配器以及初始情感分配器進行訓練,得到目標情感表征適配器和目標情感分配器。
35、可選的,所述第一訓練單元,包括:
36、局部屬性構建單元,用于根據所述第一語音特征以及所述第二語音特征構建局部屬性集合;其中,所述局部屬性集合為使用對比損失函數進行訓練得到;
37、局部特征映射訓練單元,第一域的數據和第二域的數據分別與所述局部屬性集合進行映射,得到第一局部特征映射和第二局部特征映射;
38、預訓練單元,用于根據第一局部特征映射和第二局部特征映射,確定局部域間分布損失,利用所述局部域間分布損失對初始情感表征適配器進行預訓練,得到預訓練情感表征適配器。
39、可選的,所述第二訓練單元,包括:
40、第一計算單元,用于將第一域的數據輸入至所述預訓練情感表征適配器和初始情感分配器中,計算得到第一情感分類損失;
41、第一更新單元,用于根據所述第一情感分類損失更新預訓練情感表征適配器中的參數,得到更新情感表征適配器;
42、第二計算單元,用于將第二域的數據輸入至所述更新情感表征適配器和初始情感分配器中,計算得到第二情感分類損失;
43、第二更新單元,用于根據所述第二情感分類損失更新初始情感分配器中的參數,得到目標情感分配器;
44、第三計算單元,用于將第一域的數據和第二域的數據輸入至所述預訓練情感表征適配器中,計算得到全局域間分布損失;
45、第四計算單元,用于將第一域的數據輸入至所述預訓練情感表征適配器和目標情感分配器中,計算得到第三情感分類損失;
46、第三更新單元,用于根據所述第三情感分類損失和所述全局域間分布損失對預訓練情感表征適配器中的參數進行更新,得到目標情感表征適配器。
47、可選的,所述特征提取器包括波形編碼器和bert編碼器。
48、可選的,所述初始情感表征適配器包括兩個局部適配層、一個1×1卷積層和局部屬性對比模塊。
49、可選的,所述初始情感分配器包括全局最大值池化層、波形編碼器和全連接層。
50、本技術第三方面提供了一種電子設備,包括:
51、一個或多個處理器;
52、存儲裝置,其上存儲有一個或多個程序;
53、當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現如第一方面任意一項所述的語音情感的識別方法。
54、本技術第四方面提供了一種計算機存儲介質,其上存儲有計算機程序,其中,所述計算機程序被處理器執行時實現如第一方面任意一項所述的語音情感的識別方法。
55、由以上方案可知,本技術提供一種語音情感的識別方法、裝置、電子設備及計算機存儲介質,通過集成了特征提取器、目標情感表征適配器和目標情感分配器的語音情感識別模型來對語音數據的情感進行識別,得到情感分類結果。在訓練過程中,利用多樣化的情景任務構建,模擬實際復雜場景中的域分布差異情況,并采用基于情景學習的“預訓練+微調”策略提高實際復雜場景下的域泛化能力。具體而言,在預訓練階段引入了局部域分布對齊損失,通過精細分析并減少域間情感特征的分布偏差,實現了情感特征的跨域對齊與融合。在微調階段,使用解耦學習的方法,促使情感表征適配器和分類器能夠逐步適應新的情感表達場景。有效的減小了域間差異對情感識別性能的影響,大幅提升了情感特征的魯棒性與推廣性。