本發明屬于圖像信號處理領域,涉及一種基于輔助網絡的噪聲增強多模態情感識別方法。
背景技術:
1、隨著人工智能領域的快速發展,人工智能產品與人類的交互變得越來越普遍,如果能夠準確識別和理解用戶的情緒狀態,就能及時調整交互策略,提升用戶對人工智能產品的滿意度。此外,多模態情感識別技術不僅有助于提升用戶的交互體驗,而且在醫療、教育、娛樂等多個領域也有重要的應用價值。
2、人員情感狀態檢測任務可以被視為多模態情感識別中的一種,從模型的角度來說是通過分類任務模型對人員的情感狀態進行快速分類。傳統的情緒識別方法主要依賴于人的直觀判斷,這種方法不僅耗時耗力,而且準確性也無法得到保證。因此,如何利用人工智能技術,特別是深度學習技術,來進行多模態情感識別分析,成為了一個亟待解決的問題。然而現有的多模態情感識別方法存在多模態特征交互利用率低、識別準確率低、魯棒性不足等問題。
3、現有的多模態情感識別方法大多都是論文,如2023年發表在icassp上的《exploring?complementary?features?in?multi-modal?speech?emotion?recognition》,該論文首先通過音頻特征提取模塊和文本特征提取模塊分別提取音頻特征信息和文本特征信息。之后會將音頻特征信息與文本特征信息簡單的拼接在一起,得到拼接特征,并將拼接特征送入情感預測模型中,從而得到預測情感信息;這類方法只是簡單的將提取出的音頻特征與面部圖像特征進行拼接,然后將拼接特征送入模型中進行情感預測,這種簡單拼接的方式不僅忽略了音頻特征內部和圖像特征內部的深層次情感信息,還忽略了音頻特征與圖像特征之間潛在的復雜情感交互信息,而這些情感信息對最終情感預測結果有著顯著影響。2022年發表在icassp上的《auxformer?robust?approach?to?audiovisual?emotionrecognition》,該論文首先從視頻文件中分離出音頻信息和圖像信息,然后使用預訓練模型獲取音頻特征和面部圖像特征,之后模型分為三個分支,第一個分支是音頻情感預測模型,僅使用音頻特征進行情感預測,第二個分支是融合網絡,使用注意力機制對音頻特征和圖像特征進行交互融合,并對融合特征進行情感預測,第三個分支是圖像情感預測模型,僅使用圖像特征進行情感預測。最終將三個分支預測情感結果進行平均,得到輸出情感。該類方法通常加入了融合網絡以及輔助網絡,但是在融合網絡中只是簡單的使用attention注意力機制進行音頻特征與圖像特征交互,這種交互方式并沒有考慮到不同模態特征之間的深層次交互信息。并且由于音頻特征與圖像特征之間存在較大異構型,因此在交互融合過程中會丟失特征信息。此外,兩個輔助網絡(單模態的音頻情感預測網絡和圖像預測網絡)僅僅用于情感預測,并沒有與融合網絡之間產生交互,最終是將三個網絡輸出的預測情感狀態進行求平均,得到最終預測情感,這種方式存在一定的主觀性,因為音頻情感預測網絡、圖像情感預測網絡以及融合網絡所預測出來的情感狀態均存在一定的偏差,使用平均的方式計算情感狀態會存在較大誤差。
4、在現有的方法中,都是使用數據集中無噪聲、無丟失的音頻數據和圖像數據進行模型的訓練和預測,然而在實際場景之中,攝像頭與麥克風所采集的圖像數據與音頻數據會存在一定噪聲數據或丟失數據。
5、綜上所述,現有技術沒能考慮到不同模態特征之間的深層次交互信息、模態特征交互融合過程中丟失特征信息的情況,并且魯棒性和實用性較差。
技術實現思路
1、為解決上述現有技術問題,本發明采用一種基于輔助網絡的噪聲增強多模態情感識別方法包括:
2、獲取視頻文件,將視頻文件輸入訓練好的多模態情感識別模型,得到情感識別結果;多模態情感識別模型包括:特征提取與隨機噪聲增強模塊、特征交互與融合網絡、輔助音頻網絡、輔助圖像網絡以及分類器;
3、多模態情感識別模型的訓練過程包括:
4、s1、獲取視頻文件,將視頻文件輸入特征提取與隨機噪聲增強模塊,得到增強音頻特征和增強圖像特征;
5、s2、將增強音頻特征和增強圖像特征輸入特征交互與融合網絡,得到融合特征;
6、s3、將增強音頻特征和增強圖像特征分別輸入音頻輔助網絡和圖像輔助網絡,得到音頻輔助特征和圖像輔助特征;
7、s4、將融合特征、音頻輔助特征和圖像輔助特征進行結合,將結合后的特征輸入分類器,得到情感識別結果;
8、s5、根據情感識別結果計算損失函數值,根據損失函數值更新模型參數,當損失函數值最小時,得到訓練好的多模態情感識別模型。
9、特征提取與隨機噪聲增強模塊包括:特征提取模塊和隨機噪聲增強模塊;特征提取與隨機噪聲增強模塊對視頻文件進行處理包括:將視頻文件輸入特征提取模塊,得到初始音頻特征和初始圖像特征;將初始音頻特征和初始圖像特征分別輸入隨機噪聲增強模塊,得到增強音頻特征和增強圖像特征。
10、視頻文件包括視頻幀序列和語音信號;特征提取模塊包括:mtcnn、efficientface預訓練模型以及音頻特征提取模塊;特征提取模塊對視頻文件進行處理包括:從視頻幀序列中選取視頻幀,將選取的視頻幀輸入mtcnn,得到包含人臉邊界框的視頻幀,對包含人臉邊界框的視頻幀進行裁剪,得到人臉圖片,將人臉圖片輸入efficientface預訓練模型,得到初始圖像特征;將語音信號輸入音頻特征提取模塊,得到初始音頻特征;其中,mtcnn為多任務級聯卷積神經網絡,efficientface為高效人臉。
11、隨機噪聲增強模塊分別對初始音頻特征和初始圖像特征進行處理包括:分別向初始音頻特征和初始圖像特征中添加隨機噪聲數據,得到第一音頻特征和第一圖像特征;獲取空特征,將空特征分別與初始音頻特征和初始圖像特征與進行組合,得到第二音頻特征和第二圖像特征;將第一音頻特征、第二音頻特征以及初始音頻特征進行拼接,得到增強音頻特征;將第一圖像特征、第二圖像特征以及初始圖像特征進行拼接,得到增強圖像特征。
12、特征交互與融合網絡包括:音頻分支、圖像分支、交叉注意力模塊以及全局平均池化層;特征交互與融合網絡對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征和增強圖像特征均輸入音頻分支和圖像分支,得到音頻交互特征和圖像交互特征;將音頻交互特征和圖像交互特征輸入交叉注意力模塊,將交叉注意力模塊的輸出輸入全局平均池化層,得到融合特征。
13、音頻分支包括:音頻多頭注意力模塊和音頻transformer編碼模塊;圖像分支包括:圖像多頭注意力模塊和圖像transformer編碼模塊;音頻分支和圖像分支對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征和增強圖像特征均輸入音頻多頭注意力模塊和圖像多頭注意力模塊,將音頻多頭注意力模塊和圖像多頭注意力模塊的輸出均輸入音頻transformer編碼模塊和圖像transformer編碼模塊,得到音頻交互特征和圖像交互特征。
14、音頻多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征xa作為鍵向量和值向量,將增強圖像特征xv作為查詢向量,根據鍵向量、值向量以及查詢向量得到音頻多頭注意力模塊的輸出xa′;圖像多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征xa作為查詢向量,將增強圖像特征xv作為鍵向量和值向量,根據鍵向量、值向量以及查詢向量得到圖像多頭注意力模塊的輸出xv′。
15、音頻transformer編碼模塊和圖像transformer編碼模塊均包括:多層依次串聯的編碼層;每層編碼層包括:多頭自注意力層和前饋神經網絡;
16、音頻transformer編碼模塊的第一層編碼層對音頻多頭注意力模塊和圖像多頭注意力模塊的輸出進行處理包括:將音頻多頭注意力模塊的輸出作為第一層編碼層的鍵向量和值向量,將圖像多頭注意力模塊的輸出作為第一層編碼層的查詢向量,根據鍵向量、值向量以及查詢向量得到第一層編碼層的多頭自注意力層的輸出,將多頭自注意力層的輸出輸入第一層編碼層的前饋神經網絡,得到第一層編碼層的輸出。
17、圖像transformer編碼模塊的第一層編碼層對音頻多頭注意力模塊和圖像多頭注意力模塊的輸出進行處理包括:將圖像多頭注意力模塊的輸出作為第一層編碼層的鍵向量和值向量,將音頻多頭注意力模塊的輸出作為第一層編碼層的查詢向量,根據鍵向量、值向量以及查詢向量得到第一層編碼層的多頭自注意力層的輸出,將多頭自注意力層的輸出輸入第一層編碼層的前饋神經網絡,得到第一層編碼層的輸出。
18、音頻輔助網絡和圖像輔助網絡均包括:全連接層、transformer編碼模塊和全局平均池化層;
19、音頻輔助網絡對增強音頻特征進行處理包括:將增強音頻特征輸入全連接層,將全連接層的輸出輸入transformer編碼模塊,將transformer層的輸出輸入全局平均池化層,得到音頻輔助特征;
20、圖像輔助網絡對增強圖像特征進行處理包括:將增強圖像特征輸入全連接層,將全連接層的輸出輸入transformer編碼模塊,將transformer層的輸出輸入全局平均池化層,得到圖像輔助特征。
21、音頻輔助網絡的transformer編碼模塊與音頻transformer編碼模塊共享參數,圖像輔助網絡的transformer編碼模塊與圖像transformer編碼模塊共享參數。
22、有益效果:
23、1、本發明在訓練階段進行噪聲注入和特征丟棄,模擬真實環境中可能出現的噪聲干擾和模態缺失情況,以提升模型的魯棒性和實用性;2、本發明提出了sharetransformer,它能夠利用輔助網絡中的單模態特征信息,平衡特征交互網絡中transformer的關注點,避免模型過多關注交互信息,忽略其它重要的情感信息,從而獲取包含豐富情感信息的特征表示;3、本發明提出了一種全新的跨模態交互融合方法,使用multi-head?attention、transformer實現音頻特征與圖像特征之間的深度交互,使用cross-attention實現音頻特征與圖像特征的融合;該方法能夠充分挖掘和利用不同模態之間復雜的交互信息,獲取包含豐富情感信息的融合特征。