一種基于輔助網絡的噪聲增強多模態情感識別方法

文檔序號：41758179發布日期：2025-04-29 18:27閱讀：來源：國知局

技術特征：

1.一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，包括：獲取視頻文件，將視頻文件輸入訓練好的多模態情感識別模型，得到情感識別結果；多模態情感識別模型包括：特征提取與隨機噪聲增強模塊、特征交互與融合網絡、輔助音頻網絡、輔助圖像網絡以及分類器；

2.根據權利要求1所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，特征提取與隨機噪聲增強模塊包括：特征提取模塊和隨機噪聲增強模塊；特征提取與隨機噪聲增強模塊對視頻文件進行處理包括：將視頻文件輸入特征提取模塊，得到初始音頻特征和初始圖像特征；將初始音頻特征和初始圖像特征分別輸入隨機噪聲增強模塊，得到增強音頻特征和增強圖像特征。

3.根據權利要求2所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，視頻文件包括視頻幀序列和語音信號；特征提取模塊包括：mtcnn、efficientface預訓練模型以及音頻特征提取模塊；特征提取模塊對視頻文件進行處理包括：從視頻幀序列中選取視頻幀，將選取的視頻幀輸入mtcnn，得到包含人臉邊界框的視頻幀，對包含人臉邊界框的視頻幀進行裁剪，得到人臉圖片，將人臉圖片輸入efficientface預訓練模型，得到初始圖像特征；將語音信號輸入音頻特征提取模塊，得到初始音頻特征；其中，mtcnn為多任務級聯卷積神經網絡，efficientface為高效人臉。

4.根據權利要求3所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，隨機噪聲增強模塊分別對初始音頻特征和初始圖像特征進行處理包括：分別向初始音頻特征和初始圖像特征中添加隨機噪聲數據，得到第一音頻特征和第一圖像特征；獲取空特征，將空特征分別與初始音頻特征和初始圖像特征與進行組合，得到第二音頻特征和第二圖像特征；將第一音頻特征、第二音頻特征以及初始音頻特征進行拼接，得到增強音頻特征；將第一圖像特征、第二圖像特征以及初始圖像特征進行拼接，得到增強圖像特征。

5.根據權利要求1所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，特征交互與融合網絡包括：音頻分支、圖像分支、交叉注意力模塊以及全局平均池化層；特征交互與融合網絡對增強音頻特征和增強圖像特征進行處理包括：將增強音頻特征和增強圖像特征均輸入音頻分支和圖像分支，得到音頻交互特征和圖像交互特征；將音頻交互特征和圖像交互特征輸入交叉注意力模塊，將交叉注意力模塊的輸出輸入全局平均池化層，得到融合特征。

6.根據權利要求5所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，音頻分支包括：音頻多頭注意力模塊和音頻transformer編碼模塊；圖像分支包括：圖像多頭注意力模塊和圖像transformer編碼模塊；音頻分支和圖像分支對增強音頻特征和增強圖像特征進行處理包括：將增強音頻特征和增強圖像特征均輸入音頻多頭注意力模塊和圖像多頭注意力模塊，將音頻多頭注意力模塊和圖像多頭注意力模塊的輸出均輸入音頻transformer編碼模塊和圖像transformer編碼模塊，得到音頻交互特征和圖像交互特征。

7.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，音頻多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括：將增強音頻特征xa作為鍵向量和值向量，將增強圖像特征xv作為查詢向量，根據鍵向量、值向量以及查詢向量得到音頻多頭注意力模塊的輸出xa′；圖像多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括：將增強音頻特征xa作為查詢向量，將增強圖像特征xv作為鍵向量和值向量，根據鍵向量、值向量以及查詢向量得到圖像多頭注意力模塊的輸出xv′。

8.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，音頻transformer編碼模塊和圖像transformer編碼模塊均包括：多層依次串聯的編碼層；每層編碼層包括：多頭自注意力層和前饋神經網絡；

9.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，音頻輔助網絡和圖像輔助網絡均包括：全連接層、transformer編碼模塊和全局平均池化層；

10.根據權利要求9所述的一種基于輔助網絡的噪聲增強多模態情感識別方法，其特征在于，音頻輔助網絡的transformer編碼模塊與音頻transformer編碼模塊共享參數，圖像輔助網絡的transformer編碼模塊與圖像transformer編碼模塊共享參數。

技術總結
本發明屬于圖像信號處理領域，涉及一種基于輔助網絡的噪聲增強多模態情感識別方法，包括：將視頻輸入特征提取與隨機噪聲增強模塊，得到增強音頻特征X<subgt;a</subgt;和增強圖像特征X<subgt;v</subgt;；將特征X<subgt;a</subgt;和X<subgt;v</subgt;輸入特征交互與融合網絡，得到融合特征；將特征X<subgt;a</subgt;和X<subgt;v</subgt;輸入音頻輔助網絡和圖像輔助網絡，得到音頻輔助特征和圖像輔助特征將融合特征、特征和特征結合后輸入分類器，得到情感識別結果；根據情感識別結果更新模型參數，直到得到訓練好的多模態情感識別模型；本發明的特征交互與融合網絡與輔助音頻網絡和輔助圖像網絡的Transformer共享參數，能夠平衡特征交互與融合網絡的關注點；本發明的特征交互與融合網絡實現了音頻特征與圖像特征之間的深度交互。

技術研發人員：雷建軍,葉凱
受保護的技術使用者：重慶郵電大學
技術研發日：
技術公布日：2025/4/28

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

<cite id="tnijb"><li id="tnijb"><pre id="tnijb"></pre></li></cite>^{<blockquote id="tnijb"></blockquote>}

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于輔助網絡的噪聲增強多模態情感識別方法