1.一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,包括:獲取視頻文件,將視頻文件輸入訓練好的多模態情感識別模型,得到情感識別結果;多模態情感識別模型包括:特征提取與隨機噪聲增強模塊、特征交互與融合網絡、輔助音頻網絡、輔助圖像網絡以及分類器;
2.根據權利要求1所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,特征提取與隨機噪聲增強模塊包括:特征提取模塊和隨機噪聲增強模塊;特征提取與隨機噪聲增強模塊對視頻文件進行處理包括:將視頻文件輸入特征提取模塊,得到初始音頻特征和初始圖像特征;將初始音頻特征和初始圖像特征分別輸入隨機噪聲增強模塊,得到增強音頻特征和增強圖像特征。
3.根據權利要求2所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,視頻文件包括視頻幀序列和語音信號;特征提取模塊包括:mtcnn、efficientface預訓練模型以及音頻特征提取模塊;特征提取模塊對視頻文件進行處理包括:從視頻幀序列中選取視頻幀,將選取的視頻幀輸入mtcnn,得到包含人臉邊界框的視頻幀,對包含人臉邊界框的視頻幀進行裁剪,得到人臉圖片,將人臉圖片輸入efficientface預訓練模型,得到初始圖像特征;將語音信號輸入音頻特征提取模塊,得到初始音頻特征;其中,mtcnn為多任務級聯卷積神經網絡,efficientface為高效人臉。
4.根據權利要求3所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,隨機噪聲增強模塊分別對初始音頻特征和初始圖像特征進行處理包括:分別向初始音頻特征和初始圖像特征中添加隨機噪聲數據,得到第一音頻特征和第一圖像特征;獲取空特征,將空特征分別與初始音頻特征和初始圖像特征與進行組合,得到第二音頻特征和第二圖像特征;將第一音頻特征、第二音頻特征以及初始音頻特征進行拼接,得到增強音頻特征;將第一圖像特征、第二圖像特征以及初始圖像特征進行拼接,得到增強圖像特征。
5.根據權利要求1所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,特征交互與融合網絡包括:音頻分支、圖像分支、交叉注意力模塊以及全局平均池化層;特征交互與融合網絡對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征和增強圖像特征均輸入音頻分支和圖像分支,得到音頻交互特征和圖像交互特征;將音頻交互特征和圖像交互特征輸入交叉注意力模塊,將交叉注意力模塊的輸出輸入全局平均池化層,得到融合特征。
6.根據權利要求5所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,音頻分支包括:音頻多頭注意力模塊和音頻transformer編碼模塊;圖像分支包括:圖像多頭注意力模塊和圖像transformer編碼模塊;音頻分支和圖像分支對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征和增強圖像特征均輸入音頻多頭注意力模塊和圖像多頭注意力模塊,將音頻多頭注意力模塊和圖像多頭注意力模塊的輸出均輸入音頻transformer編碼模塊和圖像transformer編碼模塊,得到音頻交互特征和圖像交互特征。
7.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,音頻多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征xa作為鍵向量和值向量,將增強圖像特征xv作為查詢向量,根據鍵向量、值向量以及查詢向量得到音頻多頭注意力模塊的輸出xa′;圖像多頭注意力模塊對增強音頻特征和增強圖像特征進行處理包括:將增強音頻特征xa作為查詢向量,將增強圖像特征xv作為鍵向量和值向量,根據鍵向量、值向量以及查詢向量得到圖像多頭注意力模塊的輸出xv′。
8.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,音頻transformer編碼模塊和圖像transformer編碼模塊均包括:多層依次串聯的編碼層;每層編碼層包括:多頭自注意力層和前饋神經網絡;
9.根據權利要求6所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,音頻輔助網絡和圖像輔助網絡均包括:全連接層、transformer編碼模塊和全局平均池化層;
10.根據權利要求9所述的一種基于輔助網絡的噪聲增強多模態情感識別方法,其特征在于,音頻輔助網絡的transformer編碼模塊與音頻transformer編碼模塊共享參數,圖像輔助網絡的transformer編碼模塊與圖像transformer編碼模塊共享參數。