本技術涉及計算機,具體而言,涉及一種多模態深度偽造檢測方法及裝置。
背景技術:
1、深度偽造是一種利用深度學習算法對原始視頻進行二次生成和篡改的多媒體數據。用以生成深度偽造內容的技術主要可以分為深度偽造視頻技術和深度偽造語音技術。深度偽造視頻技術可以生成或篡改原始視覺數據,如面部和嘴唇變化;而深度偽造語音技術則可以生成音頻信息,如錄音內容。結合這兩種技術可以創建相當逼真的虛假內容,可能引發嚴重侵犯個人隱私的問題。
2、目前,對于深度偽造視頻檢測,有圖像級和視頻級兩種方法,圖像級方法主要依據視覺線索進行單幀分析,視頻級方法則更側重跨幀不一致性。
3、但是,大多數現有方法僅使用圖像或視頻進行檢測,難以充分利用其他模態的信息,因此在多模態偽造的場景中,對深度偽造內容的檢測精度一般。
技術實現思路
1、有鑒于此,本技術的目的在于提供一種多模態深度偽造檢測方法及裝置,能夠通過多模態特征提取即通過視覺特征提取模型和音頻頻譜圖編碼模型對視頻幀序列和音頻序列進行特征提取得到視覺特征和音頻特征,兩種模態特征融合后基于預設的目標多模態深度偽造檢測模型進行偽造鑒別,得到對應鑒別結果,本技術特別關注于視覺、音頻兩種模態的綜合分析,可以充分利用其他模態的信息,提高了對精心制作的多模態深度偽造內容的檢測精度。
2、第一方面,本技術實施例提供了一種多模態深度偽造檢測方法,所述方法包括:
3、獲取目標源視頻的視頻幀序列和音頻序列;其中,所述目標源視頻包括真實源視頻和偽造源視頻;
4、基于預設的視覺特征提取模型對所述視頻幀序列進行特征提取得到視覺特征,基于預訓練的音頻頻譜圖編碼模型對所述音頻序列進行特征提取得到音頻特征;
5、對所述視覺特征和所述音頻特征進行融合,得到對應的融合特征;
6、獲取預設的目標多模態深度偽造檢測模型,基于所述目標多模態深度偽造檢測模型對所述融合特征進行偽造鑒別,確定所述目標源視頻的鑒別結果;其中,所述鑒別結果表征所述融合特征對應的目標源視頻是否偽造,以及所述目標源視頻在確定為偽造時的偽造方法;所述偽造方法至少包括口型編輯、唇生成、人臉重現。
7、在一種可能的實施方式中,所述方法還包括:
8、基于所述視覺特征和所述音頻特征構建對應的正負樣本對;
9、基于所述正負樣本對對所述多模態深度偽造檢測模型進行跨模態對比學習訓練,得到訓練后的所述多模態深度偽造檢測模型。
10、在一種可能的實施方式中,所述獲取目標源視頻的視頻幀序列和音頻序列,包括:
11、獲取包括多個深度偽造內容的多模態數據集;其中,每個深度偽造內容包括對應的深度偽造視頻的視頻幀序列、音頻序列;
12、從所述多模態數據集中,根據預設間隔等間隔隨機抽取目標源視頻的視頻幀序列和音頻序列。
13、在一種可能的實施方式中,在所述基于預設的視覺特征提取模型對所述視頻幀序列進行特征提取得到視覺特征之前,所述方法還包括:
14、基于預先設定的正態分布超參數、目標圖像數據集的均值與標準差確定對應的隨機標準化訓練策略;
15、基于預設的概率對所述視頻幀序列進行隨機標準化,得到隨機采樣的均值和標準差,基于所述隨機采樣的均值和標準差對所述視頻幀序列進行標準化,并用所述目標圖像數據集的均值和標準差進行標準化。
16、在一種可能的實施方式中,所述視覺特征提取模型包括圖像級特征提取子模型和時序特征提取子模型;所述基于預設的視覺特征提取模型對所述視頻幀序列進行特征提取得到視覺特征,包括:
17、針對所述視頻幀序列,基于預設的采樣步長從所述視頻幀序列等步長地采樣第一數量的視頻幀序列分組;其中,每個視頻幀序列分組包括連續的第二數量的視頻幀序列;
18、基于采樣得到的所有視頻幀,使用所述圖像級特征提取子模型提取對應的圖像級特征;其中,每個視頻幀序列分組對應四個圖像級特征;
19、針對每一個視頻幀序列分組對應的圖像級特征,基于所述時序特征提取子模型得到對應的分組級特征,并對所有的分組級特征進行平均池化,得到對應的視覺特征。
20、在一種可能的實施方式中,所述基于預訓練的音頻頻譜圖編碼模型對所述音頻序列進行特征提取得到音頻特征,包括:
21、針對所述音頻序列,將所述音頻序列轉化為對應的頻譜圖;
22、將所述頻譜圖輸入至所述音頻頻譜圖編碼模型,提取出所述音頻序列的音頻特征。
23、在一種可能的實施方式中,所述基于所述視覺特征和所述音頻特征構建對應的正負樣本對,包括:
24、基于所述真實源視頻和所述偽造源視頻獲取正負樣本對;其中,所述正負樣本對包括正樣本對和負樣本對;所述正樣本對包括同一個真實源視頻的視覺特征和音頻特征;所述負樣本對包括同一個偽造源視頻的視覺特征和音頻特征,或者不同目標源視頻的視覺特征和音頻特征;
25、所述基于所述正負樣本對對所述多模態深度偽造檢測模型進行跨模態對比學習訓練,包括:
26、基于所述正負樣本對,使用預設的對比損失函數計算所述目標源視頻的對比損失,以對所述多模態深度偽造檢測模型進行跨模態對比學習訓練。
27、第二方面,本技術實施例還提供了一種多模態深度偽造檢測裝置,所述裝置包括:
28、第一獲取模塊,用于獲取目標源視頻的視頻幀序列和音頻序列;其中,所述目標源視頻包括真實源視頻和偽造源視頻;
29、提取模塊,用于基于預設的視覺特征提取模型對所述視頻幀序列進行特征提取得到視覺特征,基于預訓練的音頻頻譜圖編碼模型對所述音頻序列進行特征提取得到音頻特征;
30、融合模塊,用于對所述視覺特征和所述音頻特征進行融合,得到對應的融合特征;
31、鑒別模塊,用于獲取預設的目標多模態深度偽造檢測模型,基于所述目標多模態深度偽造檢測模型對所述融合特征進行偽造鑒別,確定所述目標源視頻的鑒別結果;其中,所述鑒別結果表征所述融合特征對應的目標源視頻是否偽造,以及所述目標源視頻在確定為偽造時的偽造方法;所述偽造方法至少包括口型編輯、唇生成、人臉重現。
32、在一種可能的實施方式中,所述多模態深度偽造檢測裝置,還包括:
33、構建模塊,用于基于所述視覺特征和所述音頻特征構建對應的正負樣本對;
34、訓練模塊,用于基于所述正負樣本對對所述多模態深度偽造檢測模型進行跨模態對比學習訓練,得到訓練后的所述多模態深度偽造檢測模型。
35、在一種可能的實施方式中,所述第一獲取模塊,具體用于:
36、獲取包括多個深度偽造內容的多模態數據集;其中,每個深度偽造內容包括對應的深度偽造視頻的視頻幀序列、音頻序列;
37、從所述多模態數據集中,根據預設間隔等間隔隨機抽取目標源視頻的視頻幀序列和音頻序列。
38、在一種可能的實施方式中,所述多模態深度偽造檢測裝置,還包括:
39、確定模塊,用于在所述基于預設的視覺特征提取模型對所述視頻幀序列進行特征提取得到視覺特征之前,基于預先設定的正態分布超參數、目標圖像數據集的均值與標準差確定對應的隨機標準化訓練策略;
40、標準模塊,用于基于預設的概率對所述視頻幀序列進行隨機標準化,得到隨機采樣的均值和標準差,基于所述隨機采樣的均值和標準差對所述視頻幀序列進行標準化,并用所述目標圖像數據集的均值和標準差進行標準化。
41、在一種可能的實施方式中,所述視覺特征提取模型包括圖像級特征提取子模型和時序特征提取子模型;所述提取模塊,具體用于:
42、針對所述視頻幀序列,基于預設的采樣步長從所述視頻幀序列等步長地采樣第一數量的視頻幀序列分組;其中,每個視頻幀序列分組包括連續的第二數量的視頻幀序列;
43、基于采樣得到的所有視頻幀,使用所述圖像級特征提取子模型提取對應的圖像級特征;其中,每個視頻幀序列分組對應四個圖像級特征;
44、針對每一個視頻幀序列分組對應的圖像級特征,基于所述時序特征提取子模型得到對應的分組級特征,并對所有的分組級特征進行平均池化,得到對應的視覺特征。
45、在一種可能的實施方式中,所述提取模塊,具體用于:
46、針對所述音頻序列,將所述音頻序列轉化為對應的頻譜圖;
47、將所述頻譜圖輸入至所述音頻頻譜圖編碼模型,提取出所述音頻序列的音頻特征。
48、在一種可能的實施方式中,所述構建模塊,具體用于:
49、基于所述真實源視頻和所述偽造源視頻獲取正負樣本對;其中,所述正負樣本對包括正樣本對和負樣本對;所述正樣本對包括同一個真實源視頻的視覺特征和音頻特征;所述負樣本對包括同一個偽造源視頻的視覺特征和音頻特征,或者不同目標源視頻的視覺特征和音頻特征;
50、所述構建模塊,具體用于:基于所述正負樣本對,使用預設的對比損失函數計算所述目標源視頻的對比損失,以對所述多模態深度偽造檢測模型進行跨模態對比學習訓練。
51、第三方面,本技術實施例提供了一種電子設備,包括:處理器、存儲介質和總線,所述存儲介質存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲介質之間通過總線通信,所述處理器執行所述機器可讀指令,以執行如第一方面任一項所述的多模態深度偽造檢測方法的步驟。
52、第四方面,本技術實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執行第一方面任一項所述的多模態深度偽造檢測方法的步驟。
53、本技術實施例提供的一種多模態深度偽造檢測方法及裝置,獲取目標源視頻的視頻幀序列和音頻序列,基于預設的視覺特征提取模型對視頻幀序列進行特征提取得到視覺特征,基于預訓練的音頻頻譜圖編碼模型對音頻序列進行特征提取得到音頻特征,對視覺特征和音頻特征進行融合,得到對應的融合特征,獲取預設的目標多模態深度偽造檢測模型,基于目標多模態深度偽造檢測模型對融合特征進行偽造鑒別,確定目標源視頻的鑒別結果。本技術的多模態深度偽造檢測方法,通過多模態特征提取即通過視覺特征提取模型和音頻頻譜圖編碼模型對視頻幀序列和音頻序列進行特征提取得到視覺特征和音頻特征,兩種模態特征融合后基于預設的目標多模態深度偽造檢測模型進行偽造鑒別,得到對應鑒別結果,本技術特別關注于視覺、音頻兩種模態的綜合分析,可以充分利用其他模態的信息,提高了對精心制作的多模態深度偽造內容的檢測精度。
54、為使本技術的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。