麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于觸發器重建的后門防御方法

文檔序號:41770305發布日期:2025-04-29 18:40閱讀:4來源:國知局
一種基于觸發器重建的后門防御方法

本發明屬于計算機安全領域,具體涉及一種基于觸發器重建的后門防御方法。


背景技術:

1、近年來,深度神經網絡(deep?neural?network,dnn)在許多領域都取得了巨大成功。然而,近期許多研究表明深度神經網絡容易遭受后門攻擊。自2017年badnets的出現引入了深度學習中的第一個后門攻擊始,深度神經網絡后門攻防技術就成為了一個熱門的研究方向。在過去的七年中,大量后門攻防技術被提出。

2、后門攻擊指通過修改數據集或模型的方式實現向模型中植入后門,該后門能夠被觸發器(一種特定的標記)觸發,使得模型輸出特定的結果,從而達成特定的任務或行為。一個成功嵌入后門的模型可能會給模型的使用者帶來安全威脅。例如,在dnn模型中嵌入后門,使其將帶有觸發器的停車標志誤識別為限速標志。如果自動駕駛汽車配備這樣的后門感知系統,可能會發生致命的交通事故。此外,后門還具有隱蔽性,且后門攻擊可以發生在模型訓練的各個階段,如數據收集、模型訓練、模型驗證、模型部署等。由此可見,后門不僅易于嵌入,且危害巨大,同時還具有隱蔽性。因此,對后門攻擊進行后門防御極為重要。

3、后門防御可以在dnn產生錯誤輸出前防御攻擊者的后門攻擊,從而規避后門風險。近年來,雖然研究人員已經提出了許多防御后門攻擊的方法,但是這些方法或者為了去除后門而大幅影響模型準確率,或者僅能防御較少后門的模型,不夠高效。因此迫切需要提出新的簡單且能有效去除后門的方法來應對后門攻擊引發的安全威脅。


技術實現思路

1、發明目的:針對上述背景技術中存在的問題,本發明提出一種基于觸發器重建的后門防御方法,以提高后門檢測與后門去除的效果。

2、
技術實現要素:
本發明所述的一種基于觸發器重建的后門防御方法,包括以下步驟:

3、給定一個后門模型,使用少量干凈樣本通過目標函數對每個類別進行觸發器重建,使模型將所有附加有觸發器的圖像樣本分類為目標標簽;

4、引入模型可解釋性技術對所有重建的觸發器進行裁剪,以去除噪音,得到更真實的觸發器;

5、使用logits分析區分后門觸發器與自然觸發器;

6、利用后門觸發器在干凈模型上的無效性與自然觸發器在相似模型上的有效性構建檢測模型,區分后門觸發器與自然觸發器;

7、使用檢測出的后門觸發器進行對抗性訓練以移除模型后門。

8、進一步地,所述目標函數如下:

9、linversion=lce(f(xt,ytarget))+α·lce(f(x',ytrue))+β·lnoise(m_tanh))

10、

11、xt=x*(1-m_tanh)+δ*m_tanh)

12、x'=x*(1-m_tanh)

13、lnoise(m_tanh)

14、=(∣m_tanh(i,j)-m_tanh(i+1,j+1)∣+∣m_tanh(i,j+1)-m_tanh(i

15、+1,j)∣+∣m_tanh(i,j)-m_tanh(i+1,j)∣+∣m_tanh(j,i)-m_tanh(j

16、+1,i)∣)

17、其中,δ是一個與輸入圖像具有相同維度和相同顏色通道的3d矩陣,代表重構的觸發器的圖案,m是一個與輸入圖像具有相同形狀的2d矩陣,代表觸發器的掩碼,掩碼中的取值范圍為0~1;對于特定的像素(i,j),當mi,j=1時,觸發器完全覆蓋了原始顏色;而當mi,j=0時,像素點不變;δ·m為對應的觸發器,目標函數由三個損失項組成,通過兩個權重α和β進行調整,權重β在觸發器重建過程中根據觸發器攻擊成功率動態調整;

18、損失項lce(f(xt,ytarget))是優化m與δ將所有附加了觸發器的圖像樣本分類為目標標簽ytarget,lce表示交叉熵損失函數;f(·)表示模型的預測;xt表示附加了觸發器的圖像樣本;ytarget表示目標標簽;

19、第二個損失項lce(f(x’,ytrue))是將移除觸發器的圖像樣本正確分類真實的正確的標簽ytrue,x’表示移除了觸發器的圖像樣本;而ytrue表示樣本的正確標簽;

20、第三個損失項lnoise(m_tanh)計算的是m_tanh的相鄰元素差異之和,減少掩碼m_tanh中的噪點,減少噪音。

21、進一步地,所述引入模型可解釋性技術對所有重建的觸發器進行裁剪實現過程如下:

22、隨機選取若干數量圖像樣本,并將其附上重建的觸發器;將附上了觸發器的圖像樣本輸入可疑模型,并采用模型可解釋性技術對每張圖像計算每個像素點對模型分類的貢獻值,并計算平均貢獻值;根據平均貢獻值裁剪掉觸發器對分類貢獻較少的像素。

23、進一步地,所述根據平均貢獻值裁剪掉觸發器對分類貢獻較少的像素為:定義閾值t,用于識別并去除對分類貢獻較小的像素;如果在平均熱圖上的值小于閾值t,那么將這些像素從重建的觸發器中移除;閾值t的初始值設為1,在每次迭代中減少0.01,迭代過程持續進行,直到被操作的觸發器的攻擊成功率恰好不低于預設值為止。

24、進一步地,所述使用logits分析區分后門觸發器與自然觸發器實現過程如下:

25、從所有可用的干凈樣本中均勻采樣,使得每個類別的樣本數量相等,并將采樣樣本輸入可疑模型得到預測的logits值,然后進行統計分析;如果一個標簽的logits值在至少θ%的被采樣樣本中排名前γ%,認為該標簽是后門目標標簽;所述θ的值為的25;γ的值為50。

26、進一步地,所述區分后門觸發器與自然觸發器實現過程如下:

27、首先將可疑模型部分層初始化,然后將初始化后的模型視為學生模型,將原始可疑模型作為教師模型進行知識蒸餾,直到學生模型收斂;收斂后的學生模型即為檢測模型;檢測模型訓練完成后,使用檢測模型檢測每個重建得觸發器的有效性;針對一個特定的重建的觸發器trigger和一個相應的目標標簽c,從每個類別中均勻采樣少量的干凈圖像樣本,同時確保這些樣本不包含目標標簽c所對應的類別;將所有采樣的樣本附加上重建的觸發器trigger,并輸入到可疑模型中;若該觸發器trigger能夠有效使得模型將附加觸發器trigger的樣本錯誤分類為trigger對應的目標標簽c,則認為該觸發器是自然觸發器,反之則為后門觸發器。

28、進一步地,所述知識蒸餾為:

29、lkd=α·lce+(1-α)·t2·lkl

30、其中,lce計算學生模型的交叉熵損失,lkl為蒸餾損失函數,用于計算學生模型與教師模型輸出概率分布的差異程度;t為蒸餾溫度;所述蒸餾溫度為10。

31、進一步地,所述使用檢測出的后門觸發器進行對抗性訓練以移除模型后門步驟包括:

32、將檢測出的后門觸發器附加到部分干凈圖像上,并正確標注;將所有可用的干凈圖像與附加了重建后門觸發器但正確標注的圖像輸入模型進行微調以去除后門。

33、有益效果:與現有技術相比,本發明的有益效果:本發明提提出了效率與質量都更高的觸發器重建方法,同時使用模型可解釋性技術裁剪觸發器,去除冗余特征,進一步提高觸發器重建的效果;針對現有方法難以檢測較多后門的問題,使用logits分析與兩個性質識別后門觸發器,提高了檢測的正確率;最后使用對抗性學習方法使得模型“遺忘”學習到的后門,以達到去除后門的效果。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 兴城市| 博乐市| 城口县| 清涧县| 南木林县| 太白县| 探索| 平南县| 桦甸市| 古田县| 林芝县| 屯门区| 鄱阳县| 亚东县| 平凉市| 措勤县| 吉水县| 阿鲁科尔沁旗| 陈巴尔虎旗| 蒙城县| 尚志市| 浦东新区| 色达县| 义乌市| 区。| 章丘市| 涟水县| 黄梅县| 天镇县| 寻乌县| 牡丹江市| 资中县| 玉山县| 德安县| 思茅市| 卓资县| 江华| 高安市| 浮山县| 德钦县| 申扎县|