本發(fā)明屬于聯(lián)邦學(xué)習(xí)與數(shù)據(jù)安全領(lǐng)域,具體涉及一種基于圖像修正懲罰的梯度反演攻擊方法。
背景技術(shù):
1、在當(dāng)今數(shù)字化時代,數(shù)據(jù)孤島現(xiàn)象普遍存在,各機構(gòu)或個人持有數(shù)據(jù)但難以整合,同時數(shù)據(jù)隱私和安全問題備受重視。聯(lián)邦學(xué)習(xí)作為一種創(chuàng)新的分布式協(xié)同訓(xùn)練方案,旨在解決數(shù)據(jù)隱私保護與數(shù)據(jù)融合需求之間的矛盾。其核心原理是多個數(shù)據(jù)持有方(如各類智能設(shè)備、金融醫(yī)療等機構(gòu))能夠在不共享原始數(shù)據(jù)的前提下,協(xié)同訓(xùn)練模型。在聯(lián)邦學(xué)習(xí)架構(gòu)中,包含多個客戶端和一個服務(wù)器,客戶端利用本地數(shù)據(jù)計算模型梯度并共享至服務(wù)器,服務(wù)器負責(zé)聚合這些梯度以更新全局模型。
2、然而,聯(lián)邦學(xué)習(xí)在保護客戶端本地數(shù)據(jù)隱私的同時,共享的梯度信息成為了新的風(fēng)險點。在模型訓(xùn)練過程中,客戶端上傳的梯度信息包含了模型參數(shù)在本地數(shù)據(jù)上的變化情況,這些梯度信息雖然不直接暴露原始數(shù)據(jù),但卻蘊含了豐富的數(shù)據(jù)特征和分布信息。攻擊者利用復(fù)雜的數(shù)學(xué)分析和優(yōu)化技術(shù),能夠從這些梯度信息中挖掘出與原始數(shù)據(jù)相關(guān)的線索,進而嘗試恢復(fù)客戶端的隱私數(shù)據(jù),此類攻擊被稱為梯度反演攻擊。例如,通過分析梯度的方向、大小以及不同參數(shù)之間的梯度關(guān)系,結(jié)合特定的算法和模型假設(shè),攻擊者可以構(gòu)建數(shù)據(jù)恢復(fù)的優(yōu)化目標(biāo),不斷迭代優(yōu)化以逼近原始數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)泄露風(fēng)險的產(chǎn)生。
3、現(xiàn)有梯度反演攻擊方法在小批次低分辨率圖像場景中取得了很好的效果,但在面對大批量和高分辨率圖像時,暴露出諸多局限性。首先,隨著批次規(guī)模增大,單個圖像的特征信息在共享梯度中被稀釋,導(dǎo)致恢復(fù)難度劇增,效果顯著下降。其次,模型穩(wěn)定性問題嚴(yán)重,梯度消失和爆炸現(xiàn)象頻繁出現(xiàn),極大影響了訓(xùn)練效率和恢復(fù)效果。例如,在基于距離度量的優(yōu)化過程中,不當(dāng)?shù)亩攘窟x擇或參數(shù)設(shè)置可能引發(fā)這些不穩(wěn)定因素。最后,高分辨率圖像恢復(fù)對模型的容量和表達能力提出了更高要求,現(xiàn)有方法難以在保證計算效率的同時維持圖像的保真度和清晰度,生成的圖像往往無法保持自然結(jié)構(gòu),這在很大程度上限制了其在實際應(yīng)用中的適用性。
4、cn117935015a公開了一種基于擴散模型的梯度反演攻擊方法,獲取聯(lián)邦學(xué)習(xí)模型與待攻擊客戶端相關(guān)參數(shù)及最后一層全連接層梯度,基于梯度恢復(fù)圖像樣本標(biāo)簽,經(jīng)多次初步圖像重建,選梯度損失最小的為配準(zhǔn)圖像,最終重建圖像時同樣先生成先驗圖像再迭代優(yōu)化,利用擴散模型先驗知識和改進的正則化提高重建圖像質(zhì)量、揭露隱私信息。但該發(fā)明缺乏針對生成圖像視覺一致性的直接約束,依賴擴散模型可能存在局限性且未考慮多種網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,存在實驗數(shù)據(jù)集類型單一無法充分驗證普適性,評估指標(biāo)不夠豐富全面難以深入分析性能,以及面對復(fù)雜數(shù)據(jù)分布時可能因依賴先驗?zāi)P投鵁o法精準(zhǔn)恢復(fù)圖像等不足。
5、cn115527081a公開了一種重構(gòu)聯(lián)邦學(xué)習(xí)中輸入數(shù)據(jù)的方法。首先隨機初始化多組偽樣本及相關(guān)超參,利用自動超參探索獲取適宜超參,運行分布式梯度反演算法,之后多組偽樣本分別開展初始梯度反演,再執(zhí)行最小損失組合優(yōu)化以構(gòu)建群一致正則項并挑選最終樣本,最后此樣本經(jīng)梯度反演得到重構(gòu)目標(biāo)樣本。但是該發(fā)明缺乏適應(yīng)性結(jié)構(gòu)調(diào)整,在處理不同復(fù)雜度和規(guī)模的數(shù)據(jù)時,固定的網(wǎng)絡(luò)結(jié)構(gòu)可能無法有效捕捉數(shù)據(jù)特征,限制了模型對多樣化數(shù)據(jù)的適應(yīng)性。
技術(shù)實現(xiàn)思路
1、本發(fā)明公開了一種基于圖像修正懲罰的梯度反演攻擊方法,旨在有效解決聯(lián)邦學(xué)習(xí)中梯度反演攻擊面臨的問題。由于梯度信息的模糊性和模型穩(wěn)定性問題,恢復(fù)效果顯著下降,且現(xiàn)有方法常面臨梯度爆炸與消失問題,影響訓(xùn)練效率和恢復(fù)效果。本發(fā)明被部署在服務(wù)器上,能夠訪問全局模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。服務(wù)器和客戶端之間唯一交換的信息是基于當(dāng)前全局模型計算的梯度。本發(fā)明將數(shù)據(jù)恢復(fù)任務(wù)轉(zhuǎn)化為由梯度信息引導(dǎo)的數(shù)據(jù)生成問題,通過精心設(shè)計的架構(gòu)實現(xiàn)數(shù)據(jù)恢復(fù)。具體而言,采用自適應(yīng)過參數(shù)化網(wǎng)絡(luò)作為圖像數(shù)據(jù)生成器,其能夠動態(tài)調(diào)整生成器的通道數(shù),擴大網(wǎng)絡(luò)容量,從而增強網(wǎng)絡(luò)捕捉復(fù)雜數(shù)據(jù)分布的能力。為了提高對真實標(biāo)記圖像的收斂性,從不同的隨機種子產(chǎn)生噪聲輸入,計算所有候選圖像的配準(zhǔn)平均圖像,在每個優(yōu)化過程中引入了一個圖像修正懲罰項,以減少假圖像與真實圖像在視覺上的偏差,確保模型有足夠的表達能力來處理大批量和高分辨率圖像數(shù)據(jù)。同時,使用全連接層作為標(biāo)簽數(shù)據(jù)生成器,兩個生成器通過聯(lián)合優(yōu)化,使其生成的假圖像和假標(biāo)簽?zāi)軌虮平鎸嵦荻龋M而穩(wěn)定地恢復(fù)數(shù)據(jù)。
2、為達到上述目的,本發(fā)明所采用的技術(shù)方案為:一種基于圖像修正懲罰的梯度反演攻擊方法,包括一個假圖像生成分支和假標(biāo)簽生成分支;
3、所述假圖像生成分支,通過輸入隨機噪聲到自適應(yīng)過參數(shù)化網(wǎng)絡(luò),生成逼真且與真實圖像相似的虛擬圖像。生成器通過神經(jīng)網(wǎng)絡(luò)的前向傳播,將這些輸入信息轉(zhuǎn)化為圖像,并在訓(xùn)練過程中通過與判別器的對抗學(xué)習(xí),優(yōu)化其生成能力。其目的是使生成的圖像逐漸接近真實圖像的特征分布,從而在視覺上達到無法輕易區(qū)分真假圖像的效果。生成器不僅能生成多樣化的樣本,擴展數(shù)據(jù)集,還能用于數(shù)據(jù)增強,改善模型的泛化能力。
4、所述假標(biāo)簽生成分支,通過根據(jù)生成圖像的特征或潛在表示,生成虛假的標(biāo)簽信息,通常依賴于神經(jīng)網(wǎng)絡(luò)或分類器來推斷標(biāo)簽。這些標(biāo)簽在對抗訓(xùn)練中與生成圖像配對,目的是欺騙判別器,使其無法識別圖像與標(biāo)簽的真實關(guān)系。假標(biāo)簽生成分支有助于提升生成圖像的質(zhì)量和多樣性,確保圖像與標(biāo)簽的一致性,并增強模型在多樣化輸入和噪聲數(shù)據(jù)下的魯棒性。
5、所述的兩個分支之間通過對抗訓(xùn)練相互優(yōu)化,確保生成的圖像與標(biāo)簽高度一致,從而提高生成圖像質(zhì)量。
6、一種基于圖像修正懲罰的梯度反演攻擊方法,包括以下步驟:
7、步驟1,初始化潛在空間隨機向量輸入,設(shè)置迭代次數(shù)閾值。
8、步驟2,初始化生成器的網(wǎng)絡(luò)參數(shù)。
9、步驟3,獲取客戶端的真梯度。
10、步驟4,通過自適應(yīng)過參數(shù)化網(wǎng)絡(luò)從噪聲向量和條件信息中生成假圖像和假標(biāo)簽。
11、步驟5,依據(jù)假圖像和假標(biāo)簽計算出假梯度。
12、步驟6,計算出假梯度和真梯度之間的損失值。
13、步驟7,更新全局模型的網(wǎng)絡(luò)參數(shù)。
14、步驟8,重復(fù)步驟4到步驟7,直至達到預(yù)設(shè)迭代次數(shù)閾值。
15、步驟9,輸出生成的假標(biāo)簽和假圖像。
16、優(yōu)選的,所述步驟3中本發(fā)明采用基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)的圖像分類模型,在迭代t時,第i個客戶端根據(jù)其局部訓(xùn)練數(shù)據(jù)計算cnn模型參數(shù)θt和局部梯度f(·)、θt和l(·)分別為全局學(xué)習(xí)模型、迭代t時的網(wǎng)絡(luò)參數(shù)和損失函數(shù)。獲取客戶端的真梯度,具體為:
17、
18、優(yōu)選的,所述步驟4中本發(fā)明采用自適應(yīng)過參數(shù)化網(wǎng)絡(luò)來生成假圖像和假標(biāo)簽,旨在通過動態(tài)調(diào)整生成器的通道數(shù),使得生成器的參數(shù)數(shù)量超過特定的閾值,以確保模型有足夠的容量來學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布,以增強其表達能力。具體為:
19、步驟4.1,對網(wǎng)絡(luò)過參數(shù)化,給定一個潛在向量z0和一個卷積模型g,將其生成模型空間定義為:
20、
21、其中,θ為網(wǎng)絡(luò)參數(shù)集,為卷積模型的生成圖像。
22、同樣地,可以將生成空間的最優(yōu)集合定義為:
23、
24、生成方法成功的一個必要條件是要求這兩個空間的交集是非空的。給定一個潛在向量z0及其對應(yīng)的生成模型空間,將其與梯度約束的交集定義為
25、
26、生成梯度反演成功的一個必要條件是此外,在足夠大的情況下,這種非空性條件始終成立。
27、步驟4.2,自適應(yīng)更新網(wǎng)絡(luò)參數(shù),在模型訓(xùn)練過程中的特定時刻對模型參數(shù)w(包括卷積層和線性層的權(quán)重)進行更新,以確保模型不會過度擬合隨機噪聲,而是能夠?qū)W習(xí)到數(shù)據(jù)中的關(guān)鍵特征。具體而言,在訓(xùn)練進度達到20%、40%和60%時對模型進行關(guān)鍵的參數(shù)調(diào)整,以優(yōu)化模型性能并促進其對真實數(shù)據(jù)分布的準(zhǔn)確學(xué)習(xí):
28、wpruned=wi-threshold(wi-wmean)
29、
30、其中,threshold(x)是一個閾值函數(shù),將權(quán)重中的一些較小的值設(shè)置為零,λ是一個超參數(shù),決定被剪枝權(quán)重的閾值,wmean是權(quán)重矩陣wi的均值。
31、步驟4.3,依據(jù)上述步驟4.1和步驟4.2所得的自適應(yīng)過參數(shù)化網(wǎng)絡(luò),輸出得到假圖像。
32、步驟4.4,使用一個全連接層和一個softmax層,用于分類。它從潛在空間中隨機抽取一個向量作為輸入,輸出其對應(yīng)的假標(biāo)簽。
33、優(yōu)選的,所述步驟5中主要依據(jù)假圖像和假標(biāo)簽計算出假梯度,具體的:
34、步驟5.1,使用多個隨機種子重復(fù)生成多組圖像并求其平均值表示為平均圖像xmean;
35、
36、其中,gout表示單個的生成圖像。
37、步驟5.2,構(gòu)建圖像修正懲罰項,該懲罰項通過計算單個生成圖像與一組生成圖像的平均圖像之間的歐幾里得距離(l2范數(shù))來定義,表示為lic:
38、lic=αgroup·||gout(i)-xmean||2
39、其中αgroup是正則化系數(shù),用于控制正則項的強度。
40、步驟5.3,計算假圖像和假標(biāo)簽的損失函數(shù),表示為gloss:
41、
42、其中,表示期望值,m是類別的總數(shù),g’lable(j)是生成圖像屬于第j類的標(biāo)簽(如果是多分類問題,它是一個one-hot編碼的向量),softmax(g’pred)j是模型對于第j類的預(yù)測概率。
43、步驟5.4,進行一次sgd迭代即可得到假梯度
44、優(yōu)選的,所述步驟6中主要計算出假梯度和真梯度之間的損失值。具體的:
45、在損失函數(shù)中引入歐幾里得距離來測量真假梯度的差異,同時引入了wd損耗以最小化兩個梯度向量之間的幾何差異,并應(yīng)用了tvloss對生成的假圖像數(shù)據(jù)施加平滑性約束。因此,惡意服務(wù)器的損失函數(shù),即表示為:
46、
47、對mse損失和wd進行相等的加權(quán),α是平滑正則化的加權(quán)參數(shù)。
48、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下改進和優(yōu)點:
49、1.本發(fā)明首次提出了一種自適應(yīng)過參數(shù)化網(wǎng)絡(luò),通過調(diào)整生成器的通道數(shù)量,從而增強網(wǎng)絡(luò)的容量,并使其能夠捕捉更為復(fù)雜的數(shù)據(jù)分布。此舉旨在提升模型的表達能力,以適應(yīng)高分辨率和大批量數(shù)據(jù)的恢復(fù)需求。
50、2.本發(fā)明創(chuàng)新性地提出了一種基于多種子優(yōu)化和圖像配準(zhǔn)的圖像修正懲罰項。該策略通過懲罰與平均圖像偏差較大的生成圖像,以提高重建質(zhì)量,確保生成圖像在視覺上的一致性。
51、3.本發(fā)明所提出的模型僅依賴于簡單的圖像先驗,例如圖像的平滑度,而無需深入理解輸入數(shù)據(jù)的分布或?qū)δP蛥?shù)進行調(diào)整。這增強了模型的通用性,使其更適用于現(xiàn)實世界的多樣化設(shè)置。