本發(fā)明屬于計(jì)算機(jī)視覺(jué)和生物醫(yī)學(xué)領(lǐng)域,具體是涉及一種基于少樣本增強(qiáng)的肺炎分類輕量化方法。
背景技術(shù):
1、近年來(lái),肺炎已成為全球范圍內(nèi)備受關(guān)注的公共健康問(wèn)題。然而,傳統(tǒng)的人工閱片方式因受專家疲勞、情緒波動(dòng)等因素的影響,診斷結(jié)果可能存在一定的不穩(wěn)定性,從而對(duì)疾病的及時(shí)診斷與治療帶來(lái)挑戰(zhàn)。當(dāng)前,深度神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的技術(shù)工具,憑借其在視覺(jué)識(shí)別領(lǐng)域的優(yōu)異性能,已在醫(yī)學(xué)圖像分類任務(wù)中展現(xiàn)出重要的應(yīng)用潛力。肺炎分類作為經(jīng)典的醫(yī)學(xué)圖像分類問(wèn)題,在醫(yī)療診斷中占據(jù)重要地位。然而,目前大多數(shù)方法未能充分考慮醫(yī)學(xué)數(shù)據(jù)中普遍存在的類別不平衡問(wèn)題,導(dǎo)致模型傾向于識(shí)別樣本數(shù)量較多的類別,從而增加了少數(shù)類別的誤分類率。此外,隨著肺炎分類模型結(jié)構(gòu)的不斷深度化與復(fù)雜化,其參數(shù)量和計(jì)算量顯著增加,嚴(yán)重限制了該技術(shù)在資源受限環(huán)境中的應(yīng)用與推廣。
2、為了解決類別不平衡問(wèn)題,一種常見(jiàn)的技術(shù)手段是通過(guò)數(shù)據(jù)增強(qiáng)來(lái)提升數(shù)據(jù)集的平衡性。然而,傳統(tǒng)的圖像數(shù)據(jù)增強(qiáng)方法(如隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪)盡管能夠擴(kuò)充樣本數(shù)量,但生成的樣本往往與原始樣本過(guò)于相似,限制了數(shù)據(jù)集多樣性的提升。在醫(yī)學(xué)圖像的復(fù)雜紋理特征背景下,這些傳統(tǒng)增強(qiáng)方法所生成的樣本可能無(wú)法滿足實(shí)際臨床需求。近年來(lái),基于生成對(duì)抗網(wǎng)絡(luò)(gan)的數(shù)據(jù)增強(qiáng)技術(shù)受到廣泛關(guān)注。與傳統(tǒng)方法不同,gan能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)的分布特征,無(wú)需人工標(biāo)注。然而,gan在實(shí)際應(yīng)用中易出現(xiàn)模式崩潰問(wèn)題,影響生成樣本的質(zhì)量與多樣性。因此,亟需一種穩(wěn)定網(wǎng)絡(luò)訓(xùn)練的方法,以確保生成器能夠生成高質(zhì)量的醫(yī)學(xué)圖像樣本,平衡少類樣本分布,并結(jié)合殘差神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)肺炎分類任務(wù)。
3、此外,為應(yīng)對(duì)肺炎分類模型中參數(shù)量與計(jì)算復(fù)雜度過(guò)高的問(wèn)題,輕量化策略成為一種行之有效的解決方案。例如,模型剪枝通過(guò)去除冗余濾波器來(lái)優(yōu)化模型結(jié)構(gòu),從而減少計(jì)算與存儲(chǔ)資源消耗。然而,傳統(tǒng)的基于范數(shù)的剪枝方法在實(shí)際應(yīng)用中易受到小范數(shù)偏差及最小范數(shù)較大等問(wèn)題的限制,剪枝后的模型性能難以達(dá)到預(yù)期。因此,需要提出一種更加精確的濾波器重要性評(píng)估方法,以實(shí)現(xiàn)對(duì)肺炎分類模型的有效壓縮,在保證模型精度的同時(shí),顯著降低存儲(chǔ)與計(jì)算成本,從而提升模型在實(shí)際場(chǎng)景中的適用性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為解決肺炎分類任務(wù)中普遍存在的類別不平衡問(wèn)題,提出一種基于少樣本增強(qiáng)的肺炎分類輕量化方法,該方法是基于深度卷積生成對(duì)抗網(wǎng)絡(luò)的少樣本數(shù)據(jù)增強(qiáng)策略,策略通過(guò)引入頻譜歸一化技術(shù)及采用鉸鏈對(duì)抗損失函數(shù),有效穩(wěn)定了生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程,從而顯著提升了生成器生成胸片樣本的質(zhì)量;同時(shí)在平衡數(shù)據(jù)集中正負(fù)樣本比例的基礎(chǔ)上,提出結(jié)合注意力機(jī)制與殘差神經(jīng)網(wǎng)絡(luò)的肺炎分類策略,不僅能夠緩解深層網(wǎng)絡(luò)中的梯度消失問(wèn)題,還能夠增強(qiáng)模型對(duì)胸片中關(guān)鍵區(qū)域的關(guān)注,從而提高分類的準(zhǔn)確性和魯棒性;此外,針對(duì)肺炎分類模型計(jì)算復(fù)雜度高、參數(shù)量大且難以部署于資源受限設(shè)備的實(shí)際問(wèn)題,采用了基于幾何中位數(shù)的輕量化模型剪枝策略,通過(guò)計(jì)算并移除冗余濾波器,顯著降低了模型的參數(shù)量與計(jì)算復(fù)雜度,在保留模型性能的同時(shí),提升了其在資源受限環(huán)境中的適用性與運(yùn)行效率。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:一種基于少樣本增強(qiáng)的肺炎分類輕量化方法,其包括如下步驟:
3、s1、對(duì)肺部胸片圖像進(jìn)行預(yù)處理;
4、s2、構(gòu)建深度卷積生成對(duì)抗網(wǎng)絡(luò),對(duì)少類樣本進(jìn)行數(shù)據(jù)增強(qiáng),以平衡正負(fù)樣本比例;
5、s3、構(gòu)建殘差神經(jīng)網(wǎng)絡(luò),將步驟s2類別平衡后的數(shù)據(jù)集作為網(wǎng)絡(luò)輸入并進(jìn)行訓(xùn)練;
6、s4、采用基于幾何中位數(shù)的方法對(duì)步驟s3中的網(wǎng)絡(luò)進(jìn)行剪枝,去除冗余過(guò)濾器,并通過(guò)從頭訓(xùn)練恢復(fù)精度。
7、進(jìn)一步的,所述步驟s1中預(yù)處理的步驟為:
8、s1-1、按短邊長(zhǎng)度的窗口大小,對(duì)原始chest?x-ray?2017肺部胸片數(shù)據(jù)集中的所有圖像進(jìn)行中心裁剪,然后采用雙線性插值方法將所有圖像調(diào)整到的64×64的尺寸,最后對(duì)輸入數(shù)據(jù)按照均值、標(biāo)準(zhǔn)差0.5進(jìn)行標(biāo)準(zhǔn)化處理;
9、s1-2、按照9:1的比例重新劃分訓(xùn)練集,其中訓(xùn)練集中正常胸片和肺炎胸片的數(shù)量分別為1215和3495;驗(yàn)證集中正常胸片和肺炎胸片的數(shù)量分別為134和388;測(cè)試集中正常胸片和肺炎胸片的數(shù)量分別為234和390。正常胸片數(shù)量為1583,肺炎胸片數(shù)量為4273,樣本總數(shù)為5886。
10、進(jìn)一步的,所述步驟s2的具體步驟為:
11、s2-1、構(gòu)建深度卷積生成對(duì)抗網(wǎng)絡(luò)dcgan基礎(chǔ)架構(gòu),其中包括生成器和鑒別器,生成器負(fù)責(zé)生成與真實(shí)樣本相似的虛假樣本,而鑒別器則用于評(píng)估樣本的真實(shí)性;
12、s2-2、在dcgan的生成器和鑒別器中應(yīng)用頻譜歸一化;
13、s2-3、將鉸鏈對(duì)抗損失引入網(wǎng)絡(luò)訓(xùn)練過(guò)程中,其中生成器lg與鑒別器ld的損失分別為:
14、
15、式中,px與pz分別表示真實(shí)數(shù)據(jù)分布與噪聲分布,與代表對(duì)真實(shí)樣本x與噪聲z分布的期望,d(x)和d(g(z))分別表示鑒別器對(duì)x和g(z)的輸出;
16、s2-4、將步驟s1-1和s1-2處理后的訓(xùn)練集中所有圖像批量送入網(wǎng)絡(luò),進(jìn)行迭代式訓(xùn)練;
17、s2-5、在得到步驟s2-4的模型后,利用fid和kid兩種指標(biāo)評(píng)估圖像生成的質(zhì)量,選取最優(yōu)生成器;
18、s2-6、利用步驟s2-5中的生成器生成2280張張肺部胸片圖像,得到類別均衡的訓(xùn)練集。
19、更進(jìn)一步的,所述步驟s2-2具體為:在生成器的卷積層和鑒別器的轉(zhuǎn)置卷積層后加入頻譜歸一化層,其公式如下:
20、
21、式中,σ(w)代表權(quán)重參數(shù)w的頻譜范數(shù),h作為非零輸入向量,代表數(shù)據(jù)樣本的特征,‖·‖2代表l2范數(shù),即向量元素的平方和的平方根;
22、進(jìn)而可以得到頻譜歸一化后的權(quán)重參數(shù):
23、
24、進(jìn)一步的,所述步驟s3具體過(guò)程為:
25、s3-1、構(gòu)建基礎(chǔ)殘差塊,并以此構(gòu)建殘差神經(jīng)網(wǎng)絡(luò);
26、s3-2、在步驟s3-1的基礎(chǔ)上,將空間注意力機(jī)制融合到殘差神經(jīng)網(wǎng)絡(luò)中;
27、s3-3、將經(jīng)過(guò)第一個(gè)卷積層得到的特征ffirst和經(jīng)過(guò)最后一個(gè)卷積層得到的特征flast進(jìn)行融合,融合后的特征ffused表示如下:
28、ffused=0.5×(ffirst+flast)
29、s3-4、利用交叉熵?fù)p失衡量模型預(yù)測(cè)概率分布與真實(shí)標(biāo)簽的概率分布之間的差異;
30、s3-5、將步驟s2-6中類別均衡的訓(xùn)練集圖像批量送入網(wǎng)絡(luò),進(jìn)行迭代式訓(xùn)練;
31、s3-6、在得到步驟s3-5的模型后,利用準(zhǔn)確率、召回率、精確率及f1分?jǐn)?shù)評(píng)估,得到在驗(yàn)證集上效果最佳的模型。
32、更進(jìn)一步的,所述步驟s3-2中,空間注意力機(jī)制表示為:
33、ms(f)=σ(f7×7(concat[avgpool(f);maxpool(f)]))
34、式中,f代表輸入的特征,將經(jīng)過(guò)平均池化和最大池化得到的特征向量avgpool(f)和maxpool(f)拼接,接著利用卷積核大小為7×7的卷積層進(jìn)行計(jì)算,最后經(jīng)過(guò)σ(即代表sigmoid激活函數(shù))得到輸出后的空間注意力圖ms(f);
35、接著,將空間注意力圖ms(f)與原始輸入特征逐元素相乘,得到空間注意力強(qiáng)化的特征圖f′,表示如下:
36、
37、更進(jìn)一步的,所述步驟s3-4中,交叉熵?fù)p失函數(shù)的公式為:
38、l(y,a)=-[ylog(a)+(1-y)log(1-a)]
39、其中,y是真實(shí)標(biāo)簽,a是模型預(yù)測(cè)為正類的概率。
40、進(jìn)一步的,所述步驟s4具體過(guò)程為:
41、s4-1、加載步驟s3-6中的模型,并設(shè)定全局剪枝比例r;
42、s4-2、根據(jù)步驟s4-1設(shè)定的全局剪枝比例r,逐層遍歷模型的卷積層并獲取濾波器,然后計(jì)算它們的幾何中心
43、然后,根據(jù)幾何中心計(jì)算每一層濾波器與它的距離dn,
44、
45、接著,對(duì)dn排序后得到d′n,并計(jì)算剪枝閾值t,
46、最后,將小于或等于t的濾波器置為0,視為冗余濾波器;
47、s4-3、遍歷模型中的卷積層,移除0值濾波器,同時(shí)確保剩余的濾波器權(quán)重保持不變;
48、s4-4、使用步驟s2-6中類別均衡的訓(xùn)練集對(duì)剪枝后的模型進(jìn)行迭代優(yōu)化,恢復(fù)由于剪枝造成的精度下降;
49、s4-5、通過(guò)驗(yàn)證數(shù)據(jù)集對(duì)重訓(xùn)練后的剪枝模型進(jìn)行評(píng)估,采用準(zhǔn)確率、參數(shù)量、計(jì)算量三個(gè)指標(biāo),得到最佳模型。
50、更進(jìn)一步的,所述步驟s4-2中,幾何中心表示如下:
51、
52、式中,f是一個(gè)k×k的任意濾波器,fn為網(wǎng)絡(luò)中的濾波器,n∈[1,n],n為卷積層中濾波器的總數(shù)目。
53、更進(jìn)一步的,所述步驟s4-2中,距離dn,表示如下:
54、
55、剪枝閾值t,表示如下:
56、t=d′n[int(r·n)]。
57、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下有益效果:
58、(1)本發(fā)明與傳統(tǒng)的圖像增強(qiáng)技術(shù)相比,能夠在無(wú)需人工標(biāo)注的情況下自動(dòng)學(xué)習(xí)數(shù)據(jù)分布特征。通過(guò)引入頻譜歸一化和鉸鏈對(duì)抗損失,有效穩(wěn)定了網(wǎng)絡(luò)訓(xùn)練過(guò)程,有效緩解了模式崩潰問(wèn)題。生成器能夠生成質(zhì)量更高的肺部胸片樣本,從而解決了類別不均衡問(wèn)題,提升了模型的泛化能力。
59、(2)本發(fā)明通過(guò)緩解深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失問(wèn)題,增強(qiáng)了網(wǎng)絡(luò)對(duì)病灶區(qū)域的關(guān)注能力,同時(shí)擴(kuò)大了模型的全局視野,有效弱化了背景中無(wú)關(guān)區(qū)域的影響,提升了肺炎分類的準(zhǔn)確性與魯棒性。
60、(3)針對(duì)資源受限設(shè)備的部署需求,本發(fā)明設(shè)計(jì)了基于幾何中位數(shù)的輕量化模型剪枝方法。通過(guò)設(shè)置全局閾值,一次性識(shí)別并移除冗余濾波器,顯著降低了模型的參數(shù)量和計(jì)算復(fù)雜度。在保證模型分類性能的同時(shí),提升了其在資源受限環(huán)境中的適用性。本發(fā)明能夠幫助醫(yī)療從業(yè)者以更低的硬件成本高效開展肺炎診斷工作,具有較高的臨床推廣價(jià)值。