本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)領(lǐng)域,特別涉及一種多尺度大核注意力少樣本目標(biāo)檢測(cè)方法、裝置及設(shè)備。
背景技術(shù):
1、隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,目標(biāo)檢測(cè)在交通領(lǐng)域(如自動(dòng)駕駛、交通監(jiān)控等場(chǎng)景)的應(yīng)用需求日益迫切,但現(xiàn)有方法嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù)。交通場(chǎng)景的多樣性與復(fù)雜性導(dǎo)致數(shù)據(jù)標(biāo)注成本高昂,且跨地域、跨場(chǎng)景的數(shù)據(jù)分布差異進(jìn)一步加劇了模型泛化能力的不足。
2、盡管少樣本檢測(cè)技術(shù)(如遷移學(xué)習(xí)、元學(xué)習(xí))通過利用有限樣本和跨領(lǐng)域知識(shí)緩解了數(shù)據(jù)稀缺問題,但其在新類別檢測(cè)中的精度仍受限于上下文信息利用不足和候選框定位偏差。當(dāng)前方法在復(fù)雜交通場(chǎng)景中易出現(xiàn)誤檢與漏檢。因此,存在待改進(jìn)之處。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種多尺度大核注意力少樣本目標(biāo)檢測(cè)方法、裝置及設(shè)備,能夠在樣本數(shù)量較少的情況下對(duì)檢測(cè)模型進(jìn)行訓(xùn)練。
2、為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
3、本發(fā)明提供了一種多尺度大核注意力少樣本目標(biāo)檢測(cè)方法,包括:
4、獲取第一類圖像數(shù)據(jù)與第二類圖像數(shù)據(jù);所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)包括多個(gè)圖像數(shù)據(jù)、以及圖像數(shù)據(jù)對(duì)應(yīng)的實(shí)例圖像、樣本類型和定位結(jié)果;所述第一類圖像數(shù)據(jù)的樣本類型的數(shù)量大于第二類圖像數(shù)據(jù)的樣本類型的數(shù)量;
5、將所述第一類圖像數(shù)據(jù)輸入至待訓(xùn)練的目標(biāo)檢測(cè)模型的特征提取模塊和分類回歸模塊,生成第一分類結(jié)果與第一定位結(jié)果;計(jì)算所述第一分類結(jié)果與對(duì)應(yīng)樣本類型的第一分類損失;計(jì)算所述第一定位結(jié)果與對(duì)應(yīng)定位結(jié)果的第一定位損失;
6、依據(jù)所述第一分類損失與所述第一定位損失對(duì)待訓(xùn)練的目標(biāo)檢測(cè)模型進(jìn)行優(yōu)化,得到優(yōu)化的目標(biāo)檢測(cè)模型;
7、將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至優(yōu)化的目標(biāo)檢測(cè)模型的特征提取模塊中,生成優(yōu)化中間特征;
8、將所述優(yōu)化中間特征輸入至優(yōu)化的目標(biāo)檢測(cè)模型的分類回歸模塊中,獲得第二分類結(jié)果與第二定位結(jié)果;計(jì)算所述第二分類結(jié)果與對(duì)應(yīng)樣本類型的第二分類損失;計(jì)算所述第二定位結(jié)果與對(duì)應(yīng)定位結(jié)果的第二定位損失;
9、將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至對(duì)比編碼模型中,生成對(duì)比中間特征;計(jì)算所述對(duì)比中間特征與優(yōu)化中間特征的融合對(duì)比損失;
10、依據(jù)所述第二分類損失與第二定位損失對(duì)分類回歸模塊進(jìn)行優(yōu)化;依據(jù)所述融合對(duì)比損失對(duì)特征提取模塊進(jìn)行優(yōu)化,獲取訓(xùn)練完成的目標(biāo)檢測(cè)模型;
11、獲取待測(cè)圖像,并將所述待測(cè)圖像輸入至訓(xùn)練完成的目標(biāo)檢測(cè)模型,生成分類結(jié)果與定位結(jié)果。
12、在本發(fā)明一實(shí)施例中,所述將所述第一類圖像數(shù)據(jù)輸入至待訓(xùn)練的目標(biāo)檢測(cè)模型的特征提取模塊和分類回歸模塊,生成第一分類結(jié)果與第一定位結(jié)果的步驟包括:
13、將所述第一類圖像數(shù)據(jù)輸入至目標(biāo)檢測(cè)模型的深度殘差神經(jīng)網(wǎng)絡(luò)中,生成多層次語義特征圖像數(shù)據(jù);
14、將所述多層次語義特征圖像數(shù)據(jù)輸入至目標(biāo)檢測(cè)模型的多尺度語義增強(qiáng)網(wǎng)絡(luò)中,生成多尺度融合特征圖像數(shù)據(jù);
15、將所述多尺度融合特征圖像數(shù)據(jù)輸入至目標(biāo)檢測(cè)模型的候選框生成網(wǎng)絡(luò)中,生成第一目標(biāo)圖像、第一圖像標(biāo)簽、第一候選框;
16、將所述第一目標(biāo)圖像、所述第一圖像標(biāo)簽及所述第一候選框輸入至目標(biāo)檢測(cè)模型的多尺度大核注意力網(wǎng)絡(luò)中,生成特征增強(qiáng)圖像數(shù)據(jù);
17、將所述特征增強(qiáng)圖像數(shù)據(jù)輸入至目標(biāo)檢測(cè)模型的區(qū)域特征對(duì)齊網(wǎng)絡(luò)中,生成特征張量圖像數(shù)據(jù);
18、將所述特征張量圖像數(shù)據(jù)輸入至目標(biāo)檢測(cè)模型的特征提取器中,生成訓(xùn)練中間特征;
19、將所述訓(xùn)練中間特征入至目標(biāo)檢測(cè)模型的目標(biāo)分類網(wǎng)絡(luò)中,生成第一分類結(jié)果;
20、將所述訓(xùn)練中間特征輸入至目標(biāo)檢測(cè)模型的定位回歸網(wǎng)絡(luò)中,生成第一定位結(jié)果。
21、在本發(fā)明一實(shí)施例中,所述依據(jù)所述第一分類損失與所述第一定位損失對(duì)待訓(xùn)練的目標(biāo)檢測(cè)模型進(jìn)行優(yōu)化,得到優(yōu)化的目標(biāo)檢測(cè)模型的步驟包括:
22、計(jì)算所述第一圖像標(biāo)簽與對(duì)應(yīng)樣本類型的第一交叉熵?fù)p失;計(jì)算所述第一候選框與對(duì)應(yīng)定位結(jié)果的第一平滑l1損失;
23、依據(jù)所述第一交叉熵?fù)p失與所述第一平滑l1損失對(duì)候選框生成網(wǎng)絡(luò)進(jìn)行優(yōu)化,依據(jù)所述第一分類損失對(duì)目標(biāo)分類網(wǎng)絡(luò)進(jìn)行優(yōu)化,依據(jù)所述第一定位損失對(duì)定位回歸網(wǎng)絡(luò)進(jìn)行優(yōu)化,得到優(yōu)化的目標(biāo)檢測(cè)模型。
24、在本發(fā)明一實(shí)施例中,所述將所述第一目標(biāo)圖像、所述第一圖像標(biāo)簽及所述第一候選框輸入至目標(biāo)檢測(cè)模型的多尺度大核注意力網(wǎng)絡(luò)中,生成特征增強(qiáng)圖像數(shù)據(jù)的步驟包括:
25、將所述第一目標(biāo)圖像、所述第一圖像標(biāo)簽及所述第一候選框輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第一卷積層中,生成第一目標(biāo)特征數(shù)據(jù)與第二目標(biāo)特征數(shù)據(jù);
26、將所述第一目標(biāo)特征數(shù)據(jù)與第二目標(biāo)特征數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第一特征合并層中,計(jì)算第一目標(biāo)特征數(shù)據(jù)與第二目標(biāo)特征數(shù)據(jù)之和,生成融合特征數(shù)據(jù);
27、將所述融合特征數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的平均池化層中,生成平均池化數(shù)據(jù);
28、將所述融合特征數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的最大池化層中,生成最大池化數(shù)據(jù);
29、將所述平均池化數(shù)據(jù)與最大池化數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第二特征合并層中,計(jì)算平均池化數(shù)據(jù)與最大池化數(shù)據(jù)之和,生成中間特征數(shù)據(jù);
30、將所述中間特征數(shù)據(jù)與第一目標(biāo)特征數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第一池化特征融合層中,對(duì)所述中間特征數(shù)據(jù)與第一目標(biāo)特征數(shù)據(jù)進(jìn)行按元素相乘處理,生成第一融合數(shù)據(jù);
31、將所述中間特征數(shù)據(jù)與第二目標(biāo)特征數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第一池化特征融合層中,對(duì)所述中間特征數(shù)據(jù)與第二目標(biāo)特征數(shù)據(jù)進(jìn)行按元素相乘處理,生成第二融合數(shù)據(jù);
32、將所述第一融合數(shù)據(jù)與第二融合數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第三特征合并層中,計(jì)算所述第一融合數(shù)據(jù)與第二融合數(shù)據(jù)之和,生成加權(quán)融合數(shù)據(jù);
33、將所述加權(quán)融合數(shù)據(jù)輸入至所述多尺度大核注意力網(wǎng)絡(luò)的第二卷積層中,生成卷積融合數(shù)據(jù);
34、將所述卷積融合數(shù)據(jù)與所述第一目標(biāo)圖像、所述第一圖像標(biāo)簽、所述第一候選框輸入至多尺度大核注意力網(wǎng)絡(luò)的第二池化特征融合層中,對(duì)所述卷積融合數(shù)據(jù)與所述第一目標(biāo)圖像、所述第一圖像標(biāo)簽、所述第一候選框進(jìn)行按元素相乘處理,生成特征增強(qiáng)圖像數(shù)據(jù)。
35、在本發(fā)明一實(shí)施例中,所述將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至優(yōu)化的目標(biāo)檢測(cè)模型的特征提取模塊中,生成優(yōu)化中間特征的步驟包括:
36、將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至優(yōu)化的目標(biāo)檢測(cè)模型的深度殘差神經(jīng)網(wǎng)絡(luò)中,生成多層次語義特征圖像數(shù)據(jù);
37、將所述多層次語義特征圖像數(shù)據(jù)輸入至優(yōu)化的目標(biāo)檢測(cè)模型的多尺度語義增強(qiáng)網(wǎng)絡(luò)中,生成多尺度融合特征圖像數(shù)據(jù);
38、將所述多尺度融合特征圖像數(shù)據(jù)輸入至優(yōu)化的目標(biāo)檢測(cè)模型的候選框生成網(wǎng)絡(luò)中,生成第二目標(biāo)圖像、第二圖像標(biāo)簽、第二候選框;
39、將所述第二目標(biāo)圖像、所述第二圖像標(biāo)簽及所述第二候選框輸入至優(yōu)化的目標(biāo)檢測(cè)模型的多尺度大核注意力網(wǎng)絡(luò)中,生成特征增強(qiáng)圖像數(shù)據(jù);
40、將所述特征增強(qiáng)圖像數(shù)據(jù)輸入至優(yōu)化的目標(biāo)檢測(cè)模型的區(qū)域特征對(duì)齊網(wǎng)絡(luò)中,生成特征張量圖像數(shù)據(jù);
41、將所述特征張量圖像數(shù)據(jù)輸入至優(yōu)化的目標(biāo)檢測(cè)模型的特征提取器中,生成優(yōu)化中間特征。
42、在本發(fā)明一實(shí)施例中,所述依據(jù)所述第二分類損失與第二定位損失對(duì)分類回歸模塊進(jìn)行優(yōu)化;依據(jù)所述融合對(duì)比損失對(duì)特征提取模塊進(jìn)行優(yōu)化,獲取訓(xùn)練完成的目標(biāo)檢測(cè)模型的步驟包括:
43、計(jì)算所述第二圖像標(biāo)簽與對(duì)應(yīng)樣本類型的第二交叉熵?fù)p失;計(jì)算所述第二候選框與對(duì)應(yīng)定位結(jié)果的第二平滑l1損失;
44、依據(jù)所述第二交叉熵?fù)p失與所述第二平滑l1損失對(duì)候選框生成網(wǎng)絡(luò)進(jìn)行優(yōu)化,依據(jù)所述第二分類損失對(duì)目標(biāo)分類網(wǎng)絡(luò)進(jìn)行優(yōu)化,依據(jù)所述第二定位損失對(duì)定位回歸網(wǎng)絡(luò)進(jìn)行優(yōu)化,依據(jù)所述融合對(duì)比損失對(duì)特征提取器進(jìn)行優(yōu)化,獲取訓(xùn)練完成的目標(biāo)檢測(cè)模型。
45、在本發(fā)明一實(shí)施例中,所述融合對(duì)比損失表示為:,其中,表示第i個(gè)優(yōu)化中間特征,表示第i個(gè)對(duì)比中間特征,表示第i個(gè)正樣本,表示第i個(gè)負(fù)樣本,表示第i個(gè)歸一化特征,,表示第i個(gè)優(yōu)化中間特征與第i個(gè)對(duì)比中間特征之間的余弦相似度,n表示訓(xùn)練圖像的數(shù)量,n表示正樣本的數(shù)量,m表示負(fù)樣本的數(shù)量。
46、在本發(fā)明一實(shí)施例中,所述目標(biāo)檢測(cè)模型的類型為faster?r-cnn。
47、本發(fā)明還提供了一種多尺度大核注意力少樣本目標(biāo)檢測(cè)裝置,包括:
48、圖像獲取模塊,用于獲取第一類圖像數(shù)據(jù)與第二類圖像數(shù)據(jù);所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)包括多個(gè)圖像數(shù)據(jù)、以及圖像數(shù)據(jù)對(duì)應(yīng)的實(shí)例圖像、樣本類型和定位結(jié)果;所述第一類圖像數(shù)據(jù)的樣本類型的數(shù)量大于第二類圖像數(shù)據(jù)的樣本類型的數(shù)量;
49、預(yù)訓(xùn)練模塊,用于將所述第一類圖像數(shù)據(jù)輸入至待訓(xùn)練的目標(biāo)檢測(cè)模型的特征提取模塊和分類回歸模塊,生成第一分類結(jié)果與第一定位結(jié)果;計(jì)算所述第一分類結(jié)果與對(duì)應(yīng)樣本類型的第一分類損失;計(jì)算所述第一定位結(jié)果與對(duì)應(yīng)定位結(jié)果的第一定位損失;
50、模型訓(xùn)練模塊,用于依據(jù)所述第一分類損失與所述第一定位損失對(duì)待訓(xùn)練的目標(biāo)檢測(cè)模型進(jìn)行優(yōu)化,得到優(yōu)化的目標(biāo)檢測(cè)模型;
51、對(duì)比特征提取模塊,用于將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至對(duì)比編碼模型中,生成對(duì)比中間特征;計(jì)算所述對(duì)比中間特征與優(yōu)化中間特征的融合對(duì)比損失;
52、目標(biāo)檢測(cè)模塊,用于獲取待測(cè)圖像,并將所述待測(cè)圖像輸入至訓(xùn)練完成的目標(biāo)檢測(cè)模型,生成分類結(jié)果與定位結(jié)果;
53、其中,所述預(yù)訓(xùn)練模塊還用于將所述第一類圖像數(shù)據(jù)與所述第二類圖像數(shù)據(jù)的實(shí)例圖像輸入至優(yōu)化的目標(biāo)檢測(cè)模型的特征提取模塊中,生成優(yōu)化中間特征;
54、所述預(yù)訓(xùn)練模塊還用于將所述優(yōu)化中間特征輸入至優(yōu)化的目標(biāo)檢測(cè)模型的分類回歸模塊中,獲得第二分類結(jié)果與第二定位結(jié)果;計(jì)算所述第二分類結(jié)果與對(duì)應(yīng)樣本類型的第二分類損失;計(jì)算所述第二定位結(jié)果與對(duì)應(yīng)定位結(jié)果的第二定位損失;
55、所述模型訓(xùn)練模塊還用于依據(jù)所述第二分類損失與第二定位損失對(duì)分類回歸模塊進(jìn)行優(yōu)化;依據(jù)所述融合對(duì)比損失對(duì)特征提取模塊進(jìn)行優(yōu)化,獲取訓(xùn)練完成的目標(biāo)檢測(cè)模型。
56、本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的多尺度大核注意力少樣本目標(biāo)檢測(cè)方法的步驟。
57、如上所述,本發(fā)明提供一種多尺度大核注意力少樣本目標(biāo)檢測(cè)方法、裝置及設(shè)備,在傳統(tǒng)檢測(cè)模型的區(qū)域建議網(wǎng)絡(luò)后引入多尺度大核注意力機(jī)制,通過自適應(yīng)捕獲目標(biāo)與場(chǎng)景的全局語義關(guān)聯(lián),有效解決遮擋、密集目標(biāo)等復(fù)雜場(chǎng)景下的上下文信息缺失問題,大幅提升候選框定位精度,減少誤檢與漏檢。在檢測(cè)第二階段增設(shè)對(duì)比編碼模型,通過對(duì)roi特征與裁剪實(shí)例特征的深度對(duì)比融合,構(gòu)建高區(qū)分度的特征表示空間。該設(shè)計(jì)增強(qiáng)同類目標(biāo)的特征一致性,擴(kuò)大跨類別特征差異,使少樣本新類別的分類精度獲得突破性提升。通過采用特征解耦與對(duì)比約束策略,在特征編碼過程中實(shí)現(xiàn)基類與新類特征的動(dòng)態(tài)兼容,既保留基類檢測(cè)穩(wěn)定性,又顯著提升模型對(duì)新類別目標(biāo)的敏感度。這種雙向優(yōu)化機(jī)制突破了傳統(tǒng)少樣本檢測(cè)中基類性能退化與新類欠擬合的互斥難題,實(shí)現(xiàn)檢測(cè)系統(tǒng)的可持續(xù)擴(kuò)展。整體方案通過注意力引導(dǎo)的上下文建模與對(duì)比驅(qū)動(dòng)的特征學(xué)習(xí)協(xié)同作用,在有限標(biāo)注數(shù)據(jù)條件下,為交通場(chǎng)景中多尺度、多類別目標(biāo)的精準(zhǔn)檢測(cè)提供了高效解決方案,同時(shí)具備優(yōu)異的跨場(chǎng)景泛化能力。
58、當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。