本發(fā)明涉及計算機(jī)視覺,尤其涉及一種圖像增強(qiáng)方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、近年來,目標(biāo)檢測技術(shù)向著多尺度、小目標(biāo)、實時性等方向發(fā)展,如retinanet、featurepyramid?network等。這些目標(biāo)檢測算法的提出雖提升了目標(biāo)檢測的效率和準(zhǔn)確性,但仍面臨著數(shù)據(jù)稀缺、類別不平衡、場景單一等問題,這嚴(yán)重制約了模型的泛化能力和實際應(yīng)用效果。
2、目前的目標(biāo)檢測數(shù)據(jù)增強(qiáng)方法,如simple?copy-paste,雖在一定程度上緩解了數(shù)據(jù)稀缺的問題,提高了模型性能,但其局限性也顯而易見。這些方法大多依賴于簡單的圖像處理技術(shù),如剪切和粘貼目標(biāo)物體到新的背景環(huán)境中,雖簡單快捷,但往往忽視了目標(biāo)物體與背景環(huán)境之間的復(fù)雜交互關(guān)系,從而導(dǎo)致新生成的圖像缺乏真實性和自然度。
3、此外,這些方法在數(shù)據(jù)多樣性的控制方面也存在不足,其難以精確控制生成圖像的多樣性,無法有效模擬不同的光照條件、天氣狀況和背景環(huán)境等,從而限制了增強(qiáng)數(shù)據(jù)的場景適應(yīng)性。這導(dǎo)致模型在面對復(fù)雜多變的實際場景時,其性能表現(xiàn)往往不盡如人意。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種圖像增強(qiáng)方法、裝置、電子設(shè)備和存儲介質(zhì),用以解決現(xiàn)有技術(shù)中數(shù)據(jù)增強(qiáng)過程缺乏真實性和多樣性,從而導(dǎo)致生成的圖像不夠真實自然,應(yīng)用場景有限,進(jìn)而影響模型的泛化能力和應(yīng)用效果的問題,實現(xiàn)了智能化、精細(xì)化和多樣化的圖像增強(qiáng)。
2、本發(fā)明提供一種圖像增強(qiáng)方法,包括:
3、確定目標(biāo)圖像,所述目標(biāo)圖像帶有目標(biāo)檢測標(biāo)簽;
4、基于所述目標(biāo)圖像進(jìn)行邊緣檢測,得到輪廓特征;
5、基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像;
6、其中,所述目標(biāo)增強(qiáng)圖像與所述目標(biāo)圖像帶有相同的目標(biāo)檢測標(biāo)簽,所述目標(biāo)檢測標(biāo)簽包括對應(yīng)圖像中各目標(biāo)的檢測框的坐標(biāo)和類別,所述標(biāo)簽特征基于所述目標(biāo)檢測標(biāo)簽構(gòu)建得到。
7、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述標(biāo)簽特征基于如下步驟確定:
8、對所述目標(biāo)檢測標(biāo)簽中各目標(biāo)的檢測框的類別進(jìn)行編碼,得到所述各目標(biāo)的類別提示詞特征;
9、對所述目標(biāo)檢測標(biāo)簽中各目標(biāo)的檢測框的坐標(biāo)進(jìn)行嵌入,得到所述各目標(biāo)的檢測框位置特征;
10、對所述各目標(biāo)的類別提示詞特征和檢測框位置特征進(jìn)行融合,得到所述目標(biāo)圖像的標(biāo)簽特征。
11、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述對所述目標(biāo)檢測標(biāo)簽中各目標(biāo)的檢測框的坐標(biāo)進(jìn)行嵌入,得到所述各目標(biāo)的檢測框位置特征,包括:
12、提取所述目標(biāo)檢測標(biāo)簽中各目標(biāo)的檢測框的對角坐標(biāo);
13、對所述對角坐標(biāo)進(jìn)行傅里葉嵌入,得到所述各目標(biāo)的檢測框位置特征;
14、其中,所述對角坐標(biāo)為對應(yīng)檢測框的對角線上兩個頂點的坐標(biāo)。
15、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像,包括:
16、基于所述輪廓特征、標(biāo)簽特征,以及多個噪聲圖像、對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到多個初始增強(qiáng)圖像;每一初始增強(qiáng)圖像帶有所述目標(biāo)檢測標(biāo)簽;每一噪聲圖像通過隨機(jī)采樣得到;
17、基于任一初始增強(qiáng)圖像中各目標(biāo)的檢測框,確定所述各目標(biāo)對應(yīng)的增強(qiáng)區(qū)域;
18、基于所述任一初始增強(qiáng)圖像中各目標(biāo)對應(yīng)的增強(qiáng)區(qū)域,以及所述目標(biāo)圖像的標(biāo)簽特征,確定所述任一初始增強(qiáng)圖像的生成得分;
19、基于各初始增強(qiáng)圖像的生成得分,從所述各初始增強(qiáng)圖像中篩選得到所述目標(biāo)增強(qiáng)圖像。
20、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像,包括:
21、將所述輪廓特征和所述標(biāo)簽特征輸入至圖像增強(qiáng)模型,得到所述圖像增強(qiáng)模型輸出的目標(biāo)增強(qiáng)圖像;
22、其中,所述圖像增強(qiáng)模型是在擴(kuò)散模型的基礎(chǔ)上,應(yīng)用樣本圖像以及所述樣本圖像的樣本目標(biāo)檢測標(biāo)簽訓(xùn)練得到。
23、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述圖像增強(qiáng)模型基于如下步驟訓(xùn)練:
24、基于所述擴(kuò)散模型,構(gòu)建第一增強(qiáng)模型和第二增強(qiáng)模型,并基于所述第一增強(qiáng)模型和所述第二增強(qiáng)模型,構(gòu)建初始增強(qiáng)模型;
25、基于所述樣本圖像、所述樣本圖像的樣本目標(biāo)檢測標(biāo)簽,以及所述樣本圖像中各目標(biāo)的樣本提示文本,對所述初始增強(qiáng)模型進(jìn)行訓(xùn)練,得到所述圖像增強(qiáng)模型;
26、其中,所述初始增強(qiáng)模型中第一增強(qiáng)模型和第二增強(qiáng)模型通過卷積層連接;所述第一增強(qiáng)模型是對所述擴(kuò)散模型中的注意力機(jī)制進(jìn)行層添加所構(gòu)建的,且所述第一增強(qiáng)模型中除所述層添加所添加的門控自注意力層的參數(shù)外,其他參數(shù)在訓(xùn)練過程中不更新。
27、根據(jù)本發(fā)明提供的一種圖像增強(qiáng)方法,所述層添加是在所述擴(kuò)散模型中的注意力機(jī)制中的每一自注意力層和每一交叉注意力層之間添加門控自注意力層,所述門控自注意力層的輸入包括所述樣本目標(biāo)檢測標(biāo)簽對應(yīng)的樣本標(biāo)簽特征和所述樣本圖像對應(yīng)的樣本輪廓特征;
28、所述第二增強(qiáng)模型是在所述擴(kuò)散模型基礎(chǔ)上進(jìn)行解碼層去除所構(gòu)建得到的。
29、本發(fā)明還提供一種圖像增強(qiáng)裝置,包括:
30、確定單元,用于確定目標(biāo)圖像,所述目標(biāo)圖像帶有目標(biāo)檢測標(biāo)簽;
31、檢測單元,用于基于所述目標(biāo)圖像進(jìn)行邊緣檢測,得到輪廓特征;
32、增強(qiáng)單元,用于基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像;
33、其中,所述目標(biāo)增強(qiáng)圖像與所述目標(biāo)圖像帶有相同的目標(biāo)檢測標(biāo)簽,所述目標(biāo)檢測標(biāo)簽包括對應(yīng)圖像中各目標(biāo)的檢測框的坐標(biāo)和類別,所述標(biāo)簽特征基于所述目標(biāo)檢測標(biāo)簽構(gòu)建得到。
34、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如上述任一種所述的圖像增強(qiáng)方法。
35、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的圖像增強(qiáng)方法。
36、本發(fā)明提供的圖像增強(qiáng)方法、裝置、電子設(shè)備和存儲介質(zhì),通過對目標(biāo)圖像進(jìn)行邊緣檢測,得到輪廓特征,基于輪廓特征以及目標(biāo)圖像帶有的目標(biāo)檢測標(biāo)簽的標(biāo)簽特征進(jìn)行圖像增強(qiáng),得到與目標(biāo)圖像具有相同的目標(biāo)檢測標(biāo)簽的目標(biāo)增強(qiáng)圖像;目標(biāo)檢測標(biāo)簽包括對應(yīng)圖像中各目標(biāo)的檢測框的坐標(biāo)和類別,克服了傳統(tǒng)方案中難以精確控制生成圖像,以及生成的圖像缺乏真實性和自然度的缺陷,不僅實現(xiàn)了高質(zhì)量、多樣化的圖像增強(qiáng),還能精確控制生成圖像中物體的類別和位置,從而可以為目標(biāo)檢測任務(wù)提供大量優(yōu)質(zhì)的數(shù)據(jù)集,進(jìn)而有助于提升目標(biāo)檢測模型的性能,以及增強(qiáng)其泛化能力,使得其更適應(yīng)于復(fù)雜任務(wù),在具體任務(wù)中表現(xiàn)更優(yōu)。
1.一種圖像增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖像增強(qiáng)方法,其特征在于,所述標(biāo)簽特征基于如下步驟確定:
3.根據(jù)權(quán)利要求2所述的圖像增強(qiáng)方法,其特征在于,所述對所述目標(biāo)檢測標(biāo)簽中各目標(biāo)的檢測框的坐標(biāo)進(jìn)行嵌入,得到所述各目標(biāo)的檢測框位置特征,包括:
4.根據(jù)權(quán)利要求1至3中任一項所述的圖像增強(qiáng)方法,其特征在于,所述基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像,包括:
5.根據(jù)權(quán)利要求1至3中任一項所述的圖像增強(qiáng)方法,其特征在于,所述基于所述輪廓特征以及標(biāo)簽特征,對所述目標(biāo)圖像進(jìn)行圖像增強(qiáng),得到目標(biāo)增強(qiáng)圖像,包括:
6.根據(jù)權(quán)利要求5所述的圖像增強(qiáng)方法,其特征在于,所述圖像增強(qiáng)模型基于如下步驟訓(xùn)練:
7.根據(jù)權(quán)利要求6所述的圖像增強(qiáng)方法,其特征在于,
8.一種圖像增強(qiáng)裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述的圖像增強(qiáng)方法。
10.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的圖像增強(qiáng)方法。