本發(fā)明涉及圖像處理與分析,更具體地說,涉及一種基于深度學(xué)習(xí)和視覺算法的圖像區(qū)域提取與分割方法。
背景技術(shù):
1、目前,傳統(tǒng)的圖像分割方法,如基于邊緣檢測、閾值分割和顏色空間變換的算法,在簡單背景下可以實現(xiàn)對紙張和顯示屏的檢測和分割,但在用戶拍攝的實際場景中,這些方法通常難以應(yīng)對復(fù)雜情況。例如,在復(fù)雜背景下,傳統(tǒng)算法可能無法區(qū)分紙張或顯示屏與其周圍環(huán)境,導(dǎo)致分割不準確。此外,用戶拍攝的顯示屏圖像中可能存在摩爾紋干擾(即由于相機傳感器和顯示器像素陣列的相互作用產(chǎn)生的條紋),傳統(tǒng)方法在消除這些干擾時效果不佳。
2、另一方面,現(xiàn)有的基于深度學(xué)習(xí)的分割方法,在處理復(fù)雜圖像場景時表現(xiàn)較好,特別是在有大量標注數(shù)據(jù)支持的情況下,能夠取得較高的分割精度。然而,這些方法在實際應(yīng)用中仍然存在一些限制。例如,在用戶拍攝包含多個顯示屏的圖像時,深度學(xué)習(xí)模型可能難以準確識別出主體屏幕,尤其是在各個屏幕顯示內(nèi)容相似或者屏幕之間有遮擋的情況下。此外,現(xiàn)有方法往往對多角度拍攝的圖片處理較差,在屏幕傾斜或發(fā)生形變時,分割精度顯著下降。
3、因此,現(xiàn)有技術(shù)中存在的主要問題包括:
4、1)用戶拍攝的紙張或顯示屏圖像,現(xiàn)有圖像分割方法在復(fù)雜背景、摩爾紋干擾、多屏幕場景以及角度變化情況下的分割效果不理想;
5、2)傳統(tǒng)方法在處理復(fù)雜圖像時,容易受到背景噪聲和顯示屏摩爾紋的影響,難以準確提取目標區(qū)域;
6、3)現(xiàn)有深度學(xué)習(xí)方法在數(shù)據(jù)集不足的情況下,易出現(xiàn)分割結(jié)果不準確的問題,且在存在多個屏幕時,難以識別并提取主體屏幕。
7、為此,本方案針對上述現(xiàn)有缺陷,提出了一種一種基于深度學(xué)習(xí)和視覺算法的圖像區(qū)域提取與分割方法。
技術(shù)實現(xiàn)思路
1、1.要解決的技術(shù)問題:
2、針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)和視覺算法的圖像區(qū)域提取與分割方法,通過結(jié)合深度學(xué)習(xí)與傳統(tǒng)計算機視覺算法,解決現(xiàn)有的缺陷,提升復(fù)雜背景下圖像分割的精度和穩(wěn)定性,并在多屏幕檢測和摩爾紋干擾消除方面取得更好的效果。
3、2.技術(shù)方案:
4、為解決上述問題,本發(fā)明采用如下的技術(shù)方案。
5、一種基于深度學(xué)習(xí)和視覺算法的圖像區(qū)域提取與分割方法,包括以下步驟:
6、sa1、數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理:
7、收集由用戶拍攝的紙張、電腦屏幕以及手機截屏等信息并進行人工排除非上述三類的圖片情況,作為原始數(shù)據(jù);
8、sa2、構(gòu)建數(shù)據(jù)集:
9、通過人工標注多邊形前景邊緣,然后處理填充為mask作為掩碼目標,并聯(lián)合mask和圖片image構(gòu)建訓(xùn)練集、測試集以及驗證集;
10、sa3、建立深度學(xué)習(xí)模型:
11、構(gòu)建由邊緣提取網(wǎng)絡(luò)以及深度學(xué)習(xí)網(wǎng)絡(luò)組成的深度學(xué)習(xí)網(wǎng)絡(luò)docsegnet,初始化其網(wǎng)絡(luò)參數(shù);
12、sa4、訓(xùn)練docsegnet:
13、對整個docsegnet進行監(jiān)督訓(xùn)練,取所有測試集與訓(xùn)練集,進行交叉驗證的方法進行訓(xùn)練,取其中平均損失最小的網(wǎng)絡(luò)模型,保存模型。
14、進一步的改進在于:所述sa3步驟中模型的輸入為h*w*3,輸出為h*w*1。
15、進一步的改進在于:所述模型的網(wǎng)絡(luò)層層次結(jié)構(gòu)設(shè)計包括以下步驟:
16、sb1、邊緣檢測:通過edge模塊(sobelnet)處理輸入圖像x,提取邊緣信息,記為hx;
17、sb2、邊緣信息編碼:將邊緣特征融合圖像hx輸入至卷積中進行編碼;
18、sb3、編碼器特征解碼:通過解碼器模塊逐步上采樣,并使用跳躍連接融合對應(yīng)的編碼器特征;
19、sb4、輸出側(cè)邊特征:側(cè)邊輸出層(side1到side6)用于在不同尺度生成特征圖,分別記為d1到d6,并統(tǒng)一上采樣到d1的尺度;
20、sb5、最終輸出:將各個側(cè)邊特征拼接,通過outconv生成最終輸出d0。
21、進一步的改進在于:所述邊緣信息編碼包括以下步驟:
22、stage1:將邊緣特征融合圖像hx輸入到第一層卷積中,生成特征表示hx1,再通過pool12最大池化層下采樣;
23、stage2:將hx1進一步傳入第二層卷積生成特征表示hx2,通過pool23最大池化層繼續(xù)下采樣;
24、stage3:類似地,生成特征hx3并通過pool34下采樣;
25、stage4:生成特征hx4并通過pool45進一步下采樣;
26、stage5:生成特征hx5并通過pool56下采樣;
27、stage6:最后,hx5進一步卷積生成特征表示hx6,并將其上采樣到hx5的尺度,記為hx6up。
28、進一步的改進在于:所述編碼器特征解碼包括以下步驟:
29、stage5d:將hx6up與hx5融合,生成特征表示hx5d,并上采樣到hx4的尺度;
30、stage4d:將上采樣后的hx5d與hx4融合生成hx4d,并上采樣到hx3的尺度;
31、stage3d:重復(fù)該過程生成hx3d并上采樣到hx2的尺度;
32、stage2d:生成hx2d并上采樣到hx1的尺度;
33、stage1d:生成最終解碼器輸出hx1d。
34、進一步的改進在于:所述樣本的損失函數(shù)計算公式為:
35、;
36、其中:
37、n為樣本數(shù)量,
38、di(j)表示當(dāng)前尺度模型的預(yù)測值,
39、labelsv(j)表示真實的標注mask數(shù)據(jù)標簽。
40、進一步的改進在于:所述網(wǎng)絡(luò)層層次結(jié)構(gòu)設(shè)計的求和公式為:
41、;
42、即最終loss為:
43、。
44、進一步的改進在于:所述圖形區(qū)域的分割評估公式為:
45、;
46、其中:output為模型預(yù)測的mask圖像,target為人工標注的labels,smooth為防止計算問題,默認設(shè)置為10^-5。
47、3.有益效果:
48、采用本發(fā)明提供的技術(shù)方案,與現(xiàn)有技術(shù)相比,具有如下有益效果:
49、(1)提高了圖像分割的精度:通過結(jié)合深度學(xué)習(xí)(u2netp模型)與傳統(tǒng)計算機視覺算法,該方法能夠更加準確地提取紙張和顯示屏區(qū)域,尤其是在復(fù)雜背景和多角度拍攝的場景下,顯著提升了分割的精度。
50、(2)解決了摩爾紋和多屏幕檢測問題:傳統(tǒng)算法難以有效消除摩爾紋干擾或識別出多個屏幕中的主體屏幕,而本發(fā)明通過深度學(xué)習(xí)預(yù)測與區(qū)域生長相結(jié)合,能夠準確定位并消除摩爾紋干擾,同時在多屏幕場景中準確識別主體屏幕。
51、(3)增強了魯棒性和適應(yīng)性:本發(fā)明通過形態(tài)學(xué)操作和區(qū)域生長技術(shù),有效去除了由于訓(xùn)練數(shù)據(jù)不足而產(chǎn)生的噪聲,使得在數(shù)據(jù)量有限的條件下依然可以獲得較為穩(wěn)定的分割效果。此外,采用凸包擬合和最大閉包計算,使得該技術(shù)對屏幕形變和圖像角度變化的適應(yīng)性更強。
52、(4)多重驗證提升準確率:通過計算深度學(xué)習(xí)分割結(jié)果與傳統(tǒng)算法結(jié)果的iou(交并比),在分割結(jié)果不匹配時智能選擇深度學(xué)習(xí)預(yù)測的前景區(qū)域,進一步提高了最終輸出結(jié)果的可靠性和精度。
53、需要說明的是,本發(fā)明未介紹的結(jié)構(gòu)由于不涉及本發(fā)明的設(shè)計要點及改進方向,均與現(xiàn)有技術(shù)相同或者可采用現(xiàn)有技術(shù)加以實現(xiàn)在此不做贅述。