本發(fā)明涉及目標(biāo)檢測,特別涉及一種基于改進(jìn)yolov10的輕量化手機(jī)屏幕缺陷檢測方法。
背景技術(shù):
1、在當(dāng)今數(shù)字化時代,智能手機(jī)已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧kS著智能手機(jī)市場的不斷擴(kuò)張,手機(jī)屏幕作為用戶與設(shè)備交互的主要界面,其質(zhì)量檢測的重要性日益凸顯。手機(jī)屏幕在生產(chǎn)過程中可能會出現(xiàn)各種缺陷,如劃痕、污漬、油斑等,這些缺陷不僅影響手機(jī)的外觀,還可能對用戶的使用體驗產(chǎn)生負(fù)面影響。因此,開發(fā)一種高效、準(zhǔn)確的手機(jī)屏幕缺陷檢測方法具有重要的實際意義。
2、傳統(tǒng)的手機(jī)屏幕缺陷檢測方法主要依賴于人工目檢或基于傳統(tǒng)圖像處理技術(shù)的自動化檢測系統(tǒng)。人工目檢存在效率低下、易受主觀因素影響等缺點(diǎn),難以滿足大規(guī)模生產(chǎn)的需求。而基于傳統(tǒng)圖像處理技術(shù)的自動化檢測系統(tǒng)雖然在一定程度上提高了檢測效率,但其檢測精度有限,對于一些微小或復(fù)雜的缺陷難以準(zhǔn)確識別,且對不同光照條件和屏幕背景的適應(yīng)性較差。
3、近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測算法在圖像識別領(lǐng)域取得了顯著成果。yolo系列算法作為實時目標(biāo)檢測領(lǐng)域的佼佼者,以其速度快、精度高的特點(diǎn)被廣泛應(yīng)用于各種目標(biāo)檢測任務(wù)。yolo算法通過將目標(biāo)檢測任務(wù)視為一個回歸問題,直接在圖像上預(yù)測目標(biāo)的位置和類別,避免了傳統(tǒng)方法中復(fù)雜的特征提取和候選框生成過程,大大提高了檢測效率。
4、然而,yolov10模型在應(yīng)用于手機(jī)屏幕缺陷檢測時,仍面臨一些挑戰(zhàn)。首先,手機(jī)屏幕缺陷的尺寸通常較小,且形狀不規(guī)則,這使得模型在檢測時容易出現(xiàn)漏檢或誤檢的情況。其次,yolov10模型的參數(shù)量較大,計算復(fù)雜度較高,直接在設(shè)備部署和運(yùn)行時,會受到設(shè)備計算資源和存儲空間的限制,導(dǎo)致檢測速度下降,無法滿足實時檢測的要求,這進(jìn)一步增加了缺陷檢測的難度。
5、現(xiàn)有技術(shù)中,專利cn119273992a公開了一種基于改進(jìn)yolov8的手機(jī)屏幕玻璃缺陷檢測方法,其通過增加注意力模塊和改進(jìn)卷積模塊提升檢測精度。然而,該方法存在以下局限性:采用yolov8基礎(chǔ)架構(gòu),參數(shù)量較大,計算復(fù)雜度高,輕量化程度低,難以滿足移動端部署需求;同時,多尺度特征融合機(jī)制簡單且采用基礎(chǔ)檢測頭,檢測精度在一定程度上不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對上述技術(shù)缺陷,提出基于改進(jìn)yolov10的輕量化手機(jī)屏幕缺陷檢測方法,該方法通過改進(jìn)yolov10模型架構(gòu),降低模型復(fù)雜度和計算量,同時優(yōu)化訓(xùn)練數(shù)據(jù)集和檢測流程,提高模型在設(shè)備上的部署效率和實時檢測性能。
2、基于改進(jìn)yolov10的輕量化手機(jī)屏幕缺陷檢測方法,包括以下步驟:
3、s1:采集手機(jī)屏幕圖像數(shù)據(jù),對數(shù)據(jù)集進(jìn)行增強(qiáng)處理并進(jìn)行標(biāo)注,構(gòu)建手機(jī)屏幕缺陷訓(xùn)練數(shù)據(jù)集;
4、s2:采用starnet模塊、c2f-odconv模塊、detect_lscd模塊改進(jìn)yolov10網(wǎng)絡(luò)模型結(jié)構(gòu),構(gòu)建yolo-star網(wǎng)絡(luò)結(jié)構(gòu)的手機(jī)屏幕缺陷檢測模型;
5、s3:使用s1中構(gòu)建的手機(jī)屏幕缺陷訓(xùn)練數(shù)據(jù)集作為輸入,對改進(jìn)后的yolov10網(wǎng)絡(luò)結(jié)構(gòu)模型進(jìn)行訓(xùn)練;
6、s4:將訓(xùn)練后的yolov10網(wǎng)絡(luò)結(jié)構(gòu)模型部署到移動設(shè)備上,對手機(jī)屏幕圖像進(jìn)行實時檢測。
7、進(jìn)一步地,所述s1中,具體步驟包括:
8、s11:采集手機(jī)屏幕圖像數(shù)據(jù),所述圖像數(shù)據(jù)包括有劃痕、有污漬、有油斑三種狀態(tài)的手機(jī)屏幕圖像;
9、s12:對s11中采集的圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,數(shù)據(jù)增強(qiáng)處理采用物理模型驅(qū)動的復(fù)合增強(qiáng)策略:
10、
11、其中為幾何變換算子(隨機(jī)旋轉(zhuǎn)±30°、縮放0.5-2.0×、透視變換),為基于缺陷物理特性的材質(zhì)反射模型,iraw為原始圖像,iaug為數(shù)據(jù)增強(qiáng)后的圖像,θ為變換參數(shù);
12、s13:對s12中增強(qiáng)處理后的圖像進(jìn)行標(biāo)注,采用labelimg生成標(biāo)注,構(gòu)建包含位置坐標(biāo)(xc,yc,w,h)和缺陷類別c∈0,1,2的標(biāo)注文件;
13、s14:將s13中標(biāo)注后的數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和驗證集。
14、進(jìn)一步地,所述s2中,改進(jìn)yolov10目標(biāo)檢測網(wǎng)絡(luò)模型包括主干網(wǎng)絡(luò)、頸部結(jié)構(gòu)和頭部結(jié)構(gòu),用于多尺度的目標(biāo)檢測任務(wù);
15、在主干網(wǎng)絡(luò)部分,網(wǎng)絡(luò)首先通過starnet模塊進(jìn)行初步特征提取,隨后利用sppf模塊進(jìn)行空間金字塔池化,增強(qiáng)特征的尺度不變性,最后通過psa模塊引入并行空間注意力機(jī)制,進(jìn)一步強(qiáng)化特征的空間信息,輸出高分辨率的特征圖p5;
16、在頸部網(wǎng)絡(luò)部分,網(wǎng)絡(luò)通過多次上采樣和特征融合,將主干網(wǎng)絡(luò)輸出的特征圖p5逐步上采樣并與p4、p3特征圖進(jìn)行拼接,形成多尺度的特征表示,在每個尺度上,網(wǎng)絡(luò)通過多個卷積模塊(c2f_odconv、dwconv、c2fcib)進(jìn)一步處理融合后的特征圖,增強(qiáng)特征的表達(dá)能力;
17、最后,在頭部結(jié)構(gòu)中,通過detect_lscd檢測模塊,將不同尺度的特征圖(p3、p4、p5)輸入到檢測層,輸出目標(biāo)的類別、位置和置信度信息。
18、yolo-star網(wǎng)絡(luò)結(jié)構(gòu)的手機(jī)屏幕缺陷檢測模型具體為:
19、s21:將yolov10中的backbone主干部分改進(jìn)為starnet模塊;
20、s22:將yolov10中的c2f模塊改進(jìn)為c2f-odconv模塊;
21、s23:將yolov10中的head檢測頭改進(jìn)為detect_lscd模塊。
22、進(jìn)一步地,所述s21中,starnet模塊由stem層和多尺度特征提取階段組成,其前向傳遞方法為:
23、s211:輸入圖像首先經(jīng)過一個stem層,該層由一個3x3卷積核和relu6激活函數(shù)組成,具體可以表示為:
24、fstem(x)=relu6(conv3×3(x;cin=3,cout=32,stride=2))
25、stem層的作用是將輸入圖像的通道數(shù)從3擴(kuò)展到32,同時將圖像的空間尺寸減半,減少計算量,為多尺度特征提取做好準(zhǔn)備;
26、s212:經(jīng)過s211中stem層處理后的特征圖進(jìn)入多尺度特征提取階段(stages);
27、所述stages由四個階段組成,每個階段包含以下兩個主要部分:
28、下采樣層:使用3x3卷積核對輸入的特征圖進(jìn)行下采樣,進(jìn)一步減半空間尺寸,同時增加通道數(shù),該操作使得特征圖的分辨率逐漸降低,但通道數(shù)逐漸增加,從而能夠捕捉到更高級別的語義信息;
29、多個star_block:每個階段包含多個star_block模塊,這些模塊用于在當(dāng)前尺度上提取豐富的特征,star_block模塊通過內(nèi)部的卷積操作和激活函數(shù),進(jìn)一步增強(qiáng)特征的表達(dá)能力,并保留細(xì)節(jié)信息;
30、s213:經(jīng)過s212中所述四個階段的處理,得到不同尺度的特征圖,這些特征圖具有不同的空間尺寸和通道數(shù),能夠捕捉到從局部細(xì)節(jié)到全局語義的多尺度信息,用于后續(xù)頸部結(jié)構(gòu)的進(jìn)一步多尺度特征提取。
31、進(jìn)一步地,所述s212中,每個star_block先通過深度可分離卷積對當(dāng)前階段的輸入特征(即前一個模塊的輸出)進(jìn)行空間上的局部聚合,再通過兩個1x1卷積和元素級乘法(element-wise?multiplication))進(jìn)行通道上的特征融合,然后通過另一個深度可分離卷積和1x1卷積進(jìn)行特征的進(jìn)一步處理,并與輸入進(jìn)行殘差連接,保留原始特征信息;
32、設(shè)輸入為其中cin是輸入通道數(shù)h和w分別是高度和寬度,則star_block模塊可以表示為:
33、xdw=dwconv(x)
34、xout=x+droppath(dwconv2(mlpg(relu6(mlp1(xdw))⊙mlp2(xdw)))))
35、其中dwconv為深度可分離卷積,mlp為線性變換(卷積),relu6為激活函數(shù),droppath為一個隨機(jī)丟棄路徑的操作。
36、進(jìn)一步地,所述s22中,c2f-odconv模塊在c2f模塊的基礎(chǔ)上融合od_attention注意力機(jī)制,使用odconv替換c2f中bottleneck的卷積模塊;其中,od_attention注意力機(jī)制同時考慮了通道注意力、過濾器注意力、空間注意力和卷積核注意力四個維度的信息,通過對特征圖的四個維度進(jìn)行注意力計算,能夠更加精準(zhǔn)地聚焦于圖像中具有重要語義信息的區(qū)域;設(shè)輸入為其中b是批大小,cin是輸入通道數(shù),h和w分別是高度和寬度,則odconv卷積的具體實現(xiàn)方式為:
37、s221:首先計算通道注意力、過濾器注意力、空間注意力和卷積核注意力:
38、(ac,af,as,ak)=od_attention(x)
39、其中od_attention是一個注意力模塊,輸出四個注意力圖,ac為通道注意力圖,af為濾波器注意力圖,as為空間注意力圖,ak為卷積核注意力圖;
40、s222:將通道注意力與輸入特征圖相乘,增強(qiáng)重要通道的特征:
41、x′=x⊙a(bǔ)c
42、s223:根據(jù)注意力機(jī)制和權(quán)重參數(shù),計算聚合權(quán)重:
43、wagg=as⊙a(bǔ)k⊙wk
44、其中wk為卷積核,wagg為聚合后的權(quán)重;
45、s224:使用聚合權(quán)重進(jìn)行卷積運(yùn)算,得到輸出特征圖:
46、y=conv(x′,wagg)
47、s225:將輸出特征圖重塑為原始批次大小,并與過濾器注意力相乘,得到最終輸出:
48、y′=y(tǒng)⊙a(bǔ)f
49、odconv模塊通過引入多個注意力機(jī)制,實現(xiàn)了對輸入特征圖、卷積核和輸出特征圖的動態(tài)調(diào)整,從而提高了模型的表達(dá)能力和適應(yīng)性。
50、進(jìn)一步地,所述s221中,od_attention模塊的具體計算方式為:設(shè)輸入為
51、首先對輸入進(jìn)行全局平均池化,池化后的特征圖經(jīng)過全連接層,最后計算通道注意力;具體表示為:
52、
53、其中,adaptiveavgpool為自適應(yīng)平均池化,bn為批量歸一化層,relu為激活函數(shù),σ為sigmoid激活函數(shù),temperature為溫度參數(shù),softmax為歸一化指數(shù)函數(shù),conv為卷積層,xavg為池化后的特征圖,xfc為經(jīng)全連接層處理后的特征圖,ac為通道注意力圖,af為濾波器注意力圖,as為空間注意力圖,ak為卷積核注意力圖,cin為輸入通道數(shù),cout為輸出通道數(shù)。
54、進(jìn)一步地,所述s23中,detect_lscd模塊采用share_conv共享卷積層,所述共享卷積層包括兩個卷積層,用于對特征圖進(jìn)行進(jìn)一步的特征提取和融合,增強(qiáng)特征的表達(dá)能力,share_conv共享卷積層的具體結(jié)構(gòu)為:
55、第一個卷積層,采用conv_gn結(jié)構(gòu),包括卷積操作和分組歸一化,用于對輸入特征圖進(jìn)行初步的特征提取;
56、第二個卷積層,同樣采用conv_gn結(jié)構(gòu),對第一個卷積層的輸出進(jìn)行進(jìn)一步的特征提取和融合,增強(qiáng)特征的表達(dá)能力。
57、進(jìn)一步地,所述s3中,具體包括:使用改進(jìn)后的yolov10模型架構(gòu),以s1構(gòu)建的數(shù)據(jù)集為輸入,在訓(xùn)練過程中,設(shè)置學(xué)習(xí)率和迭代次數(shù),使用隨機(jī)梯度下降(sgd)優(yōu)化器,使模型逐漸收斂,學(xué)習(xí)手機(jī)屏幕目標(biāo)的特征表示和檢測規(guī)律。
58、進(jìn)一步地,所述s4中,目標(biāo)檢測方法應(yīng)用于手機(jī)屏幕檢測場景,模型部署到移動設(shè)備上后,還對模型進(jìn)行量化處理,所述量化處理的方式包括將模型的權(quán)重和激活值從浮點(diǎn)數(shù)轉(zhuǎn)換為定點(diǎn)數(shù),通過量化進(jìn)一步減少模型的存儲空間和計算量;在手機(jī)屏幕上實時采集圖像時,還對圖像進(jìn)行預(yù)處理,所述預(yù)處理的方式包括調(diào)整圖像大小、歸一化像素值,使圖像符合模型的輸入要求。
59、本發(fā)明的有益效果:
60、本發(fā)明通過優(yōu)化模型結(jié)構(gòu)和算法機(jī)制,實現(xiàn)了模型輕量化與高檢測精度的雙重優(yōu)勢。具體而言,采用starnet作為主干網(wǎng)絡(luò),其獨(dú)特的四階段分層架構(gòu)和核心機(jī)制,能夠在低維空間高效計算,同時兼顧高維特征的提取,從而在大幅減少模型參數(shù)量和計算復(fù)雜度的同時,依然保持強(qiáng)大的特征提取能力。c2f-odconv模塊引入動態(tài)卷積和多維注意力機(jī)制,根據(jù)輸入動態(tài)調(diào)整卷積核權(quán)重,精準(zhǔn)捕捉目標(biāo)的形狀和紋理信息,進(jìn)一步提升特征提取的精度。detect_lscd模塊通過共享卷積機(jī)制,減少重復(fù)計算,使得多個檢測任務(wù)可以共享卷積層的特征,既降低了計算復(fù)雜度,又提高了目標(biāo)分類和定位的準(zhǔn)確性。這種輕量化與高精度的結(jié)合,使得模型能夠在低資源設(shè)備上高效運(yùn)行,同時滿足實際應(yīng)用場景中對檢測精度和實時性的嚴(yán)格要求。