本申請屬于圖像處理,具體涉及一種基于多注意力機制hrnet的擁擠多人姿態估計方法。
背景技術:
1、多人姿態估計是計算機視覺領域的重要研究方向,旨在識別和定位圖像或視頻中多個個體的關鍵點(如頭部、手腕、膝蓋等)。這一技術廣泛應用于體育分析、智能監控、人機交互和增強現實等場景。隨著深度學習的發展,特別是卷積神經網絡的引入,姿態估計的準確性和實時性有了顯著提升。研究者們提出了多種算法和模型,利用圖像中的上下文信息和個體間的空間關系,來優化關鍵點的檢測和連接。
2、傳統的多人姿態估計方法面臨的挑戰主要包括遮擋以及個體之間的交互等。這些問題使得在復雜的擁擠環境中準確估計每個人的姿態變得更加困難。當一個個體的關鍵點(如關節位置)被他人遮擋時,檢測算法難以準確識別,從而導致姿態估計的準確性下降。要提升多人姿態估計的性能,需要重點解決兩個問題:一是降低模型的參數量,以提高計算效率;二是改善在遮擋情況下的檢測精度,從而在復雜環境中仍能準確識別姿態。
3、為了應對這些挑戰,可以通過深入學習數據中的特征,使模型能夠提取更加豐富的信息,從而在擁擠場景中展現出更高的準確性。
技術實現思路
1、本申請提供一種基于多注意力機制hrnet的擁擠多人姿態估計方法,以hrnet(high?resolutionnet)為基礎的核心優勢在于保持高分辨率的特征圖,并在不同層次之間融合這些特征,這使其能有效識別圖像中小尺寸和細節豐富的關節與部位,以解決上述的技術問題
2、為解決上述技術問題,本申請采用的一個技術方案是:一種基于多注意力機制hrnet的擁擠多人姿態估計方法,包括以下步驟:
3、步驟s1.采集人體圖片并轉化成標準數據集格式,得到第一數據集;
4、步驟s2.基于hrnet(high?resolutionnet)模型加入多注意力機制模塊,構建改進hrnet模型;
5、步驟s3.基于第一數據集,訓練改進hrnet模型;
6、步驟s4.使用訓練好的改進hrnet模型對擁擠多人場景進行測試。
7、進一步,步驟s2的方法,包括:
8、步驟s21.基于hrnet模型中的瓶頸模塊引入通道注意力機制模塊,對第一數據集中的圖像進行初步特征提取,獲取特征圖像;
9、步驟s22.基于hrnet模型中的并行結構以及特征圖像,生成不同分辨率的分支特征圖像,同時保留高分辨率特征圖像;
10、步驟s23.對低分辨率特征圖像進行多尺度特征融合并引入交叉注意力機制模塊,以并行編碼兩個空間方向上的一維特征。
11、進一步,步驟s21的方法,包括:
12、hrnet模型包括瓶頸模塊以及基礎模塊;瓶頸模塊包括用于減少通道數的1×1卷積層、用于特征提取的3×3卷積層以及用于恢復通道數的1×1卷積層;
13、將瓶頸模塊中的3×3卷積層替換為3×3分離卷積層并引入通道注意力機制模塊,獲取通道注意力瓶頸模塊;
14、基于通道注意力瓶頸模塊,獲取特征圖像。
15、進一步,基于公式(1),獲取通道注意力機制模塊;其中,公式(1)為:
16、
17、其中,σ是激活函數,是未經過維度降低的聚合特征,wi表示yi的通道注意力,wj表示yi的通道注意力權重,k表示局部跨通道交互的覆蓋范圍,而表示yi的k個鄰近通道的集合。
18、進一步,獲取通道注意力瓶頸模塊的方法,包括:
19、基于公式(2),獲取一維全局通道張量;其中,公式(2)為:
20、
21、其中fin表示輸入的特征圖像,gap(.)表示全局平均池化函數,xc(i,j)表示第c個通道在位置(i,j)的值,w和h是空間尺寸的寬和高;
22、基于公式(3),獲取通道注意力瓶頸模塊;其中,公式(3)為:
23、output=σ(convldk(gc))??(3)
24、其中,σ表示激活函數,convldk是一維卷積,k表示局部跨通道交互的覆蓋范圍;經過批量歸一化和激活后,1×1卷積層用于提取不同輸入特征圖像的不同范圍特征,并學習不同通道的重要性。
25、進一步,步驟s23的方法,包括:
26、步驟s231.基于交叉注意力模塊,1×1分支特征圖像在水平和垂直方向上對每個通道進行編碼,獲得包含空間方向信息的特征圖像;
27、步驟s232.基于池化內核,對每個通道沿水平和垂直方向進行編碼,獲取不同分辨率的分支特征圖像。
28、進一步,步驟s232的方法,包括:
29、基于公式(4)-(5),獲取通道在特征圖像高度以及寬度的輸出;其中,公式(4)-(5)為:
30、
31、其中zc(.)是與第c個通道相關的輸出,w是空間尺寸h×w的寬,h是空間尺寸h×w的高,xc(.)表示第c個通道位置的值,g表示將輸入分為的g個子特征且g個子特征遠遠小于c個通道數;
32、基于公式(6),獲取非線性輸出;其中,公式(6)為:
33、
34、其中,表示沿空間維度的連接操作,δ是非線性激活函數,conv是卷積操作;
35、基于公式(7),獲取特征圖像分別在水平和垂直方向上分割為兩個獨立的張量;其中,公式(7)為:
36、
37、其中σ是sigmoid函數,gh和gw表示分別將水平和垂直張量fh和fw經過卷積變換為與輸入具有相同通道數的張量;
38、基于公式(8),獲取1×1分支特征圖像的輸出;其中,公式(8)為:
39、
40、其中o(i,j)是1×1分支在(i,j)位置的輸出,gh和gw表被擴展并分別用作注意力權重;x(.)是原始輸入,是矩陣乘法。
41、本申請的有益效果是:本申請的通道注意力瓶頸模塊通過利用通道之間特征關系的相互依賴,增強了特征的表示能力,使模型能夠更加關注主要特征,提升了局部信息的交換能力。而交叉注意力模塊則對通道維度關系和遠程依賴性進行編碼,捕捉方向感知和位置敏感信息,從而增強了全局特征信息的關聯性。
1.一種基于多注意力機制hrnet的擁擠多人姿態估計方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,步驟s2的方法,包括:
3.根據權利要求2所述的方法,其特征在于,步驟s21的方法,包括:
4.根據權利要求3所述的方法,其特征在于,
5.根據權利要求3所述的方法,其特征在于,獲取通道注意力瓶頸模塊的方法,包括:
6.根據權利要求2所述的方法,其特征在于,步驟s23的方法,包括:
7.根據權利要求5所述的方法,其特征在于,步驟s232的方法,包括: