本發明涉及計算機視覺,具體涉及一種基于增強型拓撲感知網絡的三維人體姿態估計方法。
背景技術:
1、3d?hpe(3d?human?pose?estimation,?三維人體姿態估計)作為計算機視覺領域的一個核心研究議題,旨在從二維圖像或視頻中精確恢復人體的三維關節位置。近年來,得益于深度學習算法的發展,三維人體姿態估計任務發展迅速。人體拓撲結構反映了關節之間的空間和運動關系,是人體姿態的本質特征,準確建模這一結構對提升任務的精度和魯棒性至關重要?;趖ransformer的模型在三維人體姿態估計任務中取得了顯著進展。這些方法利用多頭自注意力機制建模關節的全局依賴關系,在捕獲關節間的長距離時空相關性方面具有優勢。然而,自注意力機制過于強調全局關系,忽略了人體骨骼的局部拓撲連接和結構約束。這種局限性使得模型難以充分利用人體骨骼結構的先驗知識,尤其在復雜姿態下表現不佳。因此,如何在建模關節全局時空相關性的同時,充分考慮人體的拓撲結構,加強對人體關節之間的拓撲依賴關系的建模,生成更加準確的三維姿態,成為了一大問題。
技術實現思路
1、本發明所要解決的技術問題是:提供一種基于增強型拓撲感知網絡的三維人體姿態估計方法,解決了對人體拓撲結構建模不充分的問題。
2、為了解決以上技術問題,本發明采用如下技術方案:
3、一種基于增強型拓撲感知網絡的三維人體姿態估計方法,包括以下步驟:
4、s1、獲取人體動作捕捉數據集。
5、s2、構建增強型拓撲感知網絡模型,利用步驟s1中的數據集對該模型進行訓練,得到最終的增強型拓撲感知網絡模型。
6、s3、將需要檢測的人體圖片或視頻輸入到最終的增強型拓撲感知網絡模型中,得到每個關節對應的三維坐標,完成三維人體姿態的估計。
7、進一步的,步驟s1中,從human3.6m和mpi-inf-3dhp大型動作捕捉數據集中獲取關節的二維坐標、三維坐標及其真值。
8、進一步的,步驟s2中,增強型拓撲感知網絡模型包括依次連接的特征嵌入塊、重復堆疊5次的增強拓撲感知模塊和回歸頭。
9、其中,增強拓撲感知模塊包括時空雙分支transformer和混合約束模塊。
10、將步驟s1中的數據集按照7:3分為訓練集和測試集,利用訓練集對增強型拓撲感知網絡模型進行訓練,利用測試集對訓練后的增強型拓撲感知網絡模型進行測試,得到最終的增強型拓撲感知網絡模型。
11、進一步的,步驟s3中,完成三維人體姿態的估計包括以下內容:
12、利用二維姿態檢測器獲取關節的二維坐標,其中t和n分別表示序列的幀數和關節數,數字3表示維度,該維度包括關節的橫、縱坐標和置信度分數;將該二維坐標輸入到最終的增強型拓撲感知網絡模型中,經過特征嵌入塊,將該二維坐標投影到高維,得到初步高維特征,其中c表示維度大?。惶砑右唤M張量,將其與初步高維特征相加后輸入到增強拓撲感知模塊中,利用時空雙分支transformer計算關節間的時空全局依賴關系,得到融合后的中間特征,根據關節的自由度和所屬肢體類別,利用混合約束模塊分別獲取不同關節的局部拓撲約束,通過自適應融合得到最終的混合拓撲約束,利用該約束對融合后的中間特征進行結構化引導,完成增強拓撲感知模塊的操作;
13、在增強拓撲感知模塊中進行的操作重復5次,得到人體拓撲結構的增強型特征,經過回歸頭,利用線性層預測得到最終的三維姿態坐標。
14、進一步的,張量的形狀分別為n×c和t×1×c且初始化為0。
15、進一步的,得到融合后的中間特征包括以下內容:
16、時空雙分支transformer包括以空間-時間順序堆疊的transformer塊和以時間-空間順序堆疊的transformer塊;其中,以空間-時間順序堆疊的transformer塊包括依次連接的空間編碼器和時間編碼器,以時間-空間順序堆疊的transformer塊包括依次連接的時間編碼器和空間編碼器。
17、相加后的張量和初步高維特征經過時空雙分支transformer,得到相應的中間特征,具體表達式為:
18、;
19、;
20、其中,p1表示經過以空間-時間順序堆疊的transformer塊得到的中間特征,p2表示經過以時間-空間順序堆疊的transformer塊得到的中間特征,tte表示時間編碼器,ste表示空間編碼器。
21、對p1、p2進行自適應融合,得到融合后的中間特征,具體表達式為:
22、;
23、;
24、其中,w表示維度轉化后的張量,fc表示線性層,concat表示拼接操作,f表示融合后的中間特征,w1與w2均表示權重。
25、進一步的,根據關節的自由度對關節進行分組,具體表達式為:
26、;
27、;
28、;
29、其中,dof1、dof2、dof3均表示關節的自由度分組,right_shoulder表示右肩,left_shoulder表示左肩,right_hip表示右髖,left_hip表示左髖,right_elbow表示右肘,left_elbow表示左肘,right_knee表示右膝,left_knee表示左膝,right_wrist表示右手腕,left_wrist表示左手腕,right_feet表示右腳,left_feet表示左腳。
30、根據所屬肢體類別對關節進行分組,具體表達式為:
31、;
32、;
33、;
34、;
35、其中,、、、分別表示人體的右臂、左臂、右腿、左腿。
36、靜態關節分組的表達式為:
37、;
38、其中,static表示靜態關節分組,head表示頭部,neck表示頸部,thorax表示胸部,spine表示脊柱,hip表示髖關節。
39、進一步的,根據關節的自由度和所屬肢體類別對融合后的中間特征進行分組,得到自由度分組特征和所屬肢體類別分組特征。
40、對分組特征進行特征維度轉換,得到轉換后的分組特征,其中表示第i個自由度分組特征,表示第j個所屬肢體類別分組特征,表示靜態關節分組特征。
41、將每個自由度分組特征沿關節維度拼接,得到自由度分組的整體特征,經過卷積核大小為4×3的二維卷積層conv2dd進行特征提取,得到包含每種自由度分組的聚合特征,將沿關節維度進行拆分,得到第i個自由度分組特征的局部拓撲約束,具體公式為:
42、;
43、;
44、;
45、其中,表示gelu激活函數,split表示沿著關節維度分割特征,表示第1個自由度分組特征,表示第2個自由度分組特征,表示第3個自由度分組特征。
46、將每個所屬肢體類別分組特征沿關節維度拼接,得到所屬肢體類別分組的整體特征,經過卷積核大小為3×3的二維卷積conv2dp進行特征提取,得到包含每種所屬肢體類別分組的聚合特征,將沿關節維度進行拆分,得到第j個所屬肢體類別分組特征的局部拓撲約束,具體公式為:
47、;
48、;
49、;
50、其中,表示第1個所屬肢體類別分組特征,表示第2個所屬肢體類別分組特征,表示第3個所屬肢體類別分組特征,表示第4個所屬肢體類別分組特征。
51、靜態關節分組特征經過卷積核大小為5×3的二維卷積conv2ds進行特征提取,得到靜態關節分組聚合特征,進而得到第k個靜態關節分組特征的局部拓撲約束,具體公式為:
52、;
53、。
54、將所屬肢體類別分組特征的局部拓撲約束與不同自由度分組特征的局部拓撲約束相結合,并基于權重參數,得到最終的混合拓撲約束,具體表達式為:
55、;
56、;
57、;
58、其中,表示第j個所屬肢體類別分組特征中第i個自由度分組特征的混合特征,表示與對應的初始化為0的可學習參數,r表示最終的混合拓撲約束,concatorder表示按照順序的拼接操作,y表示添加混合拓撲約束后的結果。
59、進一步的,本發明還提出了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現所述基于增強型拓撲感知網絡的三維人體姿態估計方法的步驟。
60、進一步的,本發明還提出了一種計算機可讀的存儲介質,所述計算機可讀的存儲介質存儲有計算機程序,所述計算機程序被處理器運行時執行所述的基于增強型拓撲感知網絡的三維人體姿態估計方法。
61、本發明采用以上技術方案與現有技術相比,具有以下技術效果:
62、本發明通過設計加強型拓撲感知網絡結構,利用混合拓撲約束模塊增強網絡模型對人體拓撲結構的學習,解決模型對人體拓撲結構建模不充分的問題,生成更加準確的三維姿態坐標。并且在常用的human3.6m和mpi-inf-3dhp數據集上驗證了本發明提出的方法具有可行性和有效性。