麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種融合RGB圖像衍生的深度圖和輪廓序列的步態識別方法與流程

文檔序號:41737737發布日期:2025-04-25 17:11閱讀:3來源:國知局
一種融合RGB圖像衍生的深度圖和輪廓序列的步態識別方法與流程

本發明屬于步態識別,具體涉及一種融合rgb圖像衍生的深度圖和輪廓序列的步態識別方法。


背景技術:

1、步態識別是一種身份驗證技術,通過分析個體在行走時的獨特運動模式來確認其身份。通常用于公共安全領域,如犯罪調查、嫌疑人追蹤等。相較于傳統的生物識別技術如人臉、指紋和虹膜識別,步態識別具有無接觸、高度隱私、難以偽造以及可實現遠距離識別等優勢,因而在各種場景下得到廣泛應用。

2、目前,步態識別方法主要的輸入模態形式有兩種,分別是輪廓序列和骨架序列。輪廓序列通過顯示的保留外觀信息來區分個體,而骨架序列則保留人體的內部結構信息。當外觀發生劇烈變化時,骨架序列仍然具有魯棒性。然而,這兩種模態都具有一定的局限性。輪廓容易受到由于衣服變化而引起的外部身體形狀發生顯著變化的影響,而骨架雖然在解決衣服遮擋方面有效,但完全忽略了極具區分性的身體形狀信息,導致性能不佳。同時,為了解決單模態的局限性,最近的研究還探索了多模態融合的可能,從而提高了性能。然而,現有的解決方案仍然不能有效地解決現實世界場景的復雜問題。

3、當研究場景由傳統的實驗室場景轉向真實的現實世界場景時,傳統的步態識別方法已不再適用。近年來,研究者們逐漸嘗試使用新的步態輸入模態來到達魯棒的步態識別效果。smplgait模型提出使用smpl參數提取的特征作為人體的三維表示,使用了基于深度神經網絡的雙分支結構,一個分支從人體輪廓中學習外觀特征,另一個分支從3d?smpl參數中學習3d視點和形狀知識,從而利用smpl模型的3d幾何信息來增強步態外觀特征學習。然而,smplgait只是簡單地連接兩種模態的最終全局特征,無法有效地捕獲細粒度的空間信息,如何有效地融合它們的特征并捕捉和整合不同步態模態之間的復雜關系仍然是一個問題。同時,雖然smpl模型通常被視為一個密集的網格,但是其特征向量只有幾十個維度,表現出相對稀疏的身體形狀和姿勢的表征,對步態模式的描述不夠細粒。skeletongait++模型創新性的引入骨架圖的概念,與傳統的骨架模態不同,骨架圖不僅僅是關節的簡單表示,而是通過高斯近似將每個關節點生成一個熱圖,結構呈現更為直觀。同時,骨架圖在數據格式上與傳統的圖像模態更為接近,使得骨架圖能夠更好的結合輪廓圖模態的優勢,在步態識別的多模態融合中具有更強的兼容性。盡管取得了不錯的表現,但是骨架圖模態仍然只包含了2d步態信息,在面對如視點變化等挑戰時,表現依舊不佳。lidargait模型首次提出使用lidar傳感器捕獲的3d點云進行步態識別。通過將稀疏的點云數據投影成深度圖再結合深度神經網絡從3d幾何信息中提取步態識別所需的細粒度特征。但是目前需要進行步態識別的場景的主流傳感器仍然是以低成本的攝像頭為主,昂貴的激光雷達還尚未普及。并且,目前的步態數據集主要以rgb視頻數據集為主,點云數據集相對較少。

4、另外,隨著深度估計技術的發展,從rgb圖片中估計的深度信息也越來越準確。與傳統的輸入模態相比,深度圖提供了關于人體及其運動的更明確的3d幾何信息,這在輪廓和骨架輸入模態中是不能獲得的。相比于2d的平面信息,這個額外的維度豐富了步態特征的表達。其次,深度圖可以更準確地分析細微的步態運動變化,對于捕捉個人步態的獨特特征至關重要。此外,深度信息可以幫助解決視點變化的挑戰,因為它提供了不同角度的身體結構的信息和運動信息的更一致的表達。

5、現有的基于融合輪廓序列和smpl參數序列的步態識別方法雖然可以完成復雜野外場景下的人員識別。但是并沒有發揮三維信息在步態識別方面的潛力,在更換更強大的骨干網絡后,3d分支并不會顯著增強整體的步態識別性能。這是因為在特征融合方面,smplgait只是采用了簡單的逐元素乘法和加法運算,無法有效彌合兩個模態特征之間的差距。并且smpl模型的特征向量只有幾十個維度,對身體形狀和姿勢的表征較為稀疏,對步態特征的描述不夠細粒。

6、現有的基于骨架圖序列和輪廓圖序列的步態識別方法雖然創新性的引入了骨架圖的概念,通過高斯近似將每個關節點生成一個熱圖,使得骨架結構更為直觀。并且保留了傳統圖像模態的數據格式。但是,骨架圖模態只包含了2d的平面結構信息,不足以表達更細微的步態運動變化,在面對如視點變化等挑戰時表現仍然不佳。同時,skeletongait++在進行特征融合時,僅使用了簡單的注意力融合操作。這不足以有效的捕獲和整合模態之間的復雜關系。

7、現有的基于3d雷達點云的步態識別方法,通過將稀疏的點云數據投影成深度圖,再結合深度神經網絡從3d幾何信息中提取步態識別所需的細粒度特征。雖然取得了不錯的效果,但是,目前需要進行步態識別的主要場景使用的傳感器仍然以低成本的攝像頭為主。并且,目前的數據集主要以rgb視頻數據集為主,點云數據集相對較少。

8、綜上所述,雖然基于新的輸入模態如smpl參數以及骨架圖等的步態識別方法展現出了一定的潛力,但是在解決實際場景問題時,仍需要綜合考慮各種因素,并不斷完善相關技術和方法。特別是在如何構建更能包含豐富步態信息的輸入模態,從而提取更具區分度的步態特征,深入挖掘深度信息在步態識別任務中的潛力,以及如何有效融合深度圖和輪廓圖兩種不同模態的信息,得到更強大的步態表征,從而提高步態識別的準確性。


技術實現思路

1、為解決上述技術問題,本發明提供一種融合rgb圖像衍生的深度圖和輪廓序列的步態識別方法,以解決現有技術中的問題,本發明所采用的技術方案是:

2、一種融合rgb圖像衍生的深度圖和輪廓序列的步態識別方法,包括以下步驟:

3、s1:在公開數據集中從原始視頻片段導出輪廓圖序列和深度圖序列;

4、s2:對輪廓圖序列和深度圖序列執行裁剪和歸一化操作;

5、s3:將所得到的輪廓圖序列和深度圖序列分別饋送到特征提取模塊中的輪廓特征提取器和深度圖特征提取器中;分別從輪廓圖序列和深度圖序列中進行特征提取得到輪廓特征圖和深度特征圖,代表編碼的階段;

6、s4:通過跨層次、多尺度融合模塊進行特征融合;

7、s5:將融合后的特征送入特征聚合模塊,通過時間池化和水平金字塔池化進行特征聚合來生成的步態識別特征;

8、s6:將s5得到的特征用于訓練和推理;

9、s7:最終進行推理時,通過比較探針集和畫廊集的特征的余弦相似度,將最相似的視為預測對象。

10、進一步的,步驟s1包括:

11、s11:通過行人分割算法,將背景置為黑色,人體輪廓置為白色,輪廓序列表示為s,尺寸為,表示通道數量,表示輪廓序列的長度,表示每幀圖像的高度,?表示每幀圖像的寬度;

12、s12:采用depth?anything基礎模型來從rgb圖像中估計深度圖。

13、進一步的,步驟s2包括:

14、s21:確定輪廓圖序列和深度圖序列中非零元素的頂部和底部的位置,并裁剪圖像,將背景刪除;

15、s22:將輪廓輸入高度設置為64像素,并根據人體橫縱比相應調整輪廓圖序列和深度圖序列的寬度,保持人體橫縱比不變;

16、s23:計算輪廓圖像中的像素總數,然后計算每列中的累計像素數,確定累計像素數超過總像素一半的位置,將其指定為圖像的垂直中心;輪廓圖像的中心設置為深度圖像的中心;深度圖序列表示為d,尺寸為,其中,,,,分別表示深度圖像的通道數,序列長度、圖像幀高度、圖像幀寬度。

17、進一步的,步驟s4包括:

18、s41:多尺度空間提取模塊通過通道維度連接輪廓特征圖和通道特征圖,得到統一的特征張向量,公式如下所示:

19、;

20、s42:對拼接后的特征向量進行多尺度空間提取,公式如下所示:

21、;

22、其中,,代表?1×1的卷積核;為局部得分,為全局得分;是relu激活函數,是batchnorm2d?批量歸一化層;

23、s43:通過注意力融合將和相加計算出注意力權重,公式如下所示:

24、;

25、其中,表示激活函數;

26、s44:使用跨層次融合得到最終的步態表示,在得到更高層次的語義信息的同時保留淺層特征圖中所包含的空間信息,公式如下所示:

27、;

28、其中表示在跨層次、多尺度融合模塊前的每個編碼階段提取的特征;在編碼的每個階段都應用步驟s41-步驟s44的特征融合過程。

29、進一步的,步驟s5包括:

30、s51:融合后的特征經過時間池化操作,通過沿時間維度進行最大化來聚合特征圖序列,輸出全局理解;

31、s52:對時間池化后的特征再進行水平金字塔池化來獲取輸入特征的多尺度信息,指定水平金字塔中的分塊數量為16,在輸入特征的寬度維度上進行水平分割,然后對每個分塊進行平均池化和最大池化操作,將兩種池化結果沿著最后一維拼接起來,形成最終的輸出特征。

32、進一步的,步驟s6包括:

33、s61:將s5得到的輸出特征通過16個獨立的全連接層進行線性映射,每個全連接層將輸入特征映射到一個新的特征空間,輸出通道數為?256,將這個經過線性變換的輸出特征用來訓練三元組損失;

34、s62:將s61得到的特征進行批量歸一化處理,將得到的特征分為多個部分,對每個部分進行批量歸一化處理,最后得到的特征用來訓練交叉熵損失和進行推理;

35、s63:訓練過程中使用三元組損失和交叉熵損失的加權和來作為損失函數,三元組損失函數的公式如下所示:

36、;

37、其中,表示正樣本對集合,表示負樣本對集合,表示錨點和正樣本之間的距離,表示錨點和負樣本對之間的距離,表示邊界值設置為0.2;

38、交叉熵損失函數的公式如下所示:

39、;

40、其中,是類別數,是真實類別標簽的one-hot編碼,是模型預測的類別概率;

41、總的損失函數公式如下:

42、;

43、其中為三元組損失,為交叉熵損失,和為加權參數;

44、s64:通過計算查詢特征向量和庫特征向量的余弦相似度來衡量相似性。

45、本發明具有以下有益效果:

46、本發明架融合了基于rgb圖像的深度圖序列和傳統的輪廓圖序列。利用現有的rgb視頻數據集以及最新的深度估計模型從給定的rgb圖像序列中顯示的估計深度圖,并將其作為一種新的模態來捕獲人體運動中固有的區別性特征。與傳統的輸入模態相比,深度圖提供了關于人體及其運動的更明確的3d幾何信息,豐富了步態表征。其次,深度圖可以更準確的分析細微的步態運動變化,對于捕捉個人步態的獨特特征至關重要。此外,深度信息可以幫助解決視點變化的挑戰,因為他提供了不同角度的身體結構信息和運動信息的更一致的表達。

47、同時,為了便于兩種模態的特征融合,本發明還提出了一種新的跨層次、多階段、多尺度的特征融合網絡。通過跨層次、多尺度、多階段的注意力融合,增強模態間的交互,更細粒度地捕獲不同模態之間的步態信息,從而更好的彌合兩個模態之間的差距,實現更魯棒的步態識別,從而提供了一種更為全面和準確的步態識別解決方案。并且在廣泛使用的步態識別基準上取得了較好的識別效果。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 台南县| 太保市| 西安市| 明星| 梁河县| 新田县| 信阳市| 临猗县| 呼和浩特市| 永寿县| 南雄市| 鄂伦春自治旗| 张家界市| 榆树市| 宁南县| 昆山市| 蓬溪县| 阳城县| 德昌县| 阳信县| 红安县| 左贡县| 唐海县| 闸北区| 林州市| 石门县| 观塘区| 巴彦县| 临澧县| 措勤县| 喀喇| 锡林郭勒盟| 中江县| 体育| 南开区| 惠安县| 古丈县| 雅安市| 白河县| 乌苏市| 六盘水市|