麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種動態(tài)手勢識別方法、識別系統(tǒng)、識別設(shè)備及計算機可讀存儲介質(zhì)與流程

文檔序號:41753845發(fā)布日期:2025-04-29 18:22閱讀:3來源:國知局
一種動態(tài)手勢識別方法、識別系統(tǒng)、識別設(shè)備及計算機可讀存儲介質(zhì)與流程

本發(fā)明涉及智能車載系統(tǒng),尤其涉及一種動態(tài)手勢識別方法、識別系統(tǒng)、識別設(shè)備及計算機可讀存儲介質(zhì)。


背景技術(shù):

1、單目攝像頭深度學(xué)習(xí)識別方案主要依賴單目攝像頭采集圖像數(shù)據(jù),并通過深度學(xué)習(xí)模型對這些數(shù)據(jù)進行分析和處理,以實現(xiàn)對手勢的識別。然而,該方案存在一些明顯的問題:

2、首先,單幀深度估計不穩(wěn)定。在單目攝像頭深度學(xué)習(xí)識別方案中,深度特征的獲取通常是通過對單幀圖像進行分析和估計得到的。但是,由于單幀圖像所提供的信息有限,以及環(huán)境因素的影響,單幀深度估計往往不夠準(zhǔn)確和穩(wěn)定。

3、其次,通用手勢深度學(xué)習(xí)識別模型又基于單幀預(yù)估結(jié)果。這意味著模型的性能很大程度上依賴于單幀深度估計的準(zhǔn)確性。如果單幀深度估計出現(xiàn)偏差,那么整個模型的識別結(jié)果也會受到影響。而且,由于模型是基于單幀預(yù)估結(jié)果進行訓(xùn)練和優(yōu)化的,它可能無法充分利用時間序列上的信息,從而導(dǎo)致在處理動態(tài)手勢時的性能不夠理想。

4、單目攝像頭與深度攝像頭融合方案試圖結(jié)合單目攝像頭和深度攝像頭的優(yōu)勢,以提高手勢識別的準(zhǔn)確性和魯棒性。然而,該方案也存在一些缺點:

5、一方面,單目攝像頭與深度攝像頭融合設(shè)計難度高。融合兩種不同類型的攝像頭需要解決一系列技術(shù)問題,包括攝像頭的校準(zhǔn)、數(shù)據(jù)融合算法的設(shè)計、系統(tǒng)的同步等。這些問題都增加了系統(tǒng)的設(shè)計難度和復(fù)雜性,需要投入更多的研發(fā)資源和時間。

6、另一方面,成本顯著增大且提高功耗。使用深度攝像頭通常會增加系統(tǒng)的成本,因為深度攝像頭的價格相對較高。此外,同時使用單目攝像頭和深度攝像頭也會增加系統(tǒng)的功耗,這對于一些移動設(shè)備或者對功耗要求較高的應(yīng)用場景來說是一個重要的考慮因素。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的上述問題,本發(fā)明提出了一種動態(tài)手勢識別方法、識別系統(tǒng)、識別設(shè)備及計算機可讀存儲介質(zhì),能基于單目攝像頭提升動態(tài)手勢識別的準(zhǔn)確率。

2、具體地,本發(fā)明提出了一種動態(tài)手勢識別方法,包括步驟:

3、s1,獲取視頻流;

4、s2,基于所述視頻流提取手部圖像;

5、s3,基于所述手部圖像提取手部空間特征;

6、s4,基于所述手部空間特征提取時序手部特征;

7、s5,對所述時序手部特征進行識別以獲得手勢類別及類別特征;

8、s6,根據(jù)所述手勢類別及類別特征進行判決,確定動態(tài)手勢。

9、根據(jù)本發(fā)明的一個實施例,在步驟s2,提取手部圖像的過程包括步驟:

10、s21,對圖像進行歸一化處理,統(tǒng)一像素值尺度;

11、s22,將經(jīng)過歸一化處理的圖像輸入yolo目標(biāo)檢測模型,其輸出經(jīng)過non-maximumsuppression算法得到n個手部邊界框;

12、s23,制定一個roi區(qū)域,基于所述roi區(qū)域?qū)λ鍪植窟吔缈蜻M行目標(biāo)手過濾;

13、s24,若所述目標(biāo)手存在,則對過濾后的手部圖像進行裁剪,等比縮放至一個分辨率并進行歸一化處理。

14、根據(jù)本發(fā)明的一個實施例,在步驟s3,提取手部空間特征的過程包括步驟:

15、s31,判斷手部圖像是否有效,若無效,進入s32,若有效,進入s33;

16、s32,設(shè)置所述手部空間特征為無效值,輸出所述手部空間特征,進入s34;

17、s33,將所述手部圖像輸入3d特征提取模型以提取手部空間特征,所述手部空間特征包括2d特征及深度特征;

18、s34,結(jié)束。

19、根據(jù)本發(fā)明的一個實施例,在步驟33,通過3d特征提取模型獲得手部圖像的2d特征和深度特征zt;

20、將2d特征轉(zhuǎn)換為圖像坐標(biāo)系下相對坐標(biāo)2d特征將深度特征zt進行歸一化為深度特征zt_normal。

21、根據(jù)本發(fā)明的一個實施例,深度特征目標(biāo)相對于攝像頭的最大距離為zmax,最小距離為zmin。

22、根據(jù)本發(fā)明的一個實施例,所述3d特征提取模型包含hourglassnet模塊、graphcnn模塊和lffm模塊,hourglassnet模塊用于對輸入的所述手部圖像進行特征提取,獲取所述2d特征,graphcnn模塊用于獲取三維手網(wǎng)格頂點,進而得到所述深度特征,lffm模塊用于融合hourglassnet模塊和graphcnn模塊,其將hourglassnet模塊的輸出進行處理以適配graphcnn模塊的輸入。

23、根據(jù)本發(fā)明的一個實施例,在hourglassnet模塊中,使用輕量化scab算子替換residual-block算子以降低算力消耗。

24、根據(jù)本發(fā)明的一個實施例,在步驟s33中獲取所述手部空間特征后,設(shè)定特征濾波區(qū)域,基于空間濾波方法在所述特征濾波區(qū)域內(nèi)進一步提煉特征。

25、根據(jù)本發(fā)明的一個實施例,以當(dāng)前預(yù)測位置為中心,選取r*r的區(qū)域作為所述特征濾波區(qū)域,采用高斯濾波器對所述特征濾波區(qū)域內(nèi)進一步提煉特征,二維高斯分布公式為:

26、

27、其中,r=3,σ=1.5,(x,y)是圖像坐標(biāo)系下的位置,μx、μy是當(dāng)前預(yù)測位置。

28、根據(jù)本發(fā)明的一個實施例,所述3d特征提取模型的損失函數(shù)j3d包括熱力圖損失jstage和深度損失jdepth,所述熱力圖損失jstage由3個stage組成,損失函數(shù)j3d的計算公式為:

29、

30、其中,α為熱力圖損失懲罰因子,β為多損失控制因子。

31、根據(jù)本發(fā)明的一個實施例,所述3d特征提取模型在訓(xùn)練過程中,batch?size設(shè)置為128,初始學(xué)習(xí)率lr3d設(shè)置為0.001,每訓(xùn)練30個epoch衰減0.1,總共訓(xùn)練100個epoch,數(shù)據(jù)集采用stb和rhd。

32、根據(jù)本發(fā)明的一個實施例,步驟s4包括:

33、設(shè)置寬度為wt的時間濾波窗,將時間濾波器最右側(cè)對齊當(dāng)前時刻t;

34、構(gòu)建時間序列特征,在時刻t,令時間窗口滑動后得到長度為wt的手勢時間序列特征:

35、

36、時間濾波器的步長st為1。

37、根據(jù)本發(fā)明的一個實施例,步驟s5包括:

38、s51,判斷所述手部空間特征是否有效,若無效,進入s52,若有效,進入s53;

39、s52,手勢類別設(shè)置為背景,類別特征設(shè)置為無效值,輸出手勢類別和類別特征,進入s55;

40、s53,將所述手部空間特征輸入動態(tài)手勢識別模型以生成手勢類別、類別特征及手勢類別概率向量;

41、s54,判斷手勢類別概率向量中的值最大且大于設(shè)定閾值tg,若是,則選取手勢類別概率向量中的值最大所對應(yīng)的手勢類別和類別特征,輸出手勢類別和類別特征,若否,手勢類別設(shè)置為背景,類別特征設(shè)置為無效值,輸出手勢類別和類別特征;

42、s55,結(jié)束。

43、根據(jù)本發(fā)明的一個實施例,所述動態(tài)手勢識別模型包含lstm模塊、mobilevit模塊和mlp&softmax模塊,lstm模塊用于對輸入的所述時序手部特征進行特征提取并升維,得到mobilevit模塊用于將輸入的進行時間和空間融合,得到手勢類別和類別特征mlp&softmax模塊用于于將輸入的手勢類別和類別特征得到手勢類別概率向量

44、根據(jù)本發(fā)明的一個實施例,所述動態(tài)手勢識別模型的損失函數(shù)jgesture由ce損失組成,設(shè)在數(shù)據(jù)集m中,第i個樣本的真實類別為ci,損失函數(shù)kgesture的計算公式為:

45、

46、根據(jù)本發(fā)明的一個實施例,所述動態(tài)手勢識別模型在訓(xùn)練過程中,采集動態(tài)手勢數(shù)據(jù)作為數(shù)據(jù)集,包括步驟:

47、配置多種攝像角度的雙模攝像機,且中間攝像頭光心正對被采集者;

48、采集者需在幕布前隨意做出co種手勢,采集每位采集者的手勢視頻;

49、執(zhí)行步驟s2至s4提取時序手部特征。

50、根據(jù)本發(fā)明的一個實施例,所述動態(tài)手勢識別模型在訓(xùn)練過程中,batch?size設(shè)置為64,學(xué)習(xí)率衰減策略采用余弦學(xué)習(xí)率下降,初始學(xué)習(xí)率lrgesture設(shè)置為0.001,總共訓(xùn)練150個epoch。

51、根據(jù)本發(fā)明的一個實施例,步驟s6包括:

52、s61,設(shè)置寬度為wg的時間濾波窗;

53、在時刻t,令時間窗口滑動后可得到長度為wg的手勢類別序列:

54、

55、其中,為或t*in[t-(wg-1),t];

56、得到時刻t的手勢分類特征序列:

57、

58、其中,為或null;

59、s62,判斷手勢類別數(shù)量所占序列長度百分比是否小于tvalid,若是,則進入s68,若否,進入s63;

60、s63,對手勢類別種類進行數(shù)量排序,求得出現(xiàn)次數(shù)最多的手勢類別和次多手勢類別

61、s64,判斷若是,則進入s68,若否則進入s65;

62、s65,判斷若是則進入s67,若否則進入s66;

63、s66,判斷若是則進入s68;

64、s67,基于手勢類別及對應(yīng)的手勢類別特征向量集合對各自對應(yīng)類別的特征向量計算其平均余弦相似度csgestireij,計算公式為:

65、

66、選取csgestureij中最小值對應(yīng)的手勢類別及類別特征作為最終輸出

67、挑選中余弦相似度值最小的特征,對做指數(shù)加權(quán)更新,

68、s68,結(jié)束。

69、本發(fā)明還提供了一種動態(tài)手勢識別系統(tǒng),適用于前述的動態(tài)手勢識別方法,所述動態(tài)手勢識別系統(tǒng)包括:

70、獲取單元,配置為用于獲取所述視頻流;

71、第一提取單元,配置為基于所述視頻流提取手部圖像;

72、第二提取單元,配置為基于所述手部圖像提取手部空間特征;

73、第三提取單元,配置為基于所述手部空間特征提取時序手部特征;

74、手勢識別單元,配置為對所述時序手部特征進行識別以獲得手勢類別及類別特征;

75、判決單元,配置為根據(jù)所述手勢類別及類別特征進行判決,確定動態(tài)手勢。

76、本發(fā)明還提供了一種動態(tài)手勢識別設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)前述任一項所述動態(tài)手勢識別方法的步驟。

77、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如前述任一項所述動態(tài)手勢識別方法的步驟。

78、本發(fā)明提供的一種動態(tài)手勢識別方法、識別系統(tǒng)、識別設(shè)備及計算機可讀存儲介質(zhì),基于單目攝像頭,優(yōu)化現(xiàn)有算法框架,增強算法特征提取能力,進而提高系統(tǒng)動態(tài)手勢識別的準(zhǔn)確率。

79、應(yīng)當(dāng)理解,本發(fā)明以上的一般性描述和以下的詳細(xì)描述都是示例性和說明性的,并且旨在為如權(quán)利要求所述的本發(fā)明提供進一步的解釋。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 六盘水市| 益阳市| 宜春市| 宝山区| 乐昌市| 萨迦县| 昔阳县| 沙洋县| 阿城市| 达孜县| 通海县| 永嘉县| 宁乡县| 卓尼县| 哈密市| 那曲县| 巴楚县| 广安市| 洪江市| 津市市| 博客| 双辽市| 隆昌县| 马公市| 锡林浩特市| 江山市| 固始县| 始兴县| 射洪县| 中山市| 罗城| 长海县| 漳浦县| 江城| 东平县| 红桥区| 合肥市| 丹寨县| 怀仁县| 梅河口市| 竹山县|