麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互裝置與方法與流程

文檔序號(hào):11216828閱讀:2352來(lái)源:國(guó)知局
基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互裝置與方法與流程

本發(fā)明涉及無(wú)人機(jī)交互領(lǐng)域,更具體地,涉及基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互裝置與方法。



背景技術(shù):

無(wú)人機(jī)具有成本低廉、小巧便攜等優(yōu)點(diǎn),在各領(lǐng)域具有廣闊的應(yīng)用前景,尤其是航拍拍攝領(lǐng)域。研究人和無(wú)人機(jī)之間的交互具有良好的應(yīng)用價(jià)值。

傳統(tǒng)的無(wú)人機(jī)交互方法,大多是人通過(guò)手機(jī)或者遙控裝置控制無(wú)人機(jī)的飛行姿態(tài)與操作,以使得無(wú)人機(jī)上升、下降、移動(dòng)以及拍攝。這類控制方式大多操作復(fù)雜,需要人時(shí)刻控制無(wú)人機(jī)的飛行姿態(tài),在完成自拍等簡(jiǎn)單任務(wù)時(shí)需要兼顧無(wú)人機(jī)的飛行狀態(tài),非常不便。

人體姿態(tài)估計(jì)是新一代人機(jī)交互的一項(xiàng)關(guān)鍵技術(shù)。相對(duì)于傳統(tǒng)的鼠標(biāo)、鍵盤(pán)、遙控器等傳統(tǒng)接觸式的操作方式,人體姿態(tài)估計(jì)的交互方式使操作者擺脫遙控設(shè)備的束縛,具有直觀、容易理解、操作簡(jiǎn)單等優(yōu)點(diǎn),更加符合人類日常習(xí)慣,已經(jīng)成為人機(jī)交互領(lǐng)域的研究熱點(diǎn)。隨著無(wú)人機(jī)控制技術(shù)的發(fā)展,人機(jī)之間的交互越來(lái)越普遍,利用人體姿態(tài)來(lái)控制無(wú)人機(jī)可以更方便地操縱無(wú)人機(jī)。

人工神經(jīng)網(wǎng)絡(luò)最初由w.s.mcculloch和w.pitts于1943年提出,歷經(jīng)70多年的發(fā)展,目前已成為人工智能領(lǐng)域的研究熱點(diǎn)。人工神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)相互聯(lián)結(jié)組成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)。每?jī)蓚€(gè)節(jié)點(diǎn)之間的連接代表一個(gè)通過(guò)該連接信號(hào)的加權(quán)值,稱為權(quán)重。網(wǎng)絡(luò)的輸出則按照網(wǎng)絡(luò)的連接方式、激勵(lì)函數(shù)、權(quán)重值的不同而不同。

深度學(xué)習(xí)的概念由hinton等人于2006年提出,它將多個(gè)淺層的人工神經(jīng)網(wǎng)絡(luò)疊加在一起,將每一層學(xué)習(xí)得到的結(jié)果作為下一層的輸入,并用自頂向下的監(jiān)督算法調(diào)整所有層的權(quán)重。

卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)的有監(jiān)督的深度學(xué)習(xí)算法。深度卷積神經(jīng)網(wǎng)絡(luò)具有準(zhǔn)確率高、所需訓(xùn)練樣本集較大的特點(diǎn),目前已被廣泛應(yīng)用于包括人臉識(shí)別、手勢(shì)識(shí)別、行人檢測(cè)等各個(gè)計(jì)算機(jī)視覺(jué)方法,相比于傳統(tǒng)方法能夠取得較優(yōu)的結(jié)果。

因此,需要一種無(wú)人機(jī)交互裝置與方法,其利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法來(lái)進(jìn)行人體姿態(tài)估計(jì),并使用人體姿態(tài)估計(jì)來(lái)進(jìn)行人機(jī)交互,從而達(dá)到控制無(wú)人機(jī)的操作的目的。



技術(shù)實(shí)現(xiàn)要素:

根據(jù)以上的討論,本發(fā)明的目的在于提供一種無(wú)人機(jī)交互裝置與方法,其能夠利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法來(lái)進(jìn)行人體姿態(tài)估計(jì),并使用人體姿態(tài)估計(jì)來(lái)進(jìn)行人機(jī)交互,從而控制無(wú)人機(jī)的操作。

為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面,提供一種基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互裝置,包括:拍攝單元,用于拍攝對(duì)象視頻;關(guān)鍵幀提取單元,用于從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像;姿態(tài)估計(jì)單元,用于基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,針對(duì)所述關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài);以及無(wú)人機(jī)操作控制單元,用于將識(shí)別出的對(duì)象姿態(tài)轉(zhuǎn)化為控制指令,從而控制無(wú)人機(jī)的操作。

優(yōu)選地,本發(fā)明的無(wú)人機(jī)交互裝置可以進(jìn)一步包括:預(yù)處理單元,用于對(duì)所述關(guān)鍵幀提取單元提取的關(guān)鍵幀圖像進(jìn)行圖像變換和濾波預(yù)處理,將預(yù)處理后的關(guān)鍵幀圖像輸入到所述姿態(tài)估計(jì)單元以識(shí)別出對(duì)象姿態(tài)。

優(yōu)選地,所述的關(guān)鍵幀提取單元可以進(jìn)一步被配置用于:使用基于深度卷積神經(jīng)網(wǎng)絡(luò)算法的對(duì)象檢測(cè)器,從拍攝的對(duì)象視頻中提取包括對(duì)象的關(guān)鍵幀圖像。

優(yōu)選地,以上所述的對(duì)象是人體。

優(yōu)選地,所述的姿態(tài)估計(jì)單元可以進(jìn)一步包括:人體關(guān)鍵點(diǎn)定位單元,用于使用深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法獲取關(guān)鍵幀圖像中的人體關(guān)鍵點(diǎn)位置信息;以及姿態(tài)判斷單元,用于將獲取的人體關(guān)鍵點(diǎn)位置信息對(duì)應(yīng)為人體姿態(tài)。

根據(jù)本發(fā)明的第二方面,提供一種基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互方法,包括如下步驟:拍攝對(duì)象視頻;從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像;基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,針對(duì)提取的關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài);以及將識(shí)別出的對(duì)象姿態(tài)轉(zhuǎn)化為控制指令,從而控制無(wú)人機(jī)的操作。

優(yōu)選地,本發(fā)明的無(wú)人機(jī)交互方法可以進(jìn)一步包括:在從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像之后,對(duì)提取的關(guān)鍵幀圖像進(jìn)行圖像變換和濾波預(yù)處理,然后針對(duì)預(yù)處理后的關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài)。

優(yōu)選地,所述的從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像可以進(jìn)一步包括:使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的對(duì)象檢測(cè)算法,從拍攝的對(duì)象視頻中提取包括對(duì)象的關(guān)鍵幀圖像。

優(yōu)選地,以上所述的對(duì)象是人體。

優(yōu)選地,所述的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,針對(duì)提取的關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài)的步驟可以進(jìn)一步包括:使用深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法獲取關(guān)鍵幀圖像中的人體關(guān)鍵點(diǎn)位置信息;以及將獲取的人體關(guān)鍵點(diǎn)位置信息對(duì)應(yīng)為人體姿態(tài)。

本發(fā)明利用人體姿態(tài)估計(jì)來(lái)控制無(wú)人機(jī),可以更方便地操縱無(wú)人機(jī)。而且,在關(guān)鍵幀提取和姿態(tài)估計(jì)中,通過(guò)使用深度卷積神經(jīng)網(wǎng)絡(luò)算法,可以獲得更快速、更準(zhǔn)確的結(jié)果。

附圖說(shuō)明

下面參考附圖結(jié)合實(shí)施例說(shuō)明本發(fā)明。在附圖中:

圖1是根據(jù)本發(fā)明的無(wú)人機(jī)交互裝置的結(jié)構(gòu)框圖。

圖2是根據(jù)本發(fā)明的無(wú)人機(jī)交互方法的流程圖。

具體實(shí)施方式

附圖僅用于示例說(shuō)明,不能理解為對(duì)本專利的限制;下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的說(shuō)明。

圖1是根據(jù)本發(fā)明的無(wú)人機(jī)交互裝置的結(jié)構(gòu)示意圖。

如圖1中所示,根據(jù)本發(fā)明的一種基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互裝置10包括:拍攝單元11,用于拍攝對(duì)象視頻;關(guān)鍵幀提取單元12,用于從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像;姿態(tài)估計(jì)單元13,用于基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,針對(duì)所述關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài);以及無(wú)人機(jī)操作控制單元14,用于將識(shí)別出的對(duì)象姿態(tài)轉(zhuǎn)化為控制指令,從而控制無(wú)人機(jī)的操作。

在根據(jù)本發(fā)明的實(shí)施例中,拍攝單元11是無(wú)人機(jī)的攝像頭。無(wú)人機(jī)攝像頭11負(fù)責(zé)提供連續(xù)、穩(wěn)定、實(shí)時(shí)的視頻信號(hào)。無(wú)人機(jī)攝像頭11捕捉影像。影像通過(guò)鏡頭生成的光學(xué)圖像投射到圖像傳感器表面上,轉(zhuǎn)化為電信號(hào),經(jīng)過(guò)模數(shù)轉(zhuǎn)換后轉(zhuǎn)換成數(shù)字信號(hào),再經(jīng)過(guò)數(shù)字信號(hào)處理芯片處理,最終輸出。

在根據(jù)本發(fā)明的實(shí)施例中,關(guān)鍵幀提取單元12負(fù)責(zé)首先檢測(cè)輸入視頻中的對(duì)象信息,用矩形框選出視頻中的對(duì)象,提取出其中的一張圖像作為關(guān)鍵幀輸出。關(guān)鍵幀提取單元12的核心是對(duì)象檢測(cè)算法。使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的對(duì)象檢測(cè)算法可以快速有效地從輸入視頻中檢測(cè)出對(duì)象。也就是說(shuō),關(guān)鍵幀提取單元12使用基于深度卷積神經(jīng)網(wǎng)絡(luò)算法的對(duì)象檢測(cè)器,從無(wú)人機(jī)的攝像頭11拍攝的對(duì)象視頻中提取包括對(duì)象的關(guān)鍵幀圖像。

盡管未示出,根據(jù)本發(fā)明的無(wú)人機(jī)交互裝置還可以包括預(yù)處理單元,用于對(duì)所述關(guān)鍵幀提取單元12提取的關(guān)鍵幀圖像進(jìn)行圖像變換和濾波預(yù)處理,將預(yù)處理后的關(guān)鍵幀圖像輸入到所述姿態(tài)估計(jì)單元13以識(shí)別出對(duì)象姿態(tài)。

在本發(fā)明的優(yōu)選實(shí)施例中,預(yù)處理單元可以是關(guān)鍵幀提取單元12的一部分(即子模塊或子單元);在其他的實(shí)施例中,預(yù)處理單元也可以是姿態(tài)估計(jì)單元13的一部分。本領(lǐng)域技術(shù)人員應(yīng)該理解,預(yù)處理單元也可以獨(dú)立于關(guān)鍵幀提取單元12和姿態(tài)估計(jì)單元13。

預(yù)處理單元負(fù)責(zé)對(duì)包含對(duì)象的圖像(關(guān)鍵幀圖像)做變換和濾波處理。由于無(wú)人機(jī)攝像頭11拍攝到的圖像可能出現(xiàn)噪聲大、變形、模糊等情況,因此造成系統(tǒng)的不穩(wěn)定。對(duì)無(wú)人機(jī)拍攝圖像做預(yù)處理,可以有效地達(dá)到降噪、矯正形變、去除模糊等目的。

上文中提到的對(duì)象可以是人體、假體(例如人造的假人、稻草人或可以模仿人體的其他任何物體)、動(dòng)物體或者能夠利用姿態(tài)與無(wú)人機(jī)交互從而控制無(wú)人機(jī)操作的其他任何對(duì)象。

在根據(jù)本發(fā)明的優(yōu)選實(shí)施例中,所述對(duì)象是人體。也就是說(shuō),關(guān)鍵幀提取單元12負(fù)責(zé)檢測(cè)輸入視頻中的人體信息,用矩形框選出視頻中的人,提取出其中的一張圖像作為關(guān)鍵幀輸出。關(guān)鍵幀提取單元12使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體檢測(cè)算法可以快速有效地從輸入視頻中檢測(cè)出人。可選地,預(yù)處理單元負(fù)責(zé)對(duì)包含人的圖像(關(guān)鍵幀圖像,即行人圖像)做變換和濾波處理。

在根據(jù)本發(fā)明的實(shí)施例中,姿態(tài)估計(jì)單元12進(jìn)一步包括:人體關(guān)鍵點(diǎn)定位單元,其使用深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法獲取關(guān)鍵幀圖像中的人體關(guān)鍵點(diǎn)位置信息;以及姿態(tài)判斷單元,其將獲取的人體關(guān)鍵點(diǎn)位置信息對(duì)應(yīng)為人體姿態(tài)。

人體關(guān)鍵點(diǎn)定位單元使用深度神經(jīng)網(wǎng)絡(luò)算法負(fù)責(zé)首先從輸入的行人圖像中提取出人體骨骼關(guān)鍵點(diǎn),人體骨骼關(guān)鍵點(diǎn)包括但不限于:人體頭頂、頸部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左腳踝、右腳踝等。人體關(guān)鍵點(diǎn)定位單元的輸出為上述人體骨骼關(guān)鍵點(diǎn)在輸入圖像中的二維坐標(biāo)。

姿態(tài)判斷單元負(fù)責(zé)對(duì)上述人體骨骼關(guān)鍵點(diǎn)在輸入圖像中的二維坐標(biāo)做判斷,與預(yù)設(shè)的人體姿態(tài)做比較,對(duì)應(yīng)至其中一種預(yù)設(shè)的人體姿態(tài)中。預(yù)設(shè)的人體姿態(tài)包括但不限于:右手向右揮動(dòng)、左手向左揮動(dòng)、雙手向前平推、雙手向后收回、無(wú)人機(jī)起飛指令人體姿態(tài)、無(wú)人機(jī)降落指令人體姿態(tài)、開(kāi)始交互指令人體姿態(tài)、結(jié)束交互指令姿態(tài)、無(wú)人機(jī)拍攝指令人體姿態(tài)等。

本領(lǐng)域技術(shù)人員應(yīng)該理解,人體姿態(tài)的具體數(shù)量和具體樣式可以取決于無(wú)人機(jī)控制的需求。例如,當(dāng)無(wú)人機(jī)控制較為復(fù)雜時(shí),需要較多的人體姿態(tài),進(jìn)行不同的控制。另外,當(dāng)人體姿態(tài)較為接近時(shí),可能會(huì)引起判斷失誤,從而導(dǎo)致不同的控制結(jié)果,因此,人體姿態(tài)的具體樣式應(yīng)保證有一定區(qū)別,不至于混淆。

根據(jù)本發(fā)明的實(shí)施例,無(wú)人機(jī)操作控制單元14也可以被稱為無(wú)人機(jī)飛行控制模塊,負(fù)責(zé)將人體姿態(tài)估計(jì)單元13估計(jì)得到的人體姿態(tài)對(duì)應(yīng)為無(wú)人機(jī)飛行控制指令,包括但不限于:向右飛行指令,向左飛行指令、前進(jìn)指令、后退指令、起飛指令、降落指令、開(kāi)始交互指令、結(jié)束交互指令、拍攝指令等。并且,為了控制過(guò)程中的安全性、實(shí)用性考慮,設(shè)置一對(duì)無(wú)人機(jī)開(kāi)始交互和結(jié)束交互指令。

在圖1中,盡管將無(wú)人機(jī)操作控制單元14示出為無(wú)人機(jī)的圖形,但本領(lǐng)域技術(shù)人員應(yīng)該理解,這里的無(wú)人機(jī)操作控制單元14可以是無(wú)人機(jī)的一個(gè)組成部件,也可以獨(dú)立于無(wú)人機(jī)之外,通過(guò)無(wú)線信號(hào)對(duì)無(wú)人機(jī)進(jìn)行控制。進(jìn)一步,圖1中的其他單元中,除了拍攝單元11一般應(yīng)在無(wú)人機(jī)上攜帶,隨著無(wú)人機(jī)的飛行而拍攝視頻以外,關(guān)鍵幀提取單元12和姿態(tài)估計(jì)單元13既可以是無(wú)人機(jī)上的組件,也可以是獨(dú)立于無(wú)人機(jī)之外,通過(guò)無(wú)線信號(hào)從無(wú)人機(jī)接收拍攝的視頻,從而完成關(guān)鍵幀提取與姿態(tài)估計(jì)的功能。

圖2是根據(jù)本發(fā)明的無(wú)人機(jī)交互方法的流程圖。

如圖2中所示,一種基于深度學(xué)習(xí)姿態(tài)估計(jì)的無(wú)人機(jī)交互方法20開(kāi)始于步驟s1,即拍攝對(duì)象視頻。具體地說(shuō),通過(guò)無(wú)人機(jī)攝像頭拍攝人體視頻(包含人體的視頻)。

在步驟s2,從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像。具體地說(shuō),每隔一定時(shí)間間隔,從人體視頻中提取一張關(guān)鍵幀,并進(jìn)行預(yù)處理。

在根據(jù)本發(fā)明的優(yōu)選實(shí)施例中,步驟s2進(jìn)一步包括:使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體檢測(cè)算法,從攝像頭視頻中檢測(cè)提取出包含人體的圖像關(guān)鍵幀。

在步驟s3,基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法,針對(duì)提取的關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài)。具體地說(shuō),將關(guān)鍵幀輸入至人體姿態(tài)估計(jì)單元,使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法識(shí)別出對(duì)應(yīng)的人體姿態(tài)。

根據(jù)本發(fā)明的優(yōu)選實(shí)施例,在步驟s2和步驟s3之間,可以進(jìn)一步包括預(yù)處理的步驟。具體地說(shuō),在從拍攝的對(duì)象視頻中提取關(guān)于對(duì)象的關(guān)鍵幀圖像之后,對(duì)提取的關(guān)鍵幀圖像進(jìn)行圖像變換和濾波預(yù)處理,然后針對(duì)預(yù)處理后的關(guān)鍵幀圖像,識(shí)別出對(duì)象姿態(tài)。

這里所述的對(duì)象可以是人體。如上所述,對(duì)象也可以是假體或動(dòng)物體等等。

預(yù)處理包括對(duì)提取出的人體圖像進(jìn)行降噪、矯正、去除運(yùn)動(dòng)模糊等處理。如上所述,對(duì)無(wú)人機(jī)拍攝的圖像做預(yù)處理,可以有效地達(dá)到降噪、矯正形變、去除模糊等目的。

本領(lǐng)域技術(shù)人員應(yīng)理解,盡管在以上的描述中,預(yù)處理步驟被描述為在步驟s2和步驟s3之間,但是,預(yù)處理步驟也可以被視為步驟s2或步驟s3的一個(gè)組成成分,即子步驟。例如,可以認(rèn)為提取關(guān)鍵幀的步驟,即步驟s2,分為提取關(guān)鍵幀和對(duì)關(guān)鍵幀進(jìn)行預(yù)處理的兩個(gè)子步驟。

在本發(fā)明的優(yōu)選實(shí)施例中,步驟s3中,將關(guān)鍵幀輸入至人體姿態(tài)估計(jì)單元,使用基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法識(shí)別出對(duì)應(yīng)的人體姿態(tài),具體方法為:使用深度卷積神經(jīng)網(wǎng)絡(luò)算法定位輸入圖像中的人體關(guān)鍵點(diǎn)位置信息,人體關(guān)鍵點(diǎn)包括但不限于:人體頭頂、頸部、左肩、右肩、左肘、右肘、左手腕、右手腕、左胯、右胯、左膝、右膝、左腳踝、右腳踝。然后,將得到的人體關(guān)鍵點(diǎn)位置信息對(duì)應(yīng)為人體姿態(tài),人體姿態(tài)包括但不限于:右手向右揮動(dòng)、左手向左揮動(dòng)、雙手向前平推、雙手向后收回等。

在步驟s4,將識(shí)別出的對(duì)象姿態(tài)轉(zhuǎn)化為控制指令,從而控制無(wú)人機(jī)的操作。

在根據(jù)本發(fā)明的優(yōu)選實(shí)施例中,在步驟s4中,右手向右揮動(dòng)、左手向左揮動(dòng)、雙手向前平推、雙手向后收回等人體姿態(tài),分別對(duì)應(yīng)無(wú)人機(jī)向右飛行,向左飛行,前進(jìn)、后退。無(wú)人機(jī)控制指令包括但不限于:向右飛行指令,向左飛行指令、前進(jìn)指令、后退指令、起飛指令、降落指令、開(kāi)始交互指令、結(jié)束交互指令、拍攝指令等。

在根據(jù)本發(fā)明的優(yōu)選實(shí)施例中,在步驟s4中,設(shè)置一對(duì)開(kāi)始交互和結(jié)束交互的動(dòng)作指令,開(kāi)始交互指令表示開(kāi)始動(dòng)作,結(jié)束交互指令表示動(dòng)作結(jié)束。

步驟s4結(jié)束之后,方法20可以結(jié)束。

特別地,對(duì)于本發(fā)明的優(yōu)選實(shí)施例中的步驟s2中所使用的深度卷積神經(jīng)網(wǎng)絡(luò)算法,網(wǎng)絡(luò)輸入為視頻幀,經(jīng)網(wǎng)絡(luò)自底向上依次計(jì)算各層輸出,最終層輸出為預(yù)測(cè)的視頻幀中行人所在矩形框的坐標(biāo),其網(wǎng)絡(luò)權(quán)重需要預(yù)先訓(xùn)練得到,訓(xùn)練方法t1包括:

t11、預(yù)先收集無(wú)人機(jī)攝像頭拍攝的視頻,作為候選的訓(xùn)練集;

t12、人工標(biāo)注出訓(xùn)練集視頻中人體所在矩形框坐標(biāo),作為訓(xùn)練的標(biāo)注數(shù)據(jù);

t13、網(wǎng)絡(luò)前向傳播,自底向上依次計(jì)算深度卷積神經(jīng)網(wǎng)絡(luò)各層的輸出值,將最后一層的輸出值同標(biāo)注數(shù)據(jù)做比較,計(jì)算得到損失值;

t14、網(wǎng)絡(luò)反向傳播,基于各層權(quán)重和損失值自頂向下依次計(jì)算各層損失及梯度方向,根據(jù)梯度下降法更新網(wǎng)絡(luò)權(quán)重;

t15、循環(huán)執(zhí)行t13、t14直至網(wǎng)絡(luò)收斂,最終所得網(wǎng)絡(luò)權(quán)重即為s2中用于人體檢測(cè)的深度卷積神經(jīng)網(wǎng)絡(luò)。

特別地,對(duì)于步驟s3中所使用的深度卷積神經(jīng)網(wǎng)絡(luò)算法,網(wǎng)絡(luò)輸入為包含人體的圖像,經(jīng)網(wǎng)絡(luò)自底向上依次計(jì)算各層輸出,最終層輸出各個(gè)關(guān)鍵點(diǎn)的坐標(biāo)預(yù)測(cè)值,其網(wǎng)絡(luò)權(quán)重需要預(yù)先訓(xùn)練得到,訓(xùn)練方法t2包括:

t21、預(yù)先收集無(wú)人機(jī)拍攝的人體圖片集,作為候選的訓(xùn)練集;

t22、人工標(biāo)注出訓(xùn)練集圖像中人體關(guān)鍵點(diǎn)所在的坐標(biāo),作為訓(xùn)練的標(biāo)注數(shù)據(jù);

t23、網(wǎng)絡(luò)前向傳播,自底向上依次計(jì)算深度卷積神經(jīng)網(wǎng)絡(luò)各層的輸出值,將最后一層的輸出值同標(biāo)注數(shù)據(jù)做比較,計(jì)算得到損失值;

t24、網(wǎng)絡(luò)反向傳播,基于各層權(quán)重和損失值自頂向下依次計(jì)算各層損失及梯度方向,根據(jù)梯度下降法更新網(wǎng)絡(luò)權(quán)重;

t25、循環(huán)執(zhí)行t23、t24直至網(wǎng)絡(luò)收斂,最終所得網(wǎng)絡(luò)權(quán)重即為s3中用于人體關(guān)鍵點(diǎn)定位的深度卷積神經(jīng)網(wǎng)絡(luò)。

在以上的描述中,本發(fā)明提供了一種新穎的無(wú)人機(jī)交互裝置與方法,其創(chuàng)新性的特征不僅包括權(quán)利要求中所述的技術(shù)特征,還包括以下這些內(nèi)容:

1、基于深度學(xué)習(xí)。根據(jù)以上的描述,在本發(fā)明的技術(shù)方案中,在進(jìn)行姿態(tài)估計(jì)時(shí),利用了卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí),從而能夠快速、準(zhǔn)確地從大量數(shù)據(jù)中準(zhǔn)確識(shí)別出人體姿態(tài),從而與無(wú)人機(jī)進(jìn)行交互。此外,在關(guān)鍵幀提取時(shí),也可以利用卷及神經(jīng)網(wǎng)絡(luò)算法,從而快速提取、識(shí)別出含有人體的關(guān)鍵幀圖像。

2、基于人體姿態(tài)估計(jì)。根據(jù)以上的描述,在本發(fā)明的技術(shù)方案中,通過(guò)判斷出視頻中行人的人體姿態(tài),從而對(duì)應(yīng)于不同的無(wú)人機(jī)操作指令。更具體地說(shuō),本發(fā)明所利用的人體姿態(tài),是根據(jù)包括人體各關(guān)節(jié)在內(nèi)的人體關(guān)鍵點(diǎn)的定位而定義的。也就是說(shuō),本發(fā)明中所述的人體姿態(tài),既不是簡(jiǎn)單的手勢(shì),也不是簡(jiǎn)單的運(yùn)動(dòng)軌跡或運(yùn)動(dòng)方向,而是利用人體關(guān)鍵點(diǎn)的位置所呈現(xiàn)出的信號(hào)表達(dá)。

在實(shí)踐中,對(duì)手勢(shì)進(jìn)行識(shí)別以及通過(guò)手勢(shì)進(jìn)行人機(jī)交互的問(wèn)題在于,手勢(shì)在無(wú)人機(jī)所拍攝的畫(huà)幅中占比較小,既難以在視頻中進(jìn)行畫(huà)面提取,也難以在提取的畫(huà)面中進(jìn)行精細(xì)識(shí)別,因此只能在特定場(chǎng)合應(yīng)用;而且,手勢(shì)的數(shù)量較少,具體樣式易于混淆。而本發(fā)明的無(wú)人機(jī)交互技術(shù)中,人體畫(huà)面易于在視頻中提取,人體姿態(tài)也易于識(shí)別。特別是,由于人體姿態(tài)取決于人體關(guān)鍵點(diǎn)的位置,可以使得人體姿態(tài)的具體數(shù)目和具體樣式能夠根據(jù)實(shí)際需要而進(jìn)行定義,應(yīng)用范圍更加廣泛。

此外,對(duì)運(yùn)動(dòng)趨勢(shì)和運(yùn)動(dòng)方向進(jìn)行識(shí)別從而進(jìn)行人機(jī)交互的問(wèn)題在于,這樣的人機(jī)交互所提供的信息太過(guò)于簡(jiǎn)單,僅僅是個(gè)運(yùn)動(dòng)趨勢(shì)和方向,由此只能讓無(wú)人機(jī)進(jìn)行與運(yùn)動(dòng)方向有關(guān)的操作,例如跟蹤。而本發(fā)明的無(wú)人機(jī)交互技術(shù)中,由于人體姿態(tài)取決于人體關(guān)鍵點(diǎn)的位置,可以使得人體姿態(tài)的具體數(shù)目和具體樣式能夠根據(jù)實(shí)際需要而進(jìn)行定義,從而使得對(duì)無(wú)人機(jī)的控制更加全面與精細(xì)。

3、拍攝單元無(wú)需特殊攝像頭。根據(jù)以上的描述,拍攝單元即攝像頭的作用僅在于拍攝二維視頻,后續(xù)的操作都基于這個(gè)二維視頻即可。

有些體感游戲使用特殊圖像采集設(shè)備,例如采用rgb-depth的功能,從而不僅采集二維圖像,而且感應(yīng)圖像的深度,從而在二維圖像的基礎(chǔ)上提供對(duì)象的深度信息,由此進(jìn)行人體姿態(tài)識(shí)別與動(dòng)作控制。還有些應(yīng)用中需要用到雙目攝像頭,從而在二維圖像的基礎(chǔ)上,利用雙目視差的原理,增加了視覺(jué)立體感的效果,也類似于增加了深度信息。然而,在本發(fā)明中,只需要識(shí)別人體的關(guān)鍵點(diǎn)位置信息,即這些關(guān)鍵點(diǎn)的二維坐標(biāo),而不需要深度信息或立體信息。因此,本發(fā)明可以使用常規(guī)的攝像頭,無(wú)需對(duì)無(wú)人機(jī)的攝像頭進(jìn)行改造,直接利用無(wú)人機(jī)所拍攝的視頻即可達(dá)到交互的目的。

4、無(wú)人機(jī)控制內(nèi)容。根據(jù)以上的描述,基于人體姿態(tài)進(jìn)行無(wú)人機(jī)交互控制,不僅能控制無(wú)人機(jī)的飛行,而且還能控制無(wú)人機(jī)進(jìn)行飛行以外的其他操作。這些飛行以外的其他操作包括但不限于:拍攝、射擊、拋投等等無(wú)人機(jī)能夠完成的動(dòng)作。而且,這樣的操作可以與飛行操作相結(jié)合,都基于對(duì)人體姿態(tài)或人體姿態(tài)的組合的識(shí)別來(lái)進(jìn)行操控。

因此,除了權(quán)利要求書(shū)中的獨(dú)立權(quán)利要求和從屬權(quán)利要求之外,本領(lǐng)域技術(shù)人員還應(yīng)理解,本發(fā)明的優(yōu)選實(shí)施方式可能包含下述的技術(shù)特征:

對(duì)象姿態(tài)取決于對(duì)象關(guān)鍵點(diǎn)的位置信息。更具體地,人體姿態(tài)取決于人體關(guān)鍵點(diǎn)的位置信息。優(yōu)選地,人體關(guān)鍵點(diǎn)包括人身體上的多個(gè)關(guān)節(jié)。

拍攝單元是二維圖像拍攝單元。即,其所拍攝的對(duì)象視頻是二維視頻。

無(wú)人機(jī)的操作包括無(wú)人機(jī)的飛行操作和/或非飛行操作。非飛行操作包括以下至少一種:拍攝、射擊、拋投。

無(wú)人機(jī)操作控制單元可以將識(shí)別出的對(duì)象姿態(tài)的組合轉(zhuǎn)化為控制指令,從而控制無(wú)人機(jī)的操作。例如,行人可以連續(xù)做出兩個(gè)或兩個(gè)以上的姿態(tài),姿態(tài)估計(jì)單元識(shí)別出兩個(gè)或兩個(gè)以上的姿態(tài),無(wú)人機(jī)操作控制單元將識(shí)別出兩個(gè)或兩個(gè)以上的姿態(tài)作為對(duì)象姿態(tài)組合而轉(zhuǎn)化為相應(yīng)的控制指令,從而控制無(wú)人機(jī)的操作。

上面已經(jīng)描述了本發(fā)明的各種實(shí)施例和實(shí)施情形。但是,本發(fā)明的精神和范圍不限于此。本領(lǐng)域技術(shù)人員將能夠根據(jù)本發(fā)明的教導(dǎo)而做出更多的應(yīng)用,而這些應(yīng)用都在本發(fā)明的范圍之內(nèi)。

也就是說(shuō),本發(fā)明的上述實(shí)施例僅僅是為清楚說(shuō)明本發(fā)明所做的舉例,而非對(duì)本發(fā)明實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其他不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、替換或改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 定安县| 新津县| 乐陵市| 宁国市| 巢湖市| 澄城县| 永嘉县| 临夏市| 丹寨县| 抚顺市| 谢通门县| 汨罗市| 邛崃市| 永寿县| 信丰县| 长顺县| 保定市| 三穗县| 乳源| 盐城市| 临高县| 资阳市| 武山县| 侯马市| 浦城县| 邵阳市| 田林县| 姚安县| 图木舒克市| 赣州市| 珠海市| 灵山县| 喜德县| 广汉市| 湄潭县| 广宁县| 寿宁县| 塘沽区| 乌审旗| 平定县| 大埔区|