本發(fā)明屬于無(wú)人機(jī)自主導(dǎo)航,涉及一種基于環(huán)境復(fù)雜度的端到端無(wú)人機(jī)自主控制方法。
背景技術(shù):
1、在過(guò)去十年中,自主無(wú)人機(jī)系統(tǒng)在測(cè)量、搜索和救援等方面的使用需求呈指數(shù)級(jí)增長(zhǎng)。隨著這些應(yīng)用的興起,需要所設(shè)計(jì)的控制算法對(duì)復(fù)雜環(huán)境中無(wú)人機(jī)的運(yùn)動(dòng)模糊、高動(dòng)態(tài)范圍、模型不確定性、空氣動(dòng)力學(xué)等干擾具有高度魯棒性和實(shí)時(shí)性。傳統(tǒng)的無(wú)人機(jī)導(dǎo)航任務(wù)被分解為感知、規(guī)劃和控制三個(gè)部分。感知模塊通過(guò)相機(jī)和慣性導(dǎo)航為無(wú)人機(jī)提供狀態(tài)估計(jì),但相機(jī)易受光照條件和無(wú)紋理環(huán)境的影響,且無(wú)人機(jī)的高速平移和旋轉(zhuǎn)會(huì)導(dǎo)致大的光流,使得對(duì)圖像的特征檢測(cè)與跟蹤變得困難,導(dǎo)致在短時(shí)間內(nèi)慣性導(dǎo)航狀態(tài)估計(jì)出現(xiàn)大量漂移。依次執(zhí)行感知、規(guī)劃和控制子任務(wù)會(huì)導(dǎo)致信號(hào)處理延遲增加,不適用于無(wú)人機(jī)高速飛行。
2、使用神經(jīng)網(wǎng)絡(luò)分別代替感知、規(guī)劃、控制模塊能夠直接處理高維感知信號(hào),但大多數(shù)基于學(xué)習(xí)的感知網(wǎng)絡(luò)部署到未經(jīng)數(shù)據(jù)集訓(xùn)練過(guò)的環(huán)境中,泛化效果較差,且獨(dú)立的模塊也會(huì)導(dǎo)致系統(tǒng)的復(fù)合誤差和延遲。目前許多學(xué)者將傳感器端獲得的觀測(cè)信息直接映射到自動(dòng)駕駛車輛控制端,對(duì)建模的不確定性和系統(tǒng)延遲具有很好的魯棒性,且部署過(guò)程簡(jiǎn)潔,是近幾年自動(dòng)駕駛領(lǐng)域常用的控制方法。不同于自動(dòng)駕駛,無(wú)人機(jī)的高速控制需要適應(yīng)不同或未知的環(huán)境,因此,需要對(duì)無(wú)人機(jī)的控制方法進(jìn)行進(jìn)一步改進(jìn),以實(shí)現(xiàn)保證飛行效率的前提下,增強(qiáng)其在復(fù)雜環(huán)境中的安全性與魯棒性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在提出一種基于環(huán)境復(fù)雜度的端到端無(wú)人機(jī)自主控制方法,通過(guò)使用深度神經(jīng)網(wǎng)絡(luò)結(jié)合強(qiáng)化學(xué)習(xí)技術(shù),在復(fù)雜動(dòng)態(tài)環(huán)境中根據(jù)環(huán)境復(fù)雜度選擇適當(dāng)?shù)亩说蕉丝刂颇P秃筒呗裕越鉀Q現(xiàn)有無(wú)人機(jī)在復(fù)雜環(huán)境下飛行時(shí)的視覺(jué)數(shù)據(jù)處理、動(dòng)態(tài)避障和路徑規(guī)劃的效率低下問(wèn)題。
2、為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:一種基于環(huán)境復(fù)雜度的端到端無(wú)人機(jī)自主控制方法,包括以下步驟:
3、步驟一:對(duì)無(wú)人機(jī)高速飛行環(huán)境進(jìn)行仿真模擬,采集無(wú)人機(jī)飛行過(guò)程中由視覺(jué)傳感器獲取的圖像數(shù)據(jù)并進(jìn)行預(yù)處理;
4、步驟二:基于圖像數(shù)據(jù)對(duì)第一卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成得到的第一卷積神經(jīng)網(wǎng)絡(luò)作為環(huán)境向量獲取模型;
5、步驟三:實(shí)時(shí)獲取無(wú)人機(jī)飛行過(guò)程中連續(xù)采集的圖像,并輸入所述環(huán)境向量獲取模型得到對(duì)應(yīng)的環(huán)境向量,基于環(huán)境向量計(jì)算環(huán)境變化率,并基于環(huán)境變化率計(jì)算環(huán)境復(fù)雜度,環(huán)境變化率的計(jì)算公式為:
6、;
7、其中,為環(huán)境變化率,、、分別表示、和時(shí)刻的環(huán)境向量;
8、步驟四:根據(jù)計(jì)算得到的環(huán)境復(fù)雜度,判斷環(huán)境類型;并基于不同的環(huán)境類型,采用不同的控制模型對(duì)無(wú)人機(jī)進(jìn)行控制。
9、環(huán)境復(fù)雜度的計(jì)算公式為:
10、;
11、其中,、、為加權(quán)系數(shù),為當(dāng)前視野內(nèi)的障礙物數(shù)量,為障礙物的分布,為環(huán)境變化率。
12、所述步驟一中,基于flightmare仿真器實(shí)現(xiàn)無(wú)人機(jī)高速飛行環(huán)境進(jìn)行仿真模擬;
13、所述預(yù)處理包括對(duì)圖像進(jìn)行裁剪、縮放、歸一化、數(shù)據(jù)增強(qiáng)操作、標(biāo)注。
14、所述步驟二中,對(duì)圖像數(shù)據(jù)進(jìn)行特征提取和特征融合,得到特征向量,并基于特征向量對(duì)第一卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到的特征向量為:,其中,分別表示環(huán)境中的障礙物數(shù)量、分布、大小及動(dòng)態(tài)屬性。
15、所述步驟四中,各個(gè)控制模型基于第二卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),用于提取無(wú)人機(jī)飛行過(guò)程中采集的圖像時(shí)間序列信息,并進(jìn)行飛行路徑規(guī)劃。
16、所述步驟四中,各個(gè)控制模型中,所述第二卷積神經(jīng)網(wǎng)絡(luò)的總體獎(jiǎng)懲函數(shù)為:
17、;
18、其中,、和分別表示距離獎(jiǎng)勵(lì)、避障懲罰、動(dòng)態(tài)適應(yīng)獎(jiǎng)勵(lì),其表達(dá)式分別為:
19、;
20、;
21、;
22、其中,是增益系數(shù),表示無(wú)人機(jī)當(dāng)前位置,表示目標(biāo)點(diǎn)位置;為避障懲罰的權(quán)重系數(shù),表示無(wú)人機(jī)到障礙物的位置,表示安全距離,為動(dòng)態(tài)適應(yīng)獎(jiǎng)勵(lì)權(quán)重系數(shù),表示障礙物的速度向量,表示無(wú)人機(jī)的避障方向。
23、所述步驟四中,判斷環(huán)境類型的具體方法為:
24、若,則判斷為低復(fù)雜度環(huán)境;
25、若,則判斷為中等復(fù)雜度環(huán)境;
26、若,則判斷為高復(fù)雜度環(huán)境;
27、其中,和為第一經(jīng)驗(yàn)閾值和第二經(jīng)驗(yàn)閾值,<。
28、所述步驟四中,基于不同的環(huán)境類型,采用不同的控制模型對(duì)無(wú)人機(jī)進(jìn)行控制的具體方法為:
29、若為低復(fù)雜度環(huán)境,則采用低復(fù)雜度控制模型,控制公式為:
30、;
31、其中,為無(wú)人機(jī)的控制指令,表示低復(fù)雜度控制模型的控制函數(shù),為當(dāng)前時(shí)刻的圖像輸入;
32、若為中等復(fù)雜度環(huán)境,則采用中復(fù)雜度控制模型,控制公式為:
33、;
34、其中,表示中復(fù)雜度控制模型的控制函數(shù),表示當(dāng)前環(huán)境特征向量;
35、若為高復(fù)雜度環(huán)境,則采用高復(fù)雜度控制模型,控制公式為:
36、;
37、其中,表示高復(fù)雜度控制模型的控制函數(shù),表示包含時(shí)間序列信息的圖像序列,和分別表示imu數(shù)據(jù)的角速度和加速度。
38、所述步驟四中,低復(fù)雜度模型切換到中等復(fù)雜度模型時(shí)的控制公式為:
39、,;
40、中復(fù)雜度模型切換到高復(fù)雜度模型時(shí)的控制公式為:
41、,;
42、高復(fù)雜度模型切換到中復(fù)雜度模型時(shí)的控制公式為:
43、,;
44、中復(fù)雜度模型切換到低復(fù)雜度模型的控制公式為:
45、,;
46、其中,、、、分別表示對(duì)應(yīng)的平滑因子,隨時(shí)間動(dòng)態(tài)變化。
47、本發(fā)明與現(xiàn)有技術(shù)相比具有以下有益效果:
48、1、本發(fā)明提供了一種基于環(huán)境復(fù)雜度的端到端無(wú)人機(jī)自主控制方法,通過(guò)仿真平臺(tái)采集大量無(wú)人機(jī)視覺(jué)數(shù)據(jù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以準(zhǔn)確提取環(huán)境向量,然后將包括距離獎(jiǎng)勵(lì)、避障懲罰、動(dòng)態(tài)適應(yīng)獎(jiǎng)勵(lì)的總體獎(jiǎng)懲函數(shù)作為控制模型中卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù),卷積神經(jīng)網(wǎng)絡(luò)可以在訓(xùn)練過(guò)程中學(xué)習(xí)避障和軌跡跟蹤的最優(yōu)策略,最終直接輸出控制指令(如速度、角速度、推力、舵角),以實(shí)現(xiàn)精準(zhǔn)的避障和軌跡控制,從而顯著提升無(wú)人機(jī)在復(fù)雜環(huán)境中的響應(yīng)速度和決策準(zhǔn)確性使無(wú)人機(jī)在各種環(huán)境中實(shí)現(xiàn)端到端的自主飛行,因此,本發(fā)明通過(guò)實(shí)時(shí)視覺(jué)數(shù)據(jù)和卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確評(píng)價(jià)環(huán)境復(fù)雜度,提高了環(huán)境復(fù)雜度評(píng)估的速度和準(zhǔn)確性;
49、2、本發(fā)明基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行環(huán)境特征向量特征提取并計(jì)算環(huán)境變化率,然后基于障礙物數(shù)量、分布密度、動(dòng)態(tài)環(huán)境變化率等因素進(jìn)行環(huán)境復(fù)雜度劃分,最后基于環(huán)境復(fù)雜度選擇不同的控制模型和控制策略,大大提高了無(wú)人機(jī)控制的處理速度,而且可以兼顧無(wú)人機(jī)控制的速度和精度;
50、3、本發(fā)明在不同的控制模型切換時(shí),采用軟切換的方式,可以保證切換過(guò)程的平穩(wěn)過(guò)渡,提高了無(wú)人機(jī)控制的平穩(wěn)度,可以在保證飛行效率的前提下,增強(qiáng)無(wú)人機(jī)在復(fù)雜環(huán)境中的安全性與魯棒性。
51、綜上所述,本發(fā)明實(shí)現(xiàn)了不同復(fù)雜度環(huán)境中的高效導(dǎo)航,確保了無(wú)人機(jī)的飛行安全和導(dǎo)航精度,尤其適用于多變且密集的飛行場(chǎng)景。