麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于離線強化學(xué)習(xí)的無人機自主特技飛行的通用方法與流程

文檔序號:41761603發(fā)布日期:2025-04-29 18:30閱讀:4來源:國知局
一種基于離線強化學(xué)習(xí)的無人機自主特技飛行的通用方法與流程

本發(fā)明屬于無人機,具體涉及一種基于離線強化學(xué)習(xí)的無人機自主特技飛行的通用方法。


背景技術(shù):

1、無人機自主特技飛行展示國家在航空技術(shù)上的先進(jìn)性和自主研發(fā)能力,特技飛行展示無人機的機動性和性能,作為航空展和軍事演習(xí)的一部分,向國際社會展示中國的軍事成就,增強外界對軍事實力的認(rèn)知,提升國家的威懾力。

2、現(xiàn)有實現(xiàn)特技飛行的方法大概有以下幾種:

3、1、飛行員直接控制無人機的飛行狀態(tài),飛行員能夠?qū)崟r調(diào)整無人機的姿態(tài)、速度和方向,以便快速響應(yīng)環(huán)境變化和實施復(fù)雜的飛行動作。在特技飛行中,飛行員需要具備高水平的操控技巧和豐富的飛行經(jīng)驗,才能確保無人機在高動態(tài)和高風(fēng)險的條件下穩(wěn)定飛行。

4、2、交互式自主特技飛行方法,包括:獲取用戶發(fā)送的關(guān)鍵姿態(tài)序列對以及初始位置,其中所述關(guān)鍵姿態(tài)序列對包括關(guān)鍵姿態(tài)的位置以及對應(yīng)的推力方向;根據(jù)用戶指定的所述初始位置生成首尾相接的飛行走廊,形成安全空間,用于表示期望軌跡的拓?fù)湫螤睿唤⒍嗄繕?biāo)優(yōu)化問題,其中該問題的目標(biāo)函數(shù)包括以下四類:軌跡自身的光滑程度以及整條軌跡執(zhí)行所需要的時間、無人機動力學(xué)約束、安全性和拓?fù)浼s束、特技約束;基于所述飛行走廊,對所述多目標(biāo)優(yōu)化問題進(jìn)行求解,得到優(yōu)化的特技飛行軌跡。

5、3、基于深度模仿學(xué)習(xí)的無人機自主特技飛行方法,包括獲取無人機飛行數(shù)據(jù)構(gòu)建無人機的系統(tǒng)模型并確認(rèn)系統(tǒng)模型數(shù)據(jù);利用系統(tǒng)模型數(shù)據(jù)構(gòu)建數(shù)據(jù)緩存器;通過無人機特定和飛行數(shù)據(jù)構(gòu)建無人機自主特技飛行的深度模擬學(xué)習(xí)網(wǎng)絡(luò)模型;對飛行數(shù)據(jù)進(jìn)行處理后對深度模擬學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到無人機自主特技飛行的控制量深度模擬學(xué)習(xí)網(wǎng)絡(luò)模型;將數(shù)據(jù)緩存器、控制量深度模擬學(xué)習(xí)網(wǎng)絡(luò)模型、無人機進(jìn)行連接。本發(fā)明方法能夠?qū)崿F(xiàn)真正的無人機自主特技飛行,且控制精度高、穩(wěn)定性好。

6、這三種技術(shù)的共同缺點在于:三種技術(shù)均屬于特技動作的定制化技術(shù),即:對于不同的特技動作,方法不通用,需要重新投入大量的成本。技術(shù)1,對于新的特技飛行動作,飛行員需要重新不斷地練習(xí)此動作;技術(shù)2,技術(shù)3分別為針對特定特技飛行軌跡的優(yōu)化求解與模仿,不具有通用性。


技術(shù)實現(xiàn)思路

1、為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:一種基于離線強化學(xué)習(xí)的無人機自主特技飛行的通用方法,包括如下步驟:

2、s1、收集無人機的歷史飛行數(shù)據(jù),收集時盡量覆蓋無人機飛行中的各種姿態(tài);

3、s2、篩選無人機關(guān)鍵的觀測量、動作量,對觀測量和動作量進(jìn)行處理,構(gòu)建符合馬爾科夫決策過程的飛行數(shù)據(jù);

4、s3、構(gòu)建無人機空氣動力學(xué)網(wǎng)絡(luò)模型;

5、s4、利用符合馬爾科夫決策過程的飛行數(shù)據(jù),對無人機空氣動力學(xué)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到貼合真實數(shù)據(jù)的無人機空氣動力學(xué)的網(wǎng)絡(luò)模型;

6、s5、在貼合真實數(shù)據(jù)的無人機空氣動力學(xué)的網(wǎng)絡(luò)模型中利用強化學(xué)習(xí)算法訓(xùn)練策略模型;

7、s6、將特定的特技飛行軌跡處理后輸入訓(xùn)練后的策略模型,模型輸出動作,指導(dǎo)無人機實現(xiàn)特定的特技飛行動作。

8、本方法的實現(xiàn)邏輯具體為:

9、在步驟s1中,收集無人機的歷史飛行數(shù)據(jù),收集時盡量覆蓋無人機飛行中的各種姿態(tài);

10、收集無人機的歷史飛行數(shù)據(jù)是一個重要的任務(wù),為后續(xù)飛機空氣動力學(xué)網(wǎng)絡(luò)模型克隆、優(yōu)化飛行控制算法和訓(xùn)練特技飛行策略提供數(shù)據(jù)支撐。首先,使用ardupilot作為飛行控制系統(tǒng),可以通過其提供的日志記錄功能來實現(xiàn)數(shù)據(jù)收集。在飛行前,需要確保無人機的固件已經(jīng)正確安裝并配置。可以通過mission?planner等地面站軟件設(shè)置飛行任務(wù),確保飛行路徑覆蓋多種飛行姿態(tài),包括懸停、平飛、上升、下降和轉(zhuǎn)向等。

11、在飛行過程中,通過設(shè)置參數(shù)來啟用詳細(xì)的日志記錄功能,例如使用ˋlog_bitmaskˋ參數(shù)來選擇記錄的傳感器數(shù)據(jù)類型,確保記錄imu數(shù)據(jù)、xkf數(shù)據(jù)、att數(shù)據(jù)、gps信息、電池狀態(tài)以及電機轉(zhuǎn)速指令rcou.c1-c12、aetr控制輸入等關(guān)鍵信息。此外,可以調(diào)整日志的頻率,以便在不同的飛行模式下獲取足夠的數(shù)據(jù)細(xì)節(jié)。

12、為了全面覆蓋飛行姿態(tài),建議進(jìn)行多次飛行,分別測試不同的飛行高度、速度和方向。在每次飛行前,進(jìn)行詳細(xì)的飛行計劃,確保每種姿態(tài)都有足夠的飛行時間。同時,記錄飛行環(huán)境的變化,比如風(fēng)速和氣溫,這些因素也會影響無人機的飛行表現(xiàn)。

13、飛行結(jié)束后,可以使用地面站軟件下載飛行日志,并利用工具如mission?planner進(jìn)行數(shù)據(jù)分析。通過解析日志文件,可以提取出關(guān)鍵的飛行數(shù)據(jù),后續(xù)飛機空氣動力學(xué)網(wǎng)絡(luò)模型克隆、優(yōu)化飛行控制算法和訓(xùn)練特技飛行策略提供數(shù)據(jù)支撐。

14、在步驟s2的具體實施中,篩選無人機關(guān)鍵的觀測量、動作量,對觀測量和動作量進(jìn)行處理,構(gòu)建符合馬爾科夫決策過程的飛行數(shù)據(jù);

15、篩選和處理無人機歷史飛行數(shù)據(jù)以構(gòu)建符合馬爾科夫決策過程(mdp)的數(shù)據(jù)集,需要對數(shù)據(jù)進(jìn)行系統(tǒng)的分析和重構(gòu)。首先,提取的觀測量應(yīng)包括與飛行性能直接相關(guān)的傳感器數(shù)據(jù),比如姿態(tài)角控制器(att)、慣性測量單元(imu)和組合導(dǎo)航擴(kuò)展卡爾曼濾波數(shù)據(jù)(xkf)等,這些數(shù)據(jù)提供必要的狀態(tài)信息,幫助描述無人機在每一時刻的飛行狀態(tài)。

16、在構(gòu)建狀態(tài)空間時,需要將這些傳感器數(shù)據(jù)組合成一個統(tǒng)一的狀態(tài)表示,無人機空氣動力學(xué)環(huán)境克隆與策略模型訓(xùn)練,所需的基礎(chǔ)狀態(tài)量有:三維位置(x,y,z)、速度(vx,vy,vz)、陀螺儀轉(zhuǎn)速(gyrx,gyry,gyrz)、加速度(accx,accy,accz)、姿態(tài)(pitch、roll、yaw)等信息。為了更有效地訓(xùn)練飛機空氣動力學(xué)網(wǎng)絡(luò)模型,將飛機姿態(tài)角進(jìn)行正余弦歸一化到連續(xù)的[-1,1]空間,在機體坐標(biāo)系下,使用處理后連續(xù)的觀測量obst去預(yù)測下一時刻與當(dāng)前時刻觀測量的差deltat,

17、接下來,動作量的篩選則應(yīng)包含影響無人機下一時刻狀態(tài)的控制輸入,無人機空氣動力學(xué)環(huán)境克隆與策略模型訓(xùn)練,所需的基礎(chǔ)動作量有:滾轉(zhuǎn)舵面偏角、升降舵面偏角、油門、偏航舵面偏角等。這些動作量應(yīng)與每個狀態(tài)相對應(yīng),確保在不同的狀態(tài)下,模型可以學(xué)習(xí)到相應(yīng)的決策策略。需要對動作空間進(jìn)行歸一化處理。

18、最后,將篩選處理后的數(shù)據(jù)集組織為狀態(tài)-動作的格式,確保每一對(狀態(tài),動作)都能對應(yīng)到后續(xù)的狀態(tài)轉(zhuǎn)移,這種結(jié)構(gòu)化的數(shù)據(jù)需要符合馬爾科夫特性,為后續(xù)的空氣動力學(xué)模型克隆和強化學(xué)習(xí)策略模型訓(xùn)練提供堅實的基礎(chǔ),使最終的策略模型能夠控制無人機自主完成多樣的特技飛行動作。

19、在步驟s3中,構(gòu)建無人機空氣動力學(xué)網(wǎng)絡(luò)模型;

20、構(gòu)建無人機空氣動力學(xué)網(wǎng)絡(luò)模型表述的是選擇適當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)用于克隆無人機空氣動力學(xué),一般使用的網(wǎng)絡(luò)結(jié)構(gòu)有多層resnet、transform或rnn,無人機空氣動力學(xué)網(wǎng)絡(luò)模型在基于模型的強化學(xué)習(xí)中更通用的名稱為虛擬環(huán)境或虛擬世界,本方法做技術(shù)闡述時,會使用虛擬環(huán)境名稱。

21、在步驟s4的具體實施中,利用符合馬爾科夫決策過程的飛行數(shù)據(jù),對無人機空氣動力學(xué)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到貼合真實數(shù)據(jù)的無人機空氣動力學(xué)的網(wǎng)絡(luò)模型;

22、馬爾科夫決策過程數(shù)學(xué)形式為:

23、狀態(tài)序列:s=(s0,s1,s2,…,st),其中st∈s表示在時間步t的狀態(tài)。

24、動作序列:a=(a0,a1,a2,…,at),其中at∈a表示在時間步t的動作。

25、轉(zhuǎn)移概率,狀態(tài)轉(zhuǎn)移可表示為:p(st+1|st,at),表示在狀態(tài)st下采取動作at后,轉(zhuǎn)移到下一個狀態(tài)st+1的概率。

26、整條軌跡形式:

27、無人機空氣動力學(xué)網(wǎng)絡(luò)模型的訓(xùn)練過程,即是學(xué)習(xí)真實世界中的狀態(tài)轉(zhuǎn)移概率p的過程,訓(xùn)練目標(biāo)是對于無人機的任意狀態(tài)和該狀態(tài)下做出的任意合法動作(sany,aany),真實世界的概率轉(zhuǎn)移和網(wǎng)絡(luò)模型輸出的概率轉(zhuǎn)移相同。

28、為了更準(zhǔn)確地克隆真實世界中的無人機空氣動力學(xué)模型,降低虛擬環(huán)境中的多步預(yù)測的累計復(fù)合誤差,同時避免神經(jīng)網(wǎng)絡(luò)中的過擬合問題,本方法放棄傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的虛擬環(huán)境克隆,使用基于對抗神經(jīng)網(wǎng)絡(luò)和分布對齊損失的優(yōu)化方法。

29、從一條軌跡的起始點開始,將起始點的狀態(tài)量和動作量(s0,a0)輸入生成網(wǎng)絡(luò),輸出下一

30、時刻的狀態(tài)量將和軌跡中下一時刻的動作量a1組合起來得到輸入生成網(wǎng)絡(luò),輸出下一時刻的狀態(tài)量以此類推得到整條軌跡的預(yù)測狀態(tài)量

31、將整條軌跡的預(yù)測狀態(tài)量與歷史數(shù)據(jù)中的狀態(tài)量s0,s1,s2,…,st計算分段分布對齊損失。其中,設(shè)置分段長度l,將整條軌跡切分為n段,相鄰兩段前后有1/3的狀態(tài)量是重復(fù)的。針對每段計算分布對其損失,損失函數(shù)可使用kl?divergence、wasserstein?distance等。

32、判別網(wǎng)絡(luò)用于判斷一段數(shù)據(jù)是否是真實數(shù)據(jù),訓(xùn)練數(shù)據(jù)為歷史數(shù)據(jù)

33、s0,a0,s1,a1,s2,a2,…,st和生成網(wǎng)絡(luò)的生成數(shù)據(jù)訓(xùn)練過程中也采用了分段的策略。

34、為了生成網(wǎng)絡(luò)見過更多的動作,提升在動作上的泛化性。本方法提供了可選擇的第二階段訓(xùn)練,第二階段的生成器會同時生成下一時刻的狀態(tài)量和動作量,得到整條軌跡的預(yù)測狀態(tài)量使用s0,a0,s1,a1,s2,a2,…,st和計算分段分布對齊損失,并優(yōu)化判別器。

35、在步驟s5的具體實施中,在貼合真實數(shù)據(jù)的無人機空氣動力學(xué)的網(wǎng)絡(luò)模型中利用強化學(xué)習(xí)算法訓(xùn)練策略模型;

36、雙環(huán)境檢驗:為了檢驗控制策略的學(xué)習(xí)效果,在中步驟s4中會將歷史飛行數(shù)據(jù)分為兩個部分,分別用于訓(xùn)練虛擬環(huán)境,得到兩個不同的虛擬環(huán)境,訓(xùn)練策略時使用同樣的算法及參數(shù),得到兩個控制策略,在兩個虛擬環(huán)境中分別檢測兩個策略。單個策略在兩個虛擬環(huán)境中的測試結(jié)果均優(yōu)異,且差距不大,表示策略學(xué)習(xí)優(yōu)異。

37、訓(xùn)練后的無人機空氣動力學(xué)網(wǎng)絡(luò)模型作為無人機的數(shù)據(jù)驅(qū)動的真實世界的虛擬仿真環(huán)境,可在此虛擬環(huán)境中接入任意強化學(xué)習(xí)算法,訓(xùn)練控制策略,一般使用穩(wěn)定的ppo算法。

38、基于無人機空氣動力學(xué)網(wǎng)絡(luò)模型(虛擬環(huán)境)訓(xùn)練通用的控制策略,關(guān)鍵點在于訓(xùn)練策略時獎勵函數(shù)的設(shè)置。本方法設(shè)置當(dāng)前狀態(tài)和目標(biāo)狀態(tài)之間的位置(x,y,z)、過載(accx,accy,accz)、速度(vx,vy,vz)、姿態(tài)(pitch、roll、yaw)差值作為獎勵函數(shù),在目標(biāo)狀態(tài)發(fā)生變化前,無人機與目標(biāo)狀態(tài)的差值越小,所獲得的獎勵越大。訓(xùn)練過程中目標(biāo)狀態(tài)在一定范圍內(nèi)每2秒隨機發(fā)生一次變化,策略模型見過與各種目標(biāo)點的差值,可以在兩秒內(nèi)達(dá)到目標(biāo)狀態(tài)。

39、在步驟s6的具體實施中,將特定的特技飛行軌跡處理后輸入訓(xùn)練后的策略模型,模型輸出動作,指導(dǎo)無人機實現(xiàn)特定的特技飛行動作;

40、將訓(xùn)練結(jié)束的策略模型導(dǎo)入無人機控制單元,計算特定的特技飛行的目標(biāo)軌跡,將目標(biāo)軌跡中的關(guān)鍵點設(shè)為無人機目標(biāo)點,策略不斷控制無人機追逐目標(biāo)軌跡關(guān)鍵點,實現(xiàn)無人機的自主特技飛行。在無人機實飛中,還需要單獨設(shè)置特殊情況緊急停止或有經(jīng)驗地飛行員遙控控制無人機,以避免無人機在策略控制過程中出現(xiàn)意外,造成損失。

41、相對于現(xiàn)有技術(shù),本發(fā)明的有益效果為:

42、本發(fā)明利用基于模型的離線強化學(xué)習(xí)方法生成了無人機空氣動力學(xué)網(wǎng)絡(luò)模型。為了更準(zhǔn)確地克隆真實世界中的無人機空氣動力學(xué)模型,降低虛擬環(huán)境中的多步預(yù)測的累計復(fù)合誤差,同時避免神經(jīng)網(wǎng)絡(luò)中的過擬合問題;

43、本方法放棄傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的虛擬環(huán)境克隆,使用基于對抗神經(jīng)網(wǎng)絡(luò)和分布對齊損失的優(yōu)化方法。同時本方法采用雙環(huán)境檢驗,避免策略學(xué)習(xí)中的過擬合問題;

44、最后本方法采用和目標(biāo)狀態(tài)之間的差異作為策略訓(xùn)練的輸入,獎勵函數(shù)設(shè)置無人機盡快的到達(dá)目標(biāo)狀態(tài),訓(xùn)練過程中目標(biāo)狀態(tài)在一定范圍內(nèi)隨機變化,這樣訓(xùn)練得到的控制策略可以在較短的時間內(nèi)達(dá)到目標(biāo)狀態(tài),在使用時只需要根據(jù)不同特技飛行軌跡計算不同的關(guān)鍵點狀態(tài)傳給無人機,即可實現(xiàn)無人機的多種自主特技飛行動作,故本方法被稱為一種基于離線強化學(xué)習(xí)的無人機自主特技飛行的通用方法。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 沙坪坝区| 商丘市| 普兰县| 寿宁县| 冷水江市| 驻马店市| 天峨县| 浮梁县| 西城区| 榆中县| 浠水县| 凤台县| 平凉市| 阳朔县| 桦南县| 蒙自县| 台南县| 银川市| 长岛县| 汽车| 临邑县| 门源| 东阿县| 渝北区| 社会| 牙克石市| 三亚市| 秀山| 福清市| 平南县| 邯郸市| 上栗县| 山东省| 安岳县| 阿鲁科尔沁旗| 定州市| 吐鲁番市| 玉环县| 许昌市| 洪雅县| 仲巴县|