麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于改進低熵策略及網絡結構的無人艇智能控制方法

文檔序號:41774682發布日期:2025-04-29 18:48閱讀:13來源:國知局
一種基于改進低熵策略及網絡結構的無人艇智能控制方法

本發明涉及智能控制和船舶與海洋工程,尤其是涉及一種基于改進低熵策略及網絡結構的無人艇智能控制方法。


背景技術:

1、近年來,隨著無人智能控制技術的快速發展,水面無人艇受到越來越多的關注。相較于無人機和無人車,無人艇的研究還處于快速發展階段。無人艇作為一種具有自主規劃、自主航行等能力的小型水面作業任務平臺,在復雜多變的水域環境中,其運動是非線性的,所受干擾具有不確定性。因此,無人艇的自主航行與智能控制技術顯得尤為重要。

2、專利cn114077258b公開了一種基于強化學習ppo2算法的無人艇位姿控制方法,該方法通過設置動作空間和狀態空間、設置獎勵函數以及設計深度神經網絡架構使用ppo2算法進行無人艇的位姿控制器訓練,能自適應調節其位姿。專利cn115454092b公開了一種基于改進rrt算法的無人艇路徑規劃方法及系統,該方法采用collision函數對新節點qnew進行障礙物碰撞檢測;采用collision函數對新節點qnew進行障礙物碰撞檢測按終點連接概率q選擇算法的終止檢測方式在隨機樹t中從終點qgoal向起始點qstart回溯路徑在隨機樹t中從終點qgoal向起始點qstart回溯路徑,能減少無人艇路徑規劃時間。專利申請cn117991780a公開了一種基于gwo算法的無人艇路徑優化方法,該方法包括:選擇大圓航線和恒向線相混合的作為初始;目標函數構建;gwo算法優化,能實現全局最優路徑規劃等等。

3、然而,上述方法中采用的機器學習方法,在復雜海洋環境中不僅難以控制無人艇實現安全、快速和節能的綜合自主航行需求,更無法同時兼顧無人艇的多任務目標需求。

4、因此,急需一種改進的無人艇智能控制方法,滿足在復雜海洋環境下兼顧無人艇多種任務目標需求,并同時實現最優的智能控制效果。


技術實現思路

1、本發明的目的就是為了提供一種在復雜水域中實現多任務目標的基于改進低熵策略及網絡結構的無人艇智能控制方法。

2、本發明的目的可以通過以下技術方案來實現:

3、一種基于改進低熵策略及網絡結構的無人艇智能控制方法,包括以下步驟:

4、設置無人艇的動作空間和狀態空間,根據無人艇的多任務目標需求設置獎勵函數,并采用結合低熵動作選擇機制及改進的lstm網絡的無人艇控制器進行智能控制,直至到達目標點,完成無人艇的智能控制過程;

5、其中,所述無人艇控制器包括actor網絡、critic網絡和改進的lstm網絡,無人艇控制器進行智能控制的過程包括:

6、從經驗回放池中采集一批次數據,輸入所述改進的lstm網絡中進行處理,再通過actor網絡輸出控制動作,并采用低熵動作選擇機制選取低熵動作,得到控制輸出,以控制無人艇運行,其中通過與環境進行交互并結合所述動作空間、狀態空間和獎勵函數形成所述經驗回放池;

7、從經驗回放池中采集一批次數據,輸入critic網絡中進行價值估計,并指導actor網絡輸出控制動作;

8、重復上述控制過程,直至無人艇到達目標點。

9、進一步地,所述無人艇的動作空間包括無人艇左電機控制率、右電機控制率、與目標點距離以及與障礙物距離,所述狀態空間包括無人艇線速度、角速度、與目標點距離、與障礙物距離、左電機控制率和右電機控制率。

10、進一步地,所述獎勵函數的表達式為:

11、,

12、其中:

13、 r1為無人艇到達目標點的獎勵函數,表達式為:,

14、 r2為無人艇遠離障礙物距離的獎勵函數,表達式為:,

15、 r3為無人艇線速度和角速度控制的獎勵函數,表達式為:

16、,

17、 r4為無人艇航行時間控制的獎勵函數,表達式為:,

18、式中, r為總獎勵函數,是無人艇到達目標點的獎勵占總獎勵的權重,是無人艇到達目標點的獎勵,是無人艇遠離障礙物距離的獎勵占總獎勵的權重,是無人艇距離障礙物設定距離以內時的距離,是無人艇與障礙物碰撞的獎勵,是無人艇線速度穩定性的獎勵占總獎勵的權重,是無人艇當前的線速度,是無人艇前一時刻的線速度,是無人艇當前線速度的獎勵占總獎勵的權重,是無人艇角速度穩定性的獎勵占總獎勵的權重,是無人艇的當前角速度,是無人艇前一時刻的角速度,是無人艇與目標點距離的獎勵占總獎勵的權重;是無人艇與目標點距離的獎勵。

19、進一步地,所述actor網絡為雙策略網絡,包括actor_1子網絡和actor_2子網絡,所述actor_1子網絡和actor_2子網絡并行地與環境進行交互,輸出控制動作。

20、進一步地,所述critic網絡包括critic_1子網絡和critc_2子網絡,所述critic_1子網絡和critc_2子網絡并行執行所述價值估計,其中價值估計結果包括狀態值函數和狀態-動作價值函數,表達式分別為:

21、,

22、,

23、式中,是在策略下對動作求期望,是溫度系數,為策略在狀態下選擇動作的對數概率,是在轉移函數下對下一時刻狀態求期望,是在狀態下執行動作的即時獎勵,是折扣因子,是下一時刻狀態的狀態值估計。

24、進一步地,所述采用低熵動作選擇機制選擇低熵動作的運算表達式為:

25、,

26、,

27、式中,為在狀態下策略的熵,為選擇在狀態下策略中最小的熵值,是在策略下動作的期望,是策略在狀態下選擇動作的對數概率,是策略在狀態下選擇動作的權重,為熵值最低的動作,是選擇熵值最低的策略選擇的動作。

28、進一步地,所述改進的lstm網絡對輸入門計算過程中細胞狀態的更新方式進行改進,改進后的細胞狀態的更新表達式為:

29、,

30、,

31、式中,為改進的lstm網絡結構當前時間步的細胞狀態,為遺忘門的輸入,為前一時刻的細胞狀態,為輸入門的輸出,為雙曲正切函數,為隱藏狀態的權重矩陣,由反向傳播算法進行更新,為前一時刻的隱藏狀態,為當前時間步的輸入,為偏置項,由反向傳播算法進行更新,為前一時刻的記憶矩陣,為函數運算,為前一時刻的記憶矩陣。

32、進一步地,所述指導actor網絡輸出控制動作是指基于價值評估結果對網絡參數進行更新,以選取最優控制動作,具體步驟包括:

33、對于每一批次數據,并經所述改進的lstm網絡和actor網絡處理后,并結合價值評估結果對所述無人艇控制器的網絡參數進行更新,其中網絡參數更新的損失函數的表達式為:

34、,

35、式中,是神經網絡參數的損失函數,是神經網絡參數;是從經驗回放池,即中采樣得到的樣本數據,是當前時間步的狀態,是當前時間步的動作,是執行動作的即時獎勵,是下一時刻的狀態;是對從經驗回放池,即采樣并在策略下求期望,是經驗回放池存儲的全部數據,是下一時刻的動作,是在狀態下參數時的策略,是當前時間步的值,是折扣因子,是下一時刻值較小的函數的預期回報,是溫度系數,為策略在狀態下選擇動作的對數概率。

36、進一步地,所述無人艇控制器更新的目標函數為:

37、,

38、式中,是策略優化的目標函數,是對服從在策略下狀態和動作聯合分布的狀態動作組的目標值求期望,是在策略下的狀態和動作的聯合分布;是折扣因子,是當前時間步的狀態,是當前時間步的動作,是執行動作的即時獎勵,是溫度系數,是策略在狀態下的熵。

39、進一步地,所述無人艇控制器的訓練過程包括:

40、1)在環境中加入風、流干擾,其中環境中風干擾的表達式為:

41、,

42、環境中流干擾的表達式為:

43、,

44、式中,為風干擾,為流干擾,是風力系數,是無人艇的航向角,是風速,是水流系數,是水流方向相對于無人艇航向的夾角,是水流流速;

45、2)設置訓練周期n;

46、3)與環境進行信息交互,將交互信息按照時間順序放入經驗回放池中;

47、4)判斷經驗回放池是否存滿,若是,則從經驗回放池中抽取一批數據對網絡參數進行迭代更新,若否,則執行步驟2);

48、5)判斷是否達到設置訓練周期n,

49、若是,則進一步判斷是否滿足多目標需求,若是,則輸出控制結果,獲得控制效果,若否,則執行步驟3);

50、若否,則執行步驟3),直至到達訓練周期n且滿足多目標需求,完成訓練過程。

51、與現有技術相比,本發明具有以下有益效果:

52、(1)本發明基于強化學習框架具有自我學習能力,設計無人艇滿足多目標需求的獎勵函數,以便實現無人艇多任務目標的協同控制,并在該強化學習框架中引入了改進的lstm網絡結構來捕捉數據的依賴關系,從而提高樣本的效率,以及在該強化學習框架中利用低熵動作選擇機制來選取低熵動作,解決了熵值過估計導致的盲目探索更多動作引起的算法不穩定和難以收斂等問題,提高無人艇對復雜水域的信息處理能力,因此本發明能夠實現無人艇在復雜水域中滿足多任務目標需求的智能控制。

53、(2)本發明利用改進的lstm網絡結構整合了時空數據,并通過記憶矩陣對輸入門中細胞狀態更新方式進行改進,使得改進后的lstm網絡結構能夠更好地利用歷史數據信息,進一步提高樣本效率,提高無人艇的自主控制能力。

54、(3)本發明actor-critic網絡結構中,采用actor_1和actor_2、critic_1和critic_2并行執行的方式進行強化學習,能夠同時與環境進行交互和學習,加快學習過程,而且可以減少單個actor的隨機性或不穩定性而導致的策略波動、增強魯棒性,本發明的actor-critic網絡結構更適用于復雜水域,并通過結合低熵動作選擇機制,使無人艇控制器進一步提高了其自主控制和決策制定的性能,以及更迅速、安全的路徑規劃與避障能力。

55、(4)本發明還考慮了實際環境中風、流干擾,能夠通過與環境中的風、流干擾進行交互來自動調整控制策略,使無人艇快速適應復雜水域中的環境變化,提高任務效率。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 怀远县| 浪卡子县| 江北区| 独山县| 龙口市| 靖江市| 化德县| 晋宁县| 宜昌市| 屯留县| 察雅县| 南汇区| 仪陇县| 商都县| 什邡市| 大同市| 濮阳县| 酒泉市| 龙门县| 中卫市| 依兰县| 岳阳市| 策勒县| 运城市| 章丘市| 双桥区| 白水县| 英超| 镇雄县| 手机| 高陵县| 台南市| 香河县| 舞钢市| 威宁| 陵水| 丰都县| 综艺| 杨浦区| 称多县| 蓝田县|