1.一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述無人艇的動作空間包括無人艇左電機控制率、右電機控制率、與目標點距離以及與障礙物距離,所述狀態空間包括無人艇線速度、角速度、與目標點距離、與障礙物距離、左電機控制率和右電機控制率。
3.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述獎勵函數的表達式為:
4.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述actor網絡為雙策略網絡,包括actor_1子網絡和actor_2子網絡,所述actor_1子網絡和actor_2子網絡并行地與環境進行交互,輸出控制動作。
5.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述critic網絡包括critic_1子網絡和critc_2子網絡,所述critic_1子網絡和critc_2子網絡并行執行所述價值估計,其中價值估計結果包括狀態值函數和狀態-動作價值函數,表達式分別為:
6.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述采用低熵動作選擇機制選擇低熵動作的運算表達式為:
7.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述改進的lstm網絡對輸入門計算過程中細胞狀態的更新方式進行改進,改進后的細胞狀態的更新表達式為:
8.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述指導actor網絡輸出控制動作是指基于價值評估結果對網絡參數進行更新,以選取最優控制動作,具體步驟包括:
9.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述無人艇控制器更新的目標函數為:
10.根據權利要求1所述的一種基于改進低熵策略及網絡結構的無人艇智能控制方法,其特征在于,所述無人艇控制器的訓練過程包括: