麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

面向移動機械臂全身運動規劃的優化方法

文檔序號:41737676發布日期:2025-04-25 17:11閱讀:6來源:國知局
面向移動機械臂全身運動規劃的優化方法

本發明涉及機械臂運動規劃,尤其涉及一種面向移動機械臂全身運動規劃的優化方法。


背景技術:

1、在移動機械臂運動規劃領域,現有技術在解決移動機械臂運動規劃問題時存在諸多不足。傳統的分階段控制方法將機械臂與底盤分開規劃,雖簡單易用,但限制了解決方案空間,嚴重降低了系統效率,尤其是在復雜環境中需多次試錯,難以高效完成任務。

2、現有技術中,基于優化的運動規劃方法是當前的研究熱點之一,這類方法通過引入數學優化模型,對多機械臂自由度系統進行協調控制,雖然在精確性和對模型的利用上表現良好,但對環境的感知能力和約束表達能力存在局限性,實時性較差,且在動態障礙物環境中難以實現流暢、協調的避障規劃。通過強化學習方法進行運動規劃但依賴環境特征提取,能夠實現在線學習,在多冗余自由度的復雜場景下,難以生成平滑、連續、協調的運動軌跡,常受限于離散動作空間和算法泛化性能,導致運動規劃效果不理想。集成強化學習與優化方法的混合策略雖具潛力,但在障礙規避和提升運動協調性仍然存在局限性。


技術實現思路

1、本發明提供一種面向移動機械臂全身運動規劃的優化方法,用以克服移動機械臂運動規劃時,在規劃任務完成、環境感知、約束表達、障礙規避、以及運動協調性方面均存在局限性的缺陷。

2、本發明提供一種面向移動機械臂全身運動規劃的優化方法,包括:

3、基于移動機械臂拍攝的深度圖像,確定環境特征以及移動機械臂關節變化時的位置梯度;

4、通過強化學習訓練的演員-評論家網絡對移動機械臂的運動狀態和運動動作進行策略規劃,得到移動機械臂中末端執行器的期望速度,所述運動狀態包括關節角度、所述環境特征以及末端執行器與目標位置之間的位置偏差,所述運動動作包括末端執行器在三維直角坐標系下三個方向的運動速度以及旋轉速度;

5、基于所述位置梯度構建用于移動機械臂避障的位置約束條件,并構建用于對決策變量進行約束的關節約束參數,所述決策變量包括移動機械臂的關節速度和松弛范數,所述決策變量是通過機械臂雅可比矩陣對所述期望速度進行加權得到的;

6、基于所述位置約束條件、所述關節約束參數確定的二次規劃求解器對所述決策變量進行優化,得到所述關節速度的規劃結果。

7、在一些實施例中,所述基于移動機械臂拍攝的深度圖像,確定環境特征以及移動機械臂關節變化時的位置梯度,包括:

8、調用卷積神經網絡對所述深度圖像進行圖像編碼,得到環境特征;

9、將所述深度圖像進行轉換處理,得到以移動機械臂為中心的環境點云局部地圖;

10、通過符號距離場將所述環境點云局部地圖中環境點云的坐標轉換為以移動機械臂為中心的位置坐標,并從所述位置坐標查詢移動機械臂當前關節配置下連桿與障礙物之間的相隔距離;

11、基于所述相隔距離確定移動機械臂關節變化時的位置梯度。

12、在一些實施例中,所述通過強化學習訓練的演員-評論家網絡對移動機械臂的運動狀態和運動動作進行策略規劃,得到移動機械臂中末端執行器的期望速度,包括:

13、構建演員-評論家網絡在強化學習的迭代時間步上的最大熵,作為軟狀態動作回報;

14、將所述軟狀態動作回報的期望值作為運動策略的軟q值,并通過分布式軟策略迭代框架中的軟貝爾曼算子學習所述軟q值,以對所述演員-評論家網絡進行策略規劃訓練;

15、將移動機械臂的初始運動狀態輸入到訓練好的演員-評論家網絡中進行運動策略規劃,得到移動機械臂的最優運動策略;

16、基于所述最優運動策略確定得到移動機械臂中末端執行器的期望速度。

17、在一些實施例中,所述構建演員-評論家網絡在強化學習的迭代時間步上的最大熵,包括:

18、根據移動機械臂末端執行器與目標位置之間的位置偏差的二階范數構建位置獎勵值,并在所述位置偏差的二階范數小于預設的位置偏差閾值時,獲取移動目標獎勵值;

19、基于移動機械臂運動過程中產生所述位置偏差時的移動速度,與移動機械臂中末端執行器的動作速度的差值,構建速度獎勵值;

20、通過預設的位置獎勵權重和速度獎勵權重,對所述位置獎勵值以及所述速度獎勵值進行加權,得到加權位置獎勵值和加權速度獎勵值;

21、根據移動機械臂末端執行器避障時的最近距離以及預設的避障距離閾值,構建避障獎勵值;

22、基于移動機械臂運動過程的花費時間,構建時間獎勵值;

23、將所述加權位置獎勵值、所述加權速度獎勵值、所述避障獎勵值以及所述時間獎勵值進行求和,得到總獎勵值;

24、基于所述總獎勵值計算策略熵,作為演員-評論家網絡在強化學習的迭代時間步上的最大熵。

25、在一些實施例中,所述演員-評論家網絡的策略規劃訓練過程包括:

26、在學習所述軟q值的每個迭代時間步過程中,執行以下操作:

27、利用演員-評論家網絡中的演員網絡進行策略迭代時,通過最小化第一分布與第二分布的kl散度來更新第二分布,其中,所述第一分布為軟貝爾曼算子對所述第二分布進行計算后得到的分布,所述第二分布為演員-評論家網絡中的評論網絡輸出的當前軟狀態動作回報的分布;

28、利用所述評論網絡進行策略評估時,通過最小化所述kl散度來更新所述演員網絡的參數和所述評論網絡的參數。

29、在一些實施例中,所述通過最小化所述kl散度來更新所述演員網絡的參數和所述評論網絡的參數,是通過計算所述kl散度的更新梯度、并將所述更新梯度的更新目標設置為當前軟狀態動作回報的時間差分誤差來實現的,所述更新梯度的計算過程包括:

30、將所述第二分布建模為高斯分布,所述高斯分布由當前軟狀態動作回報的均值以及當前軟狀態動作回報的方差組成;

31、基于第一邊界限制分布、所述均值以及所述方差計算更新梯度;

32、其中,所述第一邊界限制分布是通過邊值限制函數對所述第一分布進行處理得到的,所述邊值限制函數的邊界是根據所述均值以及預設的約束邊界確定的。

33、在一些實施例中,所述演員-評論家網絡中包括兩個評論網絡,所述當前軟狀態動作回報的分布是通過調用貝葉斯控制函數,對兩個評論網絡在進行策略評估時輸出的軟狀態動作回報的分布進行混合估計得到的,所述貝葉斯控制函數進行混合估計的過程,包括:

34、調用貝葉斯控制函數分別對軟狀態動作回報的分布中的均值和方差進行似然估計,得到混合均值和混合方差;

35、將兩個評論網絡的混合均值和混合方差進行融合,得到混合軟狀態動作回報分布,作為當前軟狀態動作回報的分布。

36、在一些實施例中,所述基于所述位置梯度構建用于移動機械臂避障的位置約束條件,包括:

37、根據移動機械臂關節變化時每個連桿的位置梯度,構建第一障礙物避讓減震器參數;

38、根據移動機械臂關節變化時每個連桿和障礙物之間的相隔距離、與連桿距離和障礙物的最小距離的差值,構建第二障礙物避讓減震器參數;

39、確定用于限制移動機械臂關節位置的第一速度減震器參數和第二速度減震器參數,所述第一速度減震器參數是預設的固定參數,所述第二速度減震器參數是根據移動機械臂關節與奇異位置之間的影響距離和最小距離計算得到的;

40、將所述第一速度減震器參數與所述第一障礙物避讓減震器參數進行融合,得到第一約束參數,將所述第二速度減震器參數與所述第二障礙物避讓減震器參數進行融合,得到第二約束參數;

41、將所述第二約束參數與所述第一約束參數的比值作為位置約束條件。

42、在一些實施例中,所述關節約束參數包括約束權重和優化偏置,所述構建用于對決策變量進行約束的關節約束參數,包括:

43、將移動機械臂末端執行器與目標位置之間位置偏差的取值作為約束關節速度的第三約束參數,并將所述位置偏差的取值的倒數作為約束關節速度的第四約束參數;

44、將所述第三約束參數和所述第四約束參數組合成用于約束關節速度的目標權重;

45、獲取用于調整松弛范數的松弛權重,并基于所述松弛權重和所述目標權重構建得到約束權重;

46、確定移動機械臂與移動基座之間的角度,并確定所述角度的調整增益值;

47、根據所述調整增益值以及移動機械臂的操縱性雅可比矩陣,構建得到優化偏置,所述優化偏置用于在移動機械臂運動時使所述角度最小化。

48、本發明還提供一種面向移動機械臂全身運動規劃的優化裝置,包括:

49、環境感知模塊,用于基于移動機械臂拍攝的深度圖像,確定環境特征以及移動機械臂關節變化時的位置梯度;

50、速度規劃模塊,用于通過強化學習訓練的演員-評論家網絡對移動機械臂的運動狀態和運動動作進行策略規劃,得到移動機械臂中末端執行器的期望速度,所述運動狀態包括關節角度、所述環境特征以及末端執行器與目標位置之間的位置偏差,所述運動動作包括末端執行器在三維直角坐標系下三個方向的運動速度以及旋轉速度;

51、運動規劃模塊,用于基于所述位置梯度構建用于移動機械臂避障的位置約束條件,并構建用于對決策變量進行約束的關節約束參數,所述決策變量包括移動機械臂的關節速度和松弛范數,所述決策變量是通過機械臂雅可比矩陣對所述期望速度進行加權得到的;

52、所述運動規劃模塊,還用于基于所述位置約束條件、所述關節約束參數確定的二次規劃求解器對所述決策變量進行優化,得到所述關節速度的規劃結果。

53、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述面向移動機械臂全身運動規劃的優化方法。

54、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述面向移動機械臂全身運動規劃的優化方法。

55、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述面向移動機械臂全身運動規劃的優化方法。

56、本發明提供的面向移動機械臂全身運動規劃的優化方法,首先進行環境感知,利用深度圖像確定環境特征和移動機械臂的位置變化梯度。在此基礎上,通過強化學習的訓練的演員-評論家網絡來對末端執行器的期望速度進行策略規劃,提高運動規劃效果,具有實時性。進一步地,在避障的位置約束、關節速度約束、松弛范數約束上,通過二次規劃求解器對期望速度進行規劃,得到關節速度的規劃結果,確保了在復雜運動軌跡下,移動機械臂控制的可靠性、快速性、安全性,解決了現有技術運動規劃方法中,對環境的感知能力和約束表達能力存在局限性、且通過單一強化學習進行運動規劃難以實現流暢、協調的避障規劃的問題。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 托里县| 河北省| 苗栗县| 江西省| 中宁县| 湘西| 浑源县| 霍城县| 彝良县| 满洲里市| 祁东县| 宝清县| 高碑店市| 岱山县| 高淳县| 沂源县| 通道| 东丰县| 马尔康县| 宁武县| 黄冈市| 东港市| 从江县| 福建省| 田东县| 绥宁县| 田阳县| 灵山县| 丹寨县| 淳化县| 胶州市| 营山县| 绥芬河市| 抚顺县| 邹城市| 剑河县| 新田县| 龙岩市| 含山县| 漳州市| 清水河县|