麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于深度強化學習的機械臂協作自主抓取方法

文檔序號:41741553發布日期:2025-04-25 17:20閱讀:12來源:國知局
一種基于深度強化學習的機械臂協作自主抓取方法

本發明涉及機器人應用,具體涉及了一種基于深度強化學習的機械臂協作自主抓取方法。


背景技術:

1、隨著機器人技術和人工智能的快速發展,基于機械臂的智能抓取任務在工業自動化、物流分揀和服務機器人領域發揮了重要作用。然而,在復雜場景中實現高效、穩定的抓取操作依然面臨諸多挑戰,例如多物體緊密堆疊、場景動態變化及操作過程中的安全性和準確性問題。

2、傳統的機械臂抓取方法多依賴于精準的環境建模和預先定義的規則,通過特定算法規劃機械臂的操作路徑。但此類方法在面對復雜的動態環境或未知場景時,往往表現出適應性不足,且對環境高度依賴的問題,大大限制了其應用范圍。近年來,深度學習和強化學習技術在機器人智能決策領域取得了顯著進展,為復雜抓取任務提供了新的解決方案。在基于強化學習的抓取任務中,如何高效地提取場景空間特征、設計合理的動作價值評估機制,以及優化訓練效率,仍是影響實際應用效果的關鍵問題。此外,強化學習技術雖然為機械臂自主決策提供了新思路,但常規的q學習或深度q網絡在處理連續狀態空間和大規模動作空間時容易出現不穩定性、收斂速度慢以及動作選擇不合理等問題。因此,如何設計更加高效的學習算法及合理的探索策略,是提升抓取任務智能化水平的關鍵問題。

3、因此需要發明一種訓練速度快,穩定性好,能在各種結構化和非結構化場景中快速完成抓取任務的方法。


技術實現思路

1、本發明的目的在于提供一種基于深度強化學習的機械臂協作自主抓取方法,以解決上述背景技術中提出的問題。

2、為解決上述技術問題,本發明所采取的技術方案是:

3、基于環境狀態高度圖構建特征提取網絡,從輸入數據中提取具有代表性的空間特征得到特征向量,并構建推動/抓取動作網絡預測模型,將前述特征向量作為輸入,結合狀態特征與動作價值進行策略評估,預測候選動作的狀態動作評估值分布;

4、對推動與抓取動作分別引入物體掩碼函數mp_obj和mg_obj,將其作為先驗信息與網絡預測結果相結合,對機械臂與環境交互過程中的探索空間進行約束,減少經驗回放池中負樣本對模型收斂速度的干擾,提升模型訓練的效率和穩定性;

5、設計不同的行為約束策略對網絡預測中不合理的行為進行抑制;

6、針對機械臂完成任務的快速性和環境狀態反饋,對不同動作元組設計獎勵函數來指導策略網絡模型的更新,在仿真環境中訓練并遷移到真實環境中。

7、進一步的,所述方案中,基于環境狀態高度圖構建特征提取網絡,從輸入數據中提取具有代表性的空間特征得到特征向量,并構建推動/抓取動作網絡預測模型,將前述特征向量作為輸入,結合狀態特征與動作價值進行策略評估,預測候選動作的狀態動作評估值分布,包括:首先將環境狀態高度圖中的單通道深度高度圖復制得到3通道數據,隨后將彩色高度圖和深度高度圖分別進行旋轉處理后輸入共享特征融合模塊,并將其輸出作為高層特征提取網絡的輸入,得到中間特征向量,將中間特征向量進行彩色和深度特征拼接后輸入行為價值評估模塊,得到不同方向上不同動作的狀態動作評估值分布圖,其中,行為價值評估模塊包括推動網絡模塊和抓取網絡模塊,推動網絡和抓取網絡均為主網絡和目標網絡架構。

8、進一步的,所述方案中,構建網絡完成后,根據策略選擇執行動作,對推動與抓取動作分別引入物體掩碼函數mp_obj和mg_obj作為先驗信息,引導機械臂進行有意義的空間探索,包括:對于推動動作而言,在仿真環境下根據環境狀態的初始化設置獲得物體索引,根據其坐標得到物體垂直投影的輪廓,通過閾值分割將物體輪廓內填充為1,輪廓外填充為0,得到仿真環境下的掩碼函數;在真實物理實驗環境中,根據工作空間的深度高度圖獲得掩碼函數,具體來說:首先根據公式將深度高度圖進行歸一化,其中d(x,y)為深度圖像素值,dmin和dmax為深度值最小值和最大值,d′(x,y)是歸一化后的深度圖像素值;根據深度分布設置圖像前景物體和背景分離的深度閾值tthre,將深度值大于閾值的像素點設置為1,否則設置為0,得到推動二值掩碼mp_obj。

9、進一步的,所述方案中,構建網絡完成后,根據策略選擇執行動作,對推動與抓取動作分別引入物體掩碼函數mp_obj和mg_obj作為先驗信息,引導機械臂進行有意義的空間探索,包括:對于抓取動作而言,仿真環境中處理方法與推動動作相同,在真實實驗環境中,對深度高度圖進行歸一化和濾波處理,然后進行閾值分割得到初始抓取掩碼mg_ori,為防止抓取位置處在物體邊緣而導致抓取操作失敗,對初始抓取掩碼進行去噪和邊緣優化,得到最終抓取掩碼mg_obj;將推動與抓取網絡輸出的逐像素級的狀態動作評估值分布圖分別與推動掩碼mp_obj和抓取掩碼mg_obj相結合,得到具有先驗信息的動作價值評估圖,從而鼓勵機械臂在工作空間中的有效區域進行探索,減少訓練過程中的負樣本的影響。

10、進一步的,所述方案中,設計行為約束策略對網絡預測中不合理的行為進行抑制,包括:對推動掩碼進行連通域分析,提取出工作區中物體的連通域的像素點數量、邊界框和幾何信息,在此基礎上設計約束策略;對推動行為的約束基于不同方向上物體的密集程度,具體來說:首先在機械臂的動作空間中將姿態角度劃分為16個等角度方向θd,每個方向對應一個單位向量其次,對每個方向上的候選位置像素點(x,y),計算其相鄰區域內的質心分布方向,質心的計算方式如下:

11、

12、其中(cx,cy)為連通域內的質心坐標,r為連通域內像素點集合,(x,y)表示集合r中的像素點,n表示連通域內像素點數量;然后計算不同方向上物體密集程度的分布,公式如下:

13、

14、其中(cxi,cyi)為每個連通區域的質心坐標,為某區域質心與候選動作像素點(x,y)的相對位置向量,為歸一化后的方向向量,sdp為每個質心與當前方向的相似性,表示在θd方向上物體的密集程度,是方向θd的單位向量;基于方向密集度sdp為每個方向生成推動動作權重表示當前像素(x,y)在每個推動方向上的優先級,將其與具有先驗信息的推動動作價值評估圖相結合,作為推動行為約束策略。

15、進一步的,所述方案中,設計行為約束策略對網絡預測中不合理的行為進行抑制,包括:對抓取掩碼圖進行連通域分析,提取出工作區中物體的連通域的像素點數量、邊界框和幾何信息,在此基礎上設計抓取動作約束策略;對抓取行為的約束是基于物體主軸方向選擇最接近的抓取方向,具體來說:為每一個方向上的候選抓取動作構造相應的單位方向向量θd為動作空間中劃分的等角度姿態角方向,計算每一個方向上的抓取位置候選點所處物體的主軸方向的單位方向向量其中θobj是當前抓取位置所處連通域的主軸方向,計算主軸方向與抓取方向之間的相似性:其中sdg用于計算抓取角度約束因子,sdg越接近1,表示當前抓取方向與主軸方向越接近,抓取成功率越高,將其作為抓取權重策略與具有先驗信息的抓取動作價值評估圖相結合,作為抓取行為約束策略。

16、進一步的,所述方案中,針對機械臂完成任務的快速性和環境狀態反饋對不同動作元組設計獎勵函數來指導策略網絡模型的更新,使得機械臂能在不同場景中學習到合理的抓取位置和姿態,包括:獎勵函數分為推動網絡和抓取網絡兩個部分:

17、對于抓取網絡而言,對于抓取網絡而言,當機械臂執行抓取時只有兩個結果,成功或者失敗,因此考慮行為結果和約束策略設計抓取獎勵函數rg:

18、

19、其中cg為獎勵值常數,λg為超參數,θg是抓取角度約束因子;

20、對于推動網絡而言,需要考慮推動動作對后續抓取的影響、環境中物體的聚合程度、工作區邊界約束、任務完成效率等因素,對獎勵函數的設計如下:

21、r1是考慮推動對執行抓取的預測推理影響的獎勵,將抓取網絡作為鑒別器,對當前狀態下抓取行為進行評估,推動網絡作為生成器,不斷提升工作區物體的可抓取概率,通過對比推動前后兩個狀態的抓取評分來評價推動動作的質量,根據評分變化設計獎勵函數,即當執行推動動作后,如果st+1狀態下抓取網絡預測的最佳狀態動作評估值在一定程度上大于st狀態下的抓取狀態動作評估值,則認為當前推動有效,給正獎勵,否則獎勵為0:

22、

23、其中c1為獎勵值常數,λp是超參數,為抓取網絡預測值的變化量,δ1為狀態動作評估值變化閾值,和分別為執行推動前后抓取網絡的最佳狀態動作評估值;

24、r2是考慮推動執行前后環境中物體的聚合程度,因為增加物體周圍的抓取空間即可提高抓取成功的概率,因此引入平均相對距離來衡量當前狀態下環境中物體與物體之間的離散程度,根據動作執行前后的聚合程度變化設計獎勵函數:

25、

26、其中c2為獎勵值常數,δl=lt-lt-1表示t時刻與t-1時刻工作區中所有物體之間平均相對距離的差值,lt和lt-1分別表示t時刻和t-1時刻工作區中所有物體之間的平均相對距離,δ2為聚合程度變化閾值,當δl大于閾值δ2時則認為上一時刻的推動行為是有效的,給予正獎勵;

27、r3是考慮工作區邊界約束條件,機械臂執行推動動作的過程中需要保持物體均處在工作區內來保證任務完成率,所以對于脫離工作區的情況進行相應懲罰:

28、r3=ac3

29、其中c3為懲罰值常數,a為懲罰系數;

30、r4是考慮機械臂完成抓取任務的效率,推動動作分離效果越好,執行抓取的成功率越高,同時執行推行為的次數越少,整體動作序列也會越短,任務效率越高;

31、r4=bc4

32、其中c4為獎勵值常數,b為獎勵系數;

33、因此,對于推動網絡而言,獎勵函數整合為:

34、rp=r1+r2+r3+r4

35、用以指導機械臂改進策略以獲得更高的累計獎勵。

36、與現有技術相比,本發明的有益效果是:

37、本方法使用了物體掩碼圖與網絡預測狀態價值分布圖相結合的先驗信息,有效減少了機械臂在無效區域進行探索產生的負樣本,提高了模型收斂速度;設計不同的行為約束策略對網絡預測得到的不合理動作進行抑制,提高了動作執行的成功率和任務完成率;通過對不同動作元組引入多元化獎勵函數,更精確地引導策略網絡模型的優化,確保機械臂在復雜場景中的高效性與準確性。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 商南县| 金山区| 凤冈县| 体育| 唐海县| 巴南区| 樟树市| 特克斯县| 三原县| 辽宁省| 北流市| 奇台县| 祁阳县| 南投市| 武夷山市| 红河县| 浮山县| 罗源县| 文昌市| 六枝特区| 临汾市| 镇赉县| 平潭县| 额尔古纳市| 行唐县| 金山区| 石景山区| 常熟市| 新蔡县| 广州市| 郸城县| 余干县| 开封市| 孟津县| 牡丹江市| 武平县| 东至县| 宝应县| 满洲里市| 集安市| 达尔|