MAPPO雙臂協同智能采摘方法

文檔序號：41759478發布日期：2025-04-29 18:28閱讀：7來源：國知局

本發明涉及蘋果采摘，尤其涉及雙臂機器人采摘技術。

背景技術：

1、一、單臂機器人相關現有技術的局限性。

2、在果實采摘領域，盡管單臂采摘機器人仍占主導地位，但其局限性也逐漸顯現。受限于關節活動范圍，單臂機器人難以觸及工作空間之外的區域，導致采摘效率不盡如人意。單臂機器人在處理多任務方面的能力有限，制約了在需要同時執行多項任務的環境中的實際應用效果。此外，單臂機器人還具有如下短板：對于不同作物和環境變化的適應性不足，以及在面對復雜環境時的避障能力弱。

3、避障方面，樹枝、葉片等障礙物常常使單臂機器人難以規劃出合適的采摘路徑，不僅影響了作業的流暢性，也降低了整體的采摘成功率。

4、農業采摘環境的復雜性和多變性，使得傳統自動化設備難以適應。特別是在多機器人協同作業中，任務的高效分配和采摘精度成為亟待解決的關鍵挑戰。這些限制因素阻礙了自動化技術在農業采摘領域的深入應用。

5、二、相比單臂機器人，雙臂機器人更適合果園采摘蘋果這一非結構化任務。

6、雙臂機器人的兩個機械臂可以同時執行不同的任務，從而能夠提高采摘效率。雙臂機器人相比單臂機器人適應更加復雜和多變的工作環境，執行非結構化任務時，雙臂機器人的靈活性和適應性更強。因此，在果園采摘蘋果這一非結構化任務中，使用雙臂機器人采摘蘋果將成為未來的發展趨勢。

7、三、發明人在將雙臂機器人在運用到果園采摘蘋果這一非結構化任務時遇到的問題。

8、(1)雙臂協作問題：

9、現有的雙臂機器人技術通常采用主從控制模式，其中主臂負責執行主要操作任務，而從臂則輔助主臂進行操作。兩者通過緊密同步的動作序列實現協作。該控制架構依賴于實時監控和動態路徑規劃技術，以避免雙臂在操作過程中發生碰撞，并確保協作動作的同步性和精確度。主從控制策略的實施涉及優化算法和多傳感器數據融合技術，這些技術共同作用，提升了機器人在不確定環境中的自適應能力。

10、在果園的非結構化環境中，蘋果的生長位置不固定，且常被樹枝和樹葉遮擋，這為雙臂機械臂的高效協作帶來了挑戰。

11、現有技術難以實現雙臂之間的精準同步和協調，以適應復雜多變的采摘環境。

12、(2)動態避障問題：

13、在果園的復雜作業環境中，雙臂機械臂的動態避障能力至關重要，這要求系統必須能夠實時、準確地處理環境狀態信息，以有效預防潛在的碰撞和損害事件。然而，現有的路徑規劃算法在應對果園多變且復雜的場景時，往往難以滿足動態避障的需求，從而影響了避障操作的性能和效率。

14、在避障技術方面，現有的采摘機器人在性能上存在明顯不足，尤其是在應對復雜果園場景時，其動態避障能力較為脆弱，難以精確識別和預測果園內的障礙物。此外，避障策略的魯棒性不足，面對復雜障礙物時，避障失敗的風險顯著增加，這不僅降低了采摘作業的效率，還增加了機器人操作的安全風險。

15、(3)采摘策略問題：

16、在雙臂采摘機械臂的作業流程中，任務分配優化與實時決策能力的結合是核心環節。系統必須持續監測果實的位置以及周圍環境的變化，如枝葉的遮擋或果實分布的不均勻的具體情況。基于這些信息，如何實時調整任務分配，確保兩機械臂能夠根據當前情況執行最適宜的操作是需要解決的問題。

17、在實際果園環境中，果實以及障礙物位置的動態變化等因素，仍然對機械臂的采摘效率和準確性構成考驗。

18、當前采摘決策架構存在顯著的剛性化問題，缺乏必要的自適應性和彈性。該架構未能充分結合果實生長分布的具體特性，導致無法針對果實的特定屬性進行實時動態調整。在雙臂協同采摘作業中，系統的操作靈活性和適應性亟需提升。現有的采摘執行機制表現出較為明顯的剛性特征，未能充分發揮協作型機器人應有的操作靈活性和機動性，這在很大程度上限制了采摘作業的靈活性和效率。因此，針對現有采摘系統的優化與升級顯得尤為關鍵，特別是在增強系統的操作靈活性和提高控制精細度方面。必須對采摘決策框架進行重構，以實現更加智能化和自適應的采摘策略，從而提升整體采摘作業的智能化水平和操作效能。

19、(4)動態果園環境下的采摘路徑規劃自適應挑戰

20、在面臨果園環境的動態變化時，采摘機器人的路徑規劃自適應性問題變得尤為顯著。傳統的靜態路徑規劃方法不足以應對環境的實時變化，缺乏必要的即時響應能力。此外，由于缺少高效的全局優化算法，機器人難以在復雜果園環境中實現路徑的最優化。自適應策略的局限性導致了機器人無法針對不同的果園布局和果實分布特征進行策略的靈活適配，顯著制約了其在多變環境中的作業效能。

技術實現思路

1、本發明的目的在于提供一種基于強化學習的雙臂協同采摘方法，提高雙臂協作的效率和適應性，提高果園非結構化環境下蘋果采摘的效率。

2、為實現上述目的，本發明的一種基于強化學習的雙臂協同采摘方法，采用雙臂六自由度機器人，雙臂六自由度機器人包括兩個機械臂和一個電控裝置，各機械臂的末端均具有用于采摘蘋果的末端執行器；電控裝置為工控計算機；雙臂六自由度機器人通過兩個機械臂上安裝的攝像頭實時采集目標物體的當前狀態信息st，st包括目標蘋果的位置信息、目標蘋果的姿態信息，目標蘋果相對兩個機械臂的距離信息、障礙物的位置信息以及兩個機械臂與障礙物的距離信息；

3、電控裝置中存儲有基于強化學習的雙智能體算法；

4、所述基于強化學習的雙智能體算法的算法結構包括行動者網絡、評論家網絡、經驗回放緩沖區、兩個智能體以及存儲有st信息的環境模塊；兩個智能體分別對應一個機械臂；

5、雙臂六自由度機器人內存儲有反映當前關節狀態的關節狀態信息jointt，jointt包括關節坐標、關節角速度、關節角加速度、關節角度以及末端執行器的坐標和旋轉姿態；

6、兩個智能體在工作中連續讀取jointt，并在將當前關節狀態信息jointt與當前環境信息st相關聯后評估獎勵總和rt；

7、兩個智能體實時接收并執行行動者網絡發出的動作指令at，雙臂六自由度機器人通過攝像頭監測下一時刻的狀態st+1；將當前st、at、rt和st+1的集合稱為經驗元組，將經驗元組n＝(st,at,rt,st+1)存儲于經驗回放緩沖區；

8、評論家網絡從經驗回放緩沖區中進行隨機抽樣計算每個狀態－動作對(st-at)的優勢函數具體代表智能體i在第k個時間步的優勢函數估計；使用評論家網絡估計每個狀態st的價值函數v，按照優勢估計公式計算

9、優勢估計公式是：其中，是智能體i在第k個時間步的時序差分誤差；γ是廣義優勢估計的超參數中的折扣因子，用于平衡即時獎勵和未來獎勵；λ是廣義優勢估計的超參數中的平滑參數，用于控制優勢估計的偏差－方差的權衡；

10、利用優勢函數計算行動者網絡的目標函數，并通過策略損失梯度的計算，引導行動者網絡沿梯度上升方向進行參數更新；同時，計算評論家網絡的目標函數，通過損失梯度的計算，使其沿梯度下降方向進行參數優化；

11、利用優勢估計值計算每對st-at的目標函數的公式為：

12、

13、其中是智能體i的策略更新比率；ε表示裁剪范圍的比例系數；clip表

14、示對策略更新比率在裁剪范圍內進行裁剪；s表示策略的熵參數；σ是用來控制熵系數的參數；

15、評論家網絡優化目標為：

16、

17、其中是折扣獎勵；b表示batch_size的大小，n表示智能體的數量，n值為2；表示評論家網絡對狀態的估值；表示使用舊參數的評論家網絡對狀態的估值；∈表示裁剪范圍的比例系數；clip用于裁剪估值的范圍；

18、還包括有通過碰撞風險評估函數評估獎勵總和rt的方法；

19、電控裝置獲取雙臂六自由度機器人的當前關節狀態信息jointt和目標物體的當前狀態信息st，并通過使用狀態轉移模型p(st+1|st,at)來預測雙臂執行動作at后的下一時刻的狀態st+1；

20、獲取到st+1之后，根據兩個機械臂與障礙物之間的距離以及兩個機械臂關節之間的距離，評估是否會導致兩個機械臂與周圍環境物體發生碰撞或兩個機械臂之間發生碰撞；根據st+1的預測值和碰撞檢測的結果，來計算預期碰撞風險ecrt；障礙物定義為：

21、obstacle{(xmin,ymin,zmin)≤(x,y,z)≤(xmax,ymax,zmax)}；

22、設在時間步t機械臂關節linki的坐標為pi＝(xi,yi,zi)，機械臂與障礙物之間最近的點為pmin＝(xo,yo,zo)，則機械臂的關節i的方向向量為：

23、

24、樹枝障礙物的最近點pmin與機械臂關節linki的向量為：

25、

26、障礙物到機械臂關節i的最短距離為在方向上的投影的垂直分量則樹枝障礙物與機械臂距離為dmin，

27、根據兩個機械臂各個關節在世界坐標系下的位置，計算出各個關節之間歐氏距離的最小值，根據最小的歐氏距離對兩個機械臂之間動態碰撞風險的評估；

28、ecrt是在時間步t的預期碰撞風險，ecrt基于機械臂與障礙物之間的歐氏距離，采用指數關系來評估預期的碰撞風險；ε系數用來控制指數速率，σ系數用來限制碰撞風險閾值；

29、獎勵總和rt＝rt+rc；rt是反映任務完成情況的任務完成獎勵，而rc是基于碰撞風險評估的懲罰，rc＝γ·ecrt；γ是系數，用于調整碰撞風險評估對總獎勵的影響；

30、綜合以上公式得到碰撞風險評估函數即獎勵總和rt的計算公式：

31、將采摘蘋果的空間劃分為左臂工作空間和右臂工作空間；左臂工作空間和右臂工作空間具有交集并將該交集稱為公共工作空間，公共工作空間也稱為協作工作空間；

32、還包括有多目標貪心采摘策略，用于在獨立工作空間中確定最優采摘順序，應對蘋果分布的非均勻性及采摘作業環境復雜度的異質性，并統籌雙臂采摘過程中的資源利用率；

33、多目標貪心采摘策略的第一個目標是最小化采摘距離di，di即機械臂末端執行器與蘋果之間的距離；機械臂末端執行器在世界坐標系下的位置為第i個蘋果在世界坐標系下的位置為采摘距離di的計算公式為：

34、

35、多目標貪心采摘策略的第二個目標是最大化規避障礙物的效率，提出動態避障策略fo，

36、

37、其中，通過量化障礙物在投影向量方向上的蘋果輪廓的面積占有率，評估兩個機械臂末端執行器到目標果實路徑的無障礙程度；

38、將獨立工作空間和公共工作空間劃分為若干采摘區域，多目標貪心采摘策略的第三個目標是使機械臂優先采摘果實密集區域的蘋果，提出果實密集區域優選策略ρi；

39、其中，ρi表示第i個區域的果實密度，ni表示該區域內的果實數量，vi代表該區域的體積；在確定多個區域的采摘順序時，按ρi值由高到低的順序安排采摘順序。

40、雙臂六自由度機器人按以下步驟采摘蘋果：

41、第一步驟是獲取環境模塊需要的st信息；

42、第二步驟是對于當前的采摘環境進行工作區域劃分，將工作區域劃分為與雙臂六自由度機器人的左臂和右臂一一對應的獨立工作空間以及同時對應雙臂六自由度機器人的左臂和右臂的公共工作空間，公共工作空間又稱協作工作空間；

43、第三步驟是對于左臂和右臂同時執行多目標貪心采摘策略，驅動左臂和右臂同時在所對應的獨立工作空間內采摘蘋果；

44、執行多目標貪心采摘策略時，先執行果實密集區域優選策略，決定作業區域優先級，依照優先級安排作業區域采摘順序；再按作業區域采摘順序，在當前作業區域內計算采摘距離di，然后執行動態避障策略fo，決定當前作業區域內的蘋果采摘優先級，

45、然后進行區域采摘動作；區域采摘動作是：

46、機械臂及其末端執行器對當前采摘的目標蘋果進行采摘，將采摘下來的蘋果放入蘋果收集容器后，判斷當前作業區域內的蘋果是否采摘完畢，如果當前作業區域內的蘋果未采摘完畢，則按當前作業區域內的蘋果采摘優先級重新執行區域采摘動作，直到當前作業區域內的蘋果采摘完畢后，返回重新執行第三步驟中的多目標貪心采摘策略，直到當前機械臂對應的獨立工作空間內的所有蘋果采摘完畢后，執行第四步驟；

47、第四步驟準備采摘公共工作空間內的蘋果，執行機械臂數量判斷；

48、機械臂數量判斷是：判斷當前執行完獨立工作空間蘋果采摘任務的機械臂的數量是否大于1；

49、如果不大于1，則對于當前執行完獨立工作空間蘋果采摘任務的一條機械臂執行多目標貪心采摘策略，單臂抓取蘋果，將采摘下來的蘋果放入蘋果收集容器后，執行結束采摘判斷；

50、如果大于1，則對于兩條機械臂執行多目標貪心采摘策略，動態分配蘋果抓取任務，通過碰撞風險評估函數評估獎勵總和rt，然后兩個智能體實時接收并執行行動者網絡發出的動作指令at，雙臂抓取蘋果，將采摘下來的蘋果放入蘋果收集容器后，執行結束采摘判斷；

51、結束采摘判斷是：判斷公共工作空間內的蘋果是否采摘完畢，如果未采摘完畢，則返回重新執行機械臂數量判斷；如果已采摘完畢，則結束全部采摘工作。

52、本發明具有如下的優點：

53、本發明采用mappo強化學習算法，用于解決雙臂動作同步和任務分配的難題，提高雙臂協作的效率和適應性，克服傳統算法在雙臂協作中的局限性。

54、本發明巧妙融合了mappo強化學習與多目標貪心采摘策略(mogps)算法，顯著提升了雙臂六自由度采摘機器人在農業自動化領域的作業效率與品質。通過自主學習優化抓取策略，機器人在復雜環境中實現了精準采摘，而動態碰撞評估函數的引入確保了作業過程的安全性。這些技術的集成應用，不僅提高了采摘效率，還增強了機器人在不同作業場景下的適應能力。

55、本發明中，兩個智能體是同構的，它們共享一套網絡參數，形成了一個緊湊的代理模型。據此，雙臂智能體均遵循由參數θ確定的策略網絡πθ由參數φ確定的價值函數網絡vφ，以實現同步的決策制定和動作執行。這種參數共享機制不僅促進了雙智能體之間的策略一致性，而且通過多智能體間策略迭代，顯著提升了系統的集體學習效能和動作協同性。此外，這種結構還利用了actor-critic(行動者－評論家)架構的優勢，其中actor負責動作的選擇，而critic則評估給定狀態下的動作值，共同驅動智能體在動態環境中的最優行為策略學習。

56、通過碰撞風險評估函數即獎勵總和rt的計算公式，獎勵總和rt不僅取決于任務完成的情況rt，還取決于基于機器人當前狀態的碰撞風險評估ecrt。通過這種方式，獎勵函數可以動態地調整，以鼓勵機器人采取風險較低的動作，同時仍然追求任務完成。

57、本發明中的碰撞風險評估函數超越了僅在碰撞發生后施加懲罰的傳統方法，而是通過預測潛在的碰撞風險，對機器人的動作選擇進行實時評價。通過對機器人末端執行器與目標蘋果之間的相對空間距離，以及兩個機械臂關節配置的歐氏距離進行深入分析，來進行碰撞風險評估。利用這一風險評估結果，能夠動態調整獎勵機制，從而優化機器人在復雜環境中的行為策略。

58、采用多目標貪心采摘策略可以優化采摘順序，提高采摘效率；采用動態避障策略可以降低采摘過程中發生碰撞的概率，提高采摘效率和采摘安全性，并提高采摘作業的連續性，優化資源利用，增強雙臂六自由度機器人對于果園環境的復雜性和動態變化的適應性和魯棒性。果實密集區域優選策略保證了優先采摘果實密集區域。

59、如圖4所示，左臂(左機械臂)的獨立工作空間中的果實密度大于公共工作空間中的果實密度，同時公共工作空間中的果實密度大于右臂(右機械臂)工作空間中的果實密度，因此按右臂將先采摘完其所對應的獨立工作空間內的蘋果，因此公共工作空間中的果實將由右臂進行采摘。獨立工作空間和公共工作空間的劃分，使得左臂和右臂的采摘量更趨均衡，提高采摘作業效率和設備利用率。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：牛金星,于青源,李昱珩,趙俊龍
技術所有人：華北水利水電大學
我是此專利的發明人

上一篇：一種手柄及配電柜的制作方法
上一篇：一種電氣連接件及高效模塊化的散熱風扇組的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、平老師：1.功能涂層設計與應用 2.柔性電子器件設計與應用 3.結構動態參數測試與裝置研發 4.智能機電一體化產品研發 5.3D打印工藝與設備
2、潘老師：1.機電一體化裝備及其控制技術 2.多傳感器信息融合與質量評定
3、王老師：機械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽能電池
5、李老師：新型電力電子技術在微網中的應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

MAPPO雙臂協同智能采摘方法