麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于數據-模型融合驅動的機械臂軌跡跟蹤控制方法

文檔序號:41767728發布日期:2025-04-29 18:37閱讀:4來源:國知局
基于數據-模型融合驅動的機械臂軌跡跟蹤控制方法

本發明涉及智能制造與自動化控制,針對機械臂的軌跡跟蹤控制方法及其系統的技術創新,具體涉及一種基于數據-模型融合驅動的機械臂軌跡跟蹤控制方法。


背景技術:

1、機械臂作為現代制造業的核心設備,其在自動化生產線上的廣泛應用極大地推動了生產模式的變革;它們能夠高效、準確地執行物料搬運、零件組裝、產品包裝等多種任務,不僅顯著提高了生產線的效率與產能,還有效降低了人力資源的依賴和人力成本;特別是在精密加工領域,機械臂的卓越精確控制能力確保了產品質量的卓越性和一致性,滿足了市場對高品質產品的嚴格要求;隨著工業4.0時代的到來,機械臂控制技術的不斷發展進一步推動了制造業的數字化轉型和智能化升級,為構建智能工廠、實現個性化定制等提供了關鍵技術支持;國家層面也相繼出臺了一系列扶持政策,以激勵技術創新、提升產品質量和優化產業生態,為機械臂產業的蓬勃發展提供了堅實的政策保障和方向指引。

2、機械臂的軌跡跟蹤性能是其在多樣化工作環境中完成任務能力的關鍵;在汽車制造、電子制造等高精度領域,機械臂需要精確跟蹤預定軌跡以確保安裝、搬運、檢測等操作的準確性;而在航空航天等極端環境應用領域,機械臂則需在微重力、強輻射等惡劣條件下保持穩定的軌跡跟蹤能力;因此,設計一個既精確又魯棒的軌跡跟蹤控制方法對于確保機械臂在各個領域中的可靠運行和高效作業至關重要。

3、然而,現有的軌跡跟蹤控制方法仍存在諸多不足;基于模型驅動的控制方法雖然能夠通過精確建模系統的物理機理和動態特性來實現控制目標,但建模過程復雜且耗時,且對模型精確度要求較高,易受建模誤差和環境變化的影響;而基于數據驅動的控制方法則主要依賴于從實際數據中學習系統的輸入與輸出之間的關系,但缺乏系統內在物理機制的解釋性,泛化能力有限,且對高質量和大量的數據依賴性較強。

4、因此,亟需一種能夠融合模型驅動和數據驅動優勢的軌跡跟蹤控制方法,以提高機械臂在多變環境和復雜軌跡下的控制精度和誤差收斂速度;本發明正是針對這一技術需求而提出的。


技術實現思路

1、本發明所要解決的技術問題是,針對現有技術不足,旨在通過結合動態線性化模型、無模型自適應控制、滑模控制以及強化學習等技術手段,實現機械臂軌跡跟蹤控制的高精度、高魯棒性和高自適應性,更進一步提供一種基于數據-模型融合驅動的機械臂軌跡跟蹤控制方法,能夠顯著提高機械臂軌跡跟蹤精度以及誤差收斂速度。

2、為解決上述技術問題,本發明所采用的技術方案是:一種基于數據-模型融合驅動的機械臂軌跡跟蹤控制方法,包括以下步驟:

3、(1)基于動態線性化理論,構建多自由度機械臂系統的動態線性化模型(pfdl);基于該動態線性化模型,設計一種無模型自適應滑模融合控制(imfac-smc)的控制方法;該方法將無模型自適應控制器(mfac)作為基控制器,以滑模控制器(smc)作為補償控制器;利用mfac滾動優化特性輸出主控制力矩來逐漸減小跟蹤誤差,借助smc的魯棒性及快速響應性輸出補償控制力矩以迅速消除由不確定性及噪聲引起的誤差。

4、(2)利用強化學習td3算法對imfac-smc控制器進行參數自調整,確保找到當前時刻控制器的局部最優參數組合以達到最優的控制效果。

5、本發明的融合方法一方面利用動態線性化方法改進模型驅動控制,避免了繁瑣的機械臂動力學建模過程;另一方面,引入強化學習td3算法進行參數自調整來避免繁瑣的手動調參過程,顯著提高控制性能;此外,由于該方法基于自動控制反饋原理,因此相比于純粹利用學習的數據驅動控制方法又可以突破數據質量的限制,提高控制器數學可解釋性及魯棒性。

6、步驟(1)的具體實現過程包括:

7、1)定義控制輸入及機械臂系統輸出維度;

8、2)給定機械臂動態線性化數據模型;

9、3)利用動態線性化模型進行無模型自適應控制方法設計;

10、4)利用動態線性化模型進行離散滑模補償控制方法設計;

11、5)展示無模型自適應滑模融合控制過程。

12、從上述過程可見,本發明通過構建機械臂動態線性化模型,利用系統輸入輸出數據近似描述機械臂系統的動態特性;這種方法將非線性系統的復雜性,如非線性行為、時變參數和結構等,均融入時變參數矩陣中,從而極大地簡化了控制設計過程;基于這種動態線性化模型,本發明設計了無模型自適應控制方法,該方法可以在沒有任何先驗機理模型的情況下實現軌跡跟蹤;同時,滑模變結構控制的引入,為系統提供了一個魯棒性的補償,進一步增強了控制性能。

13、步驟2)中機械臂動態線性化(pfdl)數據模型為:

14、δx(k+1)=φp,l(k)δul(k)+d(k)

15、其中,機械臂模型輸出為關節角速度;δx(k+1)=x(k+1)-x(k)為相鄰兩個時刻的輸出變化,δul(k)=ul(k)-ul(k-1)為相鄰兩個時刻的輸入變化;時變參數矩陣(ppjm)φp,l(k)=[φ1(k),...,φl(k)]∈rn×nl;d(k)∈rn×1表示建模誤差、參數變化、測量誤差以及其他不確定因素。

16、無模型自適應控制方法具體設計過程包括:基于最優控制理論,設計mfac控制輸入目標函數,包括誤差項以及懲罰項;極小化該目標函數,可以得到mfac控制律;估計時變參數矩陣ppjm時,設計目標函數,同樣具有誤差項以及懲罰項;極小化該目標函數,并進行降維簡化,得到參數估計算法。

17、滑模變結構控制方法具體設計過程包括:設計離散滑模面及離散滑模趨近律;與動態線性化模型聯立,就可以得到離散滑模控制律。

18、步驟5)中無模型自適應滑模融合控制器(imfac-smc)控制律為:

19、u(k)=u(k-1)+αδumfac(k)+βδusmc(k)

20、其中,α為mfac控制律變化量δumfac的步長因子,β為smc控制律δusmc的步長因子。

21、步驟(2)的具體實現過程包括:

22、1)定義算法網絡組成;

23、2)定義狀態,動作向量物理意義;

24、3)設計當前actor網絡更新的梯度計算流程;

25、4)設計當前critic網絡更新的梯度計算流程;

26、5)匯總整個網絡架構當中網絡參數的更新方法;

27、6)設計經驗回放機制;

28、7)設計符合任務要求的獎勵函數。

29、本發明將狀態特征向量st=[et∫etdt]作為td3智能體的狀態輸入,將動作向量at=[δλt?δκt?δεt?δαt?δβt]作為td3智能體的動作輸出;其中,跟蹤誤差et=e(k)=xd(k)-x(k),xd(k)為目標跟蹤軌跡,x(k)為傳感器測量的真實軌跡;[δλt?δκt?δεt?δαt?δβt]為imfac-smc控制器中的五個關鍵參數變化量;本發明利用td3這種強化學習算法,通過設計一個與控制任務相匹配的獎勵函數,實現imfac-smc控制器關鍵參數的自適應調整,從而提升控制器的控制性能及其對環境變化的適應能力。

30、所述td3算法包括以下6個網絡:當前網絡包括當前actor網絡π(st;θ)和兩個當前critic網絡q1(st,at;w1),q2(st,at;w2),參數分別為θ,w1,w2;目標網絡包括目標actor網絡π′(st+1;θ′)和兩個目標critic網絡q′1(st+1,a′t+1;w′1),q′2(st+1,a′t+1;w′2),參數分別為θ′,w′1,w′2;基于td3算法,構建控制器參數自整定模型。

31、步驟5)的具體實現過程包括:步驟3)、步驟4)解釋了當前網絡梯度的計算流程;基于此,當前網絡利用梯度上升法更新網絡參數;目標網絡是利用軟更新法更新網絡參數;此外,設計了一種延遲策略更新方法;具體來說,td3算法通過設置一個固定的延遲次數,只在每個延遲更新步驟中對actor網絡進行更新,而在其他時間步驟中只對critic網絡進行更新;這種延遲的策略更新方法通過減少策略更新的頻率,可以在一定程度上抑制過度估計問題,即過高估計目標q值所帶來的誤導;這有助于提高算法的收斂性和訓練效果,并使得訓練過程更加穩定。

32、為了提高數據效率及降低樣本相關性,本發明引入經驗回放機制,即步驟6)的具體實現過程包括:設置一個經驗回放緩沖區b,每次迭代在b中存儲一個狀態轉移元組(st,at,rt,st+1),每次更新網絡時,從b中小批量抽取m個狀態轉移元組(st,at,rt,st+1);其中,rt為每一時刻獎勵值。

33、符合任務要求的獎勵函數具體設計過程包括四方面通用控制性能:誤差、輸出控制力矩、抖振幅度以及是否超出力矩限制;通過智能體自動找尋最優參數使得約束條件下最快速達到收斂且穩態誤差更小。

34、相應地,本發明還提供了一種基于數據-模型融合驅動的機械臂軌跡跟蹤控制系統,包括計算機設備;所述計算機設備被編程或配置為用于本發明所述方法的步驟。

35、與現有技術比,本發明所具有的有益效果為:與現有技術相比,本發明所具有的有益效果主要體現在以下幾個方面:

36、簡化建模過程,提高適用性:本發明采用動態線性化方法構建機械臂系統的線性化模型,避免了傳統模型驅動控制中繁瑣且復雜的機械臂動力學建模過程;這種方法不僅極大地簡化了控制設計,還提高了控制方法的適用性和靈活性,使得本發明能夠更廣泛地應用于不同類型的機械臂系統。

37、融合控制策略,提升控制性能:本發明設計了一種數據-模型方法融合的機械臂軌跡跟蹤控制框架td3-imfac-smc;該框架結合了無模型自適應控制(mfac)和滑模控制(smc)的優點,mfac作為基控制器提供基礎控制力矩,而smc則作為補償控制器,通過其魯棒性和快速響應性來迅速消除由不確定性及噪聲引起的誤差;這種融合控制策略顯著提高了軌跡跟蹤的精度和誤差收斂速度。

38、強化學習自適應參數整定,優化控制效果:本發明創新性地引入td3強化學習算法對imfac-smc控制器進行參數自調整;通過設計一個與控制任務相匹配的獎勵函數,td3算法能夠自動找尋最優參數組合,使得控制器在當前環境下達到最優的控制效果;這種自適應參數整定方法不僅避免了繁瑣的手動調參過程,還顯著提升了控制器的性能和穩定性。

39、保證系統穩定性,提供高效解決方案:在無先驗知識的情況下,傳統強化學習智能體難以直接控制多自由度機械臂的力矩;本發明通過td3強化學習進行自適應參數整定,實現了對補償控制的精確控制,既優化了控制性能,又優先保證了系統的穩定性;這為復雜機械臂控制提供了高效且可靠的解決方案。

40、專門設計的獎勵函數,顯著提升軌跡跟蹤效果:本發明設計了一種專門針對機械臂軌跡跟蹤任務的獎勵函數,該函數綜合考慮了誤差、輸出控制力矩、抖振幅度以及是否超出力矩限制等四個方面的通用控制性能;通過智能體自動找尋最優參數,使得約束條件下軌跡跟蹤效果得到顯著提升,穩態誤差更小,收斂速度更快。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 崇明县| 拜城县| 乐东| 镇江市| 揭西县| 平定县| 兰坪| 望江县| 米脂县| 绥棱县| 西贡区| 会宁县| 南岸区| 色达县| 芜湖县| 临沧市| 贡觉县| 芦山县| 桃园市| 昆山市| 德兴市| 上蔡县| 工布江达县| 黄石市| 新宾| 铁岭县| 莱芜市| 秦安县| 财经| 湘阴县| 九龙县| 秀山| 时尚| 吴桥县| 海林市| 邵武市| 蕲春县| 汨罗市| 西昌市| 宁乡县| 济源市|