本發明屬于機器人操作與控制,特別涉及一種機器人動作生成方法及相關裝置。
背景技術:
1、高精度的機器人操作任務,在工業自動化、醫療手術、家庭服務等領域具有廣泛的應用前景,這類任務要求機器人不僅能夠準確感知環境中的幾何細節,還能夠在復雜的操作場景中快速生成精確的動作。例如,在工業自動化中,機器人需要精確地將零件裝配到指定位置;在醫療手術中,機器人需要以極高的精度執行手術操作;在家庭服務中,機器人需要靈活地完成諸如抓取、放置等精細操作。
2、現有的機器人動作生成方案在高精度任務中仍面臨諸多挑戰,尤其是在感知精度、計算效率和動作生成速度方面尚存在以下問題:
3、(1)感知精度不足:現有的機器人操作技術通常依賴于全局場景的感知,難以在復雜任務中精確捕捉任務相關區域的幾何細節;在高精度機器人操作任務中,局部幾何信息的缺失往往導致操作失敗;
4、(2)計算效率比較低:現有的動作生成方法,尤其是基于擴散模型的策略,通常需要通過迭代去噪過程來生成動作,導致計算效率低下,難以滿足實時機器人控制的需求;
5、(3)動作生成速度比較慢:傳統的動作生成方法在生成復雜動作時,往往需要多次迭代,導致動作生成速度較慢,無法適應高精度任務中對快速響應的要求。
技術實現思路
1、本發明的目的在于提供一種機器人動作生成方法及相關裝置,以解決上述存在的一個或多個技術問題。本發明公開的技術方案,具體是一種基于動態半徑規劃與條件流匹配的機器人動作生成方法,能夠解決現有機器人動作生成技術在機器人高精度操作任務中存在的計算效率低、感知精度不足以及動作生成速度慢等技術問題。
2、為達到上述目的,本發明采用以下技術方案:
3、本發明第一方面,提供一種機器人動作生成方法,包括以下步驟:
4、獲取任務指令以及待操作機器人當前時刻的本體感知、多視角rgb-d圖像;
5、基于獲取的任務指令、本體感知以及多視角rgb-d圖像,利用訓練好的區域流匹配模型進行動作生成,獲得待操作機器人下一時刻的動作位姿;
6、其中,所述區域流匹配模型包括:
7、特征編碼模塊,用于輸入任務指令、本體感知以及多視角rgb-d圖像,對任務指令進行文本特征編碼,對本體感知進行先驗特征編碼,對多視角rgb-d圖像分別進行圖像特征編碼以及動態半徑調度引導的區域特征編碼,獲得多模態編碼特征;
8、多模態信息融合模塊,用于輸入多模態編碼特征并進行信息融合,獲得融合后特征;
9、動作生成模塊,用于輸入融合后特征,采用條件流匹配方法進行動作生成;其中,采用條件流匹配方法進行動作生成時,融合后特征作為條件信息注入到構建的參數化速度場中。
10、本發明的進一步改進在于,
11、所述區域流匹配模型的訓練步驟包括:
12、獲取訓練樣本數據集;其中,所述訓練樣本數據集中的每個訓練樣本均包括樣本任務指令、樣本時刻的本體感知及多視角rgb-d圖像、樣本時刻的下一時刻的動作位姿標簽;
13、基于所述訓練樣本數據集和構建的整體損失函數,采用有監督訓練的方式對所述區域流匹配模型的參數進行迭代更新,達到預設收斂條件后,獲得訓練好的區域流匹配模型;
14、其中,整體損失函數的表達式為:;
15、式中,為整體損失函數;為條件流匹配損失;為末端執行器狀態預測的二元交叉熵損失;為權重超參數。
16、本發明的進一步改進在于,
17、末端執行器狀態預測的二元交叉熵損失的計算表達式為:
18、;
19、式中,是末端執行器的真實狀態,是預測狀態。
20、本發明的進一步改進在于,
21、所述特征編碼模塊中,執行對多視角rgb-d圖像進行動態半徑調度引導的區域特征編碼的步驟包括:
22、基于多視角rgb-d圖像構建原始點云數據,對原始點云數據進行采樣,并使用點云編碼器對采樣點進行編碼;
23、其中,對原始點云數據進行采樣的步驟包括:基于所述原始點云數據,隨機獲取噪聲點;將噪聲點與下一步要到達的真實狀態連接構建流匹配路徑,將流匹配路徑按照時間步長離散為若干噪聲擾動位置點;對于每個噪聲擾動位置點,以其為圓心構建一個感知區域,并基于感知區域掩碼獲取采樣結果;
24、其中,感知區域掩碼表示為,;其中,表示第個時間步的噪聲擾動位置點,表示第個時間步的噪聲擾動位置點對應的感知半徑; n為時間步總數;
25、;
26、式中,是初始感知半徑,是最小感知半徑,滿足≤<。
27、本發明的進一步改進在于,
28、所述多模態信息融合模塊中,進行信息融合的步驟包括:
29、將多模態編碼特征在通道維度上進行拼接,再使用mamba模型對拼接后的特征進行處理,?獲得融合后特征。
30、本發明的進一步改進在于,
31、所述動作生成模塊中,采用條件流匹配方法進行動作生成的步驟中,
32、條件流匹配通過學習參數化的速度場,將初始分布映射到目標動作分布;
33、條件流匹配通過以下常微分方程描述數據轉移過程:
34、;
35、;
36、式中,為時間步 t的狀態變量;為速度場;為包括融合后特征的條件信息;為目標分布的樣本;為初始分布的樣本;
37、條件流匹配通過最小化以下損失函數來估計速度場:
38、;
39、式中,為期望。
40、本發明的進一步改進在于,
41、所述動作生成模塊在推理階段,從噪聲分布中采樣初始動作姿態,并通過數值積分生成目標動作姿態;其中,數值積分中的位姿增量表示為:
42、;
43、其中,為位姿增量;為時間增量。
44、本發明第二方面,提供一種機器人動作生成系統,包括:
45、數據獲取模塊,用于獲取任務指令以及待操作機器人當前時刻的本體感知、多視角rgb-d圖像;
46、動作生成模塊,用于基于獲取的任務指令、本體感知以及多視角rgb-d圖像,利用訓練好的區域流匹配模型進行動作生成,獲得待操作機器人下一時刻的動作位姿;
47、其中,所述區域流匹配模型包括:
48、特征編碼模塊,用于輸入任務指令、本體感知以及多視角rgb-d圖像,對任務指令進行文本特征編碼,對本體感知進行先驗特征編碼,對多視角rgb-d圖像分別進行圖像特征編碼以及動態半徑調度引導的區域特征編碼,獲得多模態編碼特征;
49、多模態信息融合模塊,用于輸入多模態編碼特征并進行信息融合,獲得融合后特征;
50、動作生成模塊,用于輸入融合后特征,采用條件流匹配方法進行動作生成;其中,采用條件流匹配方法進行動作生成時,融合后特征作為條件信息注入到構建的參數化速度場中。
51、本發明第三方面,提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現如本發明第一方面中任一項所述的機器人動作生成方法。
52、本發明第四方面,提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如本發明第一方面中任一項所述的機器人動作生成方法。
53、與現有技術相比,本發明具有以下有益效果:
54、本發明具體公開了一種基于動態半徑規劃與條件流匹配的高精度機器人操作方案,通過引入動態半徑規劃機制,能夠精確感知任務相關區域的幾何細節,顯著提高感知精度;通過條件流匹配技術,簡化動作生成過程,大幅提升計算效率;通過多模態信息融合,高效整合視覺、幾何、語言和本體感知信息,顯著加快動作生成速度,滿足高精度任務中對快速響應的要求??偨Y性地,本發明公開的技術方案中,通過動態半徑規劃技術,逐步縮小感知范圍,從全局場景理解過渡到細粒度幾何細節,結合條件流匹配技術,直接生成動作姿態,簡化了傳統擴散模型的迭代去噪過程,顯著提高了推理速度。
55、進一步具體解釋性地,特征編碼模塊中,通過動態半徑規劃實現了自適應區域感知;多模態信息融合模塊中,利用狀態空間模型高效整合rgb圖像、點云和語言指令;動作生成模塊中,根據條件流匹配,通過參數化速度場生成目標動作。
56、進一步具體解釋性地,本發明提高了操作精度:通過動態半徑規劃機制,機器人能夠精確感知任務相關區域的幾何細節,顯著提高了高精度操作任務的執行成功率;實驗表明,本發明技術方案在rlbench基準測試中表現出色,尤其在高精度任務中平均成功率提升12.0%,推理速度顯著加快,適用于工業機器人高精度操作、實時控制及多任務學習等場景,具有廣泛的應用前景和經濟效益。本發明提升了計算效率:采用條件流匹配技術,避免了傳統擴散模型的迭代去噪過程,顯著減少了推理時間;實驗結果顯示,本發明技術方案能夠在少于4個時間步內生成物理上可行的動作,推理速度顯著優于現有方法。本發明增強了多模態信息處理能力:通過狀態空間模型實現多模態信息的有效融合,能夠在保證性能的同時降低計算開銷,適用于復雜的機器人操作任務。