本發明涉及機器人操作領域,尤其是涉及一種接觸點動態預測及優化方法、系統、設備及介質。
背景技術:
1、隨著大數據、機器學習、人工智能等技術的持續發展和深化應用,隨著人工智能、機器學習和機器人技術的迅速發展,機器人在復雜環境中的自主操作能力受到廣泛關注。傳統的機器人操作系統通常依賴于預先編程的規則或基于單一模態(如視覺、觸覺或力覺)的傳感器數據進行決策。這種方法在結構化和可預測的環境中表現良好,但在復雜、多變的現實環境中,往往難以應對。
2、在實際應用中,機器人需要在動態和未知的環境中執行各種任務,例如抓取、裝配和操縱不同形狀和材質的物體。然而,由于缺乏對環境和任務的全面理解,機器人在物體操作過程中常常面臨以下挑戰:1)、接觸點選擇困難:機器人需要確定適合的接觸點以成功抓取或操作物體,由于物體的形狀、大小和材質各異,且可能存在遮擋或復雜的幾何結構,傳統的方法難以準確地預測最佳的接觸點;2)、缺乏多模態信息融合:單一的視覺或力覺信息無法全面描述環境和物體的特性,缺乏對多模態信息的有效融合,使得機器人在理解任務要求和環境細節方面存在局限;3)、反饋機制不完善:當操作失敗時,傳統的機器人系統往往缺乏有效的反饋機制來分析失敗原因并調整后續的操作策略,這導致了操作的低成功率和低效率,無法滿足實際應用的需求;4)、環境適應性差:在動態變化的環境中,機器人需要具備自適應能力,以應對未知的情況和變化。傳統的方法往往無法實時地更新和優化操作策略,限制了機器人的環境適應性。
3、近年來,隨著深度學習和多模態融合技術的興起,研究人員開始嘗試將視覺、文本和其他傳感器數據結合起來,以增強機器人的環境感知和決策能力。例如,使用深度神經網絡進行圖像識別和目標檢測,或利用語言模型理解和執行自然語言指令。然而,這些方法仍然存在一些不足,如a、模型訓練依賴大量數據:深度學習模型的訓練通常需要大量標注數據,獲取和標注這些數據成本高昂,且在實際應用中難以覆蓋所有可能的場景和物體;b、實時性不足:復雜的深度學習模型在計算資源受限的機器人平臺上難以實現實時的決策和反饋,影響了操作效率;c、缺乏有效的反饋利用:即使一些系統具備反饋機制,但往往無法將失敗信息有效地融入模型中,以指導后續的操作優化。
4、因此,迫切需要一種新的方法,即能夠有效地融合多模態信息和實時地預測和優化接觸點選擇,還能在操作失敗后通過反饋機制進行持續優化。
技術實現思路
1、本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種接觸點動態預測及優化方法、系統、設備及介質。
2、本發明的目的可以通過以下技術方案來實現:
3、根據本發明的第一方面,提供了一種接觸點動態預測及優化方法,該方法包括:
4、獲取任務文本指令以及任務區域圖像的視覺信息和深度信息,基于所述的任務文本指令提取文本特征,基于所述的視覺信息提取視覺特征,基于所述的深度信息獲取深度圖并將深度圖轉換為3d點云;
5、將所述的文本特征與所述的視覺特征進行多模態對齊,基于多模態對齊結果賦予3d點云中每一3d點優先級提示;
6、基于所述的3d點云構建3d價值地圖并基于所述的優先級提示進行3d價值地圖初始化;
7、利用所述的任務區域圖像和多模態對齊結果生成視覺遮罩,并基于該視覺遮罩對初始化后的3d價值地圖進行再處理;
8、基于再處理后的3d價值地圖選取當前最佳接觸點,并獲取當前最佳接觸點的執行狀態,若執行狀態為成功則將當前最佳接觸點存入經驗數據集并繼續選取下一最佳接觸點;若當前最佳接觸點的執行狀態為失敗,則生成反饋信息優化3d價值地圖。
9、作為優選的技術方案,獲取所述的3d點云的方法為:將所述的深度圖中每一像素點按預設規則轉換為三維坐標系下的三維坐標點,從而生成3d點云。
10、作為優選的技術方案,所述的多模態對齊采用的方法為跨模態注意力機制或特征融合層。
11、作為優選的技術方案,所述的構建3d價值地圖并基于所述的優先級提示進行3d價值地圖初始化的方法為:
12、基于所述的3d點云定義一個三維網格或體素網格;
13、將所述的三維網格或體素網格劃分為多個單元,每一單元對應一個3d點;
14、將優先級提示為高優先級的3d點賦予高價值分數,優先級提示為低優先級的3d點賦予低價值分數。
15、作為優選的技術方案,所述的生成視覺遮罩的方法為:利用所述的任務區域圖像結合多模態對齊結果,將不可操作區域的像素值置特定值,將可操作區域的像素值置另一值,形成與所述的任務區域圖像規格相同的視覺遮罩圖像。
16、作為優選的技術方案,所述的再處理的步驟為:
17、將所述的任務區域圖像轉換為三維圖像,并映射至所述的視覺遮罩圖像;
18、提取三維圖像中映射于視覺遮罩圖像中像素值置特定值區域的3d點為遮罩點;
19、降低3d價值地圖中與遮罩點對應單元的價值分數。
20、作為優選的技術方案,所述的優化3d價值地圖的方法為:
21、獲取當前最佳接觸點的場景圖像,判斷當前最佳接觸點是否位于不可操作區域;
22、根據判斷結果生成反饋文本,并提取反饋文本的反饋文本特征,其中當所述的判斷結果為當前最佳接觸點位于不可操作區域時,生成的反饋文本為“接觸點位于不可操作區域”;若判斷結果為當前最佳接觸點不位于不可操作區域時,生成的反饋文本為“接觸點在可操作區域但操作失敗”;
23、將所述反饋文本特征與所述視覺特征進行多模態對齊獲得多模態對齊結果;
24、基于多模態對齊結果重新生成新優先級提示和新視覺遮罩,利用所述的新優先級提示和新視覺遮罩優化3d價值地圖。
25、根據本發明的第二方面,提供了一種接觸點動態預測及優化系統,所述的系統用于上述的方法,包括:
26、數據采集模塊:用于采集用戶或上層任務的任務文本指令以及任務區域圖像及其對應的視覺信息和深度信息;
27、特征提取與融合模塊:包括視覺特征提取單元、文本特征提取單元和特征融合單元,其中所述的視覺特征提取單元用于提取數據采集模塊采集的視覺信息的視覺特征,所述的文本特征提取單元用于提取數據采集模塊采集的用戶或上層任務的任務文本指令的文本特征,所述的特征融合單元用于將文本特征和視覺特征進行多模態對齊;
28、3d價值地圖模塊:用于基于特征提取與融合模塊的處理結果進行與所述的3d價值地圖所有相關的操作,包括:3d價值地圖構建、初始化、再處理和優化;
29、控制器:用于基于3d價值地圖選取最佳接觸點以及控制機器人執行,并輸出執行狀態;
30、反饋模塊:用于接收狀態為失敗的執行,并進行分析失敗原因,根據失敗原因生成反饋文本,將該反饋文本傳送至特征提取與融合模塊。
31、根據本發明的第三方面,提供了一種接觸點動態預測及優化電子設備,包括存儲器和處理器,所述存儲器上存儲有計算機程序,所述處理器執行所述程序時實現所述的方法。
32、根據本發明的第四方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現所述的方法。
33、與現有技術相比,本發明具有以下優點:
34、1)、本發明利用深度信息構建3d價值地圖,將文本特征與視覺特征進行多模態對齊,基于多模態對齊結果為每個3d點賦予可操作價值以可視化物體的各個可接觸區域優先級,且基于接觸點的執行狀態實時評估和動態更新3d價值地圖,與傳統方法中僅使用2d信息或固定規則進行接觸點選擇所導致的可操作性和適應性不足相比,本發明利用3d價值地圖實時評估和動態更新可操作區域,顯著提升最佳接觸點的選取精度,還保證了機器人執行任務的靈活性;
35、2)、本發明通過自適應反饋機制動態更新3d價值地圖,實現多輪閉環優化,可使系統在不斷嘗試中持續優化與改進,降低了接觸點選取失敗的概率,增強了在多變且復雜的環境下的魯棒性和自適應性,解決了現有技術中因缺乏自適應反饋更新導致操作策略固定難以適應動態變化場景的問題;
36、3)、本技術具備正向經驗積累,將最佳接觸點及相關特征數據進行記錄和強化,使系統在相似情境中更快選擇有效接觸點,解決了難以快速在相似任務中重復成功模式的問題,效提升了操作效率與成功率。