本技術(shù)涉及機(jī)器人操作,尤其涉及機(jī)器人操作方法、機(jī)器人、介質(zhì)、設(shè)備和程序產(chǎn)品。
背景技術(shù):
1、由于真實(shí)世界環(huán)境的復(fù)雜性和多樣性,開發(fā)一個通用的機(jī)器人操作系統(tǒng)一直是一個具有挑戰(zhàn)性的任務(wù)。受到大型語言模型(large?language?model,縮寫為llm,又稱大語言模型)和視覺語言模型(vision?language?model,縮寫為vlm)快速發(fā)展的啟發(fā),研究者們利用海量互聯(lián)網(wǎng)數(shù)據(jù)獲取豐富的常識知識,并探索其在機(jī)器人領(lǐng)域的應(yīng)用。目前的大多數(shù)研究集中在利用這些知識進(jìn)行高層次的任務(wù)規(guī)劃,對于空間理解的能力缺乏,而這種能力對于細(xì)粒度、低層次的操作任務(wù)至關(guān)重要,導(dǎo)致機(jī)器人操作控制的通用性不高。
2、基于此,本技術(shù)提供了機(jī)器人操作方法、機(jī)器人、介質(zhì)、設(shè)備和程序產(chǎn)品,以改進(jìn)相關(guān)技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于提供機(jī)器人操作方法、機(jī)器人、介質(zhì)、設(shè)備和程序產(chǎn)品,提升機(jī)器人操作控制的通用性。
2、本技術(shù)的目的采用以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本技術(shù)提供了一種機(jī)器人操作方法,所述方法包括:利用目標(biāo)任務(wù)信息和視覺輸入信息進(jìn)行任務(wù)規(guī)劃,以確定至少一個階段的子任務(wù)和目標(biāo)物體,所述階段的目標(biāo)物體包括主動物體和被動物體;針對至少一個階段,根據(jù)所述階段的子任務(wù)和目標(biāo)物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,以得到基于規(guī)范交互原語的空間約束信息;以及,根據(jù)所述階段的子任務(wù)和空間約束信息控制所述機(jī)器人的末端執(zhí)行器的操作。
4、在一些實(shí)施例中,對應(yīng)同一階段的主動物體和被動物體滿足以下條件:所述被動物體為至少一個任務(wù)物體的其中一個;所述主動物體為所述末端執(zhí)行器,或者,所述主動物體為所述至少一個任務(wù)物體的其中一個并且不同于所述被動物體。
5、在一些實(shí)施例中,所述至少一個任務(wù)物體的獲取過程包括:對所述視覺輸入信息進(jìn)行處理,以標(biāo)注出至少一個輸入物體;從所述至少一個輸入物體中篩選出與所述目標(biāo)任務(wù)信息相應(yīng)的至少一個任務(wù)物體。
6、在一些實(shí)施例中,所述目標(biāo)物體的規(guī)范交互原語的獲取過程包括:使用所述階段的子任務(wù)和目標(biāo)物體的規(guī)范化表示信息進(jìn)行規(guī)范交互原語的提取,以得到所述目標(biāo)物體的規(guī)范交互原語;所述規(guī)范化表示信息包括三維模型和位姿。
7、在一些實(shí)施例中,所述目標(biāo)物體的三維模型是利用所述視覺輸入信息進(jìn)行針對所述目標(biāo)物體的三維結(jié)構(gòu)重建得到的,和/或,所述目標(biāo)物體的位姿是利用所述視覺輸入信息進(jìn)行針對所述目標(biāo)物體的位姿估計(jì)得到的。
8、在一些實(shí)施例中,所述目標(biāo)物體的規(guī)范交互原語包括交互點(diǎn)和/或交互方向。
9、在一些實(shí)施例中,所述交互點(diǎn)包括以下至少一種:可見且可觸摸的第一交互點(diǎn);不可見或不可觸摸的第二交互點(diǎn)。
10、在一些實(shí)施例中,所述交互點(diǎn)的提取過程包括:在包含所述目標(biāo)物體的目標(biāo)圖像上疊加笛卡爾網(wǎng)絡(luò),得到疊加圖像;所述目標(biāo)圖像根據(jù)所述視覺輸入信息確定;根據(jù)所述階段的子任務(wù),利用所述疊加圖像定位得到所述交互點(diǎn)。
11、在一些實(shí)施例中,對應(yīng)所述第一交互點(diǎn)的目標(biāo)圖像包括輸入圖像,所述輸入圖像是對所述視覺輸入信息進(jìn)行處理得到的;和/或,對應(yīng)所述第一交互點(diǎn)的目標(biāo)圖像包括所述目標(biāo)物體的三維模型的至少一個視圖,所述至少一個視圖包括六視圖中的至少一種。
12、在一些實(shí)施例中,所述根據(jù)所述階段的子任務(wù),利用所述疊加圖像定位得到所述交互點(diǎn),包括:根據(jù)所述階段的子任務(wù)的任務(wù)類型以及所述目標(biāo)物體的物體類型,利用所述疊加圖像定位得到所述交互點(diǎn);所述物體類型包括主動和被動。
13、在一些實(shí)施例中,所述交互點(diǎn)的提取過程包括:基于所述目標(biāo)物體的規(guī)范化表示信息進(jìn)行規(guī)范交互原語的提取,以得到多個候選交互點(diǎn);根據(jù)所述階段的子任務(wù)對多個候選交互點(diǎn)進(jìn)行處理,以生成交互點(diǎn)熱圖;利用所述交互點(diǎn)熱圖,從多個候選交互點(diǎn)中確定出至少一個交互點(diǎn)。
14、在一些實(shí)施例中,所述交互方向的提取過程包括:根據(jù)所述目標(biāo)物體的規(guī)范化表示信息,提取所述目標(biāo)物體的至少一個候選交互方向;針對一個或多個候選交互方向,生成所述候選交互方向相應(yīng)的語義描述信息,以及,計(jì)算所述語義描述信息與所述階段的子任務(wù)的相關(guān)性評分;按照相關(guān)性評分對相應(yīng)的候選交互方向進(jìn)行排序,以確定出至少一個交互方向。
15、在一些實(shí)施例中,所述根據(jù)所述階段的子任務(wù)和目標(biāo)物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,以得到基于規(guī)范交互原語的空間約束信息,包括:基于所述階段的子任務(wù)和目標(biāo)物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,以得到至少一個未驗(yàn)證約束信息,所述至少一個未驗(yàn)證約束信息包括距離約束信息和/或角度約束信息;針對一個或多個未驗(yàn)證約束信息,對所述未驗(yàn)證約束信息進(jìn)行驗(yàn)證,以得到所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果;在所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果為成功的情況下,將所述未驗(yàn)證約束信息列入空間約束信息。
16、在一些實(shí)施例中,所述對所述未驗(yàn)證約束信息進(jìn)行驗(yàn)證,以得到所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果,包括:渲染所述未驗(yàn)證約束信息相應(yīng)的交互圖像;對所述交互圖像進(jìn)行驗(yàn)證以得到所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果。
17、在一些實(shí)施例中,所述方法還包括:在所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果為失敗的情況下,對下一個未驗(yàn)證約束信息進(jìn)行驗(yàn)證;或者,在所述未驗(yàn)證約束信息相應(yīng)的驗(yàn)證結(jié)果為優(yōu)化的情況下,基于當(dāng)前的規(guī)范交互原語進(jìn)行重采樣,以實(shí)現(xiàn)所述規(guī)范交互原語的調(diào)整,以及,基于調(diào)整后的規(guī)范交互原語重新進(jìn)行空間約束規(guī)劃,以得到至少一個未驗(yàn)證約束信息。
18、在一些實(shí)施例中,所述根據(jù)所述階段的子任務(wù)和空間約束信息控制所述機(jī)器人的末端執(zhí)行器的操作,包括:根據(jù)所述階段的子任務(wù)和空間約束信息計(jì)算目標(biāo)損失函數(shù)的損失值,以確定滿足目標(biāo)優(yōu)化條件的所述末端執(zhí)行器的目標(biāo)位姿;所述目標(biāo)損失函數(shù)包括約束損失項(xiàng)、碰撞損失項(xiàng)和路徑損失項(xiàng)中的一種或多種損失項(xiàng),至少一種損失項(xiàng)的損失值根據(jù)所述末端執(zhí)行器的位姿計(jì)算得到;利用所述目標(biāo)位姿對所述末端執(zhí)行器進(jìn)行軌跡規(guī)劃,以得到所述末端執(zhí)行器的軌跡信息;所述軌跡信息用于控制所述末端執(zhí)行器的操作。
19、在一些實(shí)施例中,所述約束損失項(xiàng)根據(jù)所述階段的目標(biāo)物體的位姿計(jì)算得到,所述主動物體的位姿根據(jù)所述末端執(zhí)行器的位姿確定,所述方法還包括:對所述階段的目標(biāo)物體進(jìn)行位姿跟蹤,以更新所述目標(biāo)物體的位姿;基于更新后的所述目標(biāo)物體的位姿,更新所述目標(biāo)損失函數(shù)中的至少一種損失項(xiàng)的損失值,以實(shí)現(xiàn)所述目標(biāo)損失函數(shù)的損失值的更新;根據(jù)更新后的所述目標(biāo)損失函數(shù)的損失值,重新確定滿足所述目標(biāo)優(yōu)化條件的所述末端執(zhí)行器的目標(biāo)位姿。
20、第二方面,本技術(shù)提供了一種機(jī)器人操作系統(tǒng),所述系統(tǒng)包括:任務(wù)規(guī)劃模塊,用于利用目標(biāo)任務(wù)信息和視覺輸入信息進(jìn)行任務(wù)規(guī)劃,以確定至少一個階段的子任務(wù)和目標(biāo)物體,所述階段的目標(biāo)物體包括主動物體和被動物體;約束規(guī)劃模塊,用于針對至少一個階段,根據(jù)所述階段的子任務(wù)和目標(biāo)物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,以得到基于規(guī)范交互原語的空間約束信息;操作控制模塊,用于針對至少一個階段,根據(jù)所述階段的子任務(wù)和空間約束信息控制所述機(jī)器人的末端執(zhí)行器的操作。
21、第三方面,本技術(shù)提供了一種機(jī)器人,所述機(jī)器人包括機(jī)器人操作系統(tǒng)和末端執(zhí)行器,所述機(jī)器人操作系統(tǒng)用于執(zhí)行上述任一項(xiàng)方法,以控制所述末端執(zhí)行器的操作。
22、第四方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一項(xiàng)方法。
23、第五方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述任一項(xiàng)方法。
24、第六方面,本技術(shù)提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一項(xiàng)方法。
25、本技術(shù)提供了機(jī)器人操作方法、機(jī)器人、介質(zhì)、設(shè)備和程序產(chǎn)品,所述方法包括:利用目標(biāo)任務(wù)信息和視覺輸入信息進(jìn)行任務(wù)規(guī)劃,以確定至少一個階段的子任務(wù)和目標(biāo)物體,階段的目標(biāo)物體包括主動物體和被動物體;針對至少一個階段,根據(jù)階段的子任務(wù)和目標(biāo)物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,以得到基于規(guī)范交互原語的空間約束信息;以及,根據(jù)階段的子任務(wù)和空間約束信息控制機(jī)器人的末端執(zhí)行器的操作。本技術(shù)能夠使用物體的規(guī)范交互原語進(jìn)行空間約束規(guī)劃,提升機(jī)器人操作控制的通用性。