1.一種面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述基于移動(dòng)機(jī)械臂拍攝的深度圖像,確定環(huán)境特征以及移動(dòng)機(jī)械臂關(guān)節(jié)變化時(shí)的位置梯度,包括:
3.根據(jù)權(quán)利要求1所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述通過強(qiáng)化學(xué)習(xí)訓(xùn)練的演員-評(píng)論家網(wǎng)絡(luò)對移動(dòng)機(jī)械臂的運(yùn)動(dòng)狀態(tài)和運(yùn)動(dòng)動(dòng)作進(jìn)行策略規(guī)劃,得到移動(dòng)機(jī)械臂中末端執(zhí)行器的期望速度,包括:
4.根據(jù)權(quán)利要求3所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述構(gòu)建演員-評(píng)論家網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)的迭代時(shí)間步上的最大熵,包括:
5.根據(jù)權(quán)利要求3所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述演員-評(píng)論家網(wǎng)絡(luò)的策略規(guī)劃訓(xùn)練過程包括:
6.根據(jù)權(quán)利要求5所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述通過最小化所述kl散度來更新所述演員網(wǎng)絡(luò)的參數(shù)和所述評(píng)論網(wǎng)絡(luò)的參數(shù),是通過計(jì)算所述kl散度的更新梯度、并將所述更新梯度的更新目標(biāo)設(shè)置為當(dāng)前軟狀態(tài)動(dòng)作回報(bào)的時(shí)間差分誤差來實(shí)現(xiàn)的,所述更新梯度的計(jì)算過程包括:
7.根據(jù)權(quán)利要求6所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述演員-評(píng)論家網(wǎng)絡(luò)中包括兩個(gè)評(píng)論網(wǎng)絡(luò),所述當(dāng)前軟狀態(tài)動(dòng)作回報(bào)的分布是通過調(diào)用貝葉斯控制函數(shù),對兩個(gè)評(píng)論網(wǎng)絡(luò)在進(jìn)行策略評(píng)估時(shí)輸出的軟狀態(tài)動(dòng)作回報(bào)的分布進(jìn)行混合估計(jì)得到的,所述貝葉斯控制函數(shù)進(jìn)行混合估計(jì)的過程,包括:
8.根據(jù)權(quán)利要求1所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述基于所述位置梯度構(gòu)建用于移動(dòng)機(jī)械臂避障的位置約束條件,包括:
9.根據(jù)權(quán)利要求1所述的面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化方法,其特征在于,所述關(guān)節(jié)約束參數(shù)包括約束權(quán)重和優(yōu)化偏置,所述構(gòu)建用于對決策變量進(jìn)行約束的關(guān)節(jié)約束參數(shù),包括:
10.一種面向移動(dòng)機(jī)械臂全身運(yùn)動(dòng)規(guī)劃的優(yōu)化裝置,其特征在于,包括: