本發(fā)明屬于機(jī)器人自主導(dǎo)航,具體涉及一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)和機(jī)器人自主導(dǎo)航技術(shù)的快速發(fā)展,移動機(jī)器人在物流、安防和醫(yī)療等多個領(lǐng)域得到了廣泛應(yīng)用。目前,國內(nèi)外行業(yè)內(nèi)的移動機(jī)器人路徑規(guī)劃技術(shù)主要分為兩大類:基于規(guī)則的路徑規(guī)劃方法和基于機(jī)器學(xué)習(xí)的路徑規(guī)劃方法。
2、基于規(guī)則的路徑規(guī)劃方法通常采用經(jīng)典算法,例如dijkstra算法和a星(a*)算法。上述算法以全局最優(yōu)為目標(biāo),基于預(yù)先已知的靜態(tài)環(huán)境地圖進(jìn)行路徑規(guī)劃,能夠在一定程度上保證規(guī)劃路徑的可行性和最優(yōu)性。然而,這類方法在動態(tài)環(huán)境中適應(yīng)性較差,當(dāng)環(huán)境中出現(xiàn)動態(tài)障礙物或路徑發(fā)生變化時,往往需要重新規(guī)劃路徑,導(dǎo)致計算耗時較長。此外,無法處理高維空間,當(dāng)機(jī)器人需要在高維狀態(tài)空間(如復(fù)雜的3d場景)中進(jìn)行導(dǎo)航時,其算法的計算復(fù)雜度迅速增加,難以滿足實時性要求。同時,這類算法缺乏智能化,傳統(tǒng)算法依賴于固定規(guī)則和全局信息,無法自適應(yīng)地調(diào)整策略或優(yōu)化路徑。
3、與此同時,基于機(jī)器學(xué)習(xí)的方法也同樣具有局限性。隨著強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,深度強(qiáng)學(xué)習(xí)廣泛應(yīng)用于機(jī)器人路徑規(guī)劃中,例如深度q學(xué)習(xí)(dqn)和近端策略優(yōu)化(ppo)算法。此類方法通過對環(huán)境的探索和學(xué)習(xí),使機(jī)器人能夠在未知或動態(tài)環(huán)境中完成導(dǎo)航任務(wù)。同樣該方法存在以下缺點:
4、1、收斂速度慢:現(xiàn)有的強(qiáng)化學(xué)習(xí)算法在處理復(fù)雜環(huán)境時,往往需要大量的訓(xùn)練時間才能收斂,導(dǎo)致開發(fā)成本較高。
5、2、探索效率低:由于強(qiáng)化學(xué)習(xí)依賴于隨機(jī)采樣,可能導(dǎo)致重復(fù)探索低價值區(qū)域,延長訓(xùn)練時間。
6、3、規(guī)劃路徑的最優(yōu)性不足:強(qiáng)化學(xué)習(xí)算法往往難以與傳統(tǒng)算法的全局最優(yōu)能力相媲美,容易產(chǎn)生次優(yōu)路徑。
7、基于以上分析,現(xiàn)有技術(shù)難以同時滿足動態(tài)環(huán)境適應(yīng)性、實時性、高維環(huán)境規(guī)劃能力和全局路徑最優(yōu)性的需求。有鑒于此,特提出本發(fā)明。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供了一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃方法及系統(tǒng),進(jìn)而解決現(xiàn)有技術(shù)中存在的路徑規(guī)劃方案在動態(tài)環(huán)境中的適應(yīng)性較差,難以滿足實時性要求和無法自適應(yīng)地調(diào)整策略規(guī)劃最優(yōu)路徑的問題。
2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
3、一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃方法,包括:
4、實時采集環(huán)境信息,所述環(huán)境信息包括靜態(tài)地圖信息和實時環(huán)境信息;
5、根據(jù)所述靜態(tài)地圖信息,使用全局路徑規(guī)劃算法規(guī)劃全局路徑;
6、結(jié)合所述實時環(huán)境信息,使用局部路徑優(yōu)化算法對所述全局路徑優(yōu)化調(diào)整,實時調(diào)整全局路徑以避開動態(tài)障礙物,獲得優(yōu)化后的路徑;
7、根據(jù)所述優(yōu)化后的路徑生成控制指令,通過所述控制指令驅(qū)動機(jī)器人按照優(yōu)化后的路徑運動。
8、所述全局路徑優(yōu)化調(diào)整采用軟演員評論家算法,處理過程包括:
9、輸入所述全局路徑和所述環(huán)境信息中包含的實時環(huán)境信息;
10、定義狀態(tài)空間s和動作空間a,并根據(jù)所述環(huán)境信息確定所述狀態(tài)空間s和動作空間a包含的信息;
11、基于所述狀態(tài)空間s和動作空間a包含的信息,確定動態(tài)獎勵函數(shù);所述動態(tài)獎勵函數(shù)用于更新機(jī)器人與動態(tài)障礙物之間的關(guān)系;其中,所述動態(tài)獎勵函數(shù)包括:獎勵靠近目標(biāo)點的行為、懲罰接近動態(tài)障礙物的行為和懲罰偏離全局路徑的行為;基于上述動態(tài)獎勵函數(shù)結(jié)合軟演員評論家算法進(jìn)行路徑規(guī)劃策略的更新;以基于更新后的路徑規(guī)劃策略對所述全局路徑進(jìn)行局部優(yōu)化,獲得優(yōu)化后的路徑。
12、所述動作空間a包括:機(jī)器人可選擇的運動方向和速度;所述狀態(tài)空間s包括:機(jī)器人當(dāng)前位置、速度和局部環(huán)境特征。
13、所述動態(tài)獎勵函數(shù)是根據(jù)所述環(huán)境信息確定的,具體動態(tài)獎勵函數(shù)為基于下述公式計算確定:
14、r(s,a)=α1·dtarget+α2·dobstacle+α3·da*
15、其中,dtarget為機(jī)器人到目標(biāo)點的距離,dobstacle為機(jī)器人到最近障礙物的距離,da*為機(jī)器人到全局路徑的偏移距離,α1、α2、α3為權(quán)重參數(shù);所述權(quán)重參數(shù)根據(jù)路徑規(guī)劃需求分別設(shè)置調(diào)整。
16、所述路徑規(guī)劃策略的更新包括策略網(wǎng)絡(luò)優(yōu)化和值函數(shù)優(yōu)化;
17、策略網(wǎng)絡(luò)優(yōu)化:最大化目標(biāo)函數(shù),其表達(dá)式為:j(π)=est,at[r(s,a)];
18、其中,e為期望函數(shù),st為當(dāng)前時刻的環(huán)境狀態(tài),at為在狀態(tài)st下根據(jù)策略π選擇的動作,r(s,a)為動態(tài)獎勵函數(shù);
19、值函數(shù)優(yōu)化:最小化貝爾曼殘差,更新所述策略網(wǎng)絡(luò)的參數(shù)。
20、所述實時環(huán)境信息包括:路況信息、動態(tài)障礙物信息和機(jī)器人運動狀態(tài)。
21、所述規(guī)劃全局路徑采用a星算法。
22、所述靜態(tài)地圖信息包括:機(jī)器人當(dāng)前位置、目標(biāo)位置和全局環(huán)境地圖;所述控制指令包括:導(dǎo)航指令、避讓優(yōu)先指令和節(jié)能模式指令。
23、所述智能導(dǎo)航規(guī)劃方法還包括導(dǎo)航經(jīng)驗優(yōu)化策略,所述導(dǎo)航經(jīng)驗優(yōu)化策略包括:
24、所述機(jī)器人在每次任務(wù)完成后,將路徑規(guī)劃策略過程中的狀態(tài)、動作及獎勵信息存入共享經(jīng)驗池,逐步優(yōu)化軟演員評論家算法的策略網(wǎng)絡(luò)。
25、一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃系統(tǒng),包括:
26、環(huán)境感知模塊:用于實時采集環(huán)境信息,所述環(huán)境信息包括靜態(tài)地圖信息和實時環(huán)境信息;
27、全局路徑規(guī)劃模塊:用于接收環(huán)境感知模塊發(fā)送的靜態(tài)地圖信息,并通過全局路徑規(guī)劃算法生成全局路徑;
28、局部路徑優(yōu)化模塊:用于接收環(huán)境感知模塊發(fā)送的實時環(huán)境信息,使用局部路徑優(yōu)化算法對所述全局路徑優(yōu)化調(diào)整,實時調(diào)整全局路徑以避開動態(tài)障礙物,獲得優(yōu)化后的路徑;
29、機(jī)器人控制模塊:用于接收局部路徑優(yōu)化模塊發(fā)送的優(yōu)化后的路徑和環(huán)境感知模塊發(fā)送的實時環(huán)境信息,根據(jù)所述優(yōu)化后的路徑生成控制指令,通過所述控制指令驅(qū)動機(jī)器人按照優(yōu)化后的路徑運動。
30、所述環(huán)境感知模塊包括:激光雷達(dá)和深度攝像頭,用于采集機(jī)器人周圍的靜態(tài)障礙物信息、動態(tài)障礙物信息及機(jī)器人自身狀態(tài)信息。
31、與現(xiàn)有技術(shù)相比,本發(fā)明所提供的上述一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃方法及系統(tǒng),其在具體應(yīng)用過程中,結(jié)合a*算法和sac算法,實現(xiàn)了全局路徑規(guī)劃與動態(tài)環(huán)境實時優(yōu)化,有效提升了可移動機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航精度和避障能力。還通過強(qiáng)化學(xué)習(xí)策略調(diào)整路徑規(guī)劃,有效克服了傳統(tǒng)路徑規(guī)劃方法在動態(tài)環(huán)境下的局限性,提升了機(jī)器人在實際應(yīng)用中的靈活性和導(dǎo)航效率。
1.一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述全局路徑優(yōu)化調(diào)整采用軟演員評論家算法,處理過程包括:
3.根據(jù)權(quán)利要求2所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述動作空間a包括:機(jī)器人可選擇的運動方向和速度;所述狀態(tài)空間s包括:機(jī)器人當(dāng)前位置、速度和局部環(huán)境特征。
4.致客戶根據(jù)權(quán)利要求2所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述動態(tài)獎勵函數(shù)是根據(jù)所述環(huán)境信息確定的,具體動態(tài)獎勵函數(shù)為基于下述公式計算確定:
5.根據(jù)權(quán)利要求2所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述路徑規(guī)劃策略的更新包括策略網(wǎng)絡(luò)優(yōu)化和值函數(shù)優(yōu)化;
6.根據(jù)權(quán)利要求1所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述實時環(huán)境信息包括:路況信息、動態(tài)障礙物信息和機(jī)器人運動狀態(tài);
7.根據(jù)權(quán)利要求1所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述規(guī)劃全局路徑采用a星算法。
8.根據(jù)權(quán)利要求1所述的智能導(dǎo)航規(guī)劃方法,其特征在于,所述智能導(dǎo)航規(guī)劃方法還包括導(dǎo)航經(jīng)驗優(yōu)化策略,所述導(dǎo)航經(jīng)驗優(yōu)化策略包括:
9.一種可移動機(jī)器人的智能導(dǎo)航規(guī)劃系統(tǒng),其特征在于,包括:
10.根據(jù)權(quán)利要求9所述的智能導(dǎo)航規(guī)劃系統(tǒng),其特征在于,所述環(huán)境感知模塊包括:激光雷達(dá)和深度攝像頭,用于采集機(jī)器人周圍的靜態(tài)障礙物信息、動態(tài)障礙物信息及機(jī)器人自身狀態(tài)信息。