本技術(shù)涉及智能駕駛,具體而言,涉及一種決策規(guī)劃算法的真值生成方法、裝置、存儲介質(zhì)及設(shè)備。
背景技術(shù):
1、無人駕駛決策規(guī)劃是無人駕駛系統(tǒng)的核心環(huán)節(jié),其主要任務(wù)是對當前環(huán)境進行理解,預(yù)測其他交通參與者的動態(tài)行為,并據(jù)此生成一條在保障安全性、舒適性和行駛效率的前提下的最優(yōu)行駛路徑,這涉及到一系列連續(xù)決策,如車輛的速度控制、轉(zhuǎn)向角度調(diào)整、變道等操作。
2、在對決策規(guī)劃算法進行評估或者對決策規(guī)劃算法進行優(yōu)化時,需要將決策規(guī)劃路徑的真值與預(yù)測值進行比較。目前,獲取決策規(guī)劃路徑的真值的方法主要包括:收集多個專家駕駛員在多個駕駛場景中的決策規(guī)劃路徑作為真值。但是,這種方法不但需要耗費大量人力,而且還可能存在部分復(fù)雜度高的特殊場景無法采集到專家駕駛員的專家級決策規(guī)劃路徑的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供了一種決策規(guī)劃算法的真值生成方法、裝置、存儲介質(zhì)及設(shè)備,能夠解決通過專家駕駛員獲取真值的方法,不但需要耗費大量人力,而且還可能存在部分復(fù)雜度高的特殊場景無法采集到專家駕駛員的專家級決策規(guī)劃路徑的問題。
2、具體的技術(shù)方案如下:
3、第一方面,本技術(shù)實施例提供了一種決策規(guī)劃算法的真值生成方法,所述方法包括:
4、獲取至少一個空圖場景,其中,所述空圖場景包括從靜態(tài)地圖中提取的路段的道路拓撲結(jié)構(gòu);
5、根據(jù)包含真實駕駛員駕駛行為的交通數(shù)據(jù)模擬出所述空圖場景中的交通流,獲得所述空圖場景對應(yīng)的仿真場景;
6、基于樹搜索算法、當前時刻的狀態(tài)空間和決策空間,在所述仿真場景中模擬未來時刻的狀態(tài)空間,并獲得自車的多個決策規(guī)劃路徑,其中,所述狀態(tài)空間包括所述自車的行駛狀態(tài)和其他交通物體的狀態(tài),所述決策空間包括所述自車的決策集合;
7、將所述多個決策規(guī)劃路徑中評價最高的決策規(guī)劃路徑作為決策規(guī)劃算法的真值。
8、通過上述方案可知,本技術(shù)實施例能夠通過仿真模擬的方式構(gòu)建至少一個包含交通流的仿真場景,并通過樹搜索算法搜索出多個決策規(guī)劃路徑,從中選出最優(yōu)的決策規(guī)劃路徑作為決策規(guī)劃算法的真值。由此可知,與將專家駕駛員的決策規(guī)劃路徑作為真值相比,本技術(shù)實施例不僅可以脫離專家駕駛員,還可以利用仿真模擬的優(yōu)勢獲得復(fù)雜度高的特殊場景的決策規(guī)劃路徑,從而不僅提高了真值生成的效率,還拓寬了真值生成的場景范圍。
9、在第一方面的第一種可能的實現(xiàn)方式中,基于樹搜索算法、當前時刻的狀態(tài)空間和決策空間,在所述仿真場景中模擬未來時刻的狀態(tài)空間,并獲得自車的多個決策規(guī)劃路徑,包括:
10、基于所述當前時刻的狀態(tài)空間和所述決策空間,在所述仿真場景中模擬所述自車選擇所述決策空間中每一種決策后的交通流,確定下一時刻的狀態(tài)空間,將所述下一時刻的狀態(tài)空間作為新的當前時刻的狀態(tài)空間;
11、繼續(xù)執(zhí)行步驟基于所述當前時刻的狀態(tài)空間和所述決策空間,在所述仿真場景中模擬所述自車選擇所述決策空間中每一種決策后的交通流,確定下一時刻的狀態(tài)空間,直至獲得目標時刻的狀態(tài)空間,并生成決策樹,其中,所述決策樹包括狀態(tài)節(jié)點層和決策節(jié)點層,所述狀態(tài)節(jié)點層包括狀態(tài)空間根節(jié)點層和至少一個狀態(tài)空間子節(jié)點層,每相鄰兩個狀態(tài)節(jié)點層的時差相同,每相鄰兩個狀態(tài)節(jié)點層之間包括一個決策節(jié)點層,所述決策節(jié)點層中的每個節(jié)點表示所述決策空間中的一種決策;
12、遍歷所述決策樹中從根節(jié)點到葉子節(jié)點的每條決策規(guī)劃路徑,獲得所述自車的多個決策規(guī)劃路徑。
13、在第一方面的第二種可能的實現(xiàn)方式中,所述方法還包括:
14、在生成所述決策樹的過程中,判斷最新生成的所述狀態(tài)空間子節(jié)點層中的每個狀態(tài)空間節(jié)點所表征的狀態(tài)空間是否滿足預(yù)設(shè)風(fēng)險狀態(tài);
15、當待判斷的狀態(tài)空間節(jié)點所表征的狀態(tài)空間滿足所述預(yù)設(shè)風(fēng)險狀態(tài)時,將所述待判斷的狀態(tài)空間節(jié)點進行剪枝處理。
16、通過上述方案可知,本技術(shù)實施例通過將滿足預(yù)設(shè)風(fēng)險狀態(tài)的狀態(tài)空間節(jié)點做剪枝處理,可以大幅度地減小決策樹的規(guī)模,并且提高搜索的效率。同時,也能確保最終選擇的決策路徑是安全且合理的,以此來指導(dǎo)無人駕駛系統(tǒng)的決策規(guī)劃。
17、在第一方面的第三種可能的實現(xiàn)方式中,根據(jù)包含真實駕駛員駕駛行為的交通數(shù)據(jù)模擬出所述空圖場景中的交通流,獲得所述空圖場景對應(yīng)的仿真場景,包括:
18、對包含真實駕駛員駕駛行為的交通數(shù)據(jù)進行智能駕駛模型idm參數(shù)辨識,獲得能夠反映出所述真實駕駛員駕駛行為的至少一個參數(shù)值;
19、利用所述至少一個參數(shù)值在所述空圖場景中模擬出與所述真實駕駛員具有相似行為的虛擬駕駛員,以生成所述空圖場景中的交通流,將包含所述交通流的所述空圖場景確定為所述空圖場景對應(yīng)的所述仿真場景。
20、通過上述方案可知,本技術(shù)實施例能夠利用idm參數(shù)辨識的方式在仿真環(huán)境中模擬出與真實駕駛員具有相似行為的虛擬駕駛員,從而生成接近或等同于真實交通流的仿真場景,進而可以提高決策規(guī)劃算法真值的準確性。
21、在第一方面的第四種可能的實現(xiàn)方式中,根據(jù)包含真實駕駛員駕駛行為的交通數(shù)據(jù)模擬出所述空圖場景中的交通流,獲得所述空圖場景對應(yīng)的仿真場景,包括:
22、基于預(yù)先訓(xùn)練好的決策規(guī)劃模型在所述空圖場景中模擬出所述交通流,獲得所述空圖場景對應(yīng)的所述仿真場景,其中,所述決策規(guī)劃模型根據(jù)所述包含真實駕駛員駕駛行為的交通數(shù)據(jù)訓(xùn)練而得。
23、通過上述方案可知,本技術(shù)實施例能夠利用基于真實駕駛員駕駛行為的交通數(shù)據(jù)訓(xùn)練得到的決策規(guī)劃模型,在仿真環(huán)境中模擬出接近或等同于真實交通流的仿真場景,進而可以提高決策規(guī)劃算法真值的準確性。
24、在第一方面的第五種可能的實現(xiàn)方式中,將所述多個決策規(guī)劃路徑中評價最高的決策規(guī)劃路徑作為決策規(guī)劃算法的真值,包括:
25、針對每個所述決策規(guī)劃路徑,根據(jù)所述自車在每個時刻的行駛狀態(tài)確定所述自車在所述決策規(guī)劃路徑上的舒適性;
26、通過判斷所述自車是否遵守交通規(guī)則以及在面對突發(fā)情況時是否能做出正確反應(yīng),確定所述自車在所述決策規(guī)劃路徑上的安全性;
27、通過判斷所述決策規(guī)劃路徑是否符合預(yù)設(shè)駕駛要求,確定所述自車在所述決策規(guī)劃路徑上的合理性;
28、對所述舒適性、所述安全性和所述合理性進行加權(quán)計算,獲得所述決策規(guī)劃路徑的評價值;
29、選擇評價值最高的所述決策規(guī)劃路徑為所述決策規(guī)劃算法的真值。
30、通過上述方案可知,本技術(shù)實施例能夠從舒適性、安全性和合理性多個方面對決策規(guī)劃路徑進行綜合評價,從而可以提高決策規(guī)劃算法真值的準確性。
31、第二方面,本技術(shù)實施例提供了一種決策規(guī)劃算法的真值生成裝置,所述裝置包括:
32、獲取單元,用于獲取至少一個空圖場景,其中,所述空圖場景包括從靜態(tài)地圖中提取的路段的道路拓撲結(jié)構(gòu);
33、模擬單元,用于根據(jù)包含真實駕駛員駕駛行為的交通數(shù)據(jù)模擬出所述空圖場景中的交通流,獲得所述空圖場景對應(yīng)的仿真場景;
34、搜索單元,用于基于樹搜索算法、當前時刻的狀態(tài)空間和決策空間,在所述仿真場景中模擬未來時刻的狀態(tài)空間,并獲得自車的多個決策規(guī)劃路徑,其中,所述狀態(tài)空間包括所述自車的行駛狀態(tài)和其他交通物體的狀態(tài),所述決策空間包括所述自車的決策集合;
35、確定單元,用于將所述多個決策規(guī)劃路徑中評價最高的決策規(guī)劃路徑作為決策規(guī)劃算法的真值。
36、在第二方面的第一種可能的實現(xiàn)方式中,所述搜索單元,包括:
37、生成模塊,用于基于所述當前時刻的狀態(tài)空間和所述決策空間,在所述仿真場景中模擬所述自車選擇所述決策空間中每一種決策后的交通流,確定下一時刻的狀態(tài)空間,將所述下一時刻的狀態(tài)空間作為新的當前時刻的狀態(tài)空間,繼續(xù)執(zhí)行步驟基于所述當前時刻的狀態(tài)空間和所述決策空間,在所述仿真場景中模擬所述自車選擇所述決策空間中每一種決策后的交通流,確定下一時刻的狀態(tài)空間,直至獲得目標時刻的狀態(tài)空間,并生成決策樹,其中,所述決策樹包括狀態(tài)節(jié)點層和決策節(jié)點層,所述狀態(tài)節(jié)點層包括狀態(tài)空間根節(jié)點層和至少一個狀態(tài)空間子節(jié)點層,每相鄰兩個狀態(tài)節(jié)點層的時差相同,每相鄰兩個狀態(tài)節(jié)點層之間包括一個決策節(jié)點層,所述決策節(jié)點層中的每個節(jié)點表示所述決策空間中的一種決策;
38、遍歷模塊,用于遍歷所述決策樹中從根節(jié)點到葉子節(jié)點的每條決策規(guī)劃路徑,獲得所述自車的多個決策規(guī)劃路徑。
39、在第二方面的第二種可能的實現(xiàn)方式中,所述搜索單元還包括:
40、判斷模塊,用于在生成所述決策樹的過程中,判斷最新生成的所述狀態(tài)空間子節(jié)點層中的每個狀態(tài)空間節(jié)點所表征的狀態(tài)空間是否滿足預(yù)設(shè)風(fēng)險狀態(tài);
41、剪枝模塊,用于當待判斷的狀態(tài)空間節(jié)點所表征的狀態(tài)空間滿足所述預(yù)設(shè)風(fēng)險狀態(tài)時,將所述待判斷的狀態(tài)空間節(jié)點進行剪枝處理。
42、在第二方面的第三種可能的實現(xiàn)方式中,所述模擬單元,包括:
43、辨識模塊,用于對包含真實駕駛員駕駛行為的交通數(shù)據(jù)進行智能駕駛模型idm參數(shù)辨識,獲得能夠反映出所述真實駕駛員駕駛行為的至少一個參數(shù)值;
44、第一模擬模塊,用于利用所述至少一個參數(shù)值在所述空圖場景中模擬出與所述真實駕駛員具有相似行為的虛擬駕駛員,以生成所述空圖場景中的交通流,將包含所述交通流的所述空圖場景確定為所述空圖場景對應(yīng)的所述仿真場景。
45、在第二方面的第四種可能的實現(xiàn)方式中,所述模擬單元,包括:
46、第二模擬模塊,用于基于預(yù)先訓(xùn)練好的決策規(guī)劃模型在所述空圖場景中模擬出所述交通流,獲得所述空圖場景對應(yīng)的所述仿真場景,其中,所述決策規(guī)劃模型根據(jù)所述包含真實駕駛員駕駛行為的交通數(shù)據(jù)訓(xùn)練而得。
47、在第二方面的第五種可能的實現(xiàn)方式中,所述確定單元,包括:
48、第一確定模塊,用于針對每個所述決策規(guī)劃路徑,根據(jù)所述自車在每個時刻的行駛狀態(tài)確定所述自車在所述決策規(guī)劃路徑上的舒適性;
49、第二確定模塊,用于通過判斷所述自車是否遵守交通規(guī)則以及在面對突發(fā)情況時是否能做出正確反應(yīng),確定所述自車在所述決策規(guī)劃路徑上的安全性;
50、第三確定模塊,用于通過判斷所述決策規(guī)劃路徑是否符合預(yù)設(shè)駕駛要求,確定所述自車在所述決策規(guī)劃路徑上的合理性;
51、加權(quán)模塊,用于對所述舒適性、所述安全性和所述合理性進行加權(quán)計算,獲得所述決策規(guī)劃路徑的評價值;
52、第四確定模塊,用于選擇評價值最高的所述決策規(guī)劃路徑為所述決策規(guī)劃算法的真值。
53、通過上述方案可知,本技術(shù)實施例能夠通過仿真模擬的方式構(gòu)建至少一個包含交通流的仿真場景,并通過樹搜索算法搜索出多個決策規(guī)劃路徑,從中選出最優(yōu)的決策規(guī)劃路徑作為決策規(guī)劃算法的真值。由此可知,與將專家駕駛員的決策規(guī)劃路徑作為真值相比,本技術(shù)實施例不僅可以脫離專家駕駛員,還可以利用仿真模擬的優(yōu)勢獲得復(fù)雜度高的特殊場景的決策規(guī)劃路徑,從而不僅提高了真值生成的效率,還拓寬了真值生成的場景范圍。
54、第三方面,本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
55、第四方面,本技術(shù)實施例提供了一種電子設(shè)備,電子設(shè)備包括:
56、一個或多個處理器;
57、所述處理器與存儲裝置耦合,所述存儲裝置用于存儲一個或多個程序;
58、當一個或多個程序被一個或多個處理器執(zhí)行,使得電子設(shè)備實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
59、第五方面,本技術(shù)實施例提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品中包含有指令,當指令在計算機或處理器上運行時,使得計算機或處理器執(zhí)行第一方面任一可能的實現(xiàn)方式所述的方法。