1.一種面向強化學習算法的數(shù)據(jù)處理方法,其特征在于,應(yīng)用在包括智能體的數(shù)據(jù)環(huán)境;所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述強化算法包括單智能體算法和多智能體算法;所述接口函數(shù)對應(yīng)強化算法抽象出的多層接口,包括模型層model、算法層embryo和agent層;其中:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述實現(xiàn)目標強化算法和所述數(shù)據(jù)環(huán)境的適配,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標參數(shù)至少包括初始化參數(shù)、模型參數(shù)、環(huán)境參數(shù);所述將目標參數(shù)與所述目標強化算法進行配置化處理,得到與配置文件相關(guān)的訓練任務(wù),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,多種輔助操作至少包括在時序差分的基礎(chǔ)過程中增加鉤子、訓練信息;所述結(jié)合經(jīng)驗回放池和多種輔助操作得到訓練范式,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述經(jīng)驗回放池進行目標強化算法的策略更新,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
8.一種面向強化學習算法的數(shù)據(jù)處理系統(tǒng),其特征在于,包括:
9.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。