面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì)

文檔序號：41767647發(fā)布日期：2025-04-29 18:37閱讀：來源：國知局

技術(shù)特征：

1.一種面向強化學習算法的數(shù)據(jù)處理方法，其特征在于，應(yīng)用在包括智能體的數(shù)據(jù)環(huán)境；所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述強化算法包括單智能體算法和多智能體算法；所述接口函數(shù)對應(yīng)強化算法抽象出的多層接口，包括模型層model、算法層embryo和agent層；其中：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述實現(xiàn)目標強化算法和所述數(shù)據(jù)環(huán)境的適配，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標參數(shù)至少包括初始化參數(shù)、模型參數(shù)、環(huán)境參數(shù)；所述將目標參數(shù)與所述目標強化算法進行配置化處理，得到與配置文件相關(guān)的訓練任務(wù)，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，多種輔助操作至少包括在時序差分的基礎(chǔ)過程中增加鉤子、訓練信息；所述結(jié)合經(jīng)驗回放池和多種輔助操作得到訓練范式，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述根據(jù)所述經(jīng)驗回放池進行目標強化算法的策略更新，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述方法還包括：

8.一種面向強化學習算法的數(shù)據(jù)處理系統(tǒng)，其特征在于，包括：

9.一種計算機設(shè)備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

技術(shù)總結(jié)
本申請涉及一種面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì)，包括：通過將目標參數(shù)與目標強化算法進行配置化處理，能方便快捷地調(diào)整目標參數(shù)以達到優(yōu)化訓練的效果。通過將時序差分作為智能體和數(shù)據(jù)環(huán)境交互的基礎(chǔ)過程，以此來解決對統(tǒng)一訓練范式的建模，配合接口函數(shù)、經(jīng)驗回放池和多種輔助操作，能夠快速方便的接入強化學習算法和強化學習數(shù)據(jù)環(huán)境的同時，高效地對算法進行修改、調(diào)試和優(yōu)化，減少算法實現(xiàn)上帶來的邏輯負擔。

技術(shù)研發(fā)人員：李東升,盧霈麟,李榮春,李瑞涵,竇勇,譚郁松,賀周雨,喬鵬
受保護的技術(shù)使用者：中國人民解放軍國防科技大學
技術(shù)研發(fā)日：
技術(shù)公布日：2025/4/28

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì)

面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì)