麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì)

文檔序號:41767647發(fā)布日期:2025-04-29 18:37閱讀:來源:國知局

技術(shù)特征:

1.一種面向強化學習算法的數(shù)據(jù)處理方法,其特征在于,應(yīng)用在包括智能體的數(shù)據(jù)環(huán)境;所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述強化算法包括單智能體算法和多智能體算法;所述接口函數(shù)對應(yīng)強化算法抽象出的多層接口,包括模型層model、算法層embryo和agent層;其中:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述實現(xiàn)目標強化算法和所述數(shù)據(jù)環(huán)境的適配,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標參數(shù)至少包括初始化參數(shù)、模型參數(shù)、環(huán)境參數(shù);所述將目標參數(shù)與所述目標強化算法進行配置化處理,得到與配置文件相關(guān)的訓練任務(wù),包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,多種輔助操作至少包括在時序差分的基礎(chǔ)過程中增加鉤子、訓練信息;所述結(jié)合經(jīng)驗回放池和多種輔助操作得到訓練范式,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述經(jīng)驗回放池進行目標強化算法的策略更新,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:

8.一種面向強化學習算法的數(shù)據(jù)處理系統(tǒng),其特征在于,包括:

9.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。


技術(shù)總結(jié)
本申請涉及一種面向強化學習算法的數(shù)據(jù)處理方法、系統(tǒng)、設(shè)備和介質(zhì),包括:通過將目標參數(shù)與目標強化算法進行配置化處理,能方便快捷地調(diào)整目標參數(shù)以達到優(yōu)化訓練的效果。通過將時序差分作為智能體和數(shù)據(jù)環(huán)境交互的基礎(chǔ)過程,以此來解決對統(tǒng)一訓練范式的建模,配合接口函數(shù)、經(jīng)驗回放池和多種輔助操作,能夠快速方便的接入強化學習算法和強化學習數(shù)據(jù)環(huán)境的同時,高效地對算法進行修改、調(diào)試和優(yōu)化,減少算法實現(xiàn)上帶來的邏輯負擔。

技術(shù)研發(fā)人員:李東升,盧霈麟,李榮春,李瑞涵,竇勇,譚郁松,賀周雨,喬鵬
受保護的技術(shù)使用者:中國人民解放軍國防科技大學
技術(shù)研發(fā)日:
技術(shù)公布日:2025/4/28
當前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 新巴尔虎左旗| 东宁县| 林口县| 克什克腾旗| 荔波县| 含山县| 上饶县| 宜君县| 迁西县| 青冈县| 丰台区| 保山市| 榆社县| 醴陵市| 深州市| 泰和县| 连江县| 德惠市| 永城市| 张家口市| 崇礼县| 偏关县| 嵊州市| 绥滨县| 黔西县| 广河县| 鹤壁市| 灵石县| 岚皋县| 寿宁县| 山阴县| 镇坪县| 金山区| 长岭县| 彭阳县| 常山县| 响水县| 获嘉县| 四平市| 阳原县| 禄劝|