麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于多智能體深度強化學習的綜合能源系統動態調度方法與流程

文檔序號:41762720發布日期:2025-04-29 18:32閱讀:4來源:國知局
基于多智能體深度強化學習的綜合能源系統動態調度方法與流程

本發明涉及計算機強化學習和電力系統調度,具體地,涉及一種基于多智能體深度強化學習的綜合能源系統動態調度方法,同時涉及一種相應的系統、計算機終端和計算機可讀存儲介質。


背景技術:

1、近年來,隨著氣候變化的嚴重性日益凸顯,國際社會越來越意識到轉型至低碳經濟的緊迫性。實現"雙碳"目標需要大力發展可再生能源,這意味著風電(wt)和光伏發電(pv)將越來越多地滲透到綜合能源系統(integrated?energy?system,ies)中。然而,可再生能源的間歇性和負荷需求的不確定性,如電力、氫氣、熱能等,為綜合能源系統通過優化調度實現系統的低碳經濟運行帶來挑戰。

2、為了應對這一挑戰,研究人員設計了各種不確定性數學模型(uncertaintymathematical?model,umm),如隨機規劃(stochastic?programming,sp)、區間線性規劃(interval?linear?programming,ilp)、魯棒優化(robust?optimization,ro)、分布式魯棒優化(distributionally?robust?optimization,dro)和信息間隙決策理論(information-gap?decision?technology,igdt)等。與能源集線器(energy?hub,eh)或模型預測控制(mpc)等確定性數學模型(certainty?mathematical?model,cmm)相比,umm不依賴于預測的準確性,通過對能源系統中不確定性因素建模以提高最優解的可行性,在中期能源樞紐管理、機組運行效率偏差引起的不確定性影響分析、系統設備的裝機容量配置規劃等都得到了應用。然而,上述基于模型的優化方法仍然存在如下局限性:1)場景不足或方案保守的問題難以抹去;2)高度隨機和動態的真實環境使得系統的數學模型和技術參數很難明確構建和獲取;3)需要假設,這難以刻畫真實環境;4)在場景變換或數據更新后都需要重新調用優化模型求解,缺乏利用歷史優化結果進行自主學習的能力。

3、鑒于基于模型方法的不足,深度強化學習(deep?reinforcement?learning,drl)成為近年來研究熱點,并被用于解決微電網、家庭能源管理、多能源系統等領域的優化調度問題。該技術不是通過數學模型來優化決策,而是通過決策主體(智能體)與系統狀態(環境)反復交互,逐漸實現目標收益(獎勵函數)最大化,并做出最優控制策略(行為策略)。drl算法具備三點優勢:1)不需要對研究對象進行建模;2)神經網絡強大的擬合能力可以有效地學習到多能源系統中的不確定性特征;3)訓練后的drl算法可以被直接用于線上的實時調度決策,無需再求解任何優化。

4、依據決策主體的數量,drl可劃分為單智能體深度強化學習(single-agent?drl,sadrl)和多智能體深度強化學習(multi-agent?drl,madrl)。sadrl算法還可依據待求解問題動作空間的離散或連續性劃分為基于值估計的算法(value-based)與基于策略提升的算法(policy-based)。深度q網絡(deep?q-network,dqn)及其衍生的double?dqn(ddqn)為最具代表性的基于值估計的drl算法。隨著系統決策變量增多,sadrl算法面臨動作和狀態空間維度過高導致訓練收斂困難的問題。為此,madrl將該問題轉換為不同智能體間或不同智能體與環境間的合作博弈,以促進訓練收斂。依據智能體在訓練與執行方面的差異,madrl算法框架可以大致劃分為集中式學習-集中式執行(centralized?learning?centralizedexecution,clce)、分布式學習-分布式執行(decentralized?learning?decentralizedexecution,dlde)和集中式學習-分布式執行(centralized?learning?decentralizedexecution,clde)。clce框架要求不同智能體在學習和執行時進行完全的信息交互,并使用一個集中式的執行器學習所有智能體的聯合策略分布。因此,基于clce框架的madrl類似于sadrl難以完全克服環境與智能體的數量增長導致的維度災難,且難以適應互連的多系統環境,在ies領域鮮有其相關的研究。madrl融合了多智能體體系和數據驅動的優點,能夠在具有不確定性和復雜性的環境中高效地優化決策。

5、依據優化目標的數量,drl可劃分為單目標深度強化學習(single-objectivedrl,sodrl)和多目標深度強化學習(multi-objective?drl,modrl)。在ies領域,sodrl側重于經濟性目標。由于ies日益多維度的需求導致需要考慮經濟性、安全性、低碳排、高可再生能源消納、高能源利用率等目標。因此,有必要研究ies的多目標優化問題。目前,相關的方法主要包括數學規劃技術(如非線性規劃)、啟發式算法(如多目標粒子群算法、多目標遺傳算法)、數據驅動方法(如modrl)。相較于數學規劃技術,啟發式算法在解決非線性優化問題方面更勝一籌,被廣泛應用于各個領域處理多目標優化問題。然而,modrl作為新興技術,在ies領域鮮有相關研究。目前沒有發現同本發明類似技術的說明或報道,也尚未收集到國內外類似的資料。


技術實現思路

1、針對現有技術中存在的上述不足,本發明的目的是提供一種基于多智能體深度強化學習的綜合能源系統動態調度方法,同時提供一種相應的系統、計算機終端和計算機可讀存儲介質。

2、根據本發明的一個方面,提供了一種基于多智能體深度強化學習的綜合能源系統動態調度方法,包括:

3、基于馬爾可夫決策交互(mdp)架構,構建用于綜合能源系統(ies)調度的智能體,所述智能體包括:狀態空間、動作空間和獎勵函數;

4、利用k-means聚類,將綜合能源系統(ies)劃分成在不同時段特征互異的多環境;

5、利用一預測模型捕獲綜合能源系統調度時段的環境特征,并匹配對應環境的智能體;

6、為每個環境設置經濟性深度確定性策略梯度(eddpg)模型進行交互學習與決策,形成分布式學習-分布式執行(dlde)架構;

7、利用所述分布式學習-分布式執行(dlde)架構,對綜合能源系統進行動態調度。

8、根據本發明的另一個方面,提供了一種基于多智能體深度強化學習的綜合能源系統動態調度系統,包括:

9、智能體構建模塊,該模塊基于馬爾可夫決策交互(mdp)架構,構建用于綜合能源系統(ies)調度的智能體,所述智能體包括:狀態空間、動作空間和獎勵函數;

10、環境分類模塊,該模塊利用k-means聚類,將綜合能源系統(ies)劃分成在不同時段特征互異的多環境;

11、環境匹配模塊,該模塊利用一預測模型捕獲綜合能源系統調度時段的環境特征,并匹配對應環境的智能體;

12、dlde架構構建模塊,該模塊為每個環境設置經濟性深度確定性策略梯度(eddpg)模型進行交互學習與決策,形成分布式學習-分布式執行(dlde)架構;

13、動態調度模塊,該模塊利用所述分布式學習-分布式執行(dlde)架構,對綜合能源系統進行動態調度。

14、根據本發明的第三個方面,提供了一種計算機終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,該處理器執行該計算機程序時可用于執行本發明上述中所述的方法,或,運行本發明上述中所述的系統。

15、根據本發明的第四個方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時可用于執行本發明上述中所述的方法,或,運行本發明上述中所述的系統。

16、由于采用了上述技術方案,本發明與現有技術相比,具有如下至少一項的有益效果:

17、本發明引入經濟引導網絡的eddpg模型,將經濟性的狀態-行動值函數融入ddpg的動作網絡,引導策略梯度向經濟性方向優化;該模型在處理多目標優化問題時能自學習經濟獎勵,這在一定程度上緩解了由獎勵函數的設計導致的局部最優問題;無需調整獎勵函數中偏好目標的權重系數,兼顧其他目標的同時實現更優的經濟調度。

18、本發明組合k-means聚類、預測模型和eddpg的madrl框架,形成一種基于多環境的dlde架構;基于聚類算法使得環境多元化和平穩化,有助于drl算法收斂;充分考慮系統中場景的差異性,通過為不同環境逐一匹配交互學習的智能體來提高異步求解的穩定性與最優性。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 永和县| 刚察县| 金堂县| 饶河县| 科尔| 南雄市| 普安县| 治县。| 黎城县| 眉山市| 大荔县| 吉首市| 交口县| 萍乡市| 兰坪| 宁津县| 张家川| 明溪县| 白玉县| 舒兰市| 澄江县| 盘锦市| 镇康县| 昌黎县| 常熟市| 古蔺县| 紫阳县| 双辽市| 辽宁省| 广南县| 阿拉善左旗| 阿尔山市| 南平市| 桃江县| 淮阳县| 德保县| 金阳县| 汉川市| 界首市| 娄烦县| 宁强县|