1.一種基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,所述基于馬爾可夫決策交互架構(gòu),構(gòu)建用于綜合能源系統(tǒng)調(diào)度的智能體,包括:
3.根據(jù)權(quán)利要求1所述基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,所述利用k-means聚類,將綜合能源系統(tǒng)劃分成在不同時段特征互異的多環(huán)境,包括:
4.根據(jù)權(quán)利要求1所述的基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,所述利用一預(yù)測模型捕獲綜合能源系統(tǒng)調(diào)度時段的環(huán)境特征,并匹配對應(yīng)環(huán)境的智能體,包括:
5.根據(jù)權(quán)利要求1所述的基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,所述為每個環(huán)境設(shè)置經(jīng)濟(jì)性深度確定性策略梯度模型進(jìn)行交互學(xué)習(xí)與決策,形成分布式學(xué)習(xí)-分布式執(zhí)行架構(gòu),包括:
6.根據(jù)權(quán)利要求1所述的基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,所述利用所述分布式學(xué)習(xí)-分布式執(zhí)行架構(gòu),對綜合能源系統(tǒng)進(jìn)行動態(tài)調(diào)度,包括:
7.一種基于多智能體深度強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)調(diào)度方法,其特征在于,包括:
8.一種計算機(jī)終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,該處理器執(zhí)行該計算機(jī)程序時可用于執(zhí)行權(quán)利要求1-6中任一項所述的方法,或,運(yùn)行權(quán)利要求7所述的系統(tǒng)。
9.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時可用于執(zhí)行權(quán)利要求1-6中任一項所述的方法,或,運(yùn)行權(quán)利要求7所述的系統(tǒng)。