本發(fā)明涉及多能耦合系統(tǒng),特別涉及存儲(chǔ)介質(zhì)、多能耦合系統(tǒng)控制方法、裝置和設(shè)備。
背景技術(shù):
1、近年來以新能源發(fā)電為主的就地消納技術(shù)成為了新能源領(lǐng)域的熱點(diǎn),涉及風(fēng)能、太陽能、電儲(chǔ)能和氫能的多能耦合系統(tǒng)成為了就地消納的典型應(yīng)用方案,它既解決新能源電能的就地消納,又將電能轉(zhuǎn)換成新型綠色能源氫氣。
2、多能耦合系統(tǒng)涉及風(fēng)能、太陽能、電儲(chǔ)能、氫能等多種能源間的相互影響及制約,任何一個(gè)環(huán)節(jié)的波動(dòng)會(huì)導(dǎo)致系統(tǒng)整體的崩潰。
3、發(fā)明人經(jīng)過研究發(fā)現(xiàn),現(xiàn)有技術(shù)中的多能耦合系統(tǒng)至少還存在以下缺陷:
4、由于涉及的設(shè)備數(shù)量和種類較多,設(shè)備間相互影響及制約會(huì)使得常規(guī)的控制方式下的控制效果不佳,從而導(dǎo)致多能耦合系統(tǒng)穩(wěn)定性和經(jīng)濟(jì)性較差。
5、公開于該背景技術(shù)部分的信息僅僅旨在增加對(duì)本發(fā)明的總體背景的理解,而不應(yīng)當(dāng)被視為承認(rèn)或以任何形式暗示該信息構(gòu)成已為本領(lǐng)域一般技術(shù)人員所公知的現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提高多能耦合系統(tǒng)的穩(wěn)定性和經(jīng)濟(jì)性。
2、本發(fā)明提供了一種多能耦合系統(tǒng)控制方法,包括步驟:
3、s11、針對(duì)風(fēng)光電儲(chǔ)氫多能耦合系統(tǒng),構(gòu)建包括風(fēng)力發(fā)電子模型、光伏發(fā)電子模型、電池儲(chǔ)能子模型和電解水制氫子模型的多能耦合模型;
4、s12、獲取所述風(fēng)光電儲(chǔ)氫多能耦合系統(tǒng)的當(dāng)前狀態(tài)信息s(t);所述當(dāng)前狀態(tài)信息s(t)用于所述多能耦合模型;
5、s13、通過采用了ε-greedy策略的強(qiáng)化學(xué)習(xí)算法,依據(jù)所述多能耦合模型生成動(dòng)作指令a(t);所述動(dòng)作指令a(t)為所述強(qiáng)化學(xué)習(xí)算法的經(jīng)驗(yàn)池中能使所述多能耦合模型在下一時(shí)間步長(zhǎng)的狀態(tài)信息s(t+1)獎(jiǎng)勵(lì)值最高的動(dòng)作指令;所述強(qiáng)化學(xué)習(xí)算法中的價(jià)值函數(shù)中包括預(yù)設(shè)的懲罰函數(shù);所述懲罰函數(shù)包括:
6、
7、公式(1)中,為氫氣儲(chǔ)罐的容量;為儲(chǔ)能電池容量;為t+1時(shí)刻儲(chǔ)氫罐氫儲(chǔ)值;qbat(t+1)為t+1時(shí)刻儲(chǔ)能電池電荷量。
8、優(yōu)選的,在本發(fā)明中,還包括:
9、根據(jù)所述狀態(tài)信息s(t+1)計(jì)算對(duì)應(yīng)的獎(jiǎng)勵(lì)值r(t+1)并生成一條新價(jià)值信息記錄;
10、根據(jù)所述新價(jià)值信息記錄更新所述經(jīng)驗(yàn)池,包括:
11、qnew(st,at)←qold(st,at)+α(rt+γ·q(st+1,a*)-qold(st,at)),?公式(2);
12、公式(2)中,qnew(st,at)為更新后的t時(shí)刻狀態(tài)信息st和動(dòng)作at下的價(jià)值信息;qold(st,at)為更新前的t時(shí)刻狀態(tài)信息st和動(dòng)作at下的價(jià)值信息;rt為獎(jiǎng)勵(lì)值,a*為t+1時(shí)刻狀態(tài)信息st+1下執(zhí)行的歷史最優(yōu)動(dòng)作;α為自主學(xué)習(xí)率;γ為獎(jiǎng)勵(lì)衰減率。
13、在本發(fā)明的另一面,還提供了一種多能耦合系統(tǒng)控制裝置,包括:
14、建模單元,用于針對(duì)風(fēng)光電儲(chǔ)氫多能耦合系統(tǒng),構(gòu)建包括風(fēng)力發(fā)電子模型、光伏發(fā)電子模型、電池儲(chǔ)能子模型和電解水制氫子模型的多能耦合模型;(建模單元)
15、信息采集單元,用于獲取所述風(fēng)光電儲(chǔ)氫多能耦合系統(tǒng)的當(dāng)前狀態(tài)信息s(t);所述當(dāng)前狀態(tài)信息s(t)用于所述多能耦合模型;
16、動(dòng)作指令生成單元,用于通過采用了ε-greedy策略的強(qiáng)化學(xué)習(xí)算法,依據(jù)所述多能耦合模型生成動(dòng)作指令a(t);所述動(dòng)作指令a(t)為所述強(qiáng)化學(xué)習(xí)算法的經(jīng)驗(yàn)池中能使所述多能耦合模型在下一時(shí)間步長(zhǎng)的狀態(tài)信息s(t+1)獎(jiǎng)勵(lì)值最高的動(dòng)作指令;所述強(qiáng)化學(xué)習(xí)算法中的價(jià)值函數(shù)中包括預(yù)設(shè)的懲罰函數(shù);所述懲罰函數(shù)包括:
17、
18、公式(1)中,為氫氣儲(chǔ)罐的容量;為儲(chǔ)能電池容量;為t+1時(shí)刻儲(chǔ)氫罐氫儲(chǔ)值;qbat(t+1)為t+1時(shí)刻儲(chǔ)能電池電荷量。
19、優(yōu)選的,在本發(fā)明中,還包括:
20、經(jīng)驗(yàn)池更新單元,用于根據(jù)所述狀態(tài)信息s(t+1)計(jì)算對(duì)應(yīng)的獎(jiǎng)勵(lì)值r(t+1)并生成一條新價(jià)值信息記錄;根據(jù)所述新價(jià)值信息記錄更新所述經(jīng)驗(yàn)池,包括:
21、qnew(st,at)←qold(st,at)+α(rt+γ·q(st+1,a*)-qold(st,at)),?公式(2);
22、公式(2)中,qnew(st,at)為更新后的t時(shí)刻狀態(tài)信息st和動(dòng)作at下的價(jià)值信息;qold(st,at)為更新前的t時(shí)刻狀態(tài)信息st和動(dòng)作at下的價(jià)值信息;rt為獎(jiǎng)勵(lì)值,a*為t+1時(shí)刻狀態(tài)信息st+1下執(zhí)行的歷史最優(yōu)動(dòng)作;α為自主學(xué)習(xí)率;γ為獎(jiǎng)勵(lì)衰減率。
23、在本發(fā)明實(shí)施例的另一面,還提供了一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如上任一項(xiàng)所述的多能耦合系統(tǒng)控制方法的各個(gè)步驟。
24、在本發(fā)明實(shí)施例的另一面,還提供了一種多能耦合系統(tǒng)控制設(shè)備;所述多能耦合系統(tǒng)控制設(shè)備包括存儲(chǔ)在介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,當(dāng)所述程序指令被計(jì)算機(jī)執(zhí)行時(shí),使所述計(jì)算機(jī)執(zhí)行以上各個(gè)方面所述的方法,并實(shí)現(xiàn)相同的技術(shù)效果。
25、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
26、本發(fā)明中,首先構(gòu)建包括風(fēng)力發(fā)電子模型、光伏發(fā)電子模型、電池儲(chǔ)能子模型和電解水制氫子模型的多能耦合模型來模擬真實(shí)的多能耦合系統(tǒng);然后通過信息采集模塊獲取多能耦合系統(tǒng)的狀態(tài)信息,為通過多能耦合模型來計(jì)算獎(jiǎng)勵(lì)值提供可靠的數(shù)據(jù)支持;本發(fā)明在通過對(duì)所執(zhí)行的動(dòng)作指令計(jì)算獎(jiǎng)勵(lì)值時(shí),引入了特定的懲罰函數(shù)來在確保多能耦合系統(tǒng)的穩(wěn)定性的同時(shí),還能夠最大化的提高多能耦合系統(tǒng)的經(jīng)濟(jì)性,從而能夠?qū)Χ嗄荞詈舷到y(tǒng)下一時(shí)刻的運(yùn)行選擇最優(yōu)的動(dòng)作指令。
27、本發(fā)明中,還根據(jù)每次獎(jiǎng)勵(lì)值的求解結(jié)果,將包括有狀態(tài)信息、動(dòng)作指令和獎(jiǎng)勵(lì)值信息的價(jià)值信息記錄存儲(chǔ)至經(jīng)驗(yàn)池,并將經(jīng)驗(yàn)池中歷史價(jià)值信息最優(yōu)的動(dòng)作指令輸入到多能耦合模型中進(jìn)行自主學(xué)習(xí);這樣,通過自主學(xué)習(xí)不斷更新經(jīng)驗(yàn)池,確定多能耦合系統(tǒng)的最優(yōu)運(yùn)行策略,可以進(jìn)一步的提高多能耦合系統(tǒng)的穩(wěn)定性。
28、上述說明僅為本發(fā)明技術(shù)方案的概述,為了能夠更清楚地了解本發(fā)明的技術(shù)手段并可依據(jù)說明書的內(nèi)容予以實(shí)施,同時(shí)為了使本發(fā)明的上述和其他目的、技術(shù)特征以及優(yōu)點(diǎn)更加易懂,以下列舉一個(gè)或多個(gè)優(yōu)選實(shí)施例,并配合附圖詳細(xì)說明如下。
1.一種多能耦合系統(tǒng)控制方法,其特征在于,包括步驟:
2.根據(jù)權(quán)利要求1所述的多能耦合系統(tǒng)控制方法,其特征在于,所述經(jīng)驗(yàn)池中價(jià)值信息記錄的內(nèi)容包括:
3.根據(jù)權(quán)利要求2所述的多能耦合系統(tǒng)控制方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求3所述的多能耦合系統(tǒng)控制方法,其特征在于,所述多能耦合模型包括:
5.根據(jù)權(quán)利要求4所述的多能耦合系統(tǒng)控制方法,其特征在于,所述風(fēng)光電儲(chǔ)氫多能耦合系統(tǒng)的當(dāng)前狀態(tài)信息s(t),包括:
6.根據(jù)權(quán)利要求5所述的多能耦合系統(tǒng)控制方法,其特征在于,所述動(dòng)作指令a(t),包括:
7.根據(jù)權(quán)利要求6所述的多能耦合系統(tǒng)控制方法,其特征在于,所述通過采用了ε-greedy策略的強(qiáng)化學(xué)習(xí)算法,依據(jù)所述多能耦合模型生成動(dòng)作指令a(t),包括:
8.根據(jù)權(quán)利要求7所述的多能耦合系統(tǒng)控制方法,其特征在于,所述通過采用了ε-greedy策略的強(qiáng)化學(xué)習(xí)算法,依據(jù)所述多能耦合模型生成動(dòng)作指令a(t),還包括:
9.根據(jù)權(quán)利要求8所述的多能耦合系統(tǒng)控制方法,其特征在于,所述強(qiáng)化學(xué)習(xí)算法中的價(jià)值函數(shù),包括:
10.一種多能耦合系統(tǒng)控制裝置,其特征在于,包括:
11.根據(jù)權(quán)利要求10所述多能耦合系統(tǒng)控制裝置,其特征在于,還包括:
12.一種多能耦合系統(tǒng)控制設(shè)備,其特征在于,包括:
13.一種存儲(chǔ)介質(zhì),其特征在于,包括軟件程序,所述軟件程序適于由處理器執(zhí)行如權(quán)利要求1-9中任一所述多能耦合系統(tǒng)控制方法的步驟。