本發明涉及一種智能電網領域的能源管理系統,尤其涉及一種社區級多用戶智能電表、能量管理單元與儲能設備的協同控制系統。
背景技術:
1、隨著我國智能電網技術的迅速發展,越來越多的家庭和社區開始廣泛應用智能電表和能源存儲設備(如家用電池)以優化電力使用效率并降低電費。現有技術中的智能電表,通常通過監測和記錄用戶的用電數據來提供計費服務,并在一定程度上幫助用戶根據電價波動調整用電行為。然而,現有系統大多僅依賴于單個電表的實時數據,未能充分發揮社區內多個電表和儲能設備的協同效應,從而無法應對復雜電價變化。
2、例如,申請號為202410795815.7的中國專利文獻公開了一種智能電表控制系統,能夠實現基礎單用戶的電能使用計劃調節功能,但由于缺乏先進的優化算法,尤其是在多用戶、多設備的社區環境中,難以實現同樣的能源利用效果。此外,現有系統在多用戶隱私保護方面也存在不足,例如無法兼顧不同用電習慣的用戶,存在隱私泄露的風險。
3、再如,現有的一些協同控制方法雖然已應用于智能電網的局部控制,但通常未能充分考慮社區整體優化問題以及用戶隱私保護的特殊需求。現有技術難以在多用戶、多設備之間,確保協同充放電策略的優化,同時也難以在保證隱私的前提下實現能源利用的用電管理。
4、因此需要一種新的智能電網能源管理系統以社區為單位進行智能電表與儲能設備的協同控制,不僅能夠實現能源利用優化還能有效保護用戶的用電隱私。
技術實現思路
1、現有的智能電表與能源管理系統在多用戶、單能源存儲設備的社區環境中,存在以下技術問題:一是現有系統在應對復雜電價變化時,無法充分在一個社區內利用多個電表和一個儲能設備的協同作用,必然導致節約用電成本優化效果不理想;二是缺乏有效的隱私保護機制,易暴露用戶的用電行為模式,存在隱私泄露的風險;三是現有的多智能體協同控制算法未能充分考慮到單個用戶的隱私需求,難以在節約用電成本的前提下,實現高效的隱私保護。本發明旨在通過將多智能體對抗性強化學習算法部署在社區及能源管理方案,實現多智能電表與儲能設備的協同控制,有效解決上述問題,從而優化用電成本并提供用戶隱私保護功能。
2、本發明解決其技術問題所采用的技術方案是:
3、一種社區級能源利用與多用戶隱私保護系統,包括:多個能量管理單元、多個智能電表、一個中心化儲能設備,以及起到協助能量管理單元完成隱私保護作用的處理設備。
4、本系統通過部署一種新型多智能體強化學習算法,實現在多用戶協同環境下優化社區內多個能量管理單元的充放電策略。
5、其中,所述能量管理單元與智能電表對應,部署多智能體強化學習算法中的智能體;
6、所述智能電表用于實時監測用戶的用電負載、用電價格以及電池的充放電狀態,并與系統進行交互;
7、所述中心化儲能設備為電池,智能體通過控制其充放電行為保護用戶隱私、節約用電成本。
8、所述起到協助能量管理單元完成隱私保護作用的處理設備部署一個中心化的評論家網絡,用于對各個能量管理單元的策略進行評價,這樣的優勢是能夠通過全局信息改善多個能量管理單元之間的協同性,從而有效地提高整個系統在處理復雜的多個能量管理單元協同完成能量利用和隱私保護時的穩定性和效率。
9、進一步的,每個所述能量管理單元中的智能體部署了一個獨立的演員網絡,用于處理用戶的電表數據,制定本地化的儲能設備控制策略,以此控制電表讀數。
10、進一步的,所述能量管理單元還包括判別器網絡,用于衡量智能電表讀數與用戶真實負載之間的互信息,從算法結構而言判別器網絡和演員網絡一一對應并且成對出現。
11、進一步的,系統部署一個中心化評論家網絡,接收所有用戶的電表數據及充放電決策,并基于全局狀態優化電池的整體調度策略。該網絡基于社區級的全局信息對各能量管理單元的策略進行評估和反饋,從而在社區級別實現社區級能源利用管理與用戶級隱私保護的雙重優化。
12、進一步的,所述多智能體強化學習算法流程如下:
13、步驟s1,環境初始化:初始化所有智能電表的狀態,電池的初始電量、用電負載及電價信息(st)。演員網絡v及其參數φ、評論家網絡πi及其參數θi以及判別器網絡fi及其參數ωi初始化為隨機值。
14、步驟s2,策略執行:
15、在每個時間步t內,演員網絡根據當前部分觀測值選擇動作并與環境進行交互t個時隙后獲得聯合獎勵序列(r0,r1,…,rt)(計算方法見公式(1))。
16、所述環境為多個智能體共享電池的社區中,通過控制電池充放電行為保護單個用戶隱私,在交互過程中收到電能成本和隱私保護效果反饋,不斷優化自身策略的過程。
17、所述觀測值包括t時刻智能體對應用戶的實際功率和電池儲能百分比。
18、所述動作為蓄電池充電(放電)功率;
19、中心化評論家網絡按照公式(2)對每個動作的價值進行評估;
20、
21、其中,全局狀態為st,除智能體i外其余智能體動作為(n代表演員網絡數量),折扣因子γ=1,廣義優勢參數λa=0.97,是基于當前評論家網絡vφ計算的td-誤差,表示當前評論家網絡估計的價值函數,由評論家網絡輸出。
22、步驟s3,隱私反饋計算:對應第i個演員網絡的判別器網絡fi按照公式(3)實時計算其對應的演員網絡(πi)控制下的智能電表的讀數與真實負載之間的互信息:
23、
24、將該信息反饋給強化學習過程,將作為獎勵函數rp的值來衡量隱私風險,同時其中gt表示當前電價,gt的設定可以靈活模擬電價模型。rt=λrc+(1-λ)rp幫助優化評論家網絡和其對應的演員網絡參數。
25、步驟s4,損失函數優化:綜合演員網絡的動作選擇、評論家網絡的評估結果以及判別器網絡的反饋,共同構成整體系統的損失函數。演員網絡和評論家網絡的聯合損失函數如公式(4)所示:
26、
27、其中ρt表示新舊策略在當前動作下的概率比;θ={θi;i=1,2,…,n};∈是一個截斷(clip)因子,它能夠控制演員網絡的更新幅度。
28、每個與演員網絡對應的判別器網絡的損失函數如公式(5)所示:
29、
30、其中等價于所述判別器網絡fi;j(t)表示一個關于當前時間步t的函數;是sigmoid函數。通過梯度下降法,優化演員和評論家網絡的參數,使得系統在最大化成本優化目標的同時,最小化隱私泄露的風險。
31、有益效果
32、通過在系統內部署多個能量管理單元并使用提供內生隱私保護功能的模塊,多用戶能量管理單元在共享儲能設備的復雜社區場景中可以高度協作,智能優化電池充放電策略,在社區級顯著降低電費開支;
33、同時,加入判別器網絡后,系統能夠有效控制電表讀數和用戶實際用電負載之間的互信息,從而在確保優化電費的同時,在不借助可信第三方的前提下實現用戶級隱私保護效果。
34、此外,本系統的設計允許在實際應用中靈活調整獎勵函數的權重λ,既保證了技術方案的適應性,又滿足了用戶的實際使用需求。