本發明屬于智慧家庭能量管理領域,具體為基于個性化聯邦強化學習的智慧家庭能量管理方法及系統。
背景技術:
1、智能電網作為現代化電力供應的革新形態,其核心特征體現為將先進信息通信技術(如物聯網、傳感器網絡)深度整合于能源生產、輸配及消費全環節。在此技術框架下,智慧家庭通過動態優化儲能設備與可控負荷的運行策略,可有效利用實時電價機制實現能源經濟性管理。值得注意的是,占據住宅能耗總量近四成的暖通空調系統,在維持室內熱環境舒適度的前提下,展現出顯著的節能調控價值。這類溫控設備作為典型的可控負荷,其運行模式優化不僅需滿足人體熱舒適性需求,更需在動態能源價格體系中尋求運行成本最優解,從而實現居住舒適度與能源經濟性的協同優化。
2、近年來,研究人員對家庭能量管理問題進行了深入研究,按是否依賴系統模型可分為基于模型的方法和基于學習的方法兩種。傳統的基于模型的能量管理方法主要依賴于建立家庭能源系統的精確模型,而實際中由于多種隨機因素的存在,建立精確的系統模型幾乎是不可能的,所以很有必要開發智能方法來更有效的進行家庭能源管理。基于學習的方案由于具有放寬對顯式系統模型要求的優勢,因此是較基于模型的傳統方法更有應用前景的另一種能量管理策略,尤其是無模型深度強化學習方法,它結合了強化學習和深度學習的優點,不需要環境模型信息,在智能電網優化決策方面取得了巨大成功。
3、盡管國內外關于智慧家庭能量管理取得了顯著進展,但是仍然存在一些不足之處。現有研究未充分考慮不同家庭能源系統中存在的異質性。真實世界中的異質性廣泛存在,由于不同家庭能源系統的參數(如暖通空調系統額定功率、儲能系統額定充放電功率、建筑物結構、建筑物材料等)不同,會使得每戶家庭能源系統的動態模型也存在差異,進而決定了各個家庭的最優能量管理策略都會不同。現有研究缺乏針對環境異質性設計的個性化能量管理策略,眾多研究提出的算法讓每戶家庭獨立訓練能量管理策略,而基于強化學習/深度強化學習的智慧家庭能量管理算法存在兩個不足:(1)大多現有算法利用家庭自身的數據進行訓練,容易過擬合,造成訓練得到的能量管理策略性能弱;(2)在具體家庭環境下訓練得到的策略難以遷移到新的異質家庭環境中,適應性弱。
技術實現思路
1、針對現有技術存在的不足,本發明提供了基于個性化聯邦強化學習的智慧家庭能量管理方法及系統,其目的在于彌補現有智慧家庭能量管理方法未考慮家庭能源系統異質性的不足,并解決現有方法無法獲得性能優越的個性化能量管理策略的技術問題。
2、為達到上述目的,本發明是采用下述技術方案實現的:本發明提供了基于個性化聯邦強化學習的智慧家庭能量管理方法,包括:
3、步驟1:建模多個異質智慧家庭能量成本最小化問題并設計對應馬爾可夫決策過程的環境狀態、動作和獎勵函數;
4、步驟2:個異質智慧家庭環境的邊緣端智能體在本地利用深度強化學習算法優化策略,并借助云端中心服務器進行聯邦學習,獲得一個訓練性能穩定的預訓練全局模型;
5、步驟3:對各個異質智慧家庭環境的邊緣端智能體進行后訓練微調,得到適用于個異質智慧家庭環境的種個性化能量管理策略;
6、步驟4:將微調得到的個性化能量管理策略部署在實際環境中運行。
7、進一步地,第個異質智慧家庭環境能量成本最小化問題的表達式如下:
8、,
9、(1),
10、(2),
11、(3),
12、(4),
13、(5),
14、(6),
15、(7),
16、(8),
17、(9),
18、其中:表示數學期望,表示時隙,表示在時隙向公用電網的購電成本,代表在時隙儲能系統的折舊成本;表示時隙儲能系統的充放電功率,表示充電,表示放電;表示時隙暖通空調系統的輸入功率;表示時隙與公用電網的電力交易量,表示從主電網購電,表示向主電網售電;表示時隙從公用電網購電的價格,表示時隙向公用電網售電的價格;表示儲能系統的折舊成本系數;表示時隙儲能系統的能量水平,表示儲能系統的最小能量水平,表示儲能系統的最大能量水平,表示儲能系統的最大充電功率,表示儲能系統的最大放電功率,表示時隙儲能系統的能量水平,表示儲能系統的充電效率系數,表示儲能系統的放電效率系數;表示暖通空調系統的最大輸入功率;表示時隙的光伏發電功率,表示時隙的不可時移負載功率;表示時隙的室內溫度,表示時隙的室外溫度,表示時隙的隨機熱擾動,表示時隙的室內溫度,表示未知的建筑熱動態模型;表示室內舒適溫度下界;表示室內舒適溫度上界;異質參數集合。
19、進一步地,所述的馬爾可夫決策過程的環境狀態以及動作如下:
20、(10),
21、(11),
22、(12),
23、其中:表示異質智慧家庭中時隙的環境狀態,是時隙在當日的相對時隙,,表示異質智慧家庭在時隙的動作;代表時隙獲得的獎勵,表示時隙的溫度偏離,表示從溫度偏離向成本的轉換系數。
24、進一步地,所述步驟2中的第個邊緣端智能體網絡結構包含一個演員網絡和一個評論家網絡,二者均為多層神經網絡,其中:演員網絡是從環境狀態到動作的映射,使用進行參數化,輸入層神經元個數與環境狀態維數對齊,輸出層神經元個數與動作維數對齊,隱藏層使用的激活函數是修正線性單元函數,輸出層使用雙曲正切函數進行范圍壓縮,評論家網絡用于計算動作價值,使用進行參數化,輸入是環境狀態和動作的拼接,輸出是在狀態下執行動作的動作價值,對應輸入層神經元個數為狀態維度與動作維度之和,輸出層神經元個數為1,隱藏層也使用修正線性單元函數,邊緣端智能體還有兩個目標網絡:演員目標網絡和評論家目標網絡,演員目標網絡和評論家目標網絡的結構與對應演員網絡和評論家網絡相同,參數定期從原始網絡克隆獲得。
25、進一步地,所述步驟2中,第個異質智慧家庭環境的邊緣端智能體本地訓練過程如下:
26、(1)邊緣端智能體執行策略與環境交互收集經驗元組,并存儲于經驗緩存區;
27、(2)從經驗緩存區中采樣小批量經驗,對邊緣端智能體的評論家網絡和演員網絡參數進行更新,評論家網絡和演員網絡的損失函數表達式如下:
28、(13),
29、(14),
30、其中:表示邊緣端智能體評論家網絡的損失,代表邊緣端智能體演員網絡的損失,是邊緣端智能體評論家網絡,表示邊緣端智能體評論家目標網絡,是馬爾可夫決策過程的折扣因子,表示邊緣端智能體演員網絡,表示邊緣端智能體演員目標網絡;
31、(3)軟更新邊緣端智能體演員目標網絡和評論家目標網絡參數,表達式如下:
32、(15),
33、(16),
34、其中:,表示一個合并因子;
35、(4)重復進行上述步驟(1)-步驟(3)次。
36、進一步地,所述步驟2聯邦學習過程中,個邊緣端智能體的參數聚合表達式如下:
37、(17),
38、其中:代表網絡層索引,代表層參數索引,代表聚合時第個邊緣端智能體第層的第個參數,表示全局模型第層的第個參數;全局模型參數下發方式表現為:每個邊緣端智能體模型直接克隆全局模型的網絡參數,作為自己新一輪策略訓練的初始權重,表達式如下:(18)。
39、進一步地,后訓練微調過程中,各個節點停止上傳邊緣端智能體參數至中心服務器,停止從中心服務器獲取全局模型參數,限制自身邊緣端智能體網絡模型與預訓練全局模型的參數距離,減小學習率,在自身所處異質環境中進行個性化微調直至性能達到穩定后停止,通過各個節點在自身邊緣端智能體網絡損失函數中增加懲罰項來約束模型與全局模型的參數距離,表達式如下:
40、(19),
41、其中:表示增加距離懲罰項之后的新損失函數,表示原損失函數,表示一個比例因子,表示任意一種距離計算方式(如、距離),代表第個邊緣端智能體的網絡參數,代表全局模型參數。
42、進一步地,個性化能量管理策略訓練過程可以分成兩個部分進行:第一部分,預訓練全局模型的訓練過程如下:
43、(1)初始化個異質智慧家庭的邊緣端智能體網絡參數以及經驗緩存區;
44、(2)在每個異質智慧家庭中,邊緣端智能體與環境交互收集經驗元組存入經驗緩存區;
45、(3)從經驗緩存區中采樣經驗元組,利用深度確定性策略梯度算法對邊緣端智能體進行獨立訓練;
46、(4)邊緣端智能體上傳網絡參數至云端中心服務器,經其聚合后得到全局模型參數;
47、(5)云端中心服務器下發全局模型參數到各個邊緣節點的邊緣端智能體;
48、(6)重復進行上述步驟(2)-步驟(5),直至獲得訓練性能穩定的預訓練全局模型;
49、第二部分,后訓練微調過程步驟如下:
50、(1)邊緣端智能體加載訓練好的預訓練全局模型參數,并停止上傳參數至中心服務器;
51、(2)通過增加懲罰項來軟約束本地模型與預訓練全局模型的參數距離,即邊緣端智能體損失函數計算方式從更新為;
52、(3)邊緣端智能體減小學習率至原來的,繼續與環境交互收集經驗,并抽樣經驗元組利用深度確定性策略梯度算法對邊緣端智能體參數進行微調,直至性能達到穩定;
53、(4)個異質智慧家庭環境重復上述步驟(1)-步驟(3),得到分別適應個異質環境的種個性化能量管理策略。
54、為解決上述問題,本發明還包括基于個性化聯邦強化學習的智慧家庭能量管理系統,包含如下模塊:
55、邊緣端信息采集模塊:用于收集異質智慧家庭環境的當前狀態信息,供邊緣端學習模塊和邊緣端推理模塊使用;
56、邊緣端推理模塊:用于根據所述當前狀態信息和策略神經網絡進行推理,輸出儲能系統和暖通空調系統的當前動作;
57、邊緣端動作執行模塊:用于根據所述當前動作,對儲能系統和暖通空調系統進行控制和異常動作處理;
58、邊緣端學習模塊:用于根據當前狀態、當前動作和下一時隙狀態計算異質智慧家庭環境的獎勵信息,存儲經驗元組,進行本地能量管理策略訓練;
59、云端中心服務器:用于聚合邊緣節點的模型參數,輸出全局模型參數;
60、通信模塊:用于邊緣端與云端中心服務器的信息發送與接收,定期將所有邊緣節點的本地邊緣端智能體模型參數發送到云端中心服務器,并將云端中心服務器的全局模型參數廣播至所有邊緣節點。
61、進一步地,其運行過程步驟如下:
62、(1)邊緣端信息采集模塊采集異質智慧家庭環境的當前狀態信息,交付至邊緣端推理模塊和邊緣端學習模塊;
63、(2)邊緣端推理模塊根據當前狀態信息推理出動作,交付至邊緣端動作執行模塊和邊緣端學習模塊;
64、(3)邊緣端動作執行模塊,在異質智慧家庭環境中按動作運行儲能系統和暖通空調系統,環境演化至下一個時隙,邊緣端信息采集模塊再次采集異質智慧家庭環境的狀態信息并交付至學習模塊;
65、(4)邊緣端學習模塊根據當前狀態、當前動作和下一時隙狀態,按所設計的獎勵函數計算所得獎勵,存儲經驗元組到經驗緩存區中,在經驗緩存區內采樣一批經驗元組更新本地邊緣端智能體模型參數;
66、(5)重復步驟(1)-步驟(4)次;
67、(6)通信模塊將所有邊緣節點的本地邊緣端智能體模型參數發送到云端中心服務器;
68、(7)云端中心服務器聚合來自邊緣節點的邊緣端智能體模型參數,輸出全局模型參數;
69、(8)通信模塊將全局模型參數廣播至所有邊緣節點的邊緣端推理模塊和邊緣端學習模塊;
70、(9)重復步驟(1)-步驟(8)。
71、相對于現有技術,本發明的有益效果為:(1)相比現有獨立學習能量管理策略的方法,本發明方法使得各個智慧家庭能夠共享知識,解決了單個家庭經驗樣本不足導致的過擬合問題,增強了能量管理策略訓練過程的穩定性;(2)相比現有基于傳統聯邦學習的方法,本發明方法考慮了智慧家庭能源系統中存在的異質性,通過全局模型預訓練與個性化本地微調的協同優化,每個家庭能夠學習到適應自身異質性的能量管理策略,并天然地具備可擴展性,在充分保障用戶熱舒適性的前提下有效降低了能量成本。