本發明屬于電力系統調度優化,具體的說是一種結合行為克隆的電力系統災害風險調度優化方法。
背景技術:
1、目前,電力系統的災害風險調度主要依賴傳統的規則驅動方法和基于模型的優化方法。這些方法通常假設設備故障是孤立事件,忽略了設備之間復雜的關聯關系以及連鎖故障傳播效應。在覆冰災害等極端氣候條件下,這種簡化假設難以真實反映系統動態響應的復雜性,導致調度策略的效果和可靠性不足。
2、已有技術主要存在以下缺點:忽略設備間的相互依賴關系:傳統調度方法未充分考慮設備故障的傳播效應,無法準確量化連鎖故障對系統整體風險的影響。對極端天氣事件響應不足:現有調度技術通常難以快速應對動態變化的風險環境,尤其是在覆冰災害發生時,難以及時生成高效的調度決策。缺乏智能化的自適應能力:傳統方法多依賴靜態規則或優化模型,難以適應覆冰災害下復雜多變的環境,調度策略靈活性和適應性不足。歷史數據利用效率低:傳統優化方法未能有效結合專家經驗和歷史數據,導致調度策略的生成效率較低,難以在短時間內完成優化。
技術實現思路
1、本發明針對現有電力系統災害調度技術在極端天氣條件下的不足,提出了一種結合行為克隆和深度q網絡(bc-dqn)算法的災害風險調度優化方法。要解決以下技術問題:現有調度策略缺乏對連鎖故障傳播效應的考慮:傳統調度方法未能充分量化設備間的依賴關系和連鎖故障傳播對系統整體可靠性的影響。本發明通過引入基于鄰接矩陣的故障傳播模型,解決了這一問題。應急調度效率和決策靈活性不足:在覆冰災害等極端天氣條件下,現有調度策略響應速度慢,缺乏針對動態環境的實時優化能力。本發明結合行為克隆技術,在初始階段快速學習專家經驗,提升調度效率,并通過強化學習優化策略,實現動態環境中的自適應調度。專家經驗的利用不足:傳統方法未能充分挖掘和利用歷史專家調度數據,導致調度策略在災害應急中的初始性能較差。本發明通過行為克隆技術直接利用專家經驗,快速生成初步調度策略,為后續優化奠定基礎。復雜災害場景下調度模型的穩定性問題:現有方法在高維復雜環境中容易出現訓練不穩定或收斂緩慢的問題。本發明通過引入經驗回放和目標網絡技術,提高了調度優化過程的穩定性和收斂速度。
2、本發明技術方案如下,一種結合行為克隆的電力系統災害風險調度優化方法,包括以下步驟:
3、s1建立風險模型:pf=f(i,w,c),其中,pf為每個設備的失效概率,i為冰雪積累量、w為風速、c為設備特性參數作為失效概率的基礎輸入;
4、s2建立失效概率的回歸模型:利用歷史數據擬合回歸方程,預測設備失效概率pf,即pf=a0+a1i+a2w+a3c+a4i2+a5w2+a6c2+...,其中,a0,a1,...,an為回歸系數,構建目標函數:
5、
6、通過對l關于回歸系數的求偏導為零,得到回歸系數的最優估計值;
7、s3建立連鎖故障模型:用拓撲結構描述故障傳播,遞歸計算傳播后的失效概率其中,pi為失效概率,aij是鄰接矩陣中的元素,為設備j失效前的概率,為設備j失效后的新概率,α為傳播因子;
8、s4連鎖故障傳播路徑:計算故障傳播指數評估系統脆弱性并識別關鍵設備通過公式分析連鎖故障傳播路徑,其中,表示設備i在故障傳播后更新的失效概率;
9、s5用bc-dqn構建強化學習模型st={pf(t),ct,lt,ot,pc},其中st為狀態空間,pf(t)為設備失效概率;lt為負荷狀態;ot為拓撲信息;pc連鎖故障影響;
10、s6建立動作空間at={a1,a2,...,am},其中,am為系統某一特定調度動作,m為動作空間大小,取決于電網規模和控制策略;
11、s7建立回報函數其中,λ1、λ2、λ3是權重系數,為所有設備的失效概率之和,fl是負荷不平衡度,pc是連鎖故障影響程度。
12、進一步的,步驟s1中,冰雪積累量其中,px(t')為時間t'的降雪速率,pm(t')為冰雪融化速率。
13、進一步的,px(t')=f(t,h),其中t為溫度,h為濕度。
14、進一步的,pm(t')=β·(t(t')-tf)·fw(t'),t(t')是時間t'的溫度,tf為冰雪凍結溫度,通常設定為0℃,fw(t')是時間t'的風速,β是常數,為溫度和風速對融化速率的敏感度。
15、進一步的,步驟s3中,電力系統由n個設備組成,每個設備i對應失效概率pi,設備之間存在電力傳輸的依賴關系,用鄰接矩陣a表示,設備i與設備j之間有依賴關系,則aij=1,否則aij=0,當設備i失效的時候,設備j的失效概率pj會受到pi的影響。
16、本發明的有益效果為:
17、(1)提前預防災害風險,提高系統穩定性:本發明通過結合歷史專家數據和環境參數,利用行為克隆(behaviorcloning)快速生成災前調度策略,使電力系統能夠在災害發生前對潛在風險區域和高故障概率設備進行預防性調度。相比現有技術,本發明在災害來臨前就可優化設備運行狀態,從而降低設備失效和連鎖故障的發生概率。
18、(2)量化設備間的依賴關系和連鎖故障傳播效應:針對現有調度方法中未充分考慮設備之間的關聯性和故障傳播特性的不足,本發明建立了基于鄰接矩陣的故障傳播模型,能夠準確描述設備間的相互影響。通過考慮電力設備的失效概率和連鎖效應,本發明優化了調度方案的設計,使得調度策略能夠有效降低因連鎖故障引發的系統風險。
19、(3)雙階段學習策略提高了調度策略的有效性和適應性:通過結合行為克隆和深度q網絡,本發明采用雙階段學習策略,在初期快速獲取專家經驗,生成初步的災前調度策略;隨后通過強化學習持續優化策略,使調度方案能夠動態適應復雜的災害前環境變化。這種結合模仿與優化的框架顯著提高了調度策略的有效性和靈活性。
20、(4)提高了調度優化過程的穩定性和魯棒性:本發明采用了經驗回放和目標網絡技術,有效解決了傳統強化學習算法中可能出現的訓練不穩定和收斂緩慢問題。通過隨機抽取歷史經驗進行訓練,降低了樣本間的相關性,提升了訓練的穩定性;同時,目標網絡的引入避免了更新過程中的震蕩現象,顯著提高了模型的魯棒性和收斂速度。
21、(5)減少了設備故障和系統風險:通過綜合考慮冰雪積累量、風速和設備承載能力等因素,本發明建立了更加精準的設備失效概率模型。結合動態調度優化策略,本發明能夠有效減少設備的故障率,降低因設備失效引發的系統風險,減少覆冰災害期間的設備故障及其連鎖效應,優化電力系統的運行狀態。
1.一種結合行為克隆的電力系統災害風險調度優化方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種結合行為克隆的電力系統災害風險調度優化方法,其特征在于,步驟s1中,冰雪積累量其中,px(t')為時間t'的降雪速率,pm(t')為冰雪融化速率。
3.根據權利要求2所述的一種結合行為克隆的電力系統災害風險調度優化方法,其特征在于,px(t')=f(t,h),其中t為溫度,h為濕度。
4.根據權利要求2所述的一種結合行為克隆的電力系統災害風險調度優化方法,其特征在于,pm(t')=β·(t(t')-tf)·fw(t'),t(t')是時間t'的溫度,tf為冰雪凍結溫度,通常設定為0℃,fw(t')是時間t'的風速,β是常數,為溫度和風速對融化速率的敏感度。
5.根據權利要求1所述的一種結合行為克隆的電力系統災害風險調度優化方法,其特征在于,步驟s3中,電力系統由n個設備組成,每個設備i對應失效概率pi,設備之間存在電力傳輸的依賴關系,用鄰接矩陣a表示,設備i與設備j之間有依賴關系,則aij=1,否則aij=0,當設備i失效的時候,設備j的失效概率pj會受到pi的影響。