本發明涉及新能源預測領域,具體是海量分布式光伏數據采集點規劃與功率超短期預測方法。
背景技術:
1、近年來伴隨光伏在電力系統的滲透率逐步提高,分布式資源的間歇性與不確定性對電網可靠性造成影響。超短期光伏預測要求發電系統配備對應傳感和通信基礎設施以完成遠程監控,分布式光伏發電的超短期預測有助于電網對分布式電源的實時監測、優化、控制與保護,進而受到廣泛關注。因此,研究海量光伏的超短期預測方法對于維持電網安全穩定運行,保障人民生產生活具有重要意義。
2、傳統光伏超短期預測主要集中于單個分布式光伏的功率預測。由于光伏出力具有較強的時空相關性,通過時空建模分布式多個光伏電站并建立整體預測模型可獲得更好的預測效果。針對海量光伏發電機組,近年來圖神經網絡(gnns)被廣泛應用于解決大型電力系統的超短期電力預測問題,如圖注意力網絡(gats),時空gnn網絡(stgnn),最優圖構建,圖時空注意神經網絡(gstann),但以上研究僅適用于所有光伏站點實時測量數據可知的應用場景;有研究采用低秩張量學習來處理分布式光伏站點數據缺失的問題,但其假設僅存在少部分光伏電站缺失數據,與現實情況可能存在不符;另有算法采用k-means法進行光伏聚類,獲得光伏集群的平均位置,但該質心代表虛擬光伏電站,不對應具體光伏機組,因而無法進行實際遠程監控基礎設施安裝。
技術實現思路
1、本發明考慮了大規模光伏機組出力的復雜時空相關性,構建了包含分布式光伏實時監測點選擇與海量光伏超短期預測的兩階段方法,基于分布式光伏的地理位置與出力特點確定分布式光伏稀疏集選擇策略,并根據分布式光伏實時監測數據,結合門控循環神經網絡與圖卷積網絡模型,建立考慮光伏出力時空相關性的超短期預測模型,實現海量分布式光伏的高效、精確預測,解決了上述背景技術中提出的問題。
2、為實現上述目的,本發明提供如下技術方案:
3、海量分布式光伏數據采集點規劃與功率超短期預測方法,包括如下步驟:
4、①考慮海量分布式光伏的地理位置與出力特征,根據聚類算法選擇光伏數據采集點:分布式光伏數據采集點應是一套具有代表性的光伏機組,可以捕捉到整個光伏發電機組輸出功率特性。為了實現該目標,使用k-medoids聚類分析,基于分布式光伏的地理分布,將所有光伏機組劃分為組。在每一組中,分布式光伏數據采集點是其中最具代表性的單位之一,采集點與同一類別所有單元的距離之和最小。k-medoids是一種無監督算法,用歐幾里得距離與點與質心之間的相似性度量將分布式光伏劃分為k個類別。在本發明中,采用所有分布式光伏機組的地理坐標即經緯度作為k-medoids聚類算法的輸入變量,設分布式光伏機組共有n個,l={li},1≤i≤n表示分布式光伏機組單元坐標,c1,…,ck表示n個分布式光伏機組中的k個聚類。選中的分布式光伏數據采集點s1,…,sk可由求解如下優化問題得出:
5、
6、由于每個集群的中心點都被選為分布式光伏數據采集點,分布式光伏數據采集點數量與k-medoids算法中的聚類數量相同,聚類數由經濟指標確定。選定分布式光伏數據采集點后可以確定遠程監控基礎設施安裝位置,使得分布式光伏集群可由實際光伏出力數據、氣象量測數據進行光伏超短期預測。
7、k-medoids算法是一種基于劃分的經典聚類算法。1990年,rousseeuw等人提出了pam(partition?around?medoids)和clara(clustering?large?application)算法。國內外學者大都把研究方向集中在聚類中心的初始化和聚類數據k值的確定問題上,但是聚類中心的初始化和類別數目k值的確定并沒有一種統一的定義方法。k-medoids算法也是一種常用的數據挖掘方法,它是一種無導師的算法,可以把具有相同類別和共同屬性的數據點劃分到同一個類中。在相同的類中,聚類對象的相似性都很高,反之,在不同的類中,聚類對象的相似性很低。通過該種劃分方法我們可以得到比k均值方法更精確的類別。k-medoids算法經常用于大數據集中的文本聚類,算法的基本原理是從初始的數據集中取出k個初始類的中心,然后把剩余的點按照距離的大小劃分到與之對應的類中,得到初始的類別后,反復地用非中心點代替中心點來改進聚類質量。k-medoids算法以聚類代價函數為判別聚類質量準則,在更新類中心時,將隨機選擇的一個非中心點替代原始中心點中的一個,然后重新計算代價函數,如果聚類效果提高,則替代成功,反之恢復到替換前的中心點。經過反復的迭代過程,直到聚類結果不再發生變化,則聚類結束。這樣做增強了算法的穩健性,對于處理小數據集效果很好。要想達到最優的聚類效果,就必須讓平方誤差的和盡可能的小,這時就需要對應用新的中心點和應用初始的聚類中心所產生的平方誤差和的差異進行比較,以判別新替換的中心點是否要優于替換前的中心點。如果替換后的類內距離平方和小于替換前的類內距離平方和,那么得到的新中心點就要優于之前的中心點。在反復的替換過程中,代價函數不斷的減小,直到差異達到一定的閾值或者不再改變,就得到了最優的聚類結果。k-medoid輸入為數據集x={x1,x2,…,xn},輸出為滿足于各聚類中心對象方差最小標準的k個聚類,具體算法步驟如下:步驟1:從n個數據對象任意選擇k個對象作為初始聚類中心代表;步驟2:計算各對象與中心對象間的距離,并根據最小距離重新對每個對象進行劃分;步驟3:任意選擇一個非中心對象xrandom,計算xrandom和中心點pj交換后總差異函數的變化;步驟4:若總差異函數為負值則替換被接受,xrandom和其余未被替換的中心點成為下一步聚類的k個中心;步驟5:重復步驟2至步驟4直到聚類結果不再發生變化為止。k-medoids算法的基本公式如下文所示。空間中任意樣本點和聚類中心點之間的距離平方和公式定義如下:
8、
9、其中,x是訓練集,也就是聚類樣本,pj是cj,j=1,2,…,k的中心點。d(x,c)表示類內所有對象到到各自中心點的距離平方和。中心點的替換過程如下:
10、
11、聚類最終的目的是要使類與類之間的差距盡可能大,而類內各個對象的差距盡可能小。類別之間的差距越大,則類別之間的區分就越明顯;而類內各對象的差距越小,則代表類內各個對象的相似程度越大,從而實現聚類的基本原則。k-medoids算法在每次選取新的中心點時,根據計算原有類別中的所有數據點到類中心的距離平方和與替換后所有數據點到新中心點的距離平方和的差值,把使得總差異函數為負的中心點作為新的類中心,避免了算法對于異常值的影響,具有很強的穩健性。同時,聚類結果與數據對象點輸入順序無關,因此該聚類方法還具有數據對象平移和正交變換不變性等。
12、②結合門控循環神經網絡與圖卷積網絡技術,建立考慮時空相關性的海量光伏超短期預測框架:光伏超短期出力功率時間相關性通過門控循環神經網絡(gru)建立。門控循環神經網絡是在簡單的循環神經網絡的基礎上加入了門控機制,用來控制神經網絡中信息的傳遞,可以更好的捕捉時間序列中步距較大的依賴關系,解決長期記憶和反向傳播中的梯度衰減或爆炸問題。相比于lstm網絡,gru網絡具有參數較少、結構簡單、計算效率更高等優點,更適用于構建較大的網絡。目前gru網絡已經證明在某些應用場景下也取得了非常好的效果。gru網絡主要由兩個門控單元組成,引入重置門有助于捕捉時間序列里短期的依賴關系,引入更新門有助于捕捉時間序列里。門控單元的重置門和更新門的輸入均為當前時間步輸入xt與上一時間步隱藏狀態ht-1,輸出是由sigmoid激活函數的全連接層經過計算得到。假設隱藏單元個數為h,給定時間步t的小批量輸入xt∈in×h(樣本長度的大小為n,輸入的特征向量個數為d)和上一時間步的隱藏狀態ht-1∈in×h。重置門rt∈in×h和更新門zt∈in×h的計算如下:
13、rt=σgru(xtwxr+ht-1whr+br)
14、zt=σgru(xtwxz+ht-1whz+bz)
15、其中,wxr,wxz∈id×h和whr,whz∈ih×h為網絡權重參數;br,bz是網絡偏置參數;σgru為sigmoid激活函數,其主要作用是將重置門和更新門中的每個元素的值域都轉化成到0-1之間。候選隱藏狀態ht*∈in×h是通過當前時間步重置門的輸出與上一時間步的隱藏狀態經過一系列運算得到的。當重置門中的元素值接近0時,表示將丟棄上一時間步的隱藏狀態,當元素值接近于1時,表示將保留上一時間步的隱藏狀態。其計算方式如下:
16、
17、其中,wxh∈id×h和whh∈ih×h為網絡權重參數;bh是網絡偏置參數;tanh激活函數作用是將所有元素值域轉化成[-1,1]之間。在lstm網絡中,輸入門和遺忘門是互補關系,具有一定的冗余性。與lstm網絡不同,gru網絡直接使用一個更新門來控制輸入和遺忘之間的平衡。時間步t的隱藏狀態ht∈in×h是通過當前時間步的更新門zt對上一時間步的隱藏狀態ht-1和當前時間步的候選隱藏狀態ht*進行組合運算得到的:
18、
19、從上式可以看出,當zt=0,rt=1時,gru網絡將退化為簡單的循環神經網絡;當zt=0,rt=0時,當前狀態ht只與當前輸入xt相關,與歷史狀態ht-1無關。當zt=1時,當前狀態ht就等于上一時刻的隱藏狀態ht-1。
20、光伏出力空間相關性通過圖卷積網絡完成。圖結構數據是一種非歐氏數據,它由節點和邊組成,可以表示各種復雜的關系,如社交網絡、知識圖譜、分子結構等。卷積神經網絡被證明具有提取多尺度局部空間特征并構建高度表達特征的能力,能夠處理常規的歐幾里得數據如圖像和文本,其局部連接、權值共享和多層次結構等特點對圖的問題也同樣重要。然而,圖數據的分布和結構往往是動態變化的,導致cnn卷積核難以定義,且參數需要不斷更新,難以進行穩定的訓練。在此基礎上,圖卷積網絡將卷積運算從傳統的網格數據(如圖像)推廣到了圖數據。圖卷積神經網絡是kipf團隊首次提出的一種新型的圖像處理方法。同cnn的功能類似,gcn也能從圖數據中快速有效地提取圖的特性,并在圖的節點識別、圖的邊緣預測、圖的內嵌表示等方面具有重要的應用價值。假定一個圖數據中存在n個節點(node),每個節點都有自己的特征,而這些特征組成了一個n×d維的矩陣x,接著各個節點之間的關系也會形成一個n×n維的矩陣a,也被稱為鄰接矩陣,x和a便是gcn的輸入。針對各個節點,分別從其鄰近的各節點處提取該節點的特征信息,同時包括該節點自身的特征;選擇恰當的激活函數,對全部節點執行相同的操作;將這些計算出的特征量輸入到神經網絡中,就能得到用于特征量的有效數值。gcn可以有效地利用圖的拓撲結構和節點特征,提取節點的高維語義表示,從而提高圖相關任務的性能。gcn主要有兩種類型,分別是譜域圖卷積和空域圖卷積。基于譜域的圖卷積首先通過拉普拉斯矩陣對圖數據進行處理。根據譜圖理論,鄰接矩陣表示為a。簡單的拉普拉斯矩陣定義為l=d-a∈in×n。d=diag(d(v1),...,d(vn))∈in×n為對角線度矩陣,其中d(·)是節點vi的度。然后將歸一化拉普拉斯矩陣定義為其中i為單位矩陣。很明顯,拉普拉斯矩陣l是實對稱矩陣。給定一個與關節點vi相對應的輸入向量f,通過計算拉普拉斯矩陣l和f的乘積得到的輸出向量h。其物理含義可以用以下公式來解釋:
21、h=lf=(d-a)f=df-af
22、其中,輸出向量h表示關節點vi與其相鄰關節點vj之間的差值。同時,拉普拉斯矩陣也是半正定矩陣,可以用以下公式證明,拉普拉斯公式l的二次形式如下:
23、
24、如上式所示,拉普拉斯矩陣l的二次形式是圖中每個關節點與其鄰域之間差的平方和。從兩個角度來看,拉普拉斯矩陣的物理含義是,它是圖中每個節點與其鄰節點之間差異的度量。這表明鄰接矩陣提供了節點之間邊的連接強度。接下來,進行譜域圖卷積運算。至關重要的拉普拉斯矩陣l正是譜域圖卷積運算的基本內容。關節點域中的卷積不能粗略地表示為有意義的算子。然而,根據圖卷積定理,卷積算子*g在頻譜域中定義為:
25、w*gh=u((utw)e(ut,h))
26、其中,u=[u0,u1,...,un-1]∈in×n為傅里葉基。在傅里葉基下,信號w的譜圖卷積定義為w=utw。兩個信號(w,h)卷積的傅里葉變換ut等于它們的傅里葉變換的點積。由此可得到譜域圖卷積公式:
27、
28、其中,δ=uλut∈in×n;λ=diag([λ0,λ1,…,λn-1])∈in×n,其中λi表示拉普拉斯矩陣的特征值。w(λ)是譜域圖卷積運算中要學習的濾波器。
29、在本發明中,光伏預測的目標是基于鄰近光伏信息采集點歷史信息預測未來某一時間段內的光伏出力。歷史信息包括歷史光伏出力信息與氣象測量數據,并給出如下定義:定義1:光伏網絡g。使用一個未加權的光伏網絡g=(v,e)描述光伏的地理位置結構,v表示節點集合,v={v1,v2,…,vn},n為節點個數,e表示邊的集合。鄰接矩陣a表示光伏的連接關系,a∈rn×n,鄰接矩陣只包含0和1元素,0表示無連接。定義2:特征矩陣xn×p。其中p表示節點屬性特征的個數,使用xt∈rn×i表示每個光伏基礎在時刻i的功率,因此,光伏的時空預測問題可轉化為基于光伏網絡g與特征矩陣x訓練映射函數f,并預測下一時段出力:
30、[xt+1,…,xt+t]=f(g;(xt-n,…,xt-1,xt))
31、其中,n為歷史序列長度;f為預測時間序列長度。獲取光伏機組的空間相關性是光伏預測中的一個關鍵問題。傳統卷積神經網絡可以獲取局部空間特征,但只能用于歐幾里得空間,如圖像、規則網格等。地理位置為圖形形式,表示cnn模型不能反映光伏地理的復雜相關關系,因此不能準確地捕捉空間依賴性。圖卷積網絡(gcn)可以處理任意的圖結構數據。gcn模型已經成功用于許多應用程序,包括文檔分類、圖像分類和無監督學習。給定一個鄰接矩陣a和特征矩陣x,gcn模型在傅里葉域中構建濾波器,并作用于圖節點,通過其一階鄰域挖掘節點之間的空間特征,并疊加多個卷積層建立gcn模型,可表示為:
32、
33、其中,a=a+in表示增加自連接的鄰接矩陣,in為單位矩陣,d為度矩陣,h(l)表示第l層的輸出;θ(l)表示第l層的參數;σ(·)表示非線性的sigmoid函數模型。在本發明中,選擇2層gcn模型獲取空間依賴關系,表示為:
34、f(x,a)=σ(arelu(axw0)w1)
35、其中,為預處理步驟;w0∈rp×h表示從輸入層到隱藏層的權重矩陣層;p為特征矩陣的長度;h為隱藏層神經元個數;w1∈rh×t表示從隱藏層到輸出層的權重矩陣;f(x,a)∈rn×t表示長度為t的輸出;relu()表示整流線性單元,為深度神經網絡中常用的激活函數。綜上所述,本發明使用gcn模型來學習光伏的空間特征。如下圖所示,假設節點1為光伏信息采集點時,gcn模型可以得到相鄰光伏機組的地理拓撲關系,然后獲得空間依賴以進行光伏出力預測。時間相關性是光伏出力預測中的另一個關鍵問題。目前,應用最廣泛的神經網絡模型為遞歸神經網絡(recurrent?neural?network,rnn)。由于梯度消失和梯度爆炸等缺陷,傳統的遞歸神經網絡不適用于長時間序列的預測問題。lstm模型和gru模型是遞歸神經網絡的變體并已被證明可以解決以上問題。lstm的基本原理和gru大致相同,即使用門控機制來記憶盡可能多的長期信息。然而,由于lstm結構復雜,其訓練時間較長。與lstm模型相比,gru模型結構相對簡單,使用參數較少,訓練能力更快。因此,本發明選擇了gru模型訓練時間相關性。gru的輸入變量包含第t時刻的光伏特征與第t-1時刻的隱藏狀態。在獲取當前時刻特征同時,模型仍然保留歷史光伏出力的變化趨勢與時間相關性特征。在訓練過程中,預測目標為減少光伏機組實際發電功率與預測值之間的誤差。使用yt和yt表示實際功率和預測功率。t-gcn模型的損失函數如下所示:
36、loss=||yt-yt||+λlreg
37、其中,第一項用于最小化實際出力和預測出力的誤差;第二項為正則化項,有助于避免過擬合問題;λ為超參數。通過空間相關性與時間相關性建模,本發明采用一種基于圖卷積網絡和門控循環單元時序圖卷積網絡模型(temporal?graph?convolutionalnetwork,t-gcn),具體計算過程如下所示:
38、ut=σ(wu[f(a,xt),ht-1]+bu)
39、rt=σ(wr[f(a,xt),ht-1]+br)
40、ct=tanh(wc[f(a,xt),(rt*ht-1)]+bc)
41、ht=ut*ht-1+(1-ut)*ct
42、其中,f(a,x)表示圖的卷積過程,定義于式(3.15)中;w和b表示訓練中的權重和偏置。綜上所述,t-gcn模型可以處理具有空間依賴性和時間動態性的復雜問題:一方面,利用圖卷積網絡捕獲光伏機組的地理位置關系,得到相鄰光伏機組出力的空間相關性;另一方面,門控循環單元捕捉光伏出力的動態變化,在具有時間相關性的光伏機組中實現功率短期預測。
43、與現有技術相比,本發明的有益效果是:本發明考慮了大規模光伏機組出力的復雜時空相關性,構建了包含分布式光伏實時監測點選擇與海量光伏超短期預測的兩階段方法,基于分布式光伏的地理位置與出力特點確定分布式光伏稀疏集選擇策略,并根據分布式光伏實時監測數據,結合門控循環神經網絡與圖卷積網絡模型,建立考慮光伏出力時空相關性的超短期預測模型,實現海量分布式光伏的高效、精確預測。