本發明涉及電行業分類的技術領域,特別是涉及一種關鍵用電行業識別方法和系統。
背景技術:
對于電力部門而言,為了實現用電用戶的精細化管理,提供優質的用電服務,挖掘與分析電力用戶的用電模式有利于掌控用電群體構成及其用電特性,有利于識別影響用電量的關鍵因素,有利于對不同行業的用電量進行預測,并可以作為電力調度的依據。
然而,如何對不同行業用戶的用電量影響做準確的識別,一直是電力行業的技術人員難以解決的問題,尤其識別的準確度較差,是電力行業的一個技術瓶頸。
技術實現要素:
基于此,有必要針對不同行業用戶的用電量影響不能準確判斷的技術問題,提供一種關鍵用電行業識別方法和系統,能夠準確地識別不同行業用戶的用電量影響力大小,為電力調度提供有效的依據。
一種關鍵用電行業識別方法,包括如下步驟:
獲取預設時間段內待測區域中的各個行業的用電量統計數據;
根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;
根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比;
根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值;
根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業。
一種關鍵用電行業識別系統,包括:
數據獲取模塊,用于獲取預設時間段內待測區域中的各個行業的用電量統計數據;
聚類模塊,用于根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;
用電占比計算模塊,用于根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比;
影響值計算模塊,用于根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值;
識別模塊,用于根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業。
上述關鍵用電行業識別方法和系統通過獲取預設時間段內待測區域中的各個行業的用電量統計數據,根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;然后根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比,再根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值大小。最后根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業,從而實現準確的關鍵用電行業識別。
附圖說明
圖1為一個實施例的關鍵用電行業識別方法的流程圖;
圖2為一個實施例的關鍵用電行業識別系統的結構示意圖。
具體實施方式
下面結合附圖對本發明的關鍵用電行業識別方法和系統的具體實施方式作詳細描述。
參考圖1,圖1所示為一個實施例的關鍵用電行業識別方法流程圖,包括如下步驟:
S101,獲取待測區域中在設定時間段內各個行業的用電量統計數據;
上述步驟S101中,上述用電行業大致包括三個層次:第一層次可以包括第一產業,第二產業,第三產業,城鄉居民生活用電量合計等;第二層次可以包括工業,商業住宿和餐飲業,公共事業及管理組織,金融、房地產、商務及居民服務業,建筑業,信息傳輸、計算機服務和軟件業,交通運輸、倉儲和郵政業,農、林、牧、漁業等;第三層次可以包括交通運輸電氣電子設備制造業,橡膠和塑料制品業,金屬制品業,服裝鞋帽皮草羽絨及其制品業,批發和零售業,木材加工及制品和家具制造業等。上述用電行業還可以包括除上述以外的其他對象。基于行業全覆蓋與避免重復的考慮,可以對用電行業作適當的合并整理。
上述設定時間段的單位可以包括月,季度,年等。
上述用電量統計數據可以包括總用電量,平均用電量,中位數用電量,標準差等。
S102,根據所述用電量統計數據篩選出待測區域中的關鍵用電行業根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;
聚類分析作為一種被廣泛應用的數據挖掘算法,能夠以較高的處理效率獲得數據在全局范圍內的分布特征。聚類是將眾多對象分為多個類或簇的過程,同一類中的對象盡可能相似,而不同類中的對象盡可能相異。以聚類算法所采用的基本思想為依據可將它們分為四類,即層次聚類算法、分割聚類算法、基于約束的聚類算法、機器學習中的聚類算法。
本發明每個用電行業類別均用該類中所有數據的平均值(或加權平均)來表示,這個平均值即被稱作聚類中心,該方法對于數值屬性的數據能很好地體現聚類在幾何和統計學上的意義。具有收斂速度快,算法簡單等特點,并可以輕松部署到基于Hadoop的分布式大數據云計算平臺,適用于分析海量的用電大數據。適合對各企業的用電量變化情況進行分類,找出典型的用電模式,并依此對行業進行分類。
在一個實施例中,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別的步驟包括:
隨機設定數據集中的K(K屬于自然數)個數據點作為初始聚類中心;其中,所述數據集包含若干個行業,每個行業的用電量統計數據序列有若干個數據點,每個數據點為預設時間段內的用電量統計數據;
計算所述數據集中的每個數據點與各個聚類中心的歐幾里得距離;
將每個數據點歸入與其距離最近的類別;
計算每個分類中心各個數據點的均值作為新的聚類中心;
判斷數據點的類別劃分是否發生變化,如果是,則輸出聚類結果;否則,返回計算數據集中的每個數據點與各個聚類中心的歐幾里得距離的步驟。
通過合理設定所述數據集,計算每個數據點與各個聚類中心的歐幾里得距離將每個數據點歸入相應的類別,并計算每個分類中心各個數據點的均值作為新的聚類中心,判斷聚類結果是否準確,可以具有較高的分類準確性。
在一個實施例中,計算數據集中的每個數據點與各個聚類中心的歐幾里得距離的步驟包括:
計算各類別中的數據點到其聚類中心uk的距離平方和:
其中,所述數據集包含n個行業,每個行業的用電量統計數據序列有d個數據點,每個數據點為預設時間段內的用電量統計數據,所述數據集表示為X={x1,x2,L,xi,L xn},其中將行業劃分為C={c1,c2,L,ck,L,cK},ck為代表一個類別,每個類別都有一個中心uk,該中心為類別內各數據點的平均值。xi∈Rd。
通過合理設定所述數據集,按照上述方式計算的歐幾里得距離準確度較高。
在另一個實施例中,還可以選擇聚類分析中廣泛應用的組間距離平方和BSS(Between-Cluster Sum of Squares)與總體距離平方和TSS(Total Sum of Squares)的比值BSS/TSS作為聚類結果的評價指標。BSS/TSS的值處于0%到100%之間,該值越接近100%,表示用電行業類別內的相似性越高,同時類別間的區分度更高,也就說明聚類的效果越好。
因此,計算數據集中的每個數據點與各個聚類中心的歐幾里得距離的步驟包括:
計算組間距離平方和與總體距離平方和的比值BSS/TSS;
其中,所述數據集包含n個行業,每個行業的用電量統計數據序列有d個數據點,每個數據點為預設時間段內的用電量統計數據,所述數據集表示為X={x1,x2,L,xi,L xn},其中,將行業劃分為C={c1,c2,L,ck,L,cK},ck為代表一個類別,每個類別都有一個中心uk,該中心為類別內各對象的平均值。xi∈Rd。
通過合理設定所述數據集,按照上述方式計算的歐幾里得距離準確度也較高。
本實施例中,還可以分別對時間跨度、用電量級和季節性變化的影響進行分析檢驗,提高聚類結果的可靠性。
對于分析時間跨度的影響,在根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類之后,進一步包括以下步驟:
根據所述用電量統計數據和所述對各用電行業的分類結果,在不同時間間隔上分別計算各個行業的聚類效果;
比較各時間間隔上的聚類效果,根據各時間間隔上的聚類效果的相似度,判斷所述分類結果的準確性。
比較各時間跨度上聚類效果,若各時間跨度上的聚類效果相似度高于預設相似度閾值,則時間跨度的選擇對聚類效果的影響小;反之相反。
對于用電量級的影響,在一個實施例中,根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類包括以下步驟:
對用電量統計數據進行標準化處理,使經過處理的數據符合正態分布,均值為0,標準差為1;
對標準化后的行業月度用電序列進行聚類分析,若每次聚類分析獲得的聚類結果的誤差大于預設的誤差閾值,則進一步根據行業用電量級對各個行業進行用電分類。
因此,本實施例能夠分析行業用電量級對各個行業進行用電分類的影響。
并且,對用電量統計數據進行標準化處理的步驟可包括:
對于每個行業的月度用電量序列,對序列中的每個值x按如下方式進行標準化變換:
其中,u為序列均值,σ為序列標準差。
通過上述方式對用電量統計數據進行標準化處理,能夠提高數據準確性。
對于季節性變化的影響,在一個實施例中,根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類之后,進一步包括以下步驟:
對行業月度用電序列進行分解,把每個序列分解為季節性部分(S),長期趨勢部分(T)和不規則部分(R)的疊加:
xt=St+Tt+Rt
通過季節性修正去除季節性變化部分,對修正后的數據進行聚類分析,若聚類結果與修正前相一致,則忽略季節性變化部分對聚類結果的影響。
行業月度用電序列屬于季節性數據,其中包含了有規律的季節性變化部分。為了檢驗季節性變化部分是否對聚類結果造成影響,本實施例對行業月度用電序列進行分解,即把每個序列分解為季節性部分(S),長期趨勢部分(T)和不規則部分(R)的疊加,通過季節性修正去除了季節性變化部分,對修正后的數據進行聚類分析,若發現聚類結果與修正前相一致,則說明季節性變化部分沒有對聚類結果造成影響;反之相反。若發現BSS/TSS值變大,則去除了季節性變化部分后,類別區分度更高;反之相反。
S103,根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比。
上述各個用電行業類別的用電量占比可以通過用電行業類別中的所有行業對應的用電量統計數據在整個待檢測地區的用電量統計數據中的比例來計算。
S104,根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值;
在一個實施例中,根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值的步驟包括:
按照以下方式計算每個用電行業類別中的各個行業移除前后所引起的方差變化的均值作為所述影響值:
其中,C為一個用電行業類別,i為該用電行業類別中的一個行業,Varbefore為移除該行業i前總體用電量的方差,Varafter(i)為移除該行業i后總體用電量的方差,AVD為用電行業類別C的中的各個行業移除前后所引起的方差變化的均值。
本實施例為了測量各分類的波動影響,計算從總體用電序列中分別移除各個行業前后的方差變化,并計算每個用電行業類別中各行業移除前后所引起的方差變化的均值AVD(Average Variance Difference)。AVD值越大,則表示此類行業對總體用電量的波動影響越大。
S105,根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業。
在一個實施例中,步驟S50包括以下步驟:如果所述影響值大于預設的影響閾值,則判斷所述用電行業類別包含的行業是關鍵用電行業。
影響值大于預設的影響閾值說明該用電行業類別包含的行業對整個待檢測地區的用電量占比和所述影響值較大。
在一個實施例中,根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別包含的行業是否關鍵用電行業的步驟進一步包括:
如果用電量占比大于預設占比的用電行業類別,與影響值大于預設影響閾值的用電行業類別相一致,則該用電行業類別包含的行業為關鍵用電行業;
如果用電量占比大于預設占比的用電行業類別,與影響值大與預設影響閾值的用電行業類別不一致,則返回對所述待測區域中的各個行業進行用電分類的步驟。
根據所述各用電行業類別的用電量占比和所述各類別的用電量波動對總用電量波動的影響大小,如果用電量占比大的用電行業類別與用電量波動對總用電量波動影響大的用電行業類別相一致,則該用電行業類別包含的行業即為關鍵用電行業;如果用電量占比大的用電行業類別與用電量波動對總用電量波動影響大的用電行業類別不一致,則需返回以上步驟重新對各用電行業進行分類,一直迭代到用電量占比大的類別與用電量波動對總用電量波動影響大的類別相一致為止。
本發明的關鍵用電行業識別方法通過獲取預設時間段內待測區域中的各個行業的用電量統計數據,根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;然后根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比,再根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值大小。最后根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業,從而實現準確的關鍵用電行業識別。
參考圖2,圖2所示為一個實施例的關鍵用電行業識別系統結構示意圖。
所述關鍵用電行業識別系統包括:
數據獲取模塊10,用于獲取預設時間段內待測區域中的各個行業的用電量統計數據;
聚類模塊20,用于根據各個行業的用電量統計數據,運用聚類分析對各個行業進行用電分類,得到各個行業所屬的用電行業類別;
用電占比計算模塊30,用于根據所述用電量統計數據和用電行業類別計算出各個用電行業類別的用電量占比;
影響值計算模塊40,用于根據所述用電量統計數據和所述用電行業類別計算出各個用電行業類別的用電量波動對總用電量波動的影響值;
識別模塊50,用于根據各個用電行業類別的所述用電量占比和所述影響值大小,判斷所述用電行業類別所包含的行業是否關鍵用電行業。
本發明的關鍵用電行業識別系統與本發明的關鍵用電行業識別方法一一對應,在上述關鍵用電行業識別方法的實施例闡述的技術特征及其有益效果均適用于關鍵用電行業識別系統的實施例中,特此聲明。
以上所述實施例的各技術特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特征所有可能的組合都進行描述,然而,只要這些技術特征的組合不存在矛盾,都應當認為是本說明書記載的范圍。
以上所述實施例僅表達了本發明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干變形和改進,這些都屬于本發明的保護范圍。因此,本發明專利的保護范圍應以所附權利要求為準。