電網時序大數據存儲方法
【專利摘要】本發明公開了一種電網時序大數據存儲方法,通過選擇開源分布式列式數據庫HBase作為存儲層,結合電網業務中SG-CIM模型對業務邏輯上具有位置相關性的一批測點信息重新進行描述,通過設計一種合理的測點數據存儲表的索引組織方式,利用HBase的分區和負載均衡功能,使得業務邏輯上具有位置相關性的一批測點的歷史數據在物理存儲上的位置是相鄰的,從而使得對該批測點的歷史數據進行查詢時能夠減少磁盤尋道時間,提高查詢效率,為業務應用提供即時查詢服務。
【專利說明】電網時序大數據存儲方法
【技術領域】
[0001]本發明涉及一種電網業務中對位置信息敏感的時間序列大數據存儲、即時查詢方法,屬于大數據存儲、分布式實時數據庫領域。
【背景技術】
[0002]隨著智能化、信息化的不斷發展,時序大數據管理系統作為大型流程工業企業生產信息化的重要基礎數據平臺,面臨越來越多的挑戰。以電力系統為例,一方面是超大規模數據處理的巨大壓力。國家電網公司SG-ERP建設中海量歷史/實時數據管理平臺建設的不斷深化,其數據規模越來越大,其中測點(數據采集點)規模預計將達到千萬甚至上億規模,數據存儲容量到達PB字節以上。另一方面是高速實時數據處理。以WAMS系統為例,每秒需要處理的事務數可達到一千萬,常規的關系數據庫根本無法應對如此高速實時數據處理的挑戰,對實時數據庫的處理規模、處理速度提出了更高的要求。
[0003]傳統實時數據庫受制于其傳統的軟件體系架構,在數據規模、處理能力、并行計算、負載均衡、動態自治等方面已無法滿足實際應用需求。在實時數據庫領域,引入大數據處理技術來解決上述問題是當前研究時序大數據存儲的主要方法。然而,在譬如電網事故反演、電網業務告警分析及輸變電設備在線監測等業務場景中,用戶關心的往往是一批測點的歷史數據,而該批測點在業務邏輯上具有位置相關性,理想情況下這些具有位置相關性的一批測點的歷史數據在物理存儲上也應當保持位置相鄰,這樣在上述業務場景應用中進行查詢時才能減少磁盤的尋道時間,提高查詢速度,為業務應用提供即時查詢服務。傳統的實時數據庫由于其架構設計、實現原理等原因,做不到業務邏輯上具有位置相關性的一批測點的歷史數據在物理存儲上也是位置相鄰的。
[0004]經初步檢索,暫未發現有與本
【發明內容】
相關的專利條目。
【發明內容】
[0005]為了解決上述問題,保證業務邏輯上具有位置相關性的一批測點的歷史數據在物理存儲上是位置相鄰的,為電網業務應用中該批測點的查詢需求提供即時查詢服務,本發明提供了一種電網時序大數據存儲方法,其主要思想是:選擇開源分布式列式數據庫HBase作為存儲層,結合電網業務中SG-C頂模型對業務邏輯上具有位置相關性的一批測點信息重新進行描述,通過設計一種測點數據存儲表的索引組織方式,利用HBase的分區和負載均衡功能,使得業務邏輯上具有位置相關性的一批測點的歷史數據在物理存儲上的位置是相鄰的。本發明具體包括如下步驟:
[0006](I)基于SG-CM模型的業務邏輯層測點描述
[0007]以SG-CM模型為基礎對業務邏輯上具有位置相關性的一批測點重新進行描述,通過測量對象和測點之間的關聯,形成測點的層次關系;在該描述中SG-CIM模型類似于一顆倒生長的樹型結構,葉子節點為測點,非葉子節點之間的層次數由用戶根據實際需要增加或減少;從該樹的根節點到葉子節點的父節點所經過的路徑用于描述測量對象;葉子節點用于表示該測量對象的測量項,測量對象和測量項的組合即相當于傳統實時數據庫中的測點;一條數據記錄由測量對象標識、時間戳、測量值、標簽構成,標簽由一個或多個鍵值對描述。
[0008](2)建立測點數據存儲表的索引組織
[0009]選擇開源分布式列式數據庫HBase作為存儲層,測點數據存儲表的索引組織方式直接影響到查詢性能。
[0010]批量查詢測點數據存儲表的索引模式設計為:測量對象標識+基準時間+標簽,其中測量對象標識采用基于SG-CIM模型對邏輯業務上具有位置相關性的一批測點的重新描述;基準時間的選定,是根據待存儲測量對象的數據采集頻率來決定該基準時間是整小時/整天;列是以采集數據記錄的時間戳相對于基準時間的偏移量。
[0011]斷面查詢測點數據存儲表的索引模式設計為:時間戳+測量對象標識+標簽,其中時間戳為采集到每條數據記錄的時間戳。
[0012]由于HBase表的索引是按字典順序排序,則采用本方案中的基于SG-CIM模型對業務邏輯上具有位置相關性的一批測點的描述,能夠使得該批測點的數據記錄在測點數據存儲表中的索引的位置是相鄰的。
[0013]由于HBase是以行的范圍來對存儲表進行切分為不同的reg1n來完成分區的,同時結合HBase自身以reg1n為單位的自動負載均衡,能夠使得該批測點采集到的歷史數據記錄在實際物理存儲位置上也是相鄰的,這樣對于該批測點的批量查詢和斷面查詢時,能夠減少磁盤的尋道時間,為業務應用提供即時查詢服務。
[0014]進一步,步驟(I)中的標簽僅能有一個描述該測量對象的測量項,但可以有多個非測量項的屬性描述信息。
[0015]通過采用上述技術方案,本發明方法在電網時序大數據存儲中可以保證業務邏輯上具有位置相關性的一批測點的歷史數據在物理存儲位置上也是相鄰的,這樣對該批測點的歷史數據進行查詢時能夠減少磁盤尋道時間,提高查詢效率,為業務應用提供即時查詢服務。
【專利附圖】
【附圖說明】
[0016]圖1是本發明實施例基于SG-CIM模型對小區為業務邏輯單兀內的電表的描述不意圖。
[0017]圖2是本發明實施例測點數據存儲表索引的排序方式及分區示意圖。
【具體實施方式】
[0018]下面結合附圖和實施例對本發明作進一步詳細說明。
[0019]本實施例以對某小區的用電信息采集為例進行說明。假設小區名稱為
Ivsejiayuan,該小區有A、B、C、......Y共25棟,每棟樓有1、2、3、4、5、6、7、8共8個單元,每單元有01、02、……、15個樓層,每個樓層有01、02、……、19、20個住戶。假設一個居民住戶有一塊電表(測量對象)由正向有功電能量(direct1n = fd)、反向有功電能量(direct1n = bd)、正向有功尖電能量(direct1n = fd type = shark)、正向有功峰電能量(direct1n = fd type = peak)、正向有功平電能量(direct1n = fd type=shoulder)、正向有功谷電能量(direct1n = fd type = offpeak)、反向有功尖電能(direct1n = bd type = shark)、反向有功峰電會泛量(direct1n = bd type = peak)、反向有功平電能量(direct1n = bd type = shoulder)、反向有功谷電能量(direct1n =bd type = offpeak)共 10 個測量項。
[0020](I)對測量對象名稱重新進行描述
[0021]如圖1所示,根據以SG-C頂模型對業務邏輯上具有位置相關性的一批測點重新進行描述,在該用電信息釆集例子中指的是該小區內的所有的電表,在業務邏輯上同屬于該小區,結合業務邏輯對該小區內的所有電表進行重新描述,建立測量對象及測量項之間的層次關系,如某戶居民家的電表標識為:小區.樓宇.單元.電表編號,測量項是電表的正向有功電能量。根據本方案的描述,對小區內的電表(測量對象)可以描述為如下形式:
[0022]lvsejiayuan.A.unitl.0101
[0023]lvsejiayuan.A.unitl.0102
[0024]lvsejiayuan.A.unitl.0103
[0025]......
[0026]lvsejiayuan.Y.unit8.1517
[0027]lvsejiayuan.Y.unit8.1518
[0028]lvsejiayuan.Y.unit8.1519
[0029]lvsejiayuan.Y.unit8.1520
[0030](2)建立歷史數據存儲表索引
[0031]測點數據存儲表索引的排序方式及分區如圖2所示。假設某一時間點上釆集到部分數據如下:
[0032]lvsejiayuan.A.unitl.0101140220180223303direct1n = fd type = shark
[0033]lvsejiayuan.A.unitl.010114022018021751direct1n = fd type = peak
[0034]lvsejiayuan.A.unitl.0101140220180220858direct1n = fd type = shoulder
[0035]lvsejiayuan.A.unitl.0101140220180228723direct1n = fd type = offpeak
[0036]lvsejiayuan.A.unitl.0101140220180214444direct1n = fd
[0037]lvsejiayuan.A.unitl.0101140220180212166direct1n = bd type = shark
[0038]lvsejiayuan.A.unitl.0101140220180230560direct1n = bd type = peak
[0039]lvsejiayuan.A.unitl.010114022018022254direct1n = bd type = shoulder
[0040]lvsejiayuan.A.unitl.0101140220180229230direct1n = bd type = offpeak
[0041]lvsejiayuan.A.unitl.0101140220180227249direct1n = bd
[0042]......
[0043]a.上述釆集到的數據在批量查詢測點數據存儲表中具體的索引為分別為:
[0044]lvsejiayuan.A.unitl.01011402200000direct1n = bd
[0045]lvsejiayuan.A.unitl.01011402200000direct1n = bd type = offpeak
[0046]lvsejiayuan.A.unitl.01011402200000direct1n = bd type = peak
[0047]lvsejiayuan.A.unitl.01011402200000direct1n = bd type = shark
[0048]lvsejiayuan.A.unitl.01011402200000direct1n = bd type = shoulder
[0049]lvsejiayuan.A.unitl.01011402200000direct1n = fd
[0050]lvsejiayuan.A.unitl.01011402200000direct1n = fd type = offpeak
[0051]lvsejiayuan.A.unitl.01011402200000direct1n = fd type = peak
[0052]lvsejiayuan.A.unitl.01011402200000direct1n = fd type = shark
[0053]lvsejiayuan.A.unitl.01011402200000direct1n = fd type = shoulder
[0054]在批量查詢測點數據存儲表中每條數據記錄存儲在該條記錄索引所在行的列下,該列為該條數據記錄相對于其索引基準時間的偏移量。
[0055]b.上述釆集到的數據在斷面查詢測點數據存儲表中具體的索引分別為:
[0056]1402201802lvsejiayuan.A.unitl.0lOldirect1n = bd
[0057]1402201802lvsejiayuan.A.unitl.0lOldirect1n = bdtype = offpeak
[0058]1402201802lvsejiayuan.A.unitl.0lOldirect1n = bdtype = peak
[0059]1402201802lvsejiayuan.A.unitl.0lOldirect1n = bdtype = shark
[0060]1402201802lvsejiayuan.A.unitl.0lOldirect1n = bdtype = shoulder
[0061]1402201802lvsejiayuan.A.unitl.0lOldirect1n = fd
[0062]1402201802lvsejiayuan.A.unitl.0lOldirect1n = fdtype = offpeak
[0063]1402201802lvsejiayuan.A.unitl.0lOldirect1n = fdtype = peak
[0064]1402201802lvsejiayuan.A.unitl.0lOldirect1n = fdtype = shark
[0065]1402201802lvsejiayuan.A.unitl.0lOldirect1n = fdtype = shoulder
[0066]在斷面查詢測點數據存儲表中每條數據記錄存儲可以簡單的直接存儲在該條記錄索引所在的行的列下,也可以在該表的索引中增加一個字段來表明該行存放數據記錄的條數,首先對每條數據記錄中的測量對象進行哈希(hash),然后對每條記錄存儲在索引中新增字段表示的行數取模,最后將該條數據記錄值存儲于所得模數對應的列下。
[0067]上述實施方式中所涉及到的技術特征,只要彼此間未構成沖突就可以相互組合。本發明不限于上述實施例,一切釆用等同替換或等效替換形成的技術方案均屬于本發明要求保護的范圍。
【權利要求】
1.一種電網時序大數據存儲方法,其特征在于,包括如下步驟: (1)基于SG-CIM模型的業務邏輯層測點描述 以SG-CM模型為基礎對業務邏輯上具有位置相關性的一批測點重新進行描述,通過測量對象和測點之間的關聯,形成測點的層次關系;在該描述中,SG-CIM模型為樹型結構,其中葉子節點為測點,非葉子節點之間的層次數由用戶根據實際需要增加或減少;從該樹的根節點到葉子節點的父節點所經過的路徑用于描述測量對象;葉子節點用于表示該測量對象的測量項;一條數據記錄由測量對象標識、時間戳、測量值、標簽構成,其中標簽由鍵值對描述; (2)建立測點數據存儲表的索引組織 選擇開源分布式列式數據庫HBase作為存儲層; 批量查詢測點數據存儲表的索引模式設計為:測量對象標識+基準時間+標簽,其中測量對象標識采用基于SG-CIM模型對邏輯業務上具有位置相關性的一批測點的重新描述;基準時間的選定,是根據待存儲測量對象的數據采集頻率來決定該基準時間是整小時/整天冽是以采集數據記錄的時間戳相對于基準時間的偏移量; 斷面查詢測點數據存儲表的索引模式設計為:時間戳+測量對象標識+標簽,其中時間戳為采集到每條數據記錄的時間戳。
2.根據權利要求1所述的方法,其特征是所述步驟(I)中的標簽由鍵值對描述,該標簽僅有一個描述所述測量對象的測量項。
【文檔編號】G06F17/30GK104239447SQ201410441649
【公開日】2014年12月24日 申請日期:2014年9月1日 優先權日:2014年9月1日
【發明者】王遠, 袁軍, 劉琛, 胡健, 張珂珩 申請人:江蘇瑞中數據股份有限公司