麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種網絡設備告警消息風暴的處理方法和裝置與流程

文檔序號:11147605閱讀:676來源:國知局
一種網絡設備告警消息風暴的處理方法和裝置與制造工藝

本發明屬于網絡通信技術領域,具體涉及一種基于概率統計的網絡設備告警消息風暴的處理方法和裝置。



背景技術:

隨著移動通信網絡的迅猛商用,2G、3G、LTE網絡逐步實現融合,網絡結構日益復雜,網絡所承載的業務量逐年遞增。當某個關鍵設備出現故障時,會產生大量消息上報到網絡設備故障管理系統,此時可能會導致故障監控不及時、甚至無法監控,繼而導致故障處理不及時,如果消息數量超過系統的處理容量,則會給系統造成巨大的壓力,甚至癱瘓。及時有效地監控網絡故障,并在第一時間進行處理,成為當代運營商面臨的首要問題,對故障監控系統所提供數據的及時性、準確性、有效性、高可靠性提出了更高的要求。目前的故障管理系統雖然日臻完善,但是,當網絡出現重大告警,告警數據量激增,即出現消息風暴時,消息量達到故障管理系統瓶頸時,故障管理系統提供給監控人員數據還是會出現數據處理緩慢、告警上報延遲、監控不及時、處理不及時,甚至故障管理系統癱瘓等問題。

例如:當某個運營支持系統(OSS,Operation and support system)在短時間內出現某個網元的大量告警時,會產生如下三方面影響:

(1)大量無實際意義的告警消息出現在監控臺,影響了監控人員發現并處理正常的網元告警,包括網元重大告警。

(2)對大量的風暴告警的解析,消耗了大量的CPU時間,可能會在解析時發生內存溢出,導致告警監控延遲。

(3)由于采集缺少對告警風暴進行一定的預測與消息歸并的機制,遇到消息風暴時,整個故障管理系統系統處于被動的高負荷狀態。

目前,針對告警消息風暴目前的處理方案主要有三種:

(1)消息風暴同正常消息相同處理。然而,該方案無法預知網絡故障,當發生消息風暴時,采用無風暴時的處理方案,將消息風暴等同于正常消息來處理。此方案導致進程消耗大量的硬件資源,包括大量CPU、內存、存儲、以及時間,并且可能會導致解析消息時內存溢出、處理滯后。同時,監控臺出現大量故障的重復信息,導致處理不及時,最終延誤了重大故障的監控和處理,給運營商帶來一定的經濟損失。

(2)人為設置告警過濾規則,將滿足此規則的告警消息過濾掉,即直接將滿足此規則的告警數據丟棄。然而,此方案同樣增加了消息處理的負荷,并且造成了告警數據丟失,影響了告警數據的完整性。此方案只能根據經驗來設置告警過濾規則,當規則預設置不當時,同樣會造成故障管理系統的壓力,浪費系統資源。

(3)人為設置閾值作為告警消息的風暴數量閾值,如果消息風暴超過此閾值,那么直接丟棄后續消息不處理。然而,此方案需要根據經驗預先設定閾值,但是消息風暴的閾值一般很難預定。如果閾值過小,那么正常消息會被丟棄,正常告警無法監控;如果閾值過大,那么當實際產生告警風暴時,無法將告警消息風暴過濾掉。

然而,以上方案依然不能完美地解決告警風暴出現時面臨的問題和帶來的影響。



技術實現要素:

為解決以上現有技術中存在的問題,本發明提出了一種基于概率統計的網絡設備告警消息風暴的處理方法和裝置。

根據本發明的一個方面,本發明提供了一種網絡設備告警消息風暴的處理方法,所述方法包括如下步驟:

(1)設定被監控網元,建立網元模型;

(2)創建網元告警規則引擎,基于源告警信息實時生成適配規則的網元告警數據;

(3)取當前滑動時間窗口中的網元告警數據實時統計網元告警數量,使用概率統計方法動態生成置信區間和閾值,所述的滑動時間窗口包括多個順序的時間單位;

(4)根據所述告警數量和閾值判斷當前滑動時間窗口后一條告警消息的類型,如果告警數量高于上限閾值則所述告警消息為風暴消息并進行風暴預警,如果告警數量低于下限閾值則所述告警消息為解除風暴消息并解除風暴預警,否則為正常告警消息;

(5)基于當前滑動時間窗口向后滑動一個時間單位,進入下一個滑動時間窗口,轉到上述步驟(3)。

優選的,所述步驟(3)中的方法為:

(31)根據步驟(2)獲取的網元告警數據,計算當前滑動時間窗口中的每個時間單位的網元告警數量,并作為統計參數;

(32)將統計參數進行均值計算、標準差計算、置信區間計算,求得置信區間的上下限,得到統計閾值;

(33)確定當前置信區間的上限為告警風暴的閾值,確定當前置信區間的下限為解除告警風暴的閾值。

優選的,所述步驟(4)中判斷告警消息類型后進一步的方法為:

如果告警消息類型為風暴消息則生成風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為解除風暴消息則生成解除風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為正常消息,則輸出到普通窗口中顯示。

優選的,所述步驟(4)中的通知直通監控窗口直接呈現的具體方法為:將風暴預警消息和/或解除風暴預警消息通知監控客戶端,觸發監控客戶端彈出直通監控窗口,將風暴預警消息和/或解除風暴預警消息及發生風暴的網元模型信息在直通監控窗口直接呈現。

優選的,所述步驟(2)具體為:

(21)根據網元模型數據生成網元告警規則;

(22)獲取源告警信息并執行所述網元告警規則,得到適配的網元告警消息;

(23)將適配的網元告警消息保存到網元告警數據緩沖區。

優選的,所述的網元告警數據緩沖區是一個網元告警數據檢索鏈表。

優選的,滑動時間窗口設為1或2小時,時間單位設為半分鐘或1分鐘。

根據本發明的另一個方面,本發明還提供了一種網絡設備告警消息風暴的處理裝置,所述裝置包括如下模塊:

網元模型建立模塊,用于設定被監控網元,建立網元模型。

告警規則引擎模塊,用于創建網元告警規則引擎,基于源告警信息實時生成適配規則的網元告警數據;

統計和閾值生成模塊,取當前滑動時間窗口中的網元告警數據實時統計網元告警數量,使用概率統計方法動態生成置信區間和閾值,所述的滑動時間窗口包括多個順序的時間單位;

判斷和預警模塊,根據告警數量和統計和閾值生成模塊生成的閾值判斷當前滑動時間窗口后一條告警消息的類型,如果告警數量高于上限閾值則所述告警消息為風暴消息并進行風暴預警,如果告警數量低于下限閾值則所述告警消息為解除風暴消息并解除風暴預警,否則為正常告警消息;

調整滑動時間窗口模塊,基于當前滑動時間窗口向后滑動一個時間單位,形成下一個滑動時間窗口,轉到統計和閾值生成模塊。

優選的,所述告警規則引擎模塊,包括規則生成模塊、規則執行模塊、寫緩沖區模塊;

其中,規則生成模塊,根據網元模型數據生成網元告警規則;

規則執行模塊,獲取源告警信息并執行所述網元告警規則,得到適配的網元告警消息;

寫緩沖區模塊將所述適配的網元告警消息保存到網元告警數據緩沖區。

優選的,統計和閾值生成模塊包括:

統計參數獲取模塊,根據告警規則引擎模塊獲得的網元告警數據,計算當前滑動時間窗口中的每個時間單位的網元告警數量,并作為統計參數;

統計閾值計算模塊,將統計參數進行均值計算、標準差計算、置信區間計算,求得置信區間的上下限,得到統計閾值;

閾值確定模塊,確定當前置信區間的上限為告警風暴的閾值,確定當前置信區間的下限為解除告警風暴的閾值。

優選的,所述的判斷和預警模塊還具有如下功能:

如果告警消息類型為風暴消息則生成風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為解除風暴消息則生成解除風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為正常消息,則輸出到普通窗口中顯示。

優選的,所述的網元告警數據緩沖區是一個網元告警數據檢索鏈表。

本發明具有如下特點及優勢:

(1)采用規則引擎,來適配各類網元的告警消息,使每個網元告警都可以有效監控。

(2)采用概率統計算法對告警消息量做統計和分析,計算單位時間內某個網元的消息量,自動生成其預警閾值。并采用移動窗口,自動更改所生成的閾值。

(3)在保證告警數據的完整性和及時性的基礎上實現了自動地、及時地監控和處理故障。

本方法及裝置能根據不同網元在不同時間段動態自動生成風暴閾值,進一步地以滑動的觀察窗口方式產生某個時間段的相對閾值,很好地控制了當前觀察窗口的告警風暴的數量,因此,當網絡設備發生告警消息風暴時,可以降低故障管理系統的數據處理壓力。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1為本發明優選實施例一的一種基于概率統計的網絡設備告警消息風暴的處理方法流程圖。

圖2為網元的數據結構示意圖。

圖3為本發明優選實施例的統計閾值計算的流程圖。

圖4為本發明優選實施例的風暴告警時直通窗口呈現效果圖。

圖5為本發明優選實施例的風暴預警解除時直通窗口呈現的效果圖。

圖6為本發明的告警消息正文示意圖。

圖7為當收到實時的新告警消息時解析具體的告警正文結果圖。

圖8為本發明優選實施例的一種基于概率統計的網絡設備告警消息風暴的處理裝置的模塊圖。

圖9為本發明優選實施例的統計閾值計算模塊的結構示意圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。

首先,本發明中使用了如下所述的技術手段,以下對本發明中出現的基礎數理概念做出簡介,而在后續的具體實施例中不再贅述:

本發明采用均值、標準差、置信區間等概率論與數理統計的工具,實現了消息風暴發生閾值/告警風暴解除閾值的自動計算、動態生成。

均值(Expected Mean),又叫期望、平均數,表示樣本統計量的集中趨勢的程度,是指在一組數據中所有數據之和,再除以這組數據的個數。均值是反映數據集中趨勢的一項指標。

標準差(Standard Deviation),作為統計的分布程度的測量,是每個個體的測量值與總體均值之差的平方和的算術平方根,反映了總體內個體的偏離程度。

置信區間(Confidence interval),是指由樣本統計量所構造的總體參數的區間估計,展現了總體參數的真實值,有多大概率落在測量結果的周圍范圍的程度。

總體(Population),是指客觀存在的、在同一性質基礎上結合起來的許多個別單位的整體,即研究對象的某項指標的取值的集合或全體。總體參數是指總體中對某變量的概括性描述,比如說總體的均值、標準差等。樣本(Sample)是從總體中抽出的一部分個體。本發明中,以所有的告警消息,作為總體;以一個滑動窗口(60分鐘為例)的告警消息作為樣本,計算其均值、標準差,來推斷總體的均值、標準差。

具體地,根據本發明的一個方面,如圖1所示,提供了一種基于概率統計的網絡設備告警消息風暴的處理方法,所述方法包括如下步驟:

S101、設定被監控網元,建立網元模型。

本發明以網元為監控對象,因此,首先要建立網元模型,包括網元名稱、網元類型、網元id、采集點、設備廠家、所屬地市等資源信息,保存到配置文件。網元的數據結構示例如圖2所示。

S102、創建網元告警規則引擎,基于源告警信息實時生成適配規則的網元告警數據。

一般來說,源告警信息通過告警采集系統得到。

由于源告警信息中包含了大量的各種各樣的告警信息,為了迅速找出S101所設定的網元的告警信息,過濾掉其他非關注信息,利用規則匹配的方法是快捷的。因此要創建規則引擎,用于建立網元告警規則,通過正則表達式選擇出相關網元的告警,這包括網元告警規則的生成與規則執行兩部分。

S103、取當前滑動時間窗口中的網元告警數據實時統計網元告警數量,使用概率統計方法動態生成置信區間和閾值,所述的滑動時間窗口包括多個順序的時間單位。

滑動時間窗口是指按時間順序取的觀察窗口,再滑動一個時間單位再次形成下一個滑動時間窗口。例如,步驟S102獲取了100分鐘的告警數據,那么取第1分鐘-第60分鐘為第一個滑動時間窗口,然后取第2分鐘-第61分鐘為第二個滑動時間窗口,以此類推。滑動時間窗口可以根據實際需要設定,如設為60分鐘,時間單位設為1分鐘。

本步驟使用概率統計方法每次動態生成當前滑動時間窗口內的告警數據的置信區間和閾值,隨著滑動時間窗口的移動,每次生成的置信區間和閾值有所不同。

S104、根據所述告警數量和閾值判斷當前滑動時間窗口后一條告警消息的類型,如果告警數量高于上限閾值則所述告警消息為風暴消息并進行風暴預警,如果告警數量低于下限閾值則所述告警消息為解除風暴消息并解除風暴預警,否則為正常告警消息。

當第1分鐘-第60分鐘的滑動時間窗口中告警數量的上下限閾值計算出來之后,此步驟判斷第61分鐘的告警消息類型,進行風暴預警,或者解除風暴預警,或者不預警。

S105、基于當前滑動時間窗口向后滑動一個時間單位,進入下一個滑動時間窗口,轉到上述步驟S103。

此方法技術方案實現了實時生成消息風暴的產生和解除的閾值,采用滑動窗口動態計算,解決了不同網元對于消息風暴產生不同閾值、分別動態生成閾值的問題。

以下具體說明使用概率統計方法動態生成置信區間和閾值的過程:

步驟S1031、根據上述步驟S102獲取的網元告警數據,計算當前滑動時間窗口中的每個時間單位的網元告警數量,并作為統計參數;

在本實施例中,將滑動時間窗口設為1小時,將當前窗口即最近的一個小時中某個網元的告警消息作為總體,統計每分鐘的消息量,即總體中包含60個統計參數,N=60。在下一分鐘到來后,在時間軸上,將60個統計參數,整體平移1分鐘,向右滑動一個窗口,丟棄前面第1分鐘的統計值。如此,始終保持最近60分鐘的消息量,作為總體。

步驟S1032、將統計參數進行均值計算、標準差計算、置信區間計算,求得置信區間的上下限,得到統計閾值;

如圖3所示,統計閾值計算包括如下三個子步驟:

S10321、均值計算

均值,是把總體中所有的觀測值求和,除以總體中觀察值的個數。計算公式為:

其中Xi是第i分鐘的告警消息總數。

以網元CDHSS1為例,最近1小時里,每分鐘的告警消息數(60個測量值)的均值為200個。

S10322、標準差計算

實驗結果在期望值附近的分散程度,由標準差來衡量。

其中μ為總體平均值,N為總體中的觀測值的個數。

以網元CDHSS1為例,最近1小時里,每分鐘的告警消息數的標準差為103。

S10323、置信區間計算與閾值生成

根據數理統計,當總體方差已知時,采用z標準正態分布,來構建總體均值的置信區間。總體均值μ的(1-α)置信區間是:

其中α表示顯著性水平,是估計總體參數落在某一區間內,可能犯錯誤的概率。此發明中,設定α=5%,即以95%(1-5%)作為置信度。查標準正態分布表,Z0.05/2=1.96。

置信區間的下限為:

置信區間的上限為:

也就是說,有95%的置信度,每分鐘的告警消息量,應該在(172,233)的區間范圍內。

步驟S1033、確定當前置信區間的上限為告警風暴的閾值,確定當前置信區間的下限為解除告警風暴的閾值。

將置信區間上限233,作為告警風暴的閾值。如果最近1分鐘的消息量超過前60分鐘的平均值233,那么認為發生了告警風暴。將置信區間下限172,作為解除告警風暴的閾值。如果消息量小于172,則認為告警風暴已經解除。

然后,總體統計值的時間窗口,整體平移1分鐘,加入新近1分鐘的消息量,去掉前面第1分鐘的消息量,重新計算出總體的新的均值和標準差,生成下1分鐘的消息量的置信區間。

當判斷出有告警風暴時,為了迅速觀察到告警風暴的情況,通過下述進一步方法給運營維護人員直觀的通知。

如果告警消息類型為風暴消息則生成風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為解除風暴消息則生成解除風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為正常消息,則輸出到普通窗口中顯示。

如圖4所示,當告警數據累加最近1分鐘的告警消息個數達到240,即超過風暴閾值上限233,為本實施例的風暴告警時直通窗口呈現效果圖,可見,由該效果圖可以直觀的顯示風暴消息,從而解決了由于經過其他環節繁瑣處理導致消息延遲、大量無用消息在監控臺呈現、正常消息無法正常監控、大量占用系統資源的問題。

風暴數量小于置信區間的下限時,則清除掉此網元的風暴預警,通知直通窗口,并自動解除該網元消息的正常解析。如圖5所述,為風暴預警解除時直通窗口呈現的效果圖。

正常告警消息時啟動普通監控窗口。該狀態是平時當告警消息風暴沒有出現時的普通狀態,對正常消息保持著普通監控即可。

進一步地,通知直通監控窗口直接呈現的具體方法為:將預警消息通知監控客戶端,觸發監控客戶端彈出直通監控窗口,將風暴預警消息和/或解除風暴預警消息及發生風暴的網元模型信息在直通監控窗口直接呈現。

本發明實施例通過觸發監控客戶端自動彈出風暴監控直通窗口,能夠及時發送告警風暴預警通知,自動彈出的監控窗口,將消息完整上送,通知監控臺。由于繞過其他處理環節,保證了故障的及時監控,從而及時提示使用者處理故障。

所述創建網元告警規則引擎,基于源告警信息實時生成適配規則的網元告警數據的方法,可以分三步實現,舉例:

S1021、根據網元模型數據生成網元告警規則;

根據網元模型信息,生成匹配網元的正則表達式描述為如下形式,可以保存到網元適配文件中:

extract_pattern=$userlabel"網元名稱\s*=\s*([^\n]+)\n"

extract_pattern=$object_class"網元類型\s*=\s*(\S+)\s*\n"

extract_pattern=$ne_mark"網元標識\s*=\s*([^\n]+)\n"

所述的正則表達式將相關網元的告警關鍵信息(比如網元名稱、網元類型、告警發生時間等),抽象成模式匹配規則。

S1022、獲取源告警信息并執行所述網元告警規則,得到適配的網元告警消息;

執行S1021建立的網元告警規則引擎,實時地獲取源告警信息并處理,如圖6收到實時的新告警消息,從新告警信息找出與規則適配的相關網元告警信息,圖7是告警正文解析的結果。

S1023、將適配的網元告警消息保存到網元告警數據緩沖區。

將每一個單位時間的網元告警信息按時間順序寫入網元告警緩存區。

例如存入網元數據檢索鏈表,包括網元模型信息和網元相關告警信息。這是一個靈活的便于在尾部增加數據,在頭部去掉數據的數據結構,對于本實施例的實現效果突出,方便快捷。

根據本發明的另一個方面如圖8所示,還提供了一種基于概率統計的網絡設備告警消息風暴的處理裝置,所述裝置包括如下模塊:

網元模型建立模塊M101,用于設定被監控網元,建立網元模型。

在這個模塊中,以網元為監控對象建立網元模型,建立網元的數學結構,保存各類網元的屬性,包括網元名稱、采集點、設備廠家、所屬地市等資源信息。可以保存到配置文件。網元的數據結構示例如圖2所示。

告警規則引擎模塊M102,用于創建網元告警規則引擎,基于源告警信息實時獲取適配規則的網元告警數據。

由于源告警信息中包含了大量的各種各樣的告警信息,為了迅速找出S101所設定的網元的告警信息,過濾掉其他非關注信息,利用規則匹配的方法是快捷的。因此要創建規則引擎,用于建立網元告警規則并選擇出相關網元的告警,這包括網元告警規則的生成與規則執行兩部分。

統計和閾值生成模塊M103,取當前滑動時間窗口中的網元告警數據實時統計網元告警數量,使用概率統計方法動態生成置信區間和閾值,所述的滑動時間窗口包括多個順序的時間單位。

滑動時間窗口是指按時間順序取的觀察窗口,再滑動一個時間單位再次形成下一個滑動時間窗口。例如,步驟S102獲取了100分鐘的告警數據,那么取第1分鐘-第60分鐘為第一個滑動時間窗口,然后取第2分鐘-第61分鐘為第二個滑動時間窗口,以此類推。滑動時間窗口可以根據實際需要設定,如設為60分鐘,時間單位設為1分鐘。

本模塊使用概率統計方法每次動態生成當前滑動時間窗口內的告警數據的置信區間和閾值,隨著滑動時間窗口的移動,每次生成的置信區間和閾值有所不同。

判斷和預警模塊M104,根據統計和閾值生成模塊生成的閾值判斷當前滑動時間窗口后一條告警消息的類型,如果高于上限閾值為風暴消息則進行風暴預警,如果低于下限閾值為解除風暴消息則解除風暴預警,否則為正常告警消息。

當第1分鐘-第60分鐘的滑動時間窗口中告警數量的上下限閾值計算出來之后,此步驟判斷第61分鐘的告警消息類型,進行風暴預警,或者解除風暴預警,或者不預警。

調整滑動時間窗口模塊M105,基于當前滑動時間窗口向后滑動一個時間單位,形成下一個滑動時間窗口,轉到統計和閾值生成模塊。

此裝置方案實現了實時生成消息風暴的產生和解除的閾值,采用滑動窗口動態計算,解決了不同網元對于消息風暴產生不同閾值、分別動態生成閾值的問題。

所述告警規則引擎模塊M102具體可以包括規則生成模塊、規則執行模塊、寫緩沖區模塊;其中,規則生成模塊,根據網元模型數據生成網元告警規則;

根據網元模型信息,生成匹配網元的正則表達式描述為如下形式,保存到網元適配文件中:

extract_pattern=$userlabel"網元名稱\s*=\s*([^\n]+)\n"

extract_pattern=$object_class"網元類型\s*=\s*(\S+)\s*\n"

extract_pattern=$ne_mark"網元標識\s*=\s*([^\n]+)\n"

所述的正則表達式將相關網元的告警關鍵信息(比如網元名稱、網元類型、告警發生時間等),抽象成模式匹配規則。

規則執行模塊,獲取源告警信息并執行規則生成模塊生成的網元告警規則,得到適配的網元告警消息;如圖6收到實時的新告警消息,從新告警信息找出與規則適配的相關網元告警信息,圖7是告警正文解析的結果。

寫緩沖區模塊將所述適配的網元告警消息保存到網元告警數據緩沖區。

將每一個單位時間的網元告警信息按時間順序寫入網元告警緩存區。

例如存入網元數據檢索鏈表,包括網元模型信息和網元相關告警信息。這是一個靈活的便于在尾部增加數據,在頭部去掉數據的數據結構,對于本實施例的實現效果突出,方便快捷。

統計和閾值生成模塊M103具體可以包括:統計參數獲取模塊,根據告警規則引擎模塊獲得的網元告警數據,計算當前滑動時間窗口中的每個時間單位的網元告警數量,并作為統計參數;統計閾值計算模塊,將統計參數進行均值計算、標準差計算、置信區間計算,求得置信區間的上下限,得到統計閾值;閾值確定模塊,確定當前置信區間的上限為告警風暴的閾值,確定當前置信區間的下限為解除告警風暴的閾值。

在本實施例中,將滑動時間窗口設為1小時,將當前窗口即最近的一個小時中某個網元的告警消息作為總體,統計每分鐘的消息量,即總體中包含60個統計參數,N=60。在下一分鐘到來后,在時間軸上,將60個統計參數,整體平移1分鐘,向右滑動一個窗口,丟棄前面第1分鐘的統計值。如此,始終保持最近60分鐘的消息量,作為總體。

具體地,如圖9所示,上述統計閾值計算模塊包括如下三個單元:

均值計算單元231、標準差計算單元232、置信區間判斷單元233。

均值,是把總體中所有的觀測值求和,除以總體中觀察值的個數。計算公式為:

其中Xi是第i分鐘的告警消息總數。

以網元CDHSS1為例,最近1小時里,每分鐘的告警消息數(60個測量值)的均值為200個。

實驗結果在期望值附近的分散程度,由標準差來衡量。

其中μ為總體平均值,N為總體中的觀測值的個數。

以網元CDHSS1為例,最近1小時里,每分鐘的告警消息數的標準差為103。

根據數理統計,當總體方差已知時,采用z標準正態分布,來構建總體均值的置信區間。總體均值μ的(1-α)置信區間是:

其中α表示顯著性水平,是估計總體參數落在某一區間內,可能犯錯誤的概率。此發明中,設定α=5%,即以95%(1-5%)作為置信度。查標準正態分布表,Z0.05/2=1.96。

置信區間的下限為:

置信區間的上限為:

也就是說,有95%的置信度,每分鐘的告警消息量,應該在(172,233)的區間范圍內。將置信區間上限233,作為告警風暴的閾值。如果最近1分鐘的消息量超過前60分鐘的平均值233,那么認為發生了告警風暴。將置信區間下限172,作為解除告警風暴的閾值。如果消息量小于172,則認為告警風暴已經解除。

然后,總體統計值的時間窗口,整體平移1分鐘,加入新近1分鐘的消息量,去掉前面第1分鐘的消息量,重新計算出總體的新的均值和標準差,生成下1分鐘的消息量的置信區間。

判斷和預警模塊M104,還包括:如果告警消息類型為風暴消息則生成風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為解除風暴消息則生成解除風暴預警消息,通知直通監控窗口直接呈現;如果告警消息類型為正常消息,則輸出到普通窗口中顯示。。

如圖4所示,當告警采集累加最近1分鐘的告警消息個數達到240,即超過風暴閾值上限233,為本實施例的風暴告警時直通窗口呈現效果圖,可見,由該效果圖可以直觀的顯示風暴消息,從而解決了由于經過其他環節繁瑣處理導致消息延遲、大量無用消息在監控臺呈現、正常消息無法正常監控、大量占用系統資源的問題。

風暴數量小于置信區間的下限時,則清除掉此網元的風暴預警,通知直通窗口,并自動解除該網元消息的正常解析。如圖5所述,為風暴預警解除時直通窗口呈現的效果圖。

正常告警消息時啟動普通監控窗口。該狀態是平時當告警消息風暴沒有出現時的普通狀態,對正常消息保持著普通監控即可。

進一步地,通知直通監控窗口直接呈現具體為:將預警消息通知監控客戶端,觸發監控客戶端彈出直通監控窗口,將風暴預警消息和/或解除風暴預警消息及發生風暴的網元模型信息在直通監控窗口直接呈現。

本發明實施例通過觸發監控客戶端自動彈出風暴監控直通窗口,能夠及時發送告警風暴預警通知,自動彈出的監控窗口,將消息完整上送,通知監控臺。由于繞過其他處理環節,保證了故障的及時監控,從而及時提示使用者處理故障。

根據本發明的又一個方面,優選地,消息風暴除提供了上述觸發直通窗口呈現的必選方案外還提供其他兩種備選處理方案。

(1)將消息報文存儲成文件,待后續處理。

消息風暴發生時,故障管理系統數據壓力過大,達到處理瓶頸,將消息報文寫入到文件中,待風暴解除后,消息閾值低于閾值時,程序再處理文件中消息報文,從而保證了數據的完整性。

(2)將消息補充屬性后存儲到數據庫。

發生風暴時,風暴預警消息通過直通窗口呈現,未補充資源屬性。待風暴解除后,系統自動加載風暴期間的消息數據,進行解析,補充屬性,標準化處理,入庫保存。

綜合本發明的具體實施方式可以看出,本發明解決在保證數據完整型、準確性、有效性的基礎上,解決了消息風暴發生時出現的如下問題:

1、大量無意義消息出現在監控臺上,影響了監控人員對正常告警的監控。

2、對大量消息的處理,占用了大量系統資源、消耗了大量CPU時間,增加故障監控系統負荷,甚至造成系統癱瘓。

3、對大量無意義消息的處理造成了消息處理內存溢出、消息延遲,告警無法監控到,從而無法處理。

4、由于采集缺少對告警風暴進行一定的預測與風暴告警歸并的機制,遇到告警風暴時,整個故障系統處于被動狀態。

需要說明的是:

在此提供的算法和顯示不與任何特定計算機、虛擬裝置或者其它設備固有相關。各種通用裝置也可以與基于在此的示教一起使用。根據上面的描述,構造這類裝置所要求的結構是顯而易見的。此外,本發明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本發明的內容,并且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。

在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的虛擬機的創建裝置中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。

顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若對本發明的這些修改和變型屬于本發明權利要求及其同等技術的范圍之內,則本發明也意圖包含這些改動和變型在內。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 望奎县| 五河县| 绿春县| 定安县| 松溪县| 三江| 峨边| 唐河县| 砀山县| 辛集市| 静海县| 湘潭市| 瓦房店市| 阿鲁科尔沁旗| 科尔| 靖州| 河北省| 曲沃县| 岫岩| 义乌市| 宁海县| 连南| 长泰县| 通辽市| 五大连池市| 右玉县| 米脂县| 襄樊市| 襄垣县| 阳城县| 浙江省| 保靖县| 塘沽区| 仙游县| 合肥市| 天水市| 北碚区| 湖北省| 同心县| 宁河县| 宁国市|