故障監控方法和裝置與流程

文檔序號：12062864閱讀：493來源：國知局

本申請涉及石油勘探數據處理技術領域，特別涉及一種故障監控方法和裝置。

背景技術：

在石油勘探數據處理領域中，由于所要研究處理的數據資料非常龐大，常常需要使用高性能的計算機集群、工作站與大容量高性能存儲設備等作為地震數據處理、解釋的平臺或系統，以對石油勘探數據進行處理。

具體利用上述平臺或系統對石油勘探數據進行處理時，由于要求處理的數據量增加、集群規模增大以及各種應用軟件的交叉使用，使得集群、工作站、存儲等容易發生各類故障，影響生產任務的進行，進而造成損失。因此，如何監控數據處理平臺或系統的故障，保證數據處理平臺或系統的穩定性日益受到人們關注。

為了保證平臺或系統工作的安全、穩定，及時發現系統中的故障，現有的故障監控方法，一般是通過采集各個設備的狀態數據，通過將設備狀態數據與預設閾值進行分析比較，判定設備是否故障。但是，具體實施時，該方法只能發現已經發生故障的設備，只能對已經發生故障的設備發出告警，無法對將要發生的故障進行有效的預測、告警和維護。

因此，現有的故障監控方法存在不能對系統中潛在的故障進行預測，監測系統中故障的準確性差、效率低的技術問題。

針對上述問題，目前尚未提出有效的解決方案。

技術實現要素：

本申請實施例提供了一種故障監控方法和裝置，以解決現有的故障監控方法中存在的不能預測潛在故障、監控系統故障的準確性低的技術問題。

本申請實施例提供了一種故障監控方法，包括：

采集系統中一個或多個目標對象的狀態數據；

根據所述一個或多個目標對象的狀態數據，確定所述一個或多個目標對象中各個目標對象發生故障的概率；

確定出所述各個目標對象中發生故障的概率大于預設閾值的目標對象作為待監控對象；

確定所述待監控對象發生故障的原因，并根據所述待監控對象發生故障的原因，對所述待監控對象進行監控。

在一個實施方式中，采集系統中一個或多個目標對象的狀態數據，包括：

按照接口類型，將所述多個目標對象分為多個集群，其中，位于同一集群中的目標對象采用同一類型的接口；

對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據。

在一個實施方式中，在對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據之后，所述方法還包括：

將位于不同集群中的目標對象的狀態數據轉換為同一格式的狀態數據。

在一個實施方式中，根據所述一個或多個目標對象的狀態數據，確定所述一個或多個目標對象中各個目標對象發生故障的概率，包括：

根據所述一個或多個目標對象的狀態數據，確定與所述一個或多個目標對象的狀態數據對應匹配的一個或多個預設模型；

根據所述一個或多個預設模型，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

在一個實施方式中，確定所述待監控對象發生故障的原因，包括：

根據所述待監控對象的狀態數據和與所述待監控對象的狀態數據匹配的預設模型，確定所述待監控對象發生故障的原因。

在一個實施方式中，根據所述待監控對象發生故障的原因，對所述待監控對象進行監控，包括：

根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行以下至少之一的業務處理：修復、刪除或替換所述系統中已經發生故障的待監控對象，修復、刪除或替換所述系統中還未發生故障的待監控對象，對所述系統中的待監控對象發出告警。

在一個實施方式中，在根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行所述業務處理之后，所述方法還包括：

將所述業務處理后的結果作為監控結果數據，保存于知識數據庫中；

根據所述監控結果數據，對所述預設模型進行校正。

在一個實施方式中，采集系統中一個或多個目標對象的狀態數據，包括：

接收用戶通過預設通道上傳的系統問題；

將所述系統問題作為所述狀態數據。

在一個實施方式中，所述多個預設模型是通過在MapReduce框架下，運用預設算法獲得的，其中，所述預設算法包括：聚類算法和/或貝葉斯算法。

在一個實施方式中，所述多個預設模型是通過在MapReduce框架下，運用預設算法獲得的，包括：在分布式存儲平臺上，所述多個預設模型是通過在MapReduce框架下，運用預設算法獲得的。

在一個實施方式中，在采集系統中一個或多個目標對象的狀態數據之后，將所述狀態數據以分布式數據庫的形式存儲在所述知識數據庫中。

基于相同的發明構思，本申請實施例還提供了一種故障監控裝置，包括：

狀態數據采集模塊，用于采集系統中一個或多個目標對象的狀態數據；

故障概率確定模塊，用于根據所述一個或多個目標對象的狀態數據，確定所述一個或多個目標對象中各個目標對象發生故障的概率；

待監控對象確定模塊，用于確定出所述各個目標對象中發生故障的概率大于預設閾值的目標對象作為待監控對象；

待監控對象處理模塊，用于確定所述待監控對象發生故障的原因，并根據所述待監控對象發生故障的原因，對所述待監控對象進行監控。

在一個實施方式中，所述狀態數據采集模塊包括：

集群劃分單元，用于按照接口類型，將所述多個目標對象分為多個集群，其中，位于同一集群中的目標對象采用同一類型的接口；

數據采集單元，用于對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據。

在一個實施方式中，所述故障概率確定模塊包括：

預設模型確定單元，用于根據所述一個或多個目標對象的狀態數據，確定與所述一個或多個目標對象的狀態數據對應匹配的一個或多個預設模型；

故障概率確定單元，用于根據所述一個或多個預設模型，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

在一個實施方式中，所述待監控對象處理模塊包括：

故障原因確定單元，用于根據所述待監控對象的狀態數據和與所述待監控對象的狀態數據匹配的預設模型，確定所述待監控對象發生故障的原因；

業務處理單元，用于根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行以下至少之一的業務處理：修復、刪除或替換所述系統中已經發生故障的待監控對象，修復、刪除或替換所述系統中還未發生故障的待監控對象，對所述系統中的待監控對象發出告警。

在本申請實施例中，通過在分布式計算平臺(Hadoop平臺)上，在MapReduce框架內，綜合運用聚類算法和貝葉斯算法對采集得到的系統內各個目標對象的狀態數據進行深入分析，得到目標對象發生故障的概率，進而可以對發生故障概率高的目標對象進行監控處理，預防故障的發生。解決了現有的故障監控方法中存在的不能對系統中潛在故障進行預測的技術問題，達到了對系統中已發生和/或未發生的故障同時進行預警，提高監控故障準確性的技術效果。

附圖說明

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請中記載的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是根據本申請實施例的故障監控方法的處理流程圖；

圖2是應用本申請實施例提供的故障監控方法/裝置中的樸素貝葉斯算法在MapReduce框架下的實現流程的示意圖；

圖3是應用本申請實施例提供的故障監控方法/裝置得到狀態數據示意圖；

圖4是根據本申請實施例的故障監控裝置的組成結構圖；

圖5是應用本申請實施例提供的故障監控方法/裝置對勘探中心的數據系統進行維護的示意圖；

圖6是應用本申請實施例提供的故障監控方法/裝置中的通用狀態數據采集模型的示意圖；

圖7是應用本申請實施例提供的故障監控方法/裝置中的在MapReduce框架下綜合運用多算法分析的示意圖；

圖8是應用本申請實施例提供的故障監控方法/裝置中的K-means聚類算法在MapReduce框架下的實現流程的示意圖。

,具體實施方式

為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基于本申請中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬于本申請保護的范圍。

考慮到現有故障監控方法，因為只是通過采集狀態數據，將狀態數據與預設閾值的進行簡單的比較，并沒有充分地利用狀態數據，沒有對狀態數據進行深入的分析處理，導致具體實施時，現有故障監控方法存在只能發現已經發生的故障，不能對系統內潛在故障進行預警，且對故障監測效果差、效率慢的技術問題。針對產生上述技術問題的根本原因，本申請考慮可以通過分布式存儲方法結合MapReduce框架，通過綜合運用多種算法以充分利用各個目標對象的狀態數據，通過智能分析，確定各個目標對象的故障概率和故障產生原因，進而對待監控目標對象進行預防維護。從而解決了現有故障監控方法存在的不能對潛在故障進行預警，故障監控準確度低的技術問題，達到了對系統中已發生和/或未發生的故障同時進行預警，提高監控故障準確性的技術效果。

基于上述思考思路，本申請提供了一種故障監控方法。請參閱圖1。本申請提供的故障監控方法，可以包括以下步驟。

步驟101：采集系統中一個或多個目標對象的狀態數據。

在一個實施方式中，所述目標對象具體可以包括系統中的CPU、GPU、存儲設備、網絡連接裝置和配套基礎設施(例如散熱風扇)等。當然，需要說明的是，上述所列舉的目標對象是為了更好地說明本發明實施例，具體實施時，可以根據施工要求選擇其他相關設備或裝置作為目標對象。對此，本申請不作限定。

在一個實施方式中，由于一個系統或平臺內可能包含多個不同類型的目標對象，且不同類型的目標對象獲取狀態數據的接口不同。例如，石油勘探數據處理中心的系統就可以包括多個CPU和多個存儲設備等，而獲取CPU的狀態數據的接口和獲取存儲設備狀態數據的接口并不相同。為了提高獲取狀態數據的效率和準確度，可以以集群為單位，通過同一集群相同的接口獲取該集群中各個目標對象的狀態數據，具體可以按照以下步驟處理：

S1：按照接口類型，將所述多個目標對象分為多個集群，其中，位于同一集群中的目標對象采用同一類型的接口。

S2：對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據。

在一個實施方式中，不同集群中的目標對象狀態數據格式不同，且直接獲得的目標對象的狀態數據格式也不一定能滿足后續的使用要求。例如，CPU集群中的目標對象的狀態數據的格式和存儲設備集群中目標對象的狀態數據格式并不相同。因此，為了使得采集的不同集群中目標對象的狀態數據有統一的數據格式，使得狀態數據的格式滿足后續處理要求。具體地，在對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據之后，所述方法還可以包括：將位于不同集群中的目標對象的狀態數據轉換為同一格式的狀態數據。

例如，將數據處理系統中不同的CPU劃分為一個CPU集群，通過CPU狀態數據獲取接口獲取CPU集群中各個CPU的狀態數據。并且對CPU集群中各個CPU的狀態數據進行統一的格式轉換，使得CPU集群中的各個CPU的狀態數據的格式與其他目標對象狀態數據的格式相同，滿足后續使用要求。同樣還可以按照上述方式分別獲取GPU集群、存儲設備集群和網絡連接裝置集群等的目標對象的狀態數據。本申請，在此不再贅述。

在一個實施方式中，為了提高后續處理過程中讀取各個目標對象的狀態數據的效率，提高狀態數據的穩定性，可以將所述狀態數據以HBase(Hadoop Database，分布式數據庫的簡稱)形式存儲和展示。具體的，所述狀態數據可以以分布數據庫的形式存儲在知識數據庫中。需要說明的是，使用HBase形式存儲不同于普通數據庫存儲形式，該方法是將狀態數據以列的形式進行存儲展示的，從而可以提高讀取的效率，并且提高數據穩定性。當然，也可以根據具體情況使用其他合適的數據庫進行存儲。對此，本申請不作限定。

步驟102：根據所述一個或多個目標對象的狀態數據，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

在一個實施方式中，為了對系統中未發生故障的目標對象進行預測，可以通過分析目標對象的狀態數據確定出目標對象發生故障的概率，根據目標對象發生故障的概率來預測目標對象未來是否會發生故障。具體實施可以包括：

S1：根據所述一個或多個目標對象的狀態數據，確定與所述一個或多個目標對象的狀態數據對應匹配的一個或多個預設模型。

在本實施方式中，確定與目標對象的狀態數據對應匹配的預設模型可以是根據目標對象的狀態數據，從知識數據庫中多個預設模型里確定與狀態數據差異值最小的預設模型作為所述對應的匹配模型。

需要說明的是，在本實施方式中，為了準確地根據狀態數據判斷目標對象匹配的預設模型，具體實施時可以通過樸素貝葉斯算法判別狀態數據所對應的預設模型。例如，可以根據某個目標對象的狀態數據，通過Reduce任務，分別計算每個目標對象屬于各個預設模型分類的概率值，并找出最大概率所對應的預設模型分類，即為該目標對象對應匹配的預設模型。

S2：根據所述一個或多個預設模型，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

在一個實施方式中，所述多個預設模型是通過在MapReduce框架下，運用預設算法獲得的。即，所述多個預設模型通過在MapReduce框架下，綜合運用多種算法獲得，其中，所述預設算法，即多種算法包括：聚類算法和貝葉斯算法。需要說明的是，所述聚類算法和貝葉斯算法一般需要在MapReduce框架下才能高效、準確地運行。而整個MapReduce框架一般又需要在分布式存儲平臺(Hadoop平臺)上才能綜合地運行多算法，即所述聚類算法和貝葉斯算法，解決相應的問題。

在一個實施方式中，所述多個預設模型通過在MapReduce框架下，綜合運用多種算法獲得，包括：在分布式存儲平臺上，所述多個預設模型通過在MapReduce框架下，綜合運用多種算法獲得。其中，所述的MapReduce框架可以是一種編程模型框架，多用于大規模數據集(大于1TB)的并行運算。需要說明的是，MapReduce中的概念"Map(映射，用來把一組鍵值對映射成一組新的鍵值對)"和"Reduce(歸約，用來保證所有映射的鍵值對中的每一個共享相同的鍵組)"，都是根據函數式編程語言和矢量編程語言的特性，得到的。MapReduce框架具體實施時，可以方便編程人員在不會分布式并行編程的情況下，將對應程序運行在分布式系統上，實現并行計算，提高運算的效率和準確度。在本實施方式中，為了事先準備好多個預設模型存儲在知識數據庫，可以在分布式存儲平臺(Hadoop平臺)上，可以通過基于MapReduce框架的多算法綜合算法，對樣本數據進行充分挖掘處理(包括：聚類，得到多個樣本類型和訓練，得到多個預設模型)，得到較為準確的預設模型。具體實施時，可以包括：

S1：通過K-means(即K均值法的英文名稱)聚類算法對多個樣本進行聚類處理，得到多個樣本類型。具體可以包括：

1)從勘探數據中心設備狀態數據集中選取k(擬分類個數)個樣本數據作為中心。

2)測量所有數據到每個中心的距離，找出一個最小距離，并將其劃入該類中，即得到初始樣本類型。

3)重新計算各類中心。重復進行2、3的步驟，直至滿足設定的閾值。主函數中，需要設計恰當的閾值，并通過迭代程序，實現對Map函數和Reduce函數的不斷調用，直至滿足設定的閾值，即可以得到多個樣本類型。

S2：通過樸素貝葉斯算法對多個樣本模型進行訓練，得到預設模型。具體可以參閱圖2，包括：

S2-1：設X＝{a₁，a₂，...，a_m}為一個待分類項，而每個a為x的一個特征屬性。

S2-2：有類別集合C＝{y₁，y₂，...，y_m}。

S2-3：計算P(y₁|x)、P(y₂|x)、...P(y_n|x)。

S2-4：如果P(y_k|x)＝max{P(y₁|x)，P(y₂|x)，...，P(y_n|x)}，則x∈y_k。

S2-5：通過多次測試，根據實際識別結果，對樣本類型中的各個特征屬性進行針對性的多次校正，得到預設模型。

其中，X為待分析的狀態數據，a₁，a₂，...，a_m為待分析數據中的各個特征屬性數據，C為多個預設模型的集合，y₁，y₂，...，y_m為多個預設模型，P(y₁|x)、P(y₂|x)、...，P(y_n|x)分別為X屬于y₁，y₂，...，y_m各個預設模型的概率值。

具體實施時，還可以參閱圖3。Mac1數據條可以是系統中某一個時間點獲得的各個目標對象的狀態數據的集合，即相當于上述的X所表示的一個待分類項。其中，Mac1數據條中每一格的數據對應于各個目標對象的一種狀態數據。即每一格內的數據相當于上述的a₁，a₂，...，a_m所表示的各個特征屬性數據。需要說明的是，在同一個時間的點可以根據具體情況獲得同一目標的多條不同狀態數據。例如，圖3中的，第5小格中的數據20％，第六小格中的數據10和第七小格中的數據5，均可以是系統中某個CPU該時間點的狀態數據。具體地，20％可以是該CPU剩余空間的狀態數據，10可以是該CPU的Swap(交換分區)使用情況的狀態數據，5可以是該CPU的Buffer(緩沖器)使用情況的狀態數據。相應的，上述公式中的C相當于預設模型的集合。y₁，y₂，...，y_m相當于預設模型集合中的各個具體的預設模型。例如y₁，y₂，...，y_m可以分別是CPU故障模型、風扇故障模型、GPU故障模型……等。其中，所述每個預設模模型可以包括對應的各個目標對象的各種狀態數據值。分別計算P(y₁|x)、P(y₂|x)、...，P(y_n|x)，相當于根據Mac1中各個狀態數據值和各個預設模型y₁，y₂，...，y_m中的對應的各個狀態數據值的相似程度，計算Mac1屬于y₁，y₂，...，y_m中各個預設模型的概率值，進而可以根據該這些概率值，判斷Mac1所對應的系統狀態屬于哪種預設模型所對應狀態，例如，是屬于CPU發生故障時的狀態，還是GPU發生故障的狀態，或者其他狀態。計算P(y_k|x)＝max{P(y₁|x)，P(y₂|x)，...，P(y_n|x)}，相當于根據Mac1屬于各個預設模型的概率值，確定最大概率值所對應的預設模型為Mac1所對應的最近接的預設模型。進而可以認為Mac1所表示狀態是該預設模型所對應的狀態。例如，根據計算得出Mac1屬于預設模型y₂的概率值最大，而預設模型y₂所對應的情況是CPU過熱時的情況，因此可以判斷采集Mac1數據的時間段，系統出現某個CPU運行過熱的情況。

需要說明的是，在上述實施方式中，為了計算步驟3)中的各個條件概率，具體可以按以下方式處理：

S2-3-1：找到一個已知分類的待分類項集合，這個集合叫做訓練樣本集。

S2-3-2：統計得到在各類別下各個特征屬性的條件概率估計。即

S2-3-3：如果各個特征屬性是條件獨立的，則根據貝葉斯定理有如下推導：

因為分母對于所有類別為常數，因此這里可以將分子最大化。又因為各特征屬性是條件獨立的，所以有：

其中，P(a₁|y_i)P(a₂|y_i)...P(a_m|y_i)分別表示各個特征屬性屬于預設模型y_i的概率，P(y_i)表示預設模型y_i發生的概率，P(x)表示總概率，P(y_i|x)表示狀態數據X屬于預設模型y_i的概率。

步驟103：確定出所述各個目標對象中發生故障的概率大于預設閾值的目標對象作為待監控對象。

在一個實施方式中，可以根據具體情況設置預設閾值。當目標對象發生故障的概率大于該預設閾值時，即使目標該目標對象尚未發生故障，但可以判斷該目標對象具有較高的故障風險，即未來一個時間段內很有可能會發生故障，需要密切關注以及時預防。因此，可以將發生故障的概率大于預設閾值的目標對象作為待監控對象進行密切監控和其他相關處理。

步驟104：確定所述待監控對象發生故障的原因，并根據所述待監控對象發生故障的原因，對所述待監控對象進行監控。

在一個實施方式中，為了預防故障的產生，及時地處理或者預警潛在故障，可以進一步確定待監控對象發生故障的原因。具體可以包括根據所述待監控對象的狀態數據和與所述待監控對象的狀態數據匹配的預設模型，確定所述待監控對象發生故障的原因。需要說明的是，這里的與待監控對象匹配的預設模型是通過對大量樣本數據處理得到，并存儲在知識數據庫中的。其中，該預設模型包含了與該監控對象有關聯的大量信息。根據這些信息，可以確定該監控對象發生故障的原因。

在一個實施方式中，為了預防潛在故障的發生，可以根據監控對象發生故障的原因，對監控對象進行監控處理。其中，所述監控可以包括根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行以下至少之一的業務處理：修復、刪除或替換所述系統中已經發生故障的待監控對象，修復、刪除或替換所述系統中還未發生故障的待監控對象，和對所述系統中的待監控對象發出告警。具體實施時，可以對監控對象執行上述一種監控，也可對監控對象執行上述多種監控。當然，還可以根據具體情況，采用上述以外的其他合適方式對待監控對象進行監控處理。對此，本申請不作限定。

在一個實施方式中，為了根據對待監控對象進行監控處理，具體可以根據ITIL(Information Technology Infrastructure Library，信息技術基礎架構庫的簡稱)流程，以IT服務的方式根據所述待監控對象發生故障的原因，對所述待監控對象進行相應的具體監控處理。

在一個實施方式中，為了進一步提高對故障監控的準確度，可以根據反饋的監控結果對原有的預設模型進行針對性的校正。即在根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行所述業務處理之后，所述方法還可以包括：

S1：將所述業務處理后的結果作為監控結果數據，保存于知識數據庫中。

S2：根據所述監控結果數據，對所述預設模型進行校正。

其中，所述校正可以是根據反饋的監控結果數據針對性地對預設模型的某個特定參數值進行修改，也可以是對預設模型的原有的特征參數的權重進行修改。對此，本申請不作限定。

在一個實施方式中，為了獲得更全面更詳細的狀態數據，可以擴展采集各個目標對象狀態數據的渠道。因此，采集系統中一個或多個目標對象的狀態數據，具體可以包括：

S1：接收用戶通過預設通道上傳的系統問題。

S2：將所述系統問題作為所述狀態數據。

在本申請實施例中，相較于現有的故障監控方法，本方法利用分布式存儲技術，在MapReduce框架下，通過綜合運用多種算法對采集得到的各個目標對象的狀態數據進行充分分析，得到各個目標對象的故障概率和故障原因，進而可以對未發生故障的目標對象進行預防維護。從而解決現有的故障監控方法存在的不能對未發生的故障進行預警和監控故障準確度低的技術問題，達到了對系統中已經發生和未發生的故障同時進行監控的技術效果。

基于同一發明構思，本發明實施例中還提供了一種故障監控裝置，如下面的實施例所述。由于裝置解決問題的原理與故障監控方法相似，因此故障監控裝置的實施可以參見故障監控方法的實施，重復之處不再贅述。以下所使用的，術語“單元”或者“模塊”可以實現預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現，但是硬件，或者軟件和硬件的組合的實現也是可能并被構想的。請參閱圖4，是本發明實施例的故障監控裝置的一種組成結構圖，該裝置可以包括：狀態數據采集模塊401、故障概率確定模塊402、待監控對象確定模塊403和待監控對象處理模塊404，下面對該結構進行具體說明。

狀態數據采集模塊401，可以用于采集系統中一個或多個目標對象的狀態數據。

故障概率確定模塊402，可以用于根據所述一個或多個目標對象的狀態數據，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

待監控對象確定模塊403，可以用于確定出所述各個目標對象中發生故障的概率大于預設閾值的目標對象作為待監控對象。

待監控對象處理模塊404，可以用于確定所述待監控對象發生故障的原因，并根據所述待監控對象發生故障的原因，對所述待監控對象進行監控。

在一個實施方式中，為了提高采集狀態數據的效率和準確度，狀態數據采集模塊401可以包括：

集群劃分單元，用于按照接口類型，將所述多個目標對象分為多個集群，其中，位于同一集群中的目標對象采用同一類型的接口。

數據獲取單元，用于對位于同一集群中的目標對象采用同一數據獲取方式獲取所述狀態數據。

在一個實施方式中，為了將不同集群中不同格式的狀態數據統一格式，所述狀態數據采集模塊還可以包括格式轉換單元，用于將位于不同集群中的目標對象的狀態數據轉換為同一格式的狀態數據。

在一個實施方式中，為了確定所述一個或多個目標對象中各個目標對象發生故障的概率，故障概率確定模塊402可以包括：

第一確定單元，用于根據所述一個或多個目標對象的狀態數據，確定與所述一個或多個目標對象的狀態數據對應匹配的一個或多個預設模型。需要說明的是，第一確定單元可以通過樸素貝葉斯算法確定與狀態數據最匹配的預設模型。

第二確定單元，用于根據所述一個或多個預設模型，確定所述一個或多個目標對象中各個目標對象發生故障的概率。

在一個實施方式中，為了獲得多個預設模型，所述故障概率確定模塊402還可以包括預設模型建立單元，用于獲取多個樣本數據；根據多個樣本數據，通過K-means聚類算法，得到多個樣本類型；通過樸素貝葉斯算法對多個樣本類型進行訓練，得到多個預設模型。

在一個實施方式中，為了確定所述待監控對象發生故障的原因，待監控對象處理模塊404可以包括故障原因確定單元，原因根據所述待監控對象的狀態數據和與所述待監控對象的狀態數據匹配的預設模型，確定所述待監控對象發生故障的原因。

在一個實施方式中，為了對所述待監控對象進行監控以預防故障發生或對故障進行及時處理，待監控對象處理模塊404可以包括處理單元，用于根據所述待監控對象發生故障的原因和所述待監控對象發生故障的概率，執行以下至少之一的業務處理：修復、刪除或替換所述系統中已經發生故障的待監控對象，修復、刪除或替換所述系統中還未發生故障的待監控對象，對所述系統中的待監控對象發出告警。

在一個實施方式中，為了提高預設模型的準確度，進而提高監控故障的精度，所述故障概率確定模塊402還可以包括預設模型校正單元，用于將所述業務處理后的結果作為監控結果數據，保存于知識數據庫中；根據所述監控結果數據，對所述預設模型進行針對性校正。

在一個實施方式中，為了采集更加全面準確的狀態數據，狀態數據采集模塊401可以包括用于反饋單元，用于接收用戶通過預設通道上傳的系統問題；并將所述系統問題作為所述狀態數據。

本說明書中的各個實施例均采用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統實施例而言，由于其基本相似于方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

需要說明的是，上述實施方式闡明的系統、裝置、模塊或單元，具體可以由計算機芯片或實體實現，或者由具有某種功能的產品來實現。為了描述的方便，在本說明書中，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現。

此外，在本說明書中，諸如第一和第二這樣的形容詞僅可以用于將一個元素或動作與另一元素或動作進行區分，而不必要求或暗示任何實際的這種關系或順序。在環境允許的情況下，參照元素或部件或步驟(等)不應解釋為局限于僅元素、部件、或步驟中的一個，而可以是元素、部件、或步驟中的一個或多個等。

從以上的描述中，可以看出，本申請實施例提供的故障方監控法和裝置，利用分布式存儲平臺，在MapReduce框架下通過綜合運用多種算法對采集得到的各個目標對象的狀態數據進行智能分析處理，得到各個目標對象的故障概率和故障原因，進而可以對系統中尚未發生故障的目標對象進行監控和預防。解決了現有故障監控方法中存在的不能對未發生的故障進行預警和監控，監控故障的準確度低的技術問題，達到了對系統中已經發生的故障和未發生的故障同時進行監控，并提高故障監控準確度的技術效果；又通過將各個目標對象劃分成對應的集群，進而獲取同一集群中各個目標對象的狀態數據，并對同一集群中各個目標對象的狀態數據進行統一處理，提高了狀態數據獲取的效率，也降低了狀態數據的誤差；還通過應用分布式(Hadoop)存儲平臺結合在MapReduce框架下通過綜合運用多種算法對狀態數據進行深入挖掘，獲得了各個目標對象的故障概率和故障原因，進一步提高了故障監控的準確度；此外，通過根據故障概率和故障原因對系統中的已經發生和未發生的故障進行針對性的預防或維護處理，達到有效維護系統穩定的技術效果；另外，還根據監控結果對預設模型進行針對性的校正，提高了預設模型的精度，達到進一步提高故障監控準確度的技術效果。

在一個具體實施場景，應用本申請提供故障監控方法/裝置對勘探數據中心的數據系統進行故障監控。

可以參閱圖5，為應用本申請提出故障監控方法/裝置維護勘探數據中心的數據系統的示意圖。具體的可以包括：

1)數據監控與采集模塊

通過整合，實現數據中心各類系統(CPU集群、GPU集群、存儲、網絡、基礎設施)離散模塊的一體化監控。

2)ITIL流程模塊：

通過監控系統發現故障，并自動提交至ITIL(Information Technology Infrastructure Library，信息技術基礎架構庫的簡稱)流程，實現快捷的IT服務。

用戶通過ITIL服務臺統一提交科研生產中遇到問題，問題的處理過程均有詳細的日志記錄，用戶及管理人員能對問題處理過程及結果進行跟蹤。

3)基于Hadoop平臺的故障處理模塊

通過告警數據采集、故障過濾、故障相關性分析，快速定位和解決各類故障。

通過在MapReduce框架下的多算法綜合分析，找出系統中潛在的故障并將故障報告，實現提前的主動防御。

4)知識庫與性能分析

建立一個集數據整合、信息查詢、在線分析、多維分析、動態報表于一體的性能分析系統，可以幫助決策者從多角度進行信息分析。包括各種資源的統計、值班情況的統計、日常工作的統計；再對各種統計項建立指標，并依據指標或指標組合制定決策。

數據庫實現與ITIL流程、MapReduce框架下的多算法綜合分析的聯動，使知識庫能夠不斷添加新知識，增強故障處理的能力。

需要說明的是，上述數據監控與采集模塊，具體實施時可以參閱圖6所示，即本申請實施例提出通用狀態數據采集，完成各類勘探數據中心設備的采集。包括：

1)各類設備提供不同的協議接口，如CPU/GPU集群以SSH方式獲取設備信息，而存儲設備一般提供SMI_S協議。根據具體情況，獲取各類設備狀態信息。

2)對采集的數據，使用通用狀態數據轉換模塊，實現所有數據的統一數據存儲(HBase)及統一數據展示。

上述基于Hadoop平臺的故障處理模塊，進行故障分析時，具體可以參閱圖7所示，即本申請實施例提出的MapReduce框架下的多算法綜合分析模型，也是整個處理模塊中的核心。包括：

1)狀態采集模塊完成勘探數據中心各設備運行狀態數據的采集，通過統一的模型，實現CPU集群、GPU集群、網絡設備、存儲設備的狀態數據采集；

2)狀態數據存儲模塊采用HBase，實現動態時序、歷史數據龐大的狀態數據高效存儲；

3)運行狀態數據的分析處理模塊為本文的核心內容，包括在MapReduce框架下實現的兩個算法。其中K-Means聚類算法對運行狀態數據進行聚類，將每次生成的運行狀態聚類中心作為樣本，形樣本知識庫；貝葉斯對各個知識庫進行訓練，并對待測數據進行判別，最后達到故障預警。

利用故障處理模塊具體進行故障分析時，可以參閱圖8所示，為本申請實施例提出的K-means聚類算法在MapReduce框架下的實現流程。

其中，K-means聚類算法是一個迭代的過程，具體地，可以按照以下步驟進行迭代：

S1：從勘探數據中心設備狀態數據集中選取k(擬分類個數)個數據作為中心。

S2：測量所有數據到每個中心的距離，找出一個最小距離，并將其劃入該類中。

S3：重新計算各類中心。

重復執行步驟S2和步驟S3，直至滿足設定的閾值。主函數中，需要設計恰當的閾值，并通過迭代程序，實現對Map函數和Reduce函數的不斷調用，直至滿足設定的閾值。

參閱圖2所示，為本申請實施例提出的樸素貝葉斯算法在MapReduce框架下的實現過程。

其中，Naive Bayesian Classifier是一種基于統計學的分類方法，包括訓練和PANBIE兩部分。具體實施可以包括：

S1：設X＝{a₁，a₂，...，a_m}為一個待分類項，而每個a為x的一個特征屬性。

S2：有類別集合C＝{y₁，y₂，...，y_m}。

S3：計算P(y₁|x)、P(y₂|x)、...，P(y_n|x)。

S4：如果P(y_k|x)＝max{P(y₁|x)，P(y₂|x)，...，P(y_n|x)}，則x∈y_k。

那么現在的關鍵就是如何計算第3步中的各個條件概率，具體實施時可以：

S3-1：找到一個已知分類的待分類項集合，這個集合叫做訓練樣本集。

S3-2：統計得到在各類別下各個特征屬性的條件概率估計。即

S3-3：如果各個特征屬性是條件獨立的，則根據貝葉斯定理有如下推導：

因為分母對于所有類別為常數，因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨立的，所以有：

需要說明的是算法在MapReduce框架下運行的過程，具體可以包括以下三個步驟：

S1：數據準備階段，實現數據的分條；

S2：數據分類訓練階段，Map任務計算每個分類的P(y_i)值；

S3：數據分類階段，Reduce任務計算每個分類的P(x|y_i)P(y_i)，并找出最大的P(x|y_i)P(y_i)，即為某待測樣本屬于的類別。

通過將本申請實施例提供的故障監控方法/裝置應用到具體的實施場景中，驗證了本申請實施例提供故障監控方法/裝置確實可以解決現有的故障監控方法存在的不能發現系統中潛在故障，監控故障準確度低的技術問題，達到了對已經發生和未發生的故障同時進行監控和處理的技術效果。

盡管本申請內容中提到不同的故障監控方法或裝置，但是，本申請并不局限于必須是行業標準或實施例所描述的情況等，某些行業標準或者使用自定義方式或實施例描述的實施基礎上略加修改后的實施方案也可以實現上述實施例相同、等同或相近、或變形后可預料的實施效果。應用這些修改或變形后的數據獲取、處理、輸出、判斷方式等的實施例，仍然可以屬于本申請的可選實施方案范圍之內。

雖然本申請提供了如實施例或流程圖所述的方法操作步驟，但基于常規或者無創造性的手段可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者附圖所示的方法順序執行或者并行執行(例如并行處理器或者多線程處理的環境，甚至為分布式分析處理環境)。術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、產品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、產品或者設備所固有的要素。在沒有更多限制的情況下，并不排除在包括所述要素的過程、方法、產品或者設備中還存在另外的相同或等同要素。

上述實施例闡明的裝置或模塊等，具體可以由計算機芯片或實體實現，或者由具有某種功能的產品來實現。為了描述的方便，描述以上裝置時以功能分為各種模塊分別描述。當然，在實施本申請時可以把各模塊的功能在同一個或多個軟件和/或硬件中實現，也可以將實現同一功能的模塊由多個子模塊的組合實現等。以上所描述的裝置實施例僅僅是示意性的，例如，所述模塊的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個模塊或組件可以結合或者可以集成到另一個系統，或一些特征可以忽略，或不執行。

本領域技術人員也知道，除了以純計算機可讀程序代碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯門、開關、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬件部件，而對其內部包括的用于實現各種功能的裝置也可以視為硬件部件內的結構。或者甚至，可以將用于實現各種功能的裝置視為既可以是實現方法的軟件模塊又可以是硬件部件內的結構。

本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述，例如程序模塊。一般地，程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構、類等等。也可以在分布式計算環境中實踐本申請，在這些分布式計算環境中，由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中，程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。

通過以上的實施方式的描述可知，本領域的技術人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現。基于這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來，該計算機軟件產品可以存儲在存儲介質中，如ROM/RAM、磁碟、光盤等，包括若干指令用以使得一臺計算機設備(可以是個人計算機，移動終端，服務器，或者網絡設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。

本說明書中的各個實施例采用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。本申請可用于眾多通用或專用的計算機系統環境或配置中。例如：個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統、基于微處理器的系統、置頂盒、可編程的電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統或設備的分布式計算環境等等。

雖然通過實施例描繪了本申請，本領域普通技術人員知道，本申請有許多變形和變化而不脫離本申請的精神，希望所附的權利要求包括這些變形和變化而不脫離本申請。

完整全部詳細技術資料下載

當前第1頁1 2 3