一種實現故障管理的方法及系統的制作方法

文檔序號：7960339閱讀：405來源：國知局

專利名稱：一種實現故障管理的方法及系統的制作方法
技術領域：
本發明涉及計算機網絡領域，尤其涉及一種實現故障管理的方法及系統。
背景技術：
隨著計算機網絡規模的不斷擴大，使得網絡的維護和操作變得相當復雜。如何保證網絡安全、穩定和可靠地運行，一直是網絡管理領域的熱門研究課題。
隨著通信業務需求的擴大，造成了網絡規模的擴大，網絡復雜性的提高和網絡帶寬需求的顯著增長。這些通信網絡由多家廠商通過多種傳輸媒介互聯的節點構成。由于被管理網元物理上和邏輯上具有相關性，單一的故障往往會在相關的網元中產生大量的關聯告警，使得故障的識別和定位變得困難。例如當網絡中某個路由器出現故障時，這臺路由器及與其相連的網絡設備都會失去與網絡管理者的聯系；當網絡管理者輪詢該路由器及與其相連的網絡設備時，該路由器及與其相連的網絡設備不作出響應，這將導致大量關聯告警的產生。實際上，大部分的告警事件并沒有包含產生故障信息的原因。在此種情況下，收到的告警報告中含有較多的冗余信息。具體有以下幾種情況(1)由于一個故障，導致設備產生了多個告警；(2)故障本身間歇性發作，這意味著每當故障發生時便發送告警事件；(3)單獨一個告警可能被多個網絡部件監測到，每一個網絡部件都會發送告警信息；(4)已知的部件故障可能影響到其它的部件，產生故障擴散；(5)多個故障同時發生，此時的告警事件有較多的潛在重疊。
這使得網絡管理員面對大量的告警信息往往很難準確分離和定位產生故障的真正原因，從而無法快速實施故障修復和障礙排除。因此，實現網絡故障的實時診斷和修復成為網絡管理的迫切需求。
故障診斷就是要在故障產生時，給出故障源的準確位置，并對該故障源的故障產生原因進行進一步的診斷，同時進行故障的修復。將智能技術引入故障管理，進行自動故障定位和故障原因診斷及故障修復，是滿足不斷發展的網絡故障管理要求的前提和基礎。
目前，國內外關于網絡故障管理的研究取得了很大的進展，在智能化故障恢復的理論研究中也取得了較多的成果。但是，理論研究不夠貼近工程實現，有關產品在國內外尚未得到廣泛應用。現有的智能故障管理技術主要有以下三個缺點(1)目前的研究主要集中在專家系統上，不能適應新的或不完備的數據，很難應用于大型動態網絡。
(2)故障診斷的專家系統主要采用一種技術，實際應用范圍較窄。
(3)主要進行故障診斷，不支持故障自動恢復。
造成上述狀況的原因是一方面是由于故障管理一般不單獨存在，而是作為網絡管理系統的一部分。目前國內尚無使用較廣泛的通用網絡管理平臺，所提供的智能故障管理功能也多集中在對事件的過濾和歷史事件的分析。另一方面是由于不同的智能管理技術要結合不同的網絡情況使用，在開發上困難較多。

發明內容
本發明要解決的技術問題是提供一種實現故障管理的方法及系統，以達到準確、迅速、有效地診斷并修復網絡故障的目的。
為解決上述技術問題，本發明提供如下的解決方案一種實現故障管理的方法，該方法包括以下步驟A、獲取故障信息；B、根據故障信息，實現對故障的定位；C、實現故障診斷，得出故障診斷結果；D、根據診斷結果，對故障進行修復。
所述步驟B之后，步驟C之前包括步驟分解故障診斷任務并協作控制分解后的診斷任務。
所述步驟A具體包括以下步驟A1、對序列進行離散傅立葉變換；A2、將序列分解為函數；A3、找出各個序列的最大頻率fi；A4、找出fi中的最大頻率值fmax，并設置下一個輪詢間隔為1/(2*fmax)；
A5、判斷所述輪詢間隔是否超過網絡帶寬，如果超過，則延長間隔使其不超過網絡帶寬。
所述對序列進行離散傅立葉變換具體包括對代表輪詢管理信息值{xi(t)}在t時刻所獲得的值序列{xi(tn)}(1≤i≤v)進行離散傅立葉變換，v表示被輪詢的管理信息值數，n表示序列中包含的數值的數量。
所述步驟A采用基于離散傅立葉變換的動態輪詢算法來獲取故障信息。
所述步驟B具體包括以下步驟B1、設置可達節點集為空，設置不可達節點集為被管向量集；B2、設置可能故障邊集和可能故障點集為空；B3、管理節點探測所有被管理節點的狀態，并根據探測結果把所有節點劃分到可達節點集和不可達節點集；B4、根據關聯矩陣，計算被管理網絡的可能故障邊集；B5、根據可能故障邊集和不可達節點集，計算可能故障點集；B6、確定故障位置。
所述步驟B采用基于圖論的面向設備的故障關聯算法來實現故障的定位。
執行所述故障關聯算法具體包括管理系統每隔預定的時間自動運行故障關聯算法或者告警事件觸發故障關聯算法的運行或者采用人機接口命令運行故障關聯算法。
所述分解故障診斷任務并協作控制分解后的診斷任務具體包括以下步驟S1、初始化a1、a2智能體為“空閑”狀態；S2、發生故障后，ai智能體接收輸入的求解問題；S3、ai智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”；S4、判斷ai智能體能否解決上述求解問題，如果能解決，則求解過程解決，ai智能體狀態改為“空閑”；如果不能解決，則進入步驟S5；S5、ai向aj發送求解問題的消息；S6、aj根據自身空閑狀態，接收所述消息；S7、aj智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”；
S8、判斷aj智能體能否解決上述求解問題，如果能解決，則求解過程解決，aj智能體狀態改為“空閑”；如果不能解決，則進入步驟S9；S9、ai、aj向系統控制智能體反饋不能解決上述求解問題的消息，ai、aj智能體狀態改為“空閑”。
所述步驟S1之前包括步驟設定a1為傳統專家系統診斷智能體，a2為神經網絡診斷智能體，i，j＝1，2且i≠j。
所述步驟C具體包括以下步驟C1、構造誤差反向傳播BP神經網絡模型的初始結構；C2、根據故障問題，選入對因變量有影響的自變量，確定輸入層輸入節點個數；C3、確定輸出層節點數，并初始化輸出層節點數；C4、輸入學習樣本；C5、采用BP算法對網絡進行學習；C6、判斷迭代步數是否超過規定步數或學習精度是否達到要求，如果是，則進入步驟C7；如果否，返回步驟C5；C7、凍結所述網絡，以測試編碼為輸入，使網絡處于回想狀態，得到故障診斷結果。
所述步驟C采用協作交互算法實現故障診斷，得出故障診斷結果。
所述協作交互算法是建立在輪詢基礎上的協作。
所述步驟D具體包括根據診斷結果對故障進行修復，可自動恢復的，系統采用自動修復腳本方法進行修復；不能自動修復的，系統給出修復意見，采用手動方法進行修復。
所述實現故障管理是實現對網絡故障的管理。
一種實現故障管理的系統，該系統包括信息獲取智能體、信息預處理智能體、系統控制智能體、故障診斷智能體、故障修復智能體、用戶界面智能體、知識庫、信息獲取智能體代理、被管設備以及故障信息庫；信息獲取智能體用于獲取故障信息；用于封裝信息的存取過程；用于通過知識查詢與操縱語言實現與外界交互信息；信息預處理智能體用于實現對故障的定位；
系統控制智能體用于分解故障診斷任務，用于協作控制分解后的故障診斷任務；故障診斷智能體用于實現具體的故障分析，用于實現具體的故障算法；故障修復智能體用于根據診斷結果，實現對故障的修復；用戶界面智能體用于與用戶進行交互；知識庫用于獲取知識；信息獲取智能體代理用于協作完成管理任務；用于支持分布式管理；用于增強管理的擴展性；故障信息庫用于存儲故障信息，用于提取故障信息。
所述獲取智能體采用反應主體結構實現。
所述信息預處理智能體采用慎思主體結構實現。
所述故障診斷智能體采用慎思主體結構實現。
所述信息獲取智能體代理采用簡單網路管理協議實現與智能體之間的通信。
所述信息獲取智能體代理采用主/子代理的方式擴展智能體代理。
所述信息獲取智能體支持代理擴展協議或SNMP多路復用協議。
所述智能體之間采用通用對象請求代理體系結構來實現通信和消息格式的轉換。
所述智能體之間采用知識查詢與操縱語言作為通信語言。
所述實現故障管理是實現對網絡故障的管理。
由以上技術方案可以看出，本發明具有以下優點1、本發明有機地結合故障診斷和故障恢復，實現真正意義上的故障管理。
2、診斷智能體由多個智能體組成，通過多個智能體的協同工作，本發明可以診斷并修復網絡故障。
3、本發明多個診斷智體協同工作，可以應用于大型的動態網絡。

圖1是本發明實現故障管理的方法的總體流程圖；圖2是基于離散傅立葉變換的動態輪詢算法流程圖；圖3是基于圖論的面向設備的故障關聯算法流程圖；
圖4是基于輪詢思想的協作算法流程圖；圖5是自適應學習算法流程圖；圖6是本發明實現故障管理的系統結構圖。
具體實施例方式
一種實現故障管理的方法，該方法是這樣實現的信息獲取智能體獲取故障信息；信息預處理智能體根據故障信息，實現對故障的定位；系統控制智能體分解故障診斷任務并協作控制分解后的故障診斷任務；故障診斷智能體分析產生故障的具體原因，確定故障診斷算法；故障修復智能體根據故障診斷智能體的診斷結果對故障進行修復。參見圖1，該方法具體包括以下步驟步驟101、獲取故障信息。
步驟102、根據故障信息，實現對故障的定位。
步驟103、分解故障診斷任務并協作控制分解后的診斷任務。
步驟104、實現故障診斷，得出故障診斷結果。
步驟105、根據診斷結果，對故障進行修復。
參見圖2，上述獲取故障信息的過程是采用離散傅立葉變換(DFT)的動態輪詢算法來實現的。
假設{xi(tn)}(1≤i≤v)代表輪詢管理信息值{xi(t)}在t時刻所獲得的值序列，v表示被輪詢的管理信息值數；n為序列長度，即序列中包含的數值的數量。
算法首先進行DFT變換，將每個序列{xi(tn)}(1≤i≤v)分解為不同頻率的正弦函數并找出各個序列的最大頻率fi，然后找出這v個最大頻率fi(1≤i≤v)中的最大值fmax，并將下一個輪詢間隔設為1/(2*fmax)。如果下一個輪詢間隔超過網絡帶寬，延長間隔以使其不超過網絡帶寬。根據上述原理確定下一個輪詢間隔，不僅能控制輪詢消息通信量的增長，還能適應管理信息值的時間變化性。算法具體描述如下根據公式p＝144*v+720(bit)，簡單網絡管理協議(SNMP)的輪詢應答的協議數據單元(PDU)大小p(bit)可近似為管理信息值數量v的線性函數。而輪詢請求PDU的大小也近似等于輪詢應答PDU，因此輪詢請求和應答PDU的總和大小為2*p。
步驟201、算法輸入需要一個初始序列{xi(tn)}init，以確定第一次的輪詢間隔。
步驟202、將每個序列{xi(tn)}(1≤i≤v)分解為不同頻率的正弦函數并找出各個序列的最大頻率fi。
步驟203、從上述V個最大頻率fi(1≤i≤v)中找出最大頻率fmax。
由公式1計算獲得初始序列的輪詢間隔，這樣獲得初始序列的輪詢消息通信量就不會超過網絡帶寬。
T=2*pb(sec)]]>(公式1)步驟204、以1/(2*fmax)為輪詢間隔所占用的帶寬為輪詢請求和應答PDU大小的和除以1/(2*fmax)的商，算法檢查需要占用的帶寬是否超過網管帶寬，如果不超過，進入步驟205；如果超過，進入步驟206。
步驟205、如果以間隔1/(2*fmax)輪詢的通信量不超過網絡帶寬，則以該間隔進行輪詢。
步驟206、如果以間隔1/(2*fmax)輪詢的通信量超過網絡帶寬，根據公式1延長間隔至T(秒)使所需帶寬不超過網管帶寬b，并按延長后的間隔進行輪詢。
步驟207、檢查在指定時間(如10秒)內是否收到輪詢應答，如果收到，進入步驟208；如果未收到，進入步驟209。
步驟208、將輪詢應答中得到的值添加到序列{xi(tn)}的尾部，并從序列中刪除時間最早的值，返回至步驟202。
步驟209、重新輪詢指定的次數(如4次)，每次的輪詢間隔為前次輪詢間隔的兩倍。
步驟210、最后檢查是否在指定的時間內收到過重輪詢的應答，如果收到過，返回步驟208；如果沒有，則認為可能網絡連接或網管代理本身失效并結束輪詢。
參見圖3，上述對故障的定位過程是采用基于圖論的面向設備的故障關聯算法來實現的，該算法具體包括以下步驟步驟301、設置可達節點集為空，設置不可達節點集為被管向量集。
步驟302、設置可能故障邊集和可能故障點集為空。
步驟303、管理節點探測所有被管理節點的狀態，并根據探測結果把所有節點劃分到可達節點集和不可達節點集。
步驟304、根據關聯矩陣，計算被管理網絡的可能故障邊集。
步驟305、根據可能故障邊集和不可達節點集，計算可能故障點集。
步驟306、確定故障位置。
網絡故障使網絡由一個連通分支變成多個連通分支。網絡管理工作站(NMS)只可能隸屬于一個網絡分支，所以網絡管理者測試各節點，只存在兩種結果可達與不可達。上述故障關聯算法將根據節點的可達性進行處理。為了清晰的描述上述故障關聯算法，首先定義網絡圖中的一些概念。
定義1圖中所有被管理節點的集合稱為被管向量集(MVS)。
定義2點刪除操作是指刪除與該節點關聯的所有邊，但該節點依然存在。
定義3邊刪除操作是僅僅刪除該條邊，與該邊關聯的節點不變。
定義4當管理節點在規定的時間內可以測得或獲知與某節點連通，則稱該被測節點可達；否則，稱該節點不可達。
定義5網絡圖中，全體可達節點的集合稱為可達節點集(RVS)；相對應，全體不可達節點集合稱為不可達節點集(UVS)。
定義6設G＝(V，E)是一個無向簡單圖，它有n個節點，|V|＝n，v1，v2，…，vn∈V，則n×n矩陣A(G)＝[aij]稱為G的鄰接矩陣。
定義7設G＝(V，E是一個無向簡單圖，它有n個節點，m條邊；|V|＝n，|E|＝m，v1，v2，…，vn∈V，m1，m2，…，mn∈E，則n×m階矩陣M＝[mij]稱為G的完全關聯矩陣，其中定義8設G＝(V，E)是一個無向簡單圖，它有n個節點，|V|＝n，v1，v2，…，vn∈V，則n×n矩陣R稱為G的可達矩陣，其中R＝[rij]，定義9當某條邊的一個端點屬于可達節點集RVS，而另一個端點屬于不可達節點集UVS時，該條邊被稱為可能故障邊(PFE)。
定義10所有可能故障邊的集合稱為可能故障邊集(PFES)。
定義11當一條可能故障邊的一個端點屬于UVS時，這個端點稱為可能故障節點(PFV)。
定義12全體可能故障節點的集合稱為可能故障點集(PFVS)。
用圖論的觀點來看，網絡故障導致的最直接最明顯的結果是整個網絡從一個連通分支變成了多個連通分支。連通性矩陣和可達矩陣是圖論分析的基本符號和工具，它們將作為網絡故障管理的輸入。
上述故障關聯算法在三種情況下執行(1)NMS定期執行；(2)在規定時間單位內，NMS檢測到有故障，NMS自動執行；(3)管理員通過人機接口命令執行。
(1)NMS定期執行指的是網絡管理系統每隔一定的時間自動運行故障關聯算法以便估計網絡性能，進行故障趨勢預測。
(2)NMS自動執行當系統發生故障時，告警事件即會觸發故障關聯算法的運行，以便迅速定位故障。
(3)管理員通過人機接口命令執行網絡管理人員可以通過人機接口命令主動運行故障關聯算法；網絡管理人員手動差錯時，通過交互的接口命令進行故障定位、處理。
上述網絡管理系統可以通過定時器設置間隔時間。
上述故障關聯算法是采用基于圖論的面向設備的故障關聯算法。
參見圖4，上述分解故障診斷任務并協作控制分解后的診斷任務過程是采用協作算法來實現的，該算法具體包括以下步驟步驟401、初始化a1、a2智能體為“空閑”狀態。
步驟402、發生故障后，ai智能體接收輸入的求解問題。
步驟403、ai智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”。
步驟404～步驟405、判斷ai智能體能否解決上述求解問題，如果能解決，則求解過程解決，ai智能體狀態改為“空閑”；如果不能解決，則進入步驟406。
步驟406、ai向aj發送請求求解問題的消息。
步驟407、aj根據自身空閑狀態，接收上述消息。
步驟408、aj智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”。
步驟409～步驟410、判斷aj智能體能否解決上述求解問題，如果能解決，則求解過程解決，aj智能體狀態改為“空閑”；如果不能解決，則進入步驟411。
步驟411、ai、aj向系統控制智能體反饋不能解決上述求解問題的消息，ai、aj智能體狀態改為“空閑”。
上述初始化a1、a2智能體為“空閑”狀態之前包括步驟設a1為傳統專家系統診斷智能體，a2為神經網絡診斷智能體，i，j＝1，2且i≠j。
上述故障診斷任務的分解的原則是使診斷子任務目標明確，使子任務間的耦合盡量少，以簡化完成子任務的診斷智能體之間的協作和通信。
一般來說，在高層(粗粒度上)多采用結構分解，而底層(細粒度上)多采用故障分解，這與人們一般的診斷思路相一致。這種綜合分解可以一直進行到設備某個基本結構的一個明確的故障問題。這種目標明確的診斷子任務稱為診斷活動。診斷活動與一般的診斷子任務的區別是診斷活動包含明確的故障診斷操作。對診斷領域問題進行分布式任務分解，將得到一個層次結構清晰的診斷任務樹。
當某故障問題的診斷可能或必須通過多個診斷智能體協作完成時，必須考慮多個診斷智能體間的協調與合作問題。對于某診斷任務，各個診斷智能體具有不同的性能，因此須選擇耗費系統資源最少、診斷效果最好的診斷智能體來完成診斷任務。這就是診斷智能體的協調問題。量化診斷智能體診斷性能是解決智能體間協調問題的關鍵。另外，對于復雜的故障論斷問題須基于多智能體的思想，將其分解并運用多種故障診斷方法協同完成，這就是多診斷智能體間的使用問題。為了完成共同診斷任務而合作的診斷智能體的集體形成一個診斷智能體聯盟。這要求每個智能體對其它智能體的功能、效率有較詳細的了解。因此，在設計時要把其它智能體的資料放在智能體的數據庫內，并且智能體自身能夠根據實際情況對數據庫進行修改，根據這些資料選擇合作對象。
上述系統控制智能體采用的協作算法為基于輪詢思想的協作。
參見圖5，上述實現故障診斷的過程是采用自適應學習算法來實現的，該算法具體包括以下包括
步驟501、構造誤差反向傳播(BP)神經網絡模型的初始結構。
步驟502、根據實際問題，選入對因變量有影響的自變量，確定輸入層輸入節點個數。
步驟503、確定輸出層節點數，并初始化輸出層節點數。
步驟504、輸入學習樣本。
步驟505、按BP算法對網絡進行學習。
步驟506、判斷迭代步數是否超過規定步數或學習精度是否達到要求，如果是，則進入步驟507；如果否，返回步驟505。
步驟507、凍結上述網絡，以測試編碼為輸入，使網絡處于回想狀態，得到故障診斷結果。
上述根據診斷結果，實現對故障的修復過程具體包括以下步驟根據診斷結果對故障進行修復，可自動恢復的，系統采用自動修復腳本等方法進行修復；不能自動修復的，系統給出修復意見，采用手動方法進行修復。
一種實現故障管理的系統，參見圖6，該系統包括信息獲取智能體、信息預處理智能體、系統控制智能體、故障診斷智能體、故障修復智能體、用戶界面智能體、知識庫、被管設備以及故障信息庫；信息獲取智能體用于獲取故障信息；用于封裝信息的存取過程；用于通過知識查詢與操縱語言(KQML)實現與外界交互信息；信息預處理智能體用于實現對故障的定位；系統控制智能體用于分解故障診斷任務，用于協作控制分解后的故障診斷任務；故障診斷智能體用于實現具體的故障分析，用于實現具體的故障算法；故障修復智能體用于根據診斷結果，實現對故障的修復；用戶界面智能體用于與用戶進行交互；知識庫用于獲取知識；信息獲取智能體代理用于協作完成管理任務；用于支持分布式管理；用于增強管理的擴展性；故障信息庫用于存儲故障信息，用于提取故障信息。
其中，上述信息獲取智能體采用反應主體結構實現；反應主體不包含符號表示的現實世界模型，也不使用復雜的符號推理；反應主體沒有現實世界模型和規劃，僅有一些簡單的行為模式，這些行為模式以“刺激—響應”方式實現對環境的變化做出反應。
其中，上述信息預處理智能體采用慎思主體結構實現；慎思主體，也稱作認知主體，是一個顯式的符號模型，包括環境和智能行為的邏輯推理能力；慎思主體保持了經典人工智能的傳統，是一種基于知識的系統；慎思主體的環境模型一般是預先實現的，形成主要部件知識庫。
其中，上述系統控制智能體采用反應主體結構實現。
其中，上述故障診斷智能體采用慎思主體結構實現。
其中，上述故障診斷智能體包括傳統的專家系統及神經網絡兩種診斷智能體；傳統的專家系統及神經網絡智能體同時對知識庫進行管理。
其中，上述專家系統由知識庫、推理機、知識獲取及解釋界面組成；其中知識庫用來存放相關領域專家提供的專門知識；推理機的功能是根據一定的推理策略從知識庫中選取有關的知識，對用戶提供的證據進行推理，直到得出相應的結論為止；在故障檢測診斷專家系統的知識庫中，存儲了某個對象的故障征兆、故障模式、故障成因、故障排除意見等內容。
其中，上述專家系統可處理非結構化結構決策問題、進行知識表達、運用搜索和推理解決困難問題。
其中，上述知識庫由事實表和規則表兩個表組成；在數據庫中，事實表包括字段事實標記、類型、對象名、屬性、關系符、值；規則表包括如下字段規則標記、使用時間、前提標記集、結論標記集；規則表中的使用時間字段，用來保存規則最近一次被應用的時間，并以此作為沖突檢測的依據；規則表中的前提標記集和結論標記集字段以字符串的形式存儲規則的前提事實標記和結論事實標記，事實標記間用空白字符隔開；對知識庫的維護包括三種操作擴展知識庫、修改知識庫和刪除知識庫。
其中，上述事實表中，每一個事實都被賦予一個整數作為該事實在表中的唯一標記。
其中，在上述規則表中每一個規則都用一個整數來唯一標記。
其中，上述推理機的的推理策略是采用似然推理法，進行正反向混合推理，采用啟發式的搜索策略。
其中，上述神經網絡智能體是前向多層神經網絡模型的基于BP的學習算法。
其中，上述神經網絡智能體具有任意逼近任意連續函數的功能。
其中，上述神經網絡智能體多個神經網絡模塊構成。
其中，上述故障修復智能體采用反應主體結構實現。
其中，上述故障修復智能體支持告警實時監視，提供告警聲光提示；支持告警轉到電子郵件或手機短信。
其中，上述用戶界面智能體可以針對不同用戶進行不同的處理；可以針對不同的用戶進行個性化處理，從而能夠適應于特定用戶的特定行為；上述用戶界面智能體能夠確定用戶在某個特定的情況下將如何作出反應時，用戶界面智能體就開始替代或者幫助用戶完成相應的任務。
其中，所述信息獲取智能體代理采用簡單網路管理協議SNMP作為信息獲取智能體代理與智能體之間的通信協議，智能體代理即為SNMP代理；SNMP協助網絡管理系統完成管理任務的一個守護進程。
其中，所述信息獲取智能體代理通過主/子代理的方式進一步擴展了智能體代理；所述信息獲取智能體代理通過支持多種擴展協議，如代理擴展協議、SNMP多路復用協議等；信息獲取智能體代理支持可擴展標記語言接口等，實現了分布式、易擴展的告警信息采集系統。
其中，上述智能體之間采用通用對象請求代理體系結構(CORBA)來實現通信和消息格式的轉換。
其中，上述智能體之間采用知識查詢與操縱語言作為通信語言。
其中，上述KQML提供了一套標準的智能體通訊原語，使得使用該語言的智能體之間都可以進行交流和共享信息；KQML定義了智能體之間傳遞信息的標準語法和動作；KQML與智能體間的具體通訊方式無關。
以上對本發明所提供的一種實現故障管理的方法及系統進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發明的方法及其核心思想；同時，對于本領域的一般技術人員，依據本發明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。
權利要求
1.一種實現故障管理的方法，其特征在于，該方法具體包括以下步驟A、獲取故障信息；B、根據故障信息，實現對故障的定位；C、實現故障診斷，得出故障診斷結果；D、根據診斷結果，對故障進行修復。
2.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟B之后，步驟C之前包括步驟分解故障診斷任務并協作控制分解后的診斷任務。
3.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟A具體包括以下步驟A1、對序列進行離散傅立葉變換；A2、將序列分解為函數；A3、找出各個序列的最大頻率fi；A4、找出fi中的最大頻率值fmax，并設置下一個輪詢間隔為1/(2*fmax)；A5、判斷所述輪詢間隔是否超過網絡帶寬，如果超過，則延長間隔使其不超過網絡帶寬。
4.如權利要求3所述的實現故障管理的方法，其特征在于，所述對序列進行離散傅立葉變換具體包括對代表輪詢管理信息值{xi(t)}在t時刻所獲得的值序列{xi(tn)}(1≤i≤v)進行離散傅立葉變換，v表示被輪詢的管理信息值數，n表示序列中包含的數值的數量。
5.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟A采用基于離散傅立葉變換的動態輪詢算法來獲取故障信息。
6.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟B具體包括以下步驟B1、設置可達節點集為空，設置不可達節點集為被管向量集；B2、設置可能故障邊集和可能故障點集為空；B3、管理節點探測所有被管理節點的狀態，并根據探測結果把所有節點劃分到可達節點集和不可達節點集；B4、根據關聯矩陣，計算被管理網絡的可能故障邊集；B5、根據可能故障邊集和不可達節點集，計算可能故障點集；B6、確定故障位置。
7.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟B采用基于圖論的面向設備的故障關聯算法來實現故障的定位。
8.如權利要求7所述的實現故障管理的方法，其特征在于，執行所述故障關聯算法具體包括管理系統每隔預定的時間自動運行故障關聯算法或者告警事件觸發故障關聯算法的運行或者采用人機接口命令運行故障關聯算法。
9.如權利要求2所述的實現故障管理的方法，其特征在于，所述分解故障診斷任務并協作控制分解后的診斷任務具體包括以下步驟S1、初始化a1、a2智能體為“空閑”狀態；S2、發生故障后，ai智能體接收輸入的求解問題；S3、ai智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”；S4、判斷ai智能體能否解決上述求解問題，如果能解決，則求解過程解決，ai智能體狀態改為“空閑”；如果不能解決，則進入步驟S5；S5、ai向aj發送求解問題的消息；S6、aj根據自身空閑狀態，接收所述消息；S7、aj智能體根據自身知識和能力解決求解問題，ai智能體狀態改為“活動”；S8、判斷aj智能體能否解決上述求解問題，如果能解決，則求解過程解決，aj智能體狀態改為“空閑”；如果不能解決，則進入步驟S9；S9、ai、aj向系統控制智能體反饋不能解決上述求解問題的消息，ai、aj智能體狀態改為“空閑”。
10.如權利要求9所述的實現故障管理的方法，其特征在于，所述步驟S1之前包括步驟設定a1為傳統專家系統診斷智能體，a2為神經網絡診斷智能體，i，j＝1，2且i≠j。
11.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟C具體包括以下步驟C1、構造誤差反向傳播BP神經網絡模型的初始結構；C2、根據故障問題，選入對因變量有影響的自變量，確定輸入層輸入節點個數；C3、確定輸出層節點數，并初始化輸出層節點數；C4、輸入學習樣本；C5、采用BP算法對網絡進行學習；C6、判斷迭代步數是否超過規定步數或學習精度是否達到要求，如果是，則進入步驟C7；如果否，返回步驟C5；C7、凍結所述網絡，以測試編碼為輸入，使網絡處于回想狀態，得到故障診斷結果。
12.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟C采用協作交互算法實現故障診斷，得出故障診斷結果。
13.如權利要求12所述的實現故障管理的方法，其特征在于，所述協作交互算法是建立在輪詢基礎上的協作。
14.如權利要求1所述的實現故障管理的方法，其特征在于，所述步驟D具體包括根據診斷結果對故障進行修復，可自動恢復的，系統采用自動修復腳本方法進行修復；不能自動修復的，系統給出修復意見，采用手動方法進行修復。
15.如權利要求1所述的實現故障管理的方法，其特征在于，所述實現故障管理是實現對網絡故障的管理。
16.一種實現故障管理的系統，該系統包括信息獲取智能體、信息預處理智能體、系統控制智能體、故障診斷智能體、故障修復智能體、用戶界面智能體、知識庫、信息獲取智能體代理、被管設備以及故障信息庫；信息獲取智能體用于獲取故障信息；用于封裝信息的存取過程；用于通過知識查詢與操縱語言實現與外界交互信息；信息預處理智能體用于實現對故障的定位；系統控制智能體用于分解故障診斷任務，用于協作控制分解后的故障診斷任務；故障診斷智能體用于實現具體的故障分析，用于實現具體的故障算法；故障修復智能體用于根據診斷結果，實現對故障的修復；用戶界面智能體用于與用戶進行交互；知識庫用于獲取知識；信息獲取智能體代理用于協作完成管理任務；用于支持分布式管理；用于增強管理的擴展性；故障信息庫用于存儲故障信息，用于提取故障信息。
17.如權利要求16所述的實現故障管理的系統，其特征在于，所述獲取智能體采用反應主體結構實現。
18.如權利要求16所述的實現故障管理的系統，其特征在于，所述信息預處理智能體采用慎思主體結構實現。
19.如權利要求16所述的實現故障管理的系統，其特征在于，所述故障診斷智能體采用慎思主體結構實現。
20.如權利要求16所述的實現故障管理的系統，其特征在于，所述信息獲取智能體代理采用簡單網路管理協議實現與智能體之間的通信。
21.如權利要求16所述的實現故障管理的系統，其特征在于，所述信息獲取智能體代理采用主/子代理的方式擴展智能體代理。
22.如權利要求16所述的實現故障管理的系統，其特征在于，所述信息獲取智能體支持代理擴展協議或SNMP多路復用協議。
23.如權利要求16所述的實現故障管理的系統，其特征在于，所述智能體之間采用通用對象請求代理體系結構來實現通信和消息格式的轉換。
24.如權利要求16所述的實現故障管理的系統，其特征在于，所述智能體之間采用知識查詢與操縱語言作為通信語言。
25.如權利要求16所述的實現故障管理的系統，其特征在于，所述實現故障管理是實現對網絡故障的管理。
全文摘要
本發明公開一種實現故障管理的方法，該方法包括步驟信息獲取智能體獲取故障信息；信息預處理智能體根據故障信息，實現對故障的定位；系統控制智能體分解故障診斷任務并協作控制分解后的故障診斷任務；故障診斷智能體分析產生故障的具體原因，確定故障診斷算法；故障修復智能體根據故障診斷智能體的診斷結果對故障進行修復。本發明的方法有機地結合了故障診斷和故障恢復。本發明還公開了一種實現故障管理的系統。
文檔編號H04L12/24GK1870538SQ20061007650
公開日2006年11月29日申請日期2006年5月8日優先權日2006年5月8日
發明者賀磊, 張建輝, 趙昭靈, 趙靚, 明清申請人:國家數字交換系統工程技術研究中心

完整全部詳細技術資料下載