一種故障檢測方法和裝置制造方法
【專利摘要】本發明提供了一種故障檢測方法和裝置,該方法包括:當外圍板檢測到本地資源失敗時,所述外圍板更新自身記錄的所述本地資源失敗的次數;當更新后的所述本地資源失敗的次數超過第一門限值時,所述外圍板確定所述本地資源故障;所述外圍板判斷所述本地資源為獨立資源或非獨立資源;若為獨立資源,所述外圍板向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障;若為非獨立資源,所述外圍板向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障。在本發明中,使主控板能及時發現外圍板的隱性故障。
【專利說明】一種故障檢測方法和裝置
【技術領域】
[0001]本發明涉及通信【技術領域】,尤其是一種故障檢測方法和裝置。
【背景技術】
[0002]RNC (Radio Network Control,無線網絡控制)設備是由多板卡上各種應用軟件協同工作的設備,隨著現網3G用戶的不斷增多,RNC設備的負荷日漸增大,RNC設備故障問題呈現多樣性,定義RNC設備的某一節點硬件故障或者軟件子系統故障這類影響RNC正常工作的故障為顯性故障,這類故障有成熟的定位方法和處理策略。與之對應的隱性故障定義為外圍板運行無異常告警,軟件運行無明顯異常,但設備功能實質已處于不正常工作狀態。現網中已經出現多起隱性故障問題而導致KPI (Key Performance Indicator,關鍵業績指標)指標大幅下降,對RNC產品造成較大負面影響。
[0003]而在現網RNC實際運行中,經常發生這些部署在不同節點單元上的資源之間關聯關系是正確的,但某個節點單元已工作不正常而導致業務異常。目前本地資源中外圍板類資源目前主要依靠心跳監測方式由全局處理板監測外圍板的運行狀態,如果連續心跳監測周期內沒有接收到心跳消息,就認為外圍板出現故障,對于這類顯性故障目前RNC設備會觸發相應故障流程進行業務恢復,不會引起KPI指標大幅下降現象。而對于外圍板狀態處于正常、心跳堅守正常時,其上承載的業務已經無法正常運行,即對于業務應用而言實際上已經處于故障狀態的隱性故障,由于目前RNC設備缺少相關檢測、處理流程,一旦部分本地資源發生隱性故障,基于本地資源的負荷分擔分配原則,分配到正常本地資源的業務成功、而分配到隱性故障資源的業務失敗,使得本地資源隱性故障不能及時發現,直到累計到KPI指標惡化后才能弓I發關注,而此時已經產生較大負面影響。
【發明內容】
[0004]本發明實施例提供了一種故障檢測方法和裝置,使控制板能夠及時發現外圍板的隱性故障,并能夠判定隱性故障是否由于控制板與外圍板的連通性故障造成。
[0005]為了達到以上目的,本發明實施例提供了一種故障檢測方法,應用于機框式設備,所述機框式設備包括至少一塊控制板和至少一塊外圍板,所述方法包括:
[0006]當外圍板檢測到本地資源失敗時,所述外圍板更新自身記錄的所述本地資源失敗的次數;
[0007]當更新后的所述本地資源失敗的次數超過第一門限值時,所述外圍板確定所述本地資源故障;
[0008]所述外圍板判斷所述本地資源為獨立資源或非獨立資源;
[0009]若為獨立資源,所述外圍板向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;
[0010]若為非獨立資源,所述外圍板向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測。[0011]本發明實施例還提供一種故障檢測方法,應用于機框式設備,所述機框式設備包括至少一塊主控板和至少一塊外圍板,所述方法包括:
[0012]當控制板接收到外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息時,所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;其中,所述故障報告消息是所述外圍板在所述獨立資源失敗的次數超過第一門限值時向所述控制板發送的;
[0013]當所述控制板接收到業務發送用于通告所述外圍板非獨立資源故障的連通性檢測請求時,所述控制板對所述控制板與所述外圍板之間的連通性進行檢測;其中,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過所述第一門限值時向所述控制板發送的。
[0014]本發明實施例還提供一種外圍板,應用于機框式設備,所述機框式設備包括至少一塊主控板和至少一塊外圍板,所述外圍板包括:
[0015]故障檢測模塊,用于當檢測到本地資源失敗時,更新所述外圍板記錄的所述本地資源失敗的次數,并當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障;
[0016]判斷模塊,用于判斷所述本地資源為獨立資源或非獨立資源;
[0017]第一發送模塊,用于當所述判斷模塊的判斷結果為獨立資源時,向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;
[0018]第二發送模塊,用于當所述判斷模塊的判斷結果為非獨立資源時,向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測。
[0019]本發明實施例還提供一種主控板,所述機框式設備包括至少一塊主控板和至少一塊外圍板,其特征在于,所述主控板包括:
[0020]接收模塊,用于接收外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息,所述故障報告消息是所述外圍板在所述獨立資源失敗的次數超過第一門限值時向所述控制板發送的;以及外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過所述第一門限值時向所述控制板發送的;
[0021]第一處理模塊,用于當所述接收模塊接收到所述故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作;
[0022]第二處理模塊,用于當所述接收模塊接收到所述連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行檢測。
[0023]本發明實施例還提供一種框式設備,包括至少一塊主控板和至少一塊外圍板,其中:
[0024]所述外圍板,用于當檢測到本地資源失敗時,更新自身記錄的所述本地資源失敗的次數;當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障;判斷所述本地資源為獨立資源或非獨立資源;若該本地資源為獨立資源,向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;若該本地資源為非獨立資源,向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測;
[0025]所述控制板,用于當接收到外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作;當接收到外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行檢測。
[0026]本發明的上述實施例中,外圍板檢測到本地資源失敗時,更新自身記錄的該本地資源失敗的次數,當更新后的該本地資源失敗的次數超過第一門限值時,外圍板確定該本地資源故障;若該本地資源為獨立資源,外圍板向控制板發送故障報告消息,以通告控制板該獨立資源故障,由控制板向管理系統進行告警,并對該獨立資源進行復位操作;若該本地資源為非獨立資源,外圍板向控制板發送連通性檢測請求,以通告控制板該非獨立資源故障,由控制板對控制板與外圍板之間的連通性進行檢測,使主控板及時得知所述外圍板發生的隱性故障,并能及時判定該隱性故障是否由控制板與外圍板之間的連通性故障造成。
【專利附圖】
【附圖說明】
[0027]圖1為本發明實施例一提供的一種故障檢測方法的流程示意圖;
[0028]圖2為本發明實施例二提供的一種故障檢測方法的流程示意圖;
[0029]圖3為本發明實施例三提供的一種故障檢測方法的流程示意圖;
[0030]圖4為本發明實施例提供的一種外圍板的結構示意圖;
[0031]圖5為本發明實施例提供的一種控制板的結構示意圖;
[0032]圖6為本發明實施例提供的一種框式設備的結構示意圖。
【具體實施方式】
[0033]下面結合附圖對本發明實施例進行詳細描述。
[0034]在現有技術中,外圍板會按照預設的周期向控制板發送心跳報文,控制板根據接收到的心跳報文判斷自身與所述外圍板之間正常,即此時控制板不會判定所述外圍板異常。這樣,即使外圍板承載的業務流程失敗,只要控制板能夠接收到該外圍板發送的心跳報文,就不會判定該外圍板異常。
[0035]針對上述技術問題,本發明實施例一提供了一種故障檢測方法,應用于機框式設備,所述機框式包括至少一塊控制板和至少一塊外圍板,如圖1所示,本發明實施例一提供的故障檢測方法可以包括如下步驟:
[0036]步驟101,當外圍板檢測到本地資源失敗時,該外圍板更新自身記錄的該本地資源失敗的次數,其中,外圍板可以包括接口板(如IUB接口板、IU接口板等)、業務板等單板。
[0037]具體的,在本發明實施例中,外圍板可以記錄本地資源失敗的次數,并當檢測到本地資源失敗時,更新自身記錄的該本地資源失敗的次數。
[0038]為了實現上述目的,本發明實施例提供的一種實現方式可以為:
[0039]外圍板對應本地資源設置失敗次數計數器,并當檢測到本地資源失敗時,將對應該本地資源的失敗次數計數器的數值加I ;其中,外圍板初始化時,需要將上述失敗次數計數器的值置為零。
[0040]需要注意的是,上述通過設置失敗次數計數器的記錄本地資源失敗的次數的方式僅僅是本發明實施例提供的記錄本地資源失敗的次數的一種具體實現方式,本發明實施例技術方案中,記錄本地資源失敗的次數的方式并不限于此,例如,外圍板還可以通過生成失敗記錄的方式記錄本地資源失敗的次數,即外圍板每次檢測到本地資源失敗時,均生成一條對應該本地資源的失敗記錄,并根據該失敗記錄的條數確定該本地資源失敗的次數;此夕卜,外圍板在更新本地資源失敗的次數時,也并不限于每次檢測到本地資源失敗,就將該本地資源失敗的次數加1,例如,外圍板也可以在每次檢測到本地資源失敗時,將該本地資源失敗的次數加2或其他數值,其僅需保證外圍板能夠根據該記錄確定本地資源失敗的次數即可,其具體實現在此不再贅述。
[0041]步驟102、當更新后的該本地資源失敗的次數超過第一門限值時,該外圍板確定該本地資源故障。
[0042]具體的,在本發明實施例中,可以預先設定一個門限值(即第一門限值),當外圍板根據自身記錄的本地資源失敗的次數確定某本地資源失敗的次數超過該第一門限值時,夕卜圍板就認為該本地資源發生故障,需要進行相應的故障處理流程。
[0043]步驟103、外圍板判斷該本地資源為獨立資源或非獨立資源;若為獨立資源,則轉至步驟104 ;否則,轉至步驟106。
[0044]實際應用中,由于同一塊外圍板上也可能承載多種不同類型的業務流程,比如對于RNC的外圍板來說,承載業務流程可能包括:RNC與NodeB (節點B,即基站)進行用戶節點同步流程、以及與MSC (Mobile Switching Center,移動交換中心)進行IU UP (IU UserPlane, IU用戶面)初始化流程等。為了實現業務流程的處理,外圍板需要通過對應的本地資源進行相應的業務處理。此時,外圍板還可以針對處理不同的業務流程的本地資源分別進行監測,并在檢測到某一本地資源失敗,并確定該本地資源故障后,進一步判斷該本地資源為獨立資源或非獨立資源,并根據判斷結果進行相應處理。
[0045]其中,在本發明實施例中,本地資源可以具體包括以下兩類:
[0046]—類為單板資源,包括IUB接口板、IU接口板、業務板等,該類本地資源為非獨立資源;另一類則為單板內資源,包括業務板的DSP (Digital Signal Processer,數字信號處理器)/VCPU(Virtual Central Processing Unit,虛擬中央處理器),接口板的 ATM Path或者Ip Path等,其中,業務板的DSP/VCPU等資源屬于獨立資源,接口板的ATM Path或者Ip Path屬于非獨立資源。
[0047]步驟104、外圍板向控制板發送故障報告消息,以通告控制板該獨立資源故障。
[0048]步驟105、控制板接收到外圍板發送的故障報告消息后,向管理系統進行告警,并對該獨立資源進行復位操作,并結束當前流程。
[0049]具體的,當外圍板判斷發生失敗的本地資源為獨立資源時,該外圍板可以向控制板發送用于通告該獨立資源故障的故障報告消息,該故障報告消息中可以攜帶有發生失敗的獨立資源的標識;控制板接收到該故障報告消息后,由于發生失敗的為獨立資源,則控制板可以直接向管理系統進行告警,并對該獨立資源進行復位操作。
[0050]步驟106、外圍板向控制板發送連通性檢測請求,以通告控制板非獨立資源故障。
[0051]步驟107、控制板接收到外圍板發送連通性檢測請求后,使用非獨立資源對應的數據檢測包對控制板與外圍板之間的連通性進行檢測。
[0052]具體的,當外圍板判斷發生失敗的本地資源為非獨立資源時,該外圍板可以向控制板發送用于通告該非獨立資源故障的連通性檢測請求,該連通性檢測請求中可以攜帶有發生失敗的非獨立資源的標識;控制板接收到該連通性檢測請求后,根據該非獨立資源的標識確定對應的非獨立資源發生失敗。進一步地,為了確定該非獨立資源故障是否是由于控制板與外圍板之間的連通性異常導致的,控制板可以向該外圍板發送相應的檢測數據包,以進行控制板與外圍板之間的連通性檢測。
[0053]實際應用中,為了能夠判斷該非獨立資源故障是不是由于該控制板與該外圍板之間的連通性異常導致,控制板向外圍板發送的數據檢測包是用于進行連通性檢測的數據包,其大小應該和控制板與該非獨立資源進行業務流程交互時的數據包的大小一致或相當。
[0054]控制板向外圍板發送該非獨立資源對應的數據檢測包后,若在預設時間內接收到該外圍板返回的數據檢測包,則判定自身與該外圍板之間的連通性正常,若在預設時間內未接收到該外圍板返回的數據檢測包,則判定自身與該外圍板之間的連通性故障。
[0055]本申請實施例一中,外圍板在檢測到獨立資源故障后,向控制板發送故障報告消息,以通告所述控制板獨立資源故障,由控制板向管理系統進行告警,并對該獨立資源進行復位操作。
[0056]外圍板在檢測到非獨立資源故障后,還會向控制板發送連通性檢測請求。這樣,如果外圍板與控制板之間完全不能連通,雖然控制板不能接收外圍板發送的連通性檢測請求,但是仍能根據心跳機制,即在距上一次接收到外圍板發送的心跳報文的時間超過預設值時,判定所述外圍板故障;如果控制板能夠接收到連通性檢測請求,則直接判定所述外圍板發生非獨立資源故障,此時,雖然控制板仍能夠接收到外圍板發送的心跳報文,控制板也能夠根據接收到的連通性檢測請求判定外圍板發生隱性故障。同時,本發明實施例一中,控制板在接收到外圍板發送的連通性檢測請求后,還會使用發生失敗的非獨立資源對應的數據檢測包對自身與該外圍板之間的連通性進行檢測,從而能夠判斷上述業務流程的失敗是否由自身與該外圍板之間的通道的連通性異常引起。
[0057]需要注意的是,在本發明實施例中,對于非獨立資源,當外圍板檢測到某非獨立資源失敗,且確定該非獨立資源失敗的次數超過第一門限值,即外圍板確定該非獨立資源故障時,外圍板還可以進一步確定發生故障的該非獨立資源的比例,判斷發生故障的該非獨立資源的比例是否超過預設的門限值(即第二門限值),并當發生故障的該非獨立資源的比例超過第二門限值時,該外圍板向控制板發送連通性檢測請求。
[0058]例如,對于接口板的ATM Path (非獨立資源),當外圍板檢測該ATM Path失敗,且根據所設置的對應該ATM Path的失敗次數計數器確定該ATM Path失敗的次數超過第一門限值(如80次)時,即確定該ATM Path故障時,在向控制板發送連通性檢測請求之前,外圍板還可以統計當前外圍板上發生失敗的ATM Path與該外圍板上總的ATM Path的比例,并當當前外圍板上發生失敗的ATM Path與該外圍板上總的ATM Path的比例超過第二門限值(如60%)時,則向控制板發送連通性檢測請求。
[0059]在本發明實施例中,控制板向外圍板發送該非獨立資源對應的數據檢測包后,若外圍板能夠接收到控制板發送的數據檢測包,則說明控制板到外圍板之間的連通性正常,此時,外圍板需要向控制板返回相應的數據檢測包,使所述控制板根據接收到的所述數據檢測包判斷所述控制板與所述外圍板之間的連通性正常;若外圍板沒有接收到控制板發送的數據檢測包,則說明控制板到外圍板之間的傳輸通道異常,則外圍板也無法向控制板返回相應的數據檢測包,控制板在預設時間內沒有接收到外圍板返回的數據檢測包后會判定控制板到外圍板之間的連通性異常。
[0060]優選的,本發明實施例中,還可以使控制板在接收到連通檢測報文后,向管理系統上報故障報告信息,并在故障報告信息中攜帶發生失敗的非獨立資源的標識,使管理系統根據該非獨立資源的標識確定相應的非獨立資源故障。
[0061]優選的,本發明實施例中,還可以使控制板判定自身與所述外圍板之間的連通性正常時,向管理系統上報故障原因排除消息,通告所述管理系統所述控制板與所述外圍板之間的連通性正常。從而能夠使管理系統及時得知導致非獨立資源故障的原因不在該機框式設備。
[0062]優選的,本發明實施例中,還可以使控制板在判定自身與所述外圍板之間的連通性故障時,對所述外圍板進行復位操作。通過這種方式,能夠使機框式設備自動對自身的故障進行排除,避免了人工排除故障的操作。
[0063]下面結合具體應用場景對本發明實施例提供的故障檢測方法進行詳細說明,假設本發明實施二中,機框式設備為RNC設備,該RNC設備包括一塊控制板和一塊業務板,業務板對應各本地資源設置有對應的失敗次數計數器,且該業務板可以統計發生故障的非獨立資源(如Path)與該業務板上該非獨立資源的總數的比例,如圖2所示,當Path失敗時,本發明實施例二提供的故障檢測方法可以包括如下步驟:
[0064]步驟201,業務板檢測到Path失敗時,該業務板將對應該Path的失敗次數計數器的數值加I。
[0065]步驟202,業務板判斷該Path失敗的次數是否超過第一門限值,若是,則轉至步驟203;否則,結束當前流程。
[0066]例如,假設預先設定的第一門限值為80次,而業務板設置的對應該Path的失敗次數計數器的數值為81,則業務板確定該Path故障。
[0067]實際應用中,本領域技術人員可以根據需要任意設定上述第一門限值,如何設定該第一門限值并不會影響本申請的保護范圍。
[0068]步驟203,業務板確定該Path故障。
[0069]步驟204、業務板判斷發生故障的Path的比例是否超過第二門限值;若超過,則轉至步驟205 ;否則,結束當前流程。
[0070]具體的,當業務板確定該Path故障時,該業務板可以統計發生故障的Path的比例(即發生故障的Path的數量與該業務板上Path的總數的比值),并判斷其是否超過第二門限值。
[0071]例如,假設預設的第二門限值為60%,該業務板上Path的總數為50,且發生故障的Path的數量為31,則該業務板確定發生故障的Path的比例超過第二門限值,需要進行故障處理流程。
[0072]步驟205、業務板向控制板發送連通性檢測請求,所述連通性檢測請求中攜帶有Path的標識。[0073]此時,如果業務板與控制板之間的傳輸通道完全不能連通,不能傳輸任何類型或大小的報文,則控制板不能接收到業務板發送的連通性檢測請求,也無法接收到業務板發送的心跳報文,此時控制板根據心跳機制判定所述業務板發生故障,根據心跳機制判定業務板發生故障的過程與現有技術中一致,在此不再贅述。
[0074]如果業務板與控制板之間的傳輸通道仍能進行心跳報文的傳輸,則由于心跳報文的大小與連通性檢測請求的報文的大小相當,同樣也能接收到連通性檢測請求。控制板在接收到連通性檢測請求后,本發明實施例提供的故障檢測方法還可以包括如下步驟:
[0075]步驟206,控制板根據連通性檢測請求確定業務板上Path故障,并向業務板發送Path對應的數據檢測包。
[0076]其中,Path對應的數據檢測包為一類用于進行連通性檢測的,大小和控制板與Path進行業務流程交互時的數據包大小一致或相當的數據包。
[0077]如果Path故障不是由于控制板與業務板之間的連通性導致,則控制板發送的數據檢測包能被業務板正常接收,此時,本發明提供的故障檢測方法還可包括如下步驟:
[0078]步驟207,業務板接收到控制板發送的數據檢測包后,向控制板返回相應的數據檢測包。
[0079]步驟208,控制板根據接收到的數據檢測包判定自身與業務板之間的連通性正常。
[0080]如果Path故障正是由于控制板與業務板之間的連通性異常導致,則控制板發送的數據檢測包不能被業務板接收到,此時業務板也不會向控制板返回相應的數據檢測包,控制板也就無法接收到相應的數據檢測包,此時控制板判定自身與業務板之間的連通性異
堂
巾O
[0081]實施例三
[0082]如圖3所示,當控制板發送的數據檢測包不能被業務板接收到時,本發明提供的故障檢測方法可包括如下步驟:
[0083]步驟301,控制板判斷距發送數據檢測包的時間超過預設值時,確定自身與業務板之間的連通性異常。
[0084]步驟302,控制板復位業務板。
[0085]通過以上描述可以看出,在本發明實施例提供的技術方案中,通過外圍板檢測本地資源,并當檢測到本地資源失敗時,更新自身記錄的該本地資源失敗的次數,并當更新后的該本地資源失敗的次數超過第一門限值時,該外圍板確定該本地資源故障;對于獨立資源,外圍板向控制板發送故障報告消息,以通告控制板該獨立資源故障,由控制板向管理系統進行告警,并對該獨立資源進行復位操作;對于非獨立資源,外圍板向控制板發送連通性檢測請求;控制板接收到外圍板發送的連通性檢測請求后,對該控制板與該外圍板之間的連通性進行檢測,使設備及時發現本地資源發生的隱性故障,并能夠判定隱性故障是否由于自身設備的故障造成。
[0086]基于上述方法實施例相同的技術構思,本發明實施例還提供了一種外圍板,可以應用于上述方法實施例中。
[0087]如圖4所示,為本發明實施例提供的一種外圍板的結構示意圖,該外圍板可以應用于包括至少一塊控制板和至少一塊外圍板的機框式設備中,該外圍板可以包括:
[0088]故障檢測模塊41,用于當檢測到本地資源失敗時,更新所述外圍板記錄的所述本地資源失敗的次數,并當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障;
[0089]判斷模塊42,用于判斷所述本地資源為獨立資源或非獨立資源;
[0090]第一發送模塊43,用于當所述判斷模塊42的判斷結果為獨立資源時,向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;
[0091]第二發送模塊44,用于當所述判斷模塊42的判斷結果為非獨立資源時,向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測。
[0092]其中,所述外圍板對應本地資源設置有失敗次數計數器,用于記錄對應的本地資源失敗的次數;
[0093]所述故障檢測模塊41具體用于,通過以下方式實現更新所述外圍板記錄的所述本地資源失敗的次數:
[0094]將對應所述本地資源的失敗次數計數器的數值加I。
[0095]其中,本發明實施例提供的外圍板還可以包括:
[0096]統計模塊45,用于當所述故障檢測模塊41確定所述本地資源故障,且該本地資源為非獨立資源時,統計發生故障的所述非獨立資源的比例;
[0097]所述第二發送模塊44具體用于,當所述統計模塊45所統計的發生故障的所述非獨立資源的比例超過第二門限值時,向控制板發送連通性檢測請求。
[0098]優選地,所述第二發送模塊44還可用于,在向所述控制板發送連通性檢測請求之后,若所述外圍板接收到所述控制板發送的用于檢測所述控制板與所述外圍板之間的連通性,且與所述非獨立資源對應的數據檢測包,則向所述控制板返回所述數據檢測包,以使所述控制板根據接收到的所述數據檢測包判斷所述控制板與所述外圍板之間的連通性正常。
[0099]基于上述方法實施例相同的技術構思,本發明實施例還提供了 一種控制板,可以應用于上述方法實施例中。
[0100]如圖5所示,為本發明實施例提供的一種控制板的結構示意圖,該外圍板可以應用于包括至少一塊控制板和至少一塊外圍板的機框式設備中,該控制板可以包括:
[0101]接收模塊51,用于接收外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息,所述故障報告消息是所述外圍板在所述獨立資源失敗的次數超過第一門限值時向所述控制板發送的;以及外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過所述第一門限值時向所述控制板發送的;
[0102]第一處理模塊52,用于當所述接收模塊51接收到所述故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作;
[0103]第二處理模塊53,用于當所述接收模塊51接收到所述連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行檢測。
[0104]優選地,所述第二處理模塊53可具體用于,當所述接收模塊51接收到所述連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行檢測;其中,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過第一門限值,且失敗次數超過第一門限值的所述非獨立資源的比例超過第二門限值時,向所述控制板發送的。
[0105]優選地,所述第二處理模塊53可具體用于,向所述外圍板發送所述非獨立資源對應的數據檢測包,若所述控制板在預設時間內接收到所述外圍板返回的數據檢測包,則判定所述控制板與所述外圍板之間的連通性正常;若所述控制板在所述預設時間內未接收到所述外圍板返回的數據檢測包,則判定所述控制板與所述外圍板之間的連通性故障。
[0106]其中,本發明實施例提供的控制板還可以包括:
[0107]發送模塊54,用于在所述接收模塊51接收到所述外圍板發送的連通性檢測請求后,向管理系統發送故障報告信息,所述故障報告信息中攜帶了所述非獨立資源的標識,以使所述管理系統根據所述非獨立資源的標識確定所述非獨立資源故障。
[0108]優選地,所述發送模塊54還可用于,當所述第二處理模塊53判定所述控制板與所述外圍板之間的連通性正常時,向管理系統上報故障原因排除消息,通告所述管理系統所述控制板與所述外圍板之間的連通性正常。
[0109]優選地,所述第二處理模塊53還可用于,當判定所述控制板與所述外圍板之間的連通性故障時,對所述外圍板進行復位操作。
[0110]基于上述方法實施例相同的技術構思,本發明實施例還提供了一種框式設備,可以應用于上述方法實施例中。
[0111]如圖6所示,為本發明實施例提供的一種框式設備的結構示意圖,該框式設備可以包括至少一塊外圍板61和至少一塊控制板62 (圖中以一塊外圍板和一塊控制板為例);其中:
[0112]所述外圍板61,用于當檢測到本地資源失敗時,更新自身記錄的所述本地資源失敗的次數;當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障;判斷所述本地資源為獨立資源或非獨立資源;若該本地資源為獨立資源,向控制板62發送故障報告消息,以通告所述控制板62所述獨立資源故障,由所述控制板62向管理系統進行告警,并對所述獨立資源進行復位操作;若該本地資源為非獨立資源,向控制板62發送連通性檢測請求,以通告所述控制板62所述非獨立資源故障,由所述控制板62對所述控制板62與所述外圍板61之間的連通性進行檢測;
[0113]所述控制板62,用于當接收到外圍板61發送的用于通告所述外圍板61獨立資源故障的故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作;當接收到外圍板61發送的用于通告所述外圍板61非獨立資源故障的連通性檢測請求時,對所述控制板62與所述外圍板61之間的連通性進行檢測。
[0114]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本發明可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述的方法。
[0115]本領域技術人員可以理解附圖只是一個優選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發明所必須的。
[0116]本領域技術人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0117]上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
[0118]以上公開的僅為本發明的幾個具體實施例,但是,本發明并非局限于此,任何本領域的技術人員能思之的變化都應落入本發明的保護范圍。
【權利要求】
1.一種故障檢測方法,應用于機框式設備,所述機框式設備包括至少一塊控制板和至少一塊外圍板,其特征在于,所述方法包括: 當外圍板檢測到本地資源失敗時,所述外圍板更新自身記錄的所述本地資源失敗的次數; 當更新后的所述本地資源失敗的次數超過第一門限值時,所述外圍板確定所述本地資源故障; 所述外圍板判斷所述本地資源為獨立資源或非獨立資源; 若為獨立資源,所述外圍板向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作; 若為非獨立資源,所述外圍板向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測。
2.如權利要求1所述的方法,其特征在于,所述外圍板對應本地資源設置有失敗次數計數器,用于記錄對應的本地資源失敗的次數; 所述外圍板更新自身記錄的所述本地資源失敗的次數,具體為: 所述外圍板將對應所述本地資源的失敗次數計數器的數值加I。
3.如權利要求1所述的方 法,其特征在于,若所述本地資源為非獨立資源,在所述外圍板確定所述本地資源故障之后,還包括: 所述外圍板統計發生故障的所述非獨立資源的比例; 所述外圍板向控制板發送連通性檢測請求,具體為: 當發生故障的所述非獨立資源的比例超過第二門限值時,所述外圍板向控制板發送連通性檢測請求。
4.如權利要求1所述的方法,其特征在于,所述外圍板向控制板發送連通性檢測請求之后還包括: 若所述外圍板接收到所述控制板發送的用于檢測所述控制板與所述外圍板之間的連通性,且與所述非獨立資源對應的數據檢測包,則向所述控制板返回所述數據檢測包,以使所述控制板根據接收到的所述數據檢測包判斷所述控制板與所述外圍板之間的連通性正堂巾O
5.一種故障檢測方法,應用于機框式設備,所述機框式設備包括至少一塊控制板和至少一塊外圍板,其特征在于,所述方法包括: 當控制板接收到外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息時,所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;其中,所述故障報告消息是所述外圍板在所述獨立資源失敗的次數超過第一門限值時向所述控制板發送的;當所述控制板接收到外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求時,所述控制板對所述控制板與所述外圍板之間的連通性進行檢測;其中,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過所述第一門限值時向所述控制板發送的。
6.如權利要求5所述的方法,其特征在于,所述控制板對所述控制板與所述外圍板之間的連通性進行檢測,具體為: 當所述控制板接收到外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求時,所述控制板對所述控制板與所述外圍板之間的連通性進行檢測;其中,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過第一門限值,且失敗次數超過第一門限值的所述非獨立資源的比例超過第二門限值時,向所述控制板發送的。
7.如權利要求5所述的方法,其特征在于,所述控制板對所述控制板與所述外圍板之間的連通性進行檢測,具體為: 所述控制板向所述外圍板發送所述非獨立資源對應的的數據檢測包,若在預設時間內接收到所述外圍板返回的數據檢測包,則判定自身與所述外圍板之間的連通性正常,若在所述預設時間內未接收到所述外圍板返回的數據檢測包,則判定自身與所述外圍板之間的連通性故障。
8.如權利要求7所述的方法,其特征在于,所述方法還包括: 所述控制板接收到所述外圍板發送的連通性檢測請求后,向管理系統發送故障報告信息,該故障報告信息中攜帶了所述非獨立資源的標識,以使所述管理系統根據所述非獨立資源的標識確定所述非獨立資源故障。
9.如權利要求8所述的方法,其特征在于,所述方法還包括: 當所述控制板判定自身與所述外圍板之間的連通性正常時,向管理系統上報故障原因排除消息,通告所述管理系統所述控制板與所述外圍板之間的連通性正常。
10.如權利要求7所述的方法,其特征在于,所述方法還包括: 當所述控制板判定自身與所述外圍板之間的連通性故障時,對所述外圍板進行復位操作。
11.一種外圍板,應用于機框式設備,所述機框式設備包括至少一塊控制板和至少一塊所述外圍板,其特征在于,所述外圍板包括: 故障檢測模塊,用于當檢測到本地資源失敗時,更新所述外圍板記錄的所述本地資源失敗的次數,并當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障; 判斷模塊,用于判斷所述本地資源為獨立資源或非獨立資源; 第一發送模塊,用于當所述判斷模塊的判斷結果為獨立資源時,向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作; 第二發送模塊,用于當所述判斷模塊的判斷結果為非獨立資源時,向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測。
12.如權利要求11所述的外圍板,其特征在于,所述外圍板對應本地資源設置有失敗次數計數器,用于記錄對應的本地資源失敗的次數; 所述故障檢測模塊具體用于,通過以下方式實現更新所述外圍板記錄的所述本地資源失敗的次數: 將對應所述本地資源的失敗次數計數器的數值加I。
13.如權利要求11所述的外圍板,其特征在于,所述外圍板還包括: 統計模塊,用于當所述故障檢測模塊確定所述本地資源故障,且該本地資源為非獨立資源時,統計發生故障的所述非獨立資源的比例;所述第二發送模塊具體用于,當所述統計模塊所統計的發生故障的所述非獨立資源的比例超過第二門限值時,向控制板發送連通性檢測請求。
14.如權利要求11所述的外圍板,其特征在于, 所述第二發送模塊還用于,在向所述控制板發送連通性檢測請求之后,若所述外圍板接收到所述控制板發送的用于檢測所述控制板與所述外圍板之間的連通性,且與所述非獨立資源對應的數據檢測包,則向所述控制板返回所述數據檢測包,以使所述控制板根據接收到的所述數據檢測包判斷所述控制板與所述外圍板之間的連通性正常。
15.一種控制板,應用于機框式設備,所述機框式設備包括至少一塊所述控制板和至少一塊外圍板,其特征在于,所述控制板包括: 接收模塊,用于接收外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息,所述故障報告消息是所述外圍板在所述獨立資源失敗的次數超過第一門限值時向所述控制板發送的;以及外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過所述第一門限值時向所述控制板發送的; 第一處理模塊,用于當所述接收模塊接收到所述故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作; 第二處理模塊,用于當所述接收模塊接收到所述連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行檢測。
16.如權利要求15所述 的控制板,其特征在于, 所述第二處理模塊具體用于,當所述接收模塊接收到所述連通性檢測請求時,對所述控制板與所述外圍板之間的 連通性進行檢測;其中,所述連通性檢測請求是所述外圍板在所述非獨立資源失敗的次數超過第一門限值,且失敗次數超過第一門限值的所述非獨立資源的比例超過第二門限值時,向所述控制板發送的。
17.如權利要求15所述的控制板,其特征在于, 所述第二處理模塊具體用于,向所述外圍板發送所述非獨立資源對應的數據檢測包,若所述控制板在預設時間內接收到所述外圍板返回的數據檢測包,則判定所述控制板與所述外圍板之間的連通性正常;若所述控制板在所述預設時間內未接收到所述外圍板返回的數據檢測包,則判定所述控制板與所述外圍板之間的連通性故障。
18.如權利要求17所述的控制板,其特征在于,所述控制板還包括: 發送模塊,用于在所述接收模塊接收到所述外圍板發送的連通性檢測請求后,向管理系統發送故障報告信息,所述故障報告信息中攜帶了所述非獨立資源的標識,以使所述管理系統根據所述非獨立資源的標識確定所述非獨立資源故障。
19.如權利要求18所述的控制板,其特征在于, 所述發送模塊還用于,當所述第二處理模塊判定所述控制板與所述外圍板之間的連通性正常時,向管理系統上報故障原因排除消息,通告所述管理系統所述控制板與所述外圍板之間的連通性正常。
20.如權利要求17所述的控制板,其特征在于, 所述第二處理模塊還用于,當判定所述控制板與所述外圍板之間的連通性故障時,對所述外圍板進行復位操作。
21.一種框式設備,其特征在于,包括至少一塊外圍板和至少一塊控制板,其中: 所述外圍板,用于當檢測到本地資源失敗時,更新自身記錄的所述本地資源失敗的次數;當更新后的所述本地資源失敗的次數超過第一門限值時,確定所述本地資源故障;判斷所述本地資源為獨立資源或非獨立資源;若該本地資源為獨立資源,向控制板發送故障報告消息,以通告所述控制板所述獨立資源故障,由所述控制板向管理系統進行告警,并對所述獨立資源進行復位操作;若該本地資源為非獨立資源,向控制板發送連通性檢測請求,以通告所述控制板所述非獨立資源故障,由所述控制板對所述控制板與所述外圍板之間的連通性進行檢測; 所述控制板,用于當接收到外圍板發送的用于通告所述外圍板獨立資源故障的故障報告消息時,向管理系統進行告警,并對所述獨立資源進行復位操作;當接收到外圍板發送的用于通告所述外圍板非獨立資源故障的連通性檢測請求時,對所述控制板與所述外圍板之間的連通性進行 檢測。
【文檔編號】H04L12/24GK103457792SQ201310362422
【公開日】2013年12月18日 申請日期:2013年8月19日 優先權日:2013年8月19日
【發明者】田舒榕, 程岳 申請人:大唐移動通信設備有限公司