本技術涉及芯片,尤其涉及一種故障分析方法、裝置、電子設備及存儲介質。
背景技術:
1、服務器的穩定運行是保障業務連續性和數據安全性的基礎,因此,當服務器故障時及時獲取故障數據以確定故障原因十分重要。服務器故障通常包括主板硬件故障、系統故障、cpu故障和部件故障等,其中,cpu故障數據和系統故障數據對分析服務器故障原因至關重要。
2、目前,服務器故障排查的方法主要是通過研發機器模擬服務器環境以復現服務器故障時的現象,獲得故障數據,基于故障數據分析故障原因。然而,這種方式不僅耗時長效率低,而且由于復現故障很難完全還原,導致故障數據不準確,進而影響了服務器故障排查的準確性。
技術實現思路
1、本技術提供了一種故障分析方法、裝置、電子設備及存儲介質。
2、根據本技術的第一方面,提供了一種故障分析方法,所述方法包括:
3、監測第一設備的運行狀態信息;
4、如果所述運行狀態信息表征所述第一設備出現故障,通過第二設備獲取所述第一設備對應的目標故障數據,其中,所述第一設備和所述第二設備通過目標連接互聯,所述第二設備通過所述目標連接獲得并存儲所述第一設備的設備運行數據,所述設備運行數據包括所述目標故障數據,所述設備運行數據被存儲于所述目標連接在所述第二設備中對應的目標存儲空間的指定存儲區域,所述指定存儲區域小于所述目標存儲空間;
5、基于所述目標故障數據確定所述第一設備的故障原因。
6、在一可實施方式中,所述目標連接為圖形數據傳輸接口;所述設備運行數據包括所述第一設備的系統運行數據;所述第一設備的操作系統每隔第一預設周期采集系統運行數據,并通過所述圖形數據傳輸接口將所采集的系統運行數據發送至所述第二設備,所述第二設備將接收的系統運行數據存儲至所述指定存儲區域。
7、在一可實施方式中,在所述指定存儲區域沒有空余存儲空間的情況下,所述第二設備清除所述指定存儲區域中存儲時間大于預設時長的數據,并將新接收的系統運行數據存儲至所述指定存儲區域。
8、在一可實施方式中,所述目標連接為通信接口;所述設備運行數據包括所述第一設備的cpu故障數據;所述第二設備每隔第二預設周期通過所述通信接口采集所述第一設備的cpu故障數據,并將采集的cpu故障數據存儲至所述指定存儲區域。
9、在一可實施方式中,所述第二設備通過所述通信接口讀取所述第一設備的cpu寄存器信息作為所述第一設備的cpu故障數據。
10、在一可實施方式中,所述通過第二設備獲取所述第一設備對應的目標故障數據,包括:
11、通過預設通信連接向所述第二設備發送目標故障數據獲取指令,以使所述第二設備根據所述目標故障數據獲取指令生成設備日志數據,所述設備日志數據包括所述指定存儲區域存儲的設備運行數據;
12、通過所述預設通信連接接收所述第二設備發送的所述設備日志數據;
13、通過所述設備日志數據,確定所述第一設備的故障時間段所對應的設備運行數據作為目標故障數據。
14、在一可實施方式中,所述第二設備為基板管理控制器,所述基板管理控制器部署于所述第一設備內。
15、根據本技術的第二方面,提供了一種故障分析裝置,所述裝置包括:
16、狀態監測模塊,用于監測第一設備的運行狀態信息;
17、故障數據獲取模塊,用于如果所述運行狀態信息表征所述第一設備出現故障,通過第二設備獲取所述第一設備對應的目標故障數據,其中,所述第一設備和所述第二設備通過目標連接互聯,所述第二設備通過所述目標連接獲得并存儲所述第一設備的設備運行數據,所述設備運行數據包括所述目標故障數據,所述設備運行數據被存儲于所述目標連接在所述第二設備中對應的目標存儲空間的指定存儲區域,所述指定存儲區域小于所述目標存儲空間;
18、故障分析模塊,用于基于所述目標故障數據確定所述第一設備的故障原因。
19、在一可實施方式中,所述目標連接為圖形數據傳輸接口;所述設備運行數據包括所述第一設備的系統運行數據;所述第一設備的操作系統每隔第一預設周期采集系統運行數據,并通過所述圖形數據傳輸接口將所采集的系統運行數據發送至所述第二設備,所述第二設備將接收的系統運行數據存儲至所述指定存儲區域。
20、在一可實施方式中,在所述指定存儲區域沒有空余存儲空間的情況下,所述第二設備清除所述指定存儲區域中存儲時間大于預設時長的數據,并將新接收的系統運行數據存儲至所述指定存儲區域。
21、在一可實施方式中,所述目標連接為通信接口;所述設備運行數據包括所述第一設備的cpu故障數據;所述第二設備每隔第二預設周期通過所述通信接口采集所述第一設備的cpu故障數據,并將采集的cpu故障數據存儲至所述指定存儲區域。
22、在一可實施方式中,所述第二設備通過所述通信接口讀取所述第一設備的cpu寄存器信息作為所述第一設備的cpu故障數據。
23、在一可實施方式中,所述故障數據獲取模塊,具體用于通過預設通信連接向所述第二設備發送目標故障數據獲取指令,以使所述第二設備根據所述目標故障數據獲取指令生成設備日志數據,所述設備日志數據包括所述指定存儲區域存儲的設備運行數據;通過所述預設通信連接接收所述第二設備發送的所述設備日志數據;通過所述設備日志數據,確定所述第一設備的故障時間段所對應的設備運行數據作為目標故障數據。
24、在一可實施方式中,所述第二設備為基板管理控制器,所述基板管理控制器部署于所述第一設備內。
25、根據本技術的第三方面,提供了一種電子設備,包括:
26、存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述電子設備與第二設備通過預設通信連接進行通信,所述處理器執行所述計算機程序時實現本技術所述的方法。
27、根據本技術的第四方面,提供了一種包含計算機可執行指令的存儲介質,所述計算機可執行指令在由計算機處理器執行時用于執行本技術所述的方法。
28、采用本技術實施例提供的故障分析方法,監測第一設備的運行狀態信息,如果運行狀態信息表征第一設備出現故障,通過第二設備獲取第一設備對應的目標故障數據,基于目標故障數據確定第一設備的故障原因,其中,第一設備和第二設備通過目標連接互聯,第二設備通過目標連接獲得并存儲第一設備的設備運行數據,設備運行數據包括目標故障數據,設備運行數據被存儲于目標連接在第二設備中對應的目標存儲空間的指定存儲區域,指定存儲區域小于目標存儲空間。即本技術實施例中,可以通過第二設備收集第一設備的設備運行數據,當第一設備出現故障時,第二設備收集的設備運行數據中可包括第一設備的故障數據,因此,可以通過對第二設備所收集的第一設備運行數據獲得與第一設備故障相關的目標故障數據,進而確定第一設備的故障原因。本技術實施例中,目標故障數據是第二設備在第一設備發生故障時同步采集的數據,能準確反映第一設備的故障狀態,因此,通過分析目標故障數據分析故障原因不僅能提高故障分析效率,還提高了故障分析的準確性。
29、應當理解,本部分所描述的內容并非旨在標識本技術的實施例的關鍵或重要特征,也不用于限制本技術的范圍。本技術的其它特征將通過以下的說明書而變得容易理解。