麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種Lustre并行文件系統錯誤報警方法及其系統的制作方法

文檔序號:6377182閱讀:614來源:國知局
專利名稱:一種Lustre并行文件系統錯誤報警方法及其系統的制作方法
技術領域
本發明涉及計算機領域,具體涉及一種Lustre并行文件系統錯誤報警方法及其系統。
背景技術
大規模超算中心一般環境比較復雜,當Lustre并行文件系統發生故障時,關聯的因素非常多,通過人工的方法去查找日志等信息來定位問題,通常會耗費大量的時間,故障無法及時得到解決。目前Lustre的監控軟件主要用LMT。LMT能夠通過Lustre的一些統計信息接口較好的呈現Lustre的歷史使用狀況,如當前 讀寫速率、空間使用率等等。LMT能提供一些文件系統IO流量、使用率等信息的統計,但無法進行對系統運行環境、Lustre日志等信息的分析和報警,對于Lustre文件系統運行維護并沒有起到太大作用。當Lustre文件系統出現故障時仍然需要較長的時間去分析定位問題,如果管理員不在現場,故障就難以及時發現和解決。

發明內容
針對現有技術的不足,本發明提供一種Lustre并行文件系統錯誤報警方法及其系統,可以及時的發現故障并通知管理員,減少經濟損失。本發明提供的一種Lustre并行文件系統錯誤報警方法,其改進之處在于,所述方法包括如下步驟( I)監控模塊對OSS日志進行周期性掃描;(2)分析所述日志信息,判斷是否存在故障信息,并將所述故障信息生成告警報
生P=I ;(3)嚴重的故障生成單獨的報告供程序進一步分析,用于定位問題和自動處理。最后再和普通告警信息匯總寫入txt文件中,通過mail中轉站發送給管理員。。其中,步驟(I)所述oss日志包括系統網絡質量、Lustre日志信息和heartbeat日
肩、。其中,步驟(2)所述故障信息包括存儲故障信息或導致存儲出現故障的信息。其中,步驟(3)所述定位過程包括如下步驟I)根據嚴重故障定位危險客戶端,生成待重啟節點列表;2)判斷危險客戶端是否為僵死客戶端,是則重啟客戶端,否則不予處理,待觀察。3)判斷重啟的客戶端是否有異常,是則將異常信息通過mail中轉站發送給管理員,否則屬于正常重啟,將操作成功日志寫入LAToolkit日志中。其中,步驟2)重啟客戶端通過向客戶端的管理模塊控制客戶端的電源,將客戶端重啟。其中,步驟(3)所述嚴重故障是指會直接導致存儲系統故障的一種類型,其包括出現導致存儲服務器死機的故障、出現導致存儲服務器后端磁盤出現只讀的故障、主備存儲服務器間出現切換故障或主備服務器間心跳線故障。其中,步驟(3)所述普通故障是指不會直接導致存儲系統的故障的一種類型,其包括網絡輕微丟包、某個郵件服務器故障或日志掃描時間過長現象。本發明基于另一目的提供的一種Lustre并行文件系統錯誤報警系統,其改進之處在于,所述報警系統包括LAToolkit服務端、存儲客戶端集群、郵件服務器集群和LAToolkit 客戶端;所述LAToolkit服務端、所述存儲客戶端集群和所述LAToolkit客戶端通過存儲網進行數據的交換和存儲;
所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端通過存儲管理網進行數據管理;所述LAToolkit服務端和所述存儲客戶端集群通過電源管理網進行服務器的重
啟O其中,所述存儲客戶端集群用于存儲客戶端集群掛載存儲系統;所述郵件服務器集群用于LAToolkit向外發送告警郵件;所述LAToolkit客戶端部署于Lustre存儲服務器(OSS)上,用于采集OSS日志及其他判斷存儲系統狀態的信;所述LAToolkit服務端部署于Lustre元數據(MDS) /管理(MGS)服務器上,用于處理LAToolkit客戶端收集到的信息和處理其他LAToolkit操作。其中,所述報警系統包括管理終端,所述管理終端通過所述存儲管理網對所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端進行控制。其中,所述LAToolkit服務端和所述所述LAToolkit客戶端為冗余設置。與現有技術比,本發明的有益效果為本發明故障信息生成txt文件再轉給管理員,其方便閱讀,能直接查看,且能長期保存作為歷史記錄供查閱。本發明日志掃描使用了較為巧妙的方法,掃描速度非常快,因此掃描30多個IO節點的日志然后發送到用戶手機僅使用幾秒鐘時間即可完成。目前該監控程序已在多個超算中心部署效果顯著。本發明成本低,不需要增添新的設備,充分利用老設備。本發明的實現和Linux內核無關,屬于用戶態程序,方便部署。本發明進行冗余設計,如多管理服務器,多mail服務器等,保證系統正常運行。本發明程序產生的負載非常小。本發明可無限擴展,可以通過修改配置文件,加入任意數量的存儲服務器和郵件服務器,保證了運行速度。本發明所有操作過程及結果均有日志記錄,方便查詢。本發明的智能故障分析,形成簡明報告,遠程通過手機即可了解故障大致狀況。節省了檢測時間。本發明的模塊化設計,利于加入更多的監控模塊。本發明的各種保護機制,防止程序誤判,保證了系統和方法的正確性。
本發明通過網絡隔離,使LAToolkit和外網實現隔離,防止外網攻擊。保證系統安全。


圖I為本發明提供的Lustre并行文件系統錯誤報警方法的流程圖。圖2為本發明提供的Lustre并行文件系統錯誤報警系統框圖。
具體實施例方式下面結合附圖對本發明的具體實施方式
作進一步的詳細說明。本實施例提出的Lustre,影響Lustre穩定高效運行有幾方面的因素1)集群系統環境,如網絡通訊質量、時間同步等等,2) Lustre自身bug。3)其他問題,如超出使用范圍
坐寸ο系統運行環境和Lustre運行狀態可以通過一些測試工具以及日志信息掃描和分析等手段獲得,因此對系統運行環境掃描及日志掃描分析和告警,并進行初步的處理是保證大規模Lustre并行文件系統安全穩定運行的可行途徑。本實施例的主要思路是,對系統網絡質量、Lustre日志信息、heartbeat日志信息等進行周期性掃描,并對這些信息并發進行分析,當發現存儲故障信息或者將會導致存儲出現故障的信息,就會將這些信息整合成簡明的報告,然后通過e-mail發送給系統管理員,再對故障做初步的自動處理。系統管理員可以通過手機郵件客戶端及時收到相關報警,這樣即使管理員不在現場也能保證文件系統的運行安全。LAToolkit所有的處理操作都有相應的日志以便對復雜問題人工干預診斷時可以追溯問題。另外,監控程序還會對簡明報告進行進一步分析,對部分錯誤類型能夠進行初步的處理,如發現有些僵死客戶端,可通過向客戶端的管理模塊控制客戶端的電源,將該客戶端重啟等等。具體的,本實施例提出的一種Lustre并行文件系統錯誤報警方法,其流程圖如圖I所示,具體包括如下步驟(I)監控模塊對OSS日志進行周期性掃描;0SS日志包括系統網絡質量、Lustre日志信息和heartbeat日志信息;(2)分析所述日志信息,判斷是否存在故障信息,并將所述故障信息生成告警報告;其中,故障信息包括存儲故障信息或導致存儲出現故障的信息。(3)判斷告警報告中的故障是否嚴重,嚴重故障則生成檢查報告發送給管理員并進行定位過程,普通故障則生成txt文件,通過mail中轉站發送給管理員。 所述定位過程包括如下步驟I)根據嚴重故障定位危險客戶端,生成待重啟節點列表;2)判斷危險客戶端是否為僵死客戶端,是則通過向客戶端的管理模塊控制客戶端的電源,將客戶端重啟;否則不予處理,待觀察(一般來說如果客戶端不僵死,還是能夠回應服務端請求的,不至于導致服務端死機,從這個意義上講,報錯但沒有出現僵死的客戶端是潛在威脅節點,但還沒有帶來直接的威脅)。3)判斷重啟的客戶端是否有異常,是則將異常信息通過mail中轉站發送給管理員,否則屬于正常重啟,將操作成功日志寫入LAToolkit日志中。其中,mail中轉站設有數據庫,將故障根據策略生成對應的mail list。本實施例的異常包括I.因為網絡問題或者是電源管理模塊問題,發送電源重啟指令失敗;2.客戶端出現硬件故障無法重啟;3.其他導致客戶端重啟時間過長的問題。其中,所述嚴重故障是指會直接導致存儲系統故障的一種類型,其包括出現導致存儲服務器死機的故障、出現導致存儲服務器后端磁盤出現只讀的故障、主備存儲服務器間出現切換故障或主備服務器間心跳線故障。所述普通故障是指不會直接導致存儲系統的故障的一種類型,其包括網絡輕微丟包、某個郵件服務器故障或日志掃描時間過長現象。本實施例所述的Lustre來源于Linux和Cluster兩個詞,顧名思義,Lustre即是一種面向集群的網絡文件系統架構。它支持數萬客戶端系統、PB級存儲容量、數百GB的聚合I/O吞吐帶寬。Lustre借助其強大的橫向擴展能力,通過增加服務器即可方便地擴展系 統存儲總量和IO性能。Lustre適用于各種不同的應用環境,尤其適合眾多客戶端并發進行大文件讀寫的場合。目前,世界超級計算機T0P10中的70%都采用Lustre作為并行文件系統,另外,Lustre在石油、天然氣、制造、金融、科研等各行業領域大量部署應用。對應的,本實施例提出的一種Lustre并行文件系統錯誤報警系統,其示意圖如圖2所示,所述報警系統包括LAToolkit服務端、存儲客戶端集群、郵件服務器集群、LAToolkit客戶端和管理終端;所述LAToolkit服務端、所述存儲客戶端集群和所述LAToolkit客戶端通過存儲網進行數據的交換和存儲;所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端通過存儲管理網進行數據管理;所述LAToolkit服務端和所述存儲客戶端集群通過電源管理網進行服務器的重啟;所述管理終端通過所述存儲管理網對所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端進行控制。而且,本實施例的LAToolkit服務端和所述LAToolkit客戶端為冗余設置。其中 I) Lustre并行存儲系統a)主MGS/MDS (存儲管理/元數據服務器)、備MGS/MDS (存儲管理/元數據服務器):整個存儲系統的元數據保存在該服務器上,另外Lustre存儲系統的管理功能也集成在該服務器上。系統中有兩臺這樣的服務器,他們互為主備。平時一臺服務器對外提供服務,同時將數據同步到另外一臺服務器上。兩臺服務器間通過心跳網判斷節點健康狀況,當發現主服務器故障時,業務自動遷移到備服務器上。b)主OSS (存儲服務器)集群、備OSS (存儲服務器)集群用于保存存儲系統數據,系統中的服務器兩兩互為主備。平時一臺服務器對外提供服務,同時將數據同步到另外一臺服務器上。兩臺服務器間通過心跳網判斷節點健康狀況,當發現主服務器故障時,業務自動遷移到備服務器上。c)存儲客戶端集群用戶通過存儲客戶端掛載和使用Lustre存儲系統。d)存儲網絡=Lustre存儲系統中MDS/MGS、0SS、存儲客戶端間的交互和數據傳輸所走的網絡。一般為高速網,如萬兆網或Infiniband網絡。2) LAToolkit服務端LAToolkit主程序所在的服務器。目前LAToolkit主程序部署在MGS/MDS上,因此MGS/MDS同時也是LAToolkit的服務端。
3) LATooolkit客戶端=LAToolkit信息收集代理程序所在的服務器。目前LAToolkit信息收集代理程序部署在OSS上,因此OSS同時也是LAToolkit客戶端。4)普通管理網普通管理操作所走的網絡。包括LAToolkit服務端和客戶端間的交互,LAToolkit服務端和郵件服務器集群間的交互都通過這套網絡進行。5)電源管理網控制存儲客戶端、OSS電源所走的網絡。6)郵件服務器集群除郵件服務器外,其他所有服務器均在內網當中。LAToolkit將信息發送到郵件服務器上,再通過郵件服務器發送到因特網上。LAToolkit可訪問郵件服務器,郵件服務器不能反過來訪問LAToolkit,實現LAToolkit和外網的隔離,保證系統免遭外網攻擊。具體的,本實施例的報警系統實現的功能為 首先LAToolkit主程序定時發起掃描進程。LAToolkit客戶端負責部分信息的掃描和分析,這些信息包括OSS負載狀態、OSS心跳日志、OSS系統日志等等,然后進行初步的處理,再反饋給LAToolkit主程序。LAToolkit主程序對于OSS反饋的信息進行進一步處理,對于危及存儲系統穩定的信息整理形成單獨的簡明報告,對于一般的告警信息直接作為每次檢查報告。LAToolkit主程序本身還會主動偵測網絡健康狀態等信息。LAToolkit主程序在一定的時間限制內收集到所有信息,對于信息反饋較慢的情況給出報警信息。另外,還有一些其他的情況,如LAToolkit無法處理的信息等,這些信息屬于非OSS反饋的信息,也直接作為每次檢查報告。“每次檢查報告”進一步做信息篩選、整理和“簡明告警報告” 一起整合到mail2sugon. txt文件中。然后發送到郵件服務器上,通過郵件服務器發送給移動終端或網頁。對于“簡明告警報告”,LAToolkit還會從中定位“危險存儲客戶端”,并從數據庫中獲取這些節點的電源管理指令信息,形成待重啟節點列表,然后統一通過電源管理網發送電源重啟指令給電源管理模塊重啟“危險存儲客戶端”。重啟后,LAToolkit每隔一段時間檢查重啟的節點的狀態,重啟成功則按正常流程將成功重啟信息寫入LAToolkit日志中,如果有異常則將異常信息發送給郵件服務器,通過郵件服務器將異常信息發送給移動終端或網頁。同時將異常信息寫入LAToolkit日志。實際上,LAToolkit的每一步操作都會記錄到LAToolkit日志中的。要通過郵件服務器發送信息需要確定郵件服務器的狀態是否是好的,因此在發送郵件前需要檢測郵件服務器,如果狀態為“好”則直接將信息發送給郵件服務器,并由郵件服務器將信息轉發出去。如果狀態為“壞”,則再測試下一臺郵件服務器,直到遇到狀態為“好”的郵件服務器。如果前面檢測到郵件服務器有故障,則將這些故障信息一并通過狀態為“好”的那臺郵件服務器發送給移動終端或網頁。另外,發送郵件還需要一個郵件列表,LAToolkit會根據告警信息的級別,按一定的策略形成郵件列表供郵件服務器使用。本實施例所述的LMT 為 Lustre Monitoring Tool。最后應當說明的是以上實施例僅用以說明本發明的技術方案而非對其限制,盡管參照上述實施例對本發明進行了詳細的說明,所屬領域的普通技術人員應當理解依然可以對本發明的具體實施方式
進行修改或者等同替換,而未脫離本發明精神和范圍的任何 修改或者等同替換,其均應涵蓋在本發明的權利要求范圍當中。
權利要求
1.一種Lustre并行文件系統錯誤報警方法,其特征在于,所述方法包括如下步驟 (1)監控模塊對OSS日志進行周期性掃描; (2)分析所述日志信息,判斷是否存在故障信息,并將所述故障信息生成告警報告; (3)嚴重故障生成單獨的報告供程序進一步分析,用于定位問題和自動處理;最后再和普通告警信息匯總寫入txt文件中,通過mail中轉站發送給管理員。
2.如權利要求I所述的報警方法,其特征在于,步驟(I)所述OSS日志包括系統網絡質量、Lustre日志信息和heartbeat日志信息。
3.如權利要求I所述的報警方法,其特征在于,步驟(2)所述故障信息包括存儲故障信息或導致存儲出現故障的信息。
4.如權利要求I所述的報警方法,其特征在于,步驟(3)所述定位過程包括如下步驟 1)根據嚴重故障定位危險客戶端,生成待重啟節點列表; 2)判斷危險客戶端是否為僵死客戶端,是則重啟客戶端,否則不予處理,待觀察; 3)判斷重啟的客戶端是否有異常,是則將異常信息通過mail中轉站發送給管理員,否則屬于正常重啟,將操作成功的日志寫入LAToolkit日志中。
5.如權利要求4所述的報警方法,其特征在于,步驟2)重啟客戶端通過向客戶端的管理模塊控制客戶端的電源,將客戶端重啟。
6.如權利要求I所述的報警方法,其特征在于,步驟(3)所述嚴重故障是指會直接導致存儲系統故障的一種類型,其包括出現導致存儲服務器死機的故障、出現導致存儲服務器后端磁盤出現只讀的故障、主備存儲服務器間出現切換故障或主備服務器間心跳線故障。
7.如權利要求I所述的報警方法,其特征在于,步驟(3)所述普通故障是指不會直接導致存儲系統的故障的一種類型,其包括網絡輕微丟包、某個郵件服務器故障或日志掃描時間過長現象。
8.—種Lustre并行文件系統錯誤報警系統,其特征在于,所述報警系統包括LAToolkit服務端、存儲客戶端集群、郵件服務器集群和LAToolkit客戶端; 所述LAToolkit服務端、所述存儲客戶端集群和所述LAToolkit客戶端通過存儲網進行數據的交換和存儲; 所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端通過存儲管理網進行數據管理; 所述LAToolkit服務端和所述存儲客戶端集群通過電源管理網進行服務器的重啟。
9.如權利要求8所述的報警系統,其特征在于,所述存儲客戶端集群用于存儲客戶端集群掛載存儲系統; 所述郵件服務器集群用于LAToolkit向外發送告警郵件; 所述LAToolkit客戶端部署于Lustre存儲服務器上,用于采集OSS日志及其他判斷存儲系統狀態的信息; 所述LAToolkit服務端部署于Lustre元數據/管理服務器上,用于處理LAToolkit客戶端收集到的信息和處理其他LAToolkit操作。
10.如權利要求8所述的報警系統,其特征在于,所述報警系統包括管理終端,所述管理終端通過所述存儲管理網對所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端進行控制。
全文摘要
本發明公開了一種Lustre并行文件系統錯誤報警方法集及其系統,其步驟有(1)監控模塊對OSS日志周期性掃描;(2)分析日志信息,判斷是否存在故障信息,并將所述故障信息生成告警報告;(3)判斷告警報告中的故障是否嚴重,嚴重故障生成單獨的報告供程序進一步分析。最后再和普通告警信息匯總寫入txt文件中,通過mail中轉站發送給管理員。本發明對應的系統包括LAToolkit服務端、存儲客戶端集群、郵件服務器集群和LAToolkit客戶端。通過本發明對系統的控制,實現了智能故障分析,形成簡明報告,遠程通過手機即可了解故障大致狀況,節省了檢測時間。且本發明成本低,不需要增添新的設備,利用原有設備即可。
文檔編號G06F17/30GK102902615SQ201210348309
公開日2013年1月30日 申請日期2012年9月18日 優先權日2012年9月18日
發明者劉冠川, 王勇, 秦東明, 何牧君, 楊亮, 張新風, 陳飛, 劉超, 呂永安 申請人:曙光信息產業(北京)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 慈利县| 阿拉尔市| 科技| 蒲江县| 宁陵县| 清丰县| 汾阳市| 阜平县| 沈阳市| 静宁县| 新安县| 德保县| 石渠县| 古浪县| 廊坊市| 原平市| 乌什县| 盐边县| 通榆县| 十堰市| 大新县| 大渡口区| 思南县| 大英县| 应用必备| 建瓯市| 枝江市| 师宗县| 香格里拉县| 元谋县| 甘泉县| 嘉峪关市| 清原| 青冈县| 安福县| 淄博市| 乐业县| 天等县| 长汀县| 宁城县| 房山区|