集群作業(yè)調(diào)度方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種集群作業(yè)調(diào)度方法和裝置,其中方法包括對作業(yè)進行分組,并將分組后的作業(yè)調(diào)度給管理節(jié)點上至少兩個虛擬機,該至少兩個虛擬機使用預(yù)先配置的共享存儲中的共享資源進行作業(yè)處理;若進行作業(yè)處理的虛擬機出現(xiàn)故障,將作業(yè)切換到備份虛擬機;若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,將管理節(jié)點上的虛擬機遷移到其他管理節(jié)點上。本發(fā)明通過對作業(yè)進行分組,并將分組后的作業(yè)調(diào)度給不同的虛擬機,不同的虛擬機使用共享存儲中的共享資源進行作業(yè)處理,從而實現(xiàn)作業(yè)調(diào)度系統(tǒng)的高容錯和高可用。
【專利說明】集群作業(yè)調(diào)度方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機【技術(shù)領(lǐng)域】,尤其涉及一種集群作業(yè)調(diào)度方法和裝置。
【背景技術(shù)】
[0002] 當(dāng)前,基于網(wǎng)絡(luò)的計算機技術(shù),促進了集群系統(tǒng)的發(fā)展和廣泛應(yīng)用。用高速網(wǎng)絡(luò) 將高性能工作站或個人電腦按某種結(jié)構(gòu)連接成集群,實現(xiàn)并行計算,只需要很小的花費就 可以得到大型機和并行機的性能。隨著高性能計算機集群應(yīng)用規(guī)模的不斷擴充,集群的管 理問題顯得越加突出。
[0003] 作業(yè)調(diào)度系統(tǒng),一般部署在高性能集群系統(tǒng)的管理節(jié)點上,主要負(fù)責(zé)接收用戶提 交的作業(yè)請求,并根據(jù)特定的調(diào)度規(guī)則以及用戶對作業(yè)的要求選擇合適的資源來完成用戶 作業(yè)請求。對用戶而言,在作業(yè)調(diào)度系統(tǒng)的幫助下,高性能計算集群系統(tǒng)就好像一臺具備很 多CPU的大服務(wù)器,多個用戶可以同時使用這個系統(tǒng)。作業(yè)調(diào)度系統(tǒng)管理用戶提交的作業(yè) 請求,為各個作業(yè)請求合理地分配資源,從而確保充分利用集群系統(tǒng)的計算能力,并盡可能 迅速地得到運算結(jié)果。因此,作業(yè)調(diào)度系統(tǒng)對集群的管理非常重要。
[0004] 傳統(tǒng)的作業(yè)調(diào)度系統(tǒng)部署有兩種,一種方法是在集群的管理節(jié)點單機部署,即把 作業(yè)調(diào)度軟件,例如開源的Torque+Maui軟件,直接部署在集群的管理節(jié)點上。但是,采用 管理節(jié)點單機部署的方式,一旦該管理節(jié)點發(fā)生故障,便會導(dǎo)致整個集群的作業(yè)調(diào)度系統(tǒng) 停止工作,整個集群的作業(yè)無法進行合理有效的調(diào)度,作業(yè)運行也就會出現(xiàn)停滯,嚴(yán)重影響 系統(tǒng)運行效率。
[0005] 另一種方法是使用心跳(heartbeat)方案,即將作業(yè)調(diào)度軟件部署在集群的兩個 管理節(jié)點上,并在該兩個管理節(jié)點上還部署heartbeat。由一管理節(jié)點的作業(yè)調(diào)度系統(tǒng)提供 作業(yè)調(diào)度服務(wù),當(dāng)該管理節(jié)點出現(xiàn)故障后,由heartbeat控制切換到另一管理節(jié)點上,由另 一管理節(jié)點繼續(xù)提供作業(yè)調(diào)度服務(wù)。但是,由于heartbeat只能監(jiān)控到管理節(jié)點,并不能對 作業(yè)調(diào)度系統(tǒng)的資源進行監(jiān)控,一旦監(jiān)控的資源出現(xiàn)故障,例如Maui服務(wù)出現(xiàn)故障,就不 能有效的進行資源切換,因而也會導(dǎo)致整個集群作業(yè)無法進行合理有效的調(diào)度,嚴(yán)重影響 系統(tǒng)運行效率。
【發(fā)明內(nèi)容】
[0006] 為了解決上述技術(shù)問題,本發(fā)明提供了一種集群作業(yè)調(diào)度方法和裝置,能夠?qū)崿F(xiàn) 作業(yè)調(diào)度系統(tǒng)的高容錯和高可用。
[0007] 為了達到本發(fā)明目的,本發(fā)明提供了一種集群作業(yè)調(diào)度方法,包括:對用戶提交的 作業(yè)進行分組,作業(yè)調(diào)度操作系統(tǒng)將分組后的作業(yè)調(diào)度給管理節(jié)點上的至少兩個虛擬機, 該至少兩個虛擬機使用預(yù)先配置的共享存儲中的共享資源進行作業(yè)處理;若管理節(jié)點上進 行作業(yè)處理的虛擬機出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將作業(yè)切換到備份虛擬機,備份虛擬機 使用共享存儲中的共享資源進行作業(yè)處理;若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn) 故障,作業(yè)調(diào)度操作系統(tǒng)將管理節(jié)點上的虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機 使用共享存儲中的共享資源進行作業(yè)處理。
[0008] 進一步地,該方法還包括:在管理節(jié)點上部署共享存儲,該共享存儲中包括共享資 源。
[0009] 進一步地,該方法還包括:在管理節(jié)點上部署至少兩個虛擬機,具體為,通過基于 內(nèi)核的虛擬機KVM在管理節(jié)點上部署至少兩個虛擬機;若虛擬機使用相同的作業(yè)調(diào)度操作 系統(tǒng),先通過KVM部署一個虛擬機,然后采用克隆Clone方式部署其他虛擬機。
[0010] 進一步地,該方法還包括:在虛擬機上部署作業(yè)調(diào)度操作系統(tǒng)。
[0011] 進一步地,若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,包括:若作業(yè)調(diào)度操作 系統(tǒng)對虛擬機進行處理的作業(yè)無法調(diào)度,則判斷出管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn) 故障。
[0012] 進一步地,備份虛擬機是預(yù)先部署的虛擬機冗余,或者在判斷出虛擬機出現(xiàn)故障 后采用Clone方式創(chuàng)建。
[0013] 本發(fā)明提供了一種集群作業(yè)調(diào)度裝置,包括:分組模塊,用于對用戶提交的作業(yè)進 行分組;調(diào)度模塊,用于將分組后的作業(yè)調(diào)度給管理節(jié)點上的至少兩個虛擬機,該至少兩個 虛擬機使用共享存儲中的共享資源進行作業(yè)處理;切換模塊,用于若管理節(jié)點上進行作業(yè) 處理的虛擬機出現(xiàn)故障,將作業(yè)切換到備份虛擬機,備份虛擬機使用共享存儲中的共享資 源進行作業(yè)處理;遷移模塊,用于若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,將管 理節(jié)點上的虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源進 行作業(yè)處理。
[0014] 進一步地,該裝置還包括:第一部署模塊,用于在管理節(jié)點上部署共享存儲,該共 享存儲中包括共享資源。
[0015] 進一步地,該裝置還包括:第二部署模塊,用于在管理節(jié)點上部署至少兩個虛擬 機,該虛擬機存儲在共享存儲中;該第二部署模塊在管理節(jié)點上部署至少兩個虛擬機,具體 包括:第二部署模塊通過基于內(nèi)核的虛擬機KVM在管理節(jié)點上部署至少兩個虛擬機;若虛 擬機使用相同的作業(yè)調(diào)度操作系統(tǒng),先通過KVM部署一個虛擬機,然后采用克隆Clone方式 部署其他虛擬機。
[0016] 進一步地,該裝置還包括:第三部署模塊,用于在虛擬機上部署作業(yè)調(diào)度操作系 統(tǒng)。
[0017] 進一步地,該裝置還包括:第一判斷模塊,用于判斷管理節(jié)點上進行作業(yè)處理的虛 擬機是否出現(xiàn)故障;若作業(yè)調(diào)度操作系統(tǒng)對虛擬機進行處理的作業(yè)無法調(diào)度,則判斷出管 理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障。
[0018] 進一步地,該裝置還包括:第二判斷模塊,用于判斷管理節(jié)點是否在進行維護,或 者管理節(jié)點是否出現(xiàn)故障;根據(jù)預(yù)先設(shè)置的管理周期,判斷出管理節(jié)點在進行維護;若管 理節(jié)點間網(wǎng)絡(luò)故障或者管理節(jié)點宕機,判斷出管理節(jié)點出現(xiàn)故障。
[0019] 與現(xiàn)有技術(shù)相比,本發(fā)明包括:對用戶提交的作業(yè)進行分組,作業(yè)調(diào)度操作系統(tǒng)將 分組后的作業(yè)調(diào)度給管理節(jié)點上的至少兩個虛擬機,該至少兩個虛擬機使用預(yù)先配置的共 享存儲中的共享資源進行作業(yè)處理;若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,作業(yè) 調(diào)度操作系統(tǒng)將作業(yè)切換到備份虛擬機,備份虛擬機使用共享存儲中的共享資源進行作業(yè) 處理;若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將管理節(jié)點上 的虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源進行作業(yè)處 理。本發(fā)明通過對用戶提交的作業(yè)進行分組,并將分組后的作業(yè)調(diào)度給管理節(jié)點上不同的 虛擬機,因為各虛擬機之間互不干擾,所以不僅對用戶提交的作業(yè)進行了負(fù)載分配,還會在 一臺虛擬機出現(xiàn)問題,不會影響管理節(jié)點上其他虛擬機的正常運行,從而能夠?qū)崿F(xiàn)作業(yè)調(diào) 度系統(tǒng)的高容錯。此外,本發(fā)明在管理節(jié)點上部署共享存儲,若進行虛擬機切換,切換后的 備份虛擬機使用共享存儲中的共享資源進行作業(yè)處理,若進行虛擬機遷移,遷移后的虛擬 機也使用共享存儲中的共享資源進行作業(yè)處理,避免了資源出現(xiàn)故障,不能有效的進行資 源切換的問題,從而能夠?qū)崿F(xiàn)作業(yè)調(diào)度系統(tǒng)的高可用。
【專利附圖】
【附圖說明】
[0020] 圖1是本發(fā)明集群作業(yè)調(diào)度方法的流程示意圖。
[0021] 圖2是本發(fā)明集群作業(yè)調(diào)度裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0022] 以下將結(jié)合附圖所示的【具體實施方式】對本發(fā)明進行詳細(xì)描述。
[0023] 本發(fā)明集群作業(yè)調(diào)度系統(tǒng)包括管理節(jié)點,虛擬機和共享存儲,其中,
[0024] 管理節(jié)點是物理節(jié)點,集群作業(yè)調(diào)度系統(tǒng)至少包括兩個管理節(jié)點;
[0025] 在管理節(jié)點上通過基于內(nèi)核的虛擬機(KVM,Kernel-based Virtual Machine)部 署虛擬機,KVM是一種開源的系統(tǒng)虛擬化模塊,是Linux操作系統(tǒng)內(nèi)核自帶的虛擬機工具, 可以在管理節(jié)點上通過KVM創(chuàng)建和管理虛擬機,一個管理節(jié)點上可以部署多個虛擬機,每 個虛擬機可以部署獨立的作業(yè)調(diào)度操作系統(tǒng);
[0026] 在管理節(jié)點上部署共享存儲,共享存儲可以是網(wǎng)絡(luò)文件系統(tǒng)(NFS,Network File System)或者網(wǎng)絡(luò)附加存儲(NAS, Network Attached Storage),用于共享管理節(jié)點的數(shù)據(jù) 和存儲虛擬機等。
[0027] 圖1是本發(fā)明集群作業(yè)調(diào)度方法的流程示意圖,如圖1所示,包括:
[0028] 步驟11,在管理節(jié)點上部署共享存儲,該共享存儲中包括共享資源。
[0029] 在本步驟中,在管理節(jié)點上創(chuàng)建共享存儲,并配置該共享存儲的存儲資源,具體可 以使用Virsh命令或者通過圖形界面進行共享存儲的存儲資源配置。
[0030] 步驟12,在管理節(jié)點上部署至少兩個虛擬機,該虛擬機存儲在共享存儲中。
[0031] 在本步驟中,可以通過KVM創(chuàng)建虛擬機,如果虛擬機使用相同的作業(yè)調(diào)度操作系 統(tǒng),可以先創(chuàng)建一個虛擬機,然后執(zhí)行Clone命令,即采用克隆的方式創(chuàng)建其他虛擬機。
[0032] 虛擬機在創(chuàng)建時可以采用相同的硬件資源,例如1G內(nèi)存,2個CPU,10G硬盤空間 等,創(chuàng)建完畢后可以通過需求再進行硬件配置的修改。
[0033] 步驟13,在虛擬機上部署作業(yè)調(diào)度操作系統(tǒng)。
[0034] 在本步驟中,每個虛擬機可以運行獨立的操作系統(tǒng),所以在每個虛擬機上部署作 業(yè)調(diào)度操作系統(tǒng),作業(yè)調(diào)度操作系統(tǒng)的主要是對用戶提交的作業(yè)進行排隊、調(diào)度以及為作 業(yè)分配內(nèi)存、輸入輸出設(shè)備等必要的資源,當(dāng)作業(yè)執(zhí)行完畢時,負(fù)責(zé)回收系統(tǒng)資源。作業(yè)調(diào) 度操作系統(tǒng)可以是開源的Torque+Maui軟件。
[0035] 步驟14,對用戶提交的作業(yè)進行分組,作業(yè)調(diào)度操作系統(tǒng)將分組后的作業(yè)調(diào)度給 管理節(jié)點上的至少兩個虛擬機,該至少兩個虛擬機使用共享存儲中的共享資源進行作業(yè)處 理。
[0036] 在本步驟中,對用戶提交的作業(yè)進行分組,可以是根據(jù)作業(yè)類型進行分組,或者根 據(jù)用戶定義進行分組。
[0037] 作業(yè)調(diào)度操作系統(tǒng)將分組后的作業(yè)調(diào)度給不同的虛擬機,使用不同的虛擬機來進 行作業(yè)處理,如此,一方面對用戶提交的作業(yè)進行了負(fù)載分配,另一方面,一旦一個虛擬機 出現(xiàn)問題,不會影響其他虛擬機的正常運行。
[0038] 步驟15,若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將作 業(yè)切換到備份虛擬機,備份虛擬機使用共享存儲中的共享資源進行作業(yè)處理。
[0039] 在本步驟中,若作業(yè)調(diào)度操作系統(tǒng)對虛擬機進行處理的作業(yè)無法調(diào)度,例如查看 作業(yè)狀態(tài)為作業(yè)在預(yù)定的時間內(nèi)沒有處理完成,或者查看作業(yè)調(diào)度服務(wù)狀態(tài)為調(diào)度失敗, 則可以判斷出進行作業(yè)處理的虛擬機出現(xiàn)故障。
[0040] 作業(yè)調(diào)度操作系統(tǒng)將故障虛擬機上的作業(yè)切換到備份虛擬機。備份虛擬機可以是 預(yù)先部署的虛擬機冗余,例如預(yù)先將兩臺虛擬機進行處于備份處理,作業(yè)調(diào)度操作系統(tǒng)給 其中一臺虛擬機分配作業(yè),另一臺虛擬機作為備份虛擬機,當(dāng)進行作業(yè)處理的虛擬機出現(xiàn) 故障后,作業(yè)調(diào)度操作系統(tǒng)將作業(yè)切換到備份虛擬機。備份虛擬機也可以是在作業(yè)調(diào)度操 作系統(tǒng)判斷出虛擬機出現(xiàn)故障后,通過KVM采用克隆方式快速創(chuàng)建。
[0041] 步驟16,若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將 管理節(jié)點上的虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源 進行作業(yè)處理。
[0042] 在本步驟中,為了保障管理節(jié)點的運行穩(wěn)定,管理節(jié)點需要定時維護,例如預(yù)先設(shè) 置的管理周期,當(dāng)根據(jù)該管理周期對管理節(jié)點進行維護時,作業(yè)調(diào)度操作系統(tǒng)將運行在當(dāng) 前管理節(jié)點上的虛擬機動態(tài)遷移到其他管理節(jié)點上,在管理節(jié)點維護結(jié)束后,作業(yè)調(diào)度操 作系統(tǒng)將虛擬機遷移回來。
[0043] 如果管理節(jié)點出現(xiàn)故障,例如由于管理節(jié)點間的網(wǎng)絡(luò)出現(xiàn)問題或者管理節(jié)點宕 機,導(dǎo)致其他節(jié)點無法訪問管理節(jié)點,將運行在當(dāng)前管理節(jié)點上的虛擬機動態(tài)遷移到其他 管理節(jié)點上。
[0044] 圖2是本發(fā)明集群作業(yè)調(diào)度裝置的結(jié)構(gòu)示意圖,如圖2所示,包括:
[0045] 第一部署模塊,用于在管理節(jié)點上部署共享存儲,該共享存儲中包括共享資源。
[0046] 第二部署模塊,用于在管理節(jié)點上部署至少兩個虛擬機,該虛擬機存儲在共享存 儲中。
[0047] 第三部署模塊,用于在虛擬機上部署作業(yè)調(diào)度操作系統(tǒng)。
[0048] 分組模塊,用于對用戶提交的作業(yè)進行分組。
[0049] 調(diào)度模塊,用于將分組后的作業(yè)調(diào)度給管理節(jié)點上的至少兩個虛擬機,該至少兩 個虛擬機使用共享存儲中的共享資源進行作業(yè)處理。
[0050] 第一判斷模塊,用于判斷管理節(jié)點上進行作業(yè)處理的虛擬機是否出現(xiàn)故障;
[0051] 切換模塊,用于若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,將作業(yè)切換到備 份虛擬機,備份虛擬機使用共享存儲中的共享資源進行作業(yè)處理。
[0052] 第二判斷模塊,用于判斷管理節(jié)點是否進行維護,或者管理節(jié)點是否出現(xiàn)故障。
[0053] 遷移模塊,用于若對管理節(jié)點進行維護,或者管理節(jié)點出現(xiàn)故障,將管理節(jié)點上的 虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源進行作業(yè)處 理。
[0054] 本發(fā)明通過對用戶提交的作業(yè)進行分組,并將分組后的作業(yè)調(diào)度給管理節(jié)點上不 同的虛擬機,因為各虛擬機之間互不干擾,所以不僅對用戶提交的作業(yè)進行了負(fù)載分配,還 會在一臺虛擬機出現(xiàn)問題,不會影響管理節(jié)點上其他虛擬機的正常運行,從而能夠?qū)崿F(xiàn)作 業(yè)調(diào)度系統(tǒng)的1?容錯。
[0055] 此外,本發(fā)明在管理節(jié)點上部署共享存儲,若進行虛擬機切換,切換后的備份虛擬 機使用共享存儲中的共享資源進行作業(yè)處理,若進行虛擬機遷移,遷移后的虛擬機也使用 共享存儲中的共享資源進行作業(yè)處理,避免了資源出現(xiàn)故障,不能有效的進行資源切換的 問題,從而能夠?qū)崿F(xiàn)作業(yè)調(diào)度系統(tǒng)的高可用。
[0056] 應(yīng)當(dāng)理解,雖然本說明書根據(jù)實施方式加以描述,但并非每個實施方式僅包含一 個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說 明書作為一個整體,各實施方式中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可 以理解的其他實施方式。
[0057] 上文所列出的一系列的詳細(xì)說明僅僅是針對本發(fā)明的可行性實施方式的具體說 明,它們并非用于限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式 或變更均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1. 一種集群作業(yè)調(diào)度方法,其特征在于,包括: 對用戶提交的作業(yè)進行分組,作業(yè)調(diào)度操作系統(tǒng)將分組后的作業(yè)調(diào)度給管理節(jié)點上 的至少兩個虛擬機,該至少兩個虛擬機使用預(yù)先配置的共享存儲中的共享資源進行作業(yè)處 理; 若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將作業(yè)切換到備份 虛擬機,備份虛擬機使用共享存儲中的共享資源進行作業(yè)處理; 若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,作業(yè)調(diào)度操作系統(tǒng)將管理節(jié)點上 的虛擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源進行作業(yè)處 理。
2. 根據(jù)權(quán)利要求1所述的集群作業(yè)調(diào)度方法,其特征在于,該方法還包括: 在管理節(jié)點上部署共享存儲,該共享存儲中包括共享資源。
3. 根據(jù)權(quán)利要求1所述的集群作業(yè)調(diào)度方法,其特征在于,該方法還包括:在管理節(jié)點 上部署至少兩個虛擬機,具體為, 通過基于內(nèi)核的虛擬機KVM在管理節(jié)點上部署至少兩個虛擬機; 若虛擬機使用相同的作業(yè)調(diào)度操作系統(tǒng),先通過KVM部署一個虛擬機,然后采用克隆 Clone方式部署其他虛擬機。
4. 根據(jù)權(quán)利要求1所述的集群作業(yè)調(diào)度方法,其特征在于,該方法還包括:在虛擬機上 部署作業(yè)調(diào)度操作系統(tǒng)。
5. 根據(jù)權(quán)利要求1所述的集群作業(yè)調(diào)度方法,其特征在于,所述若管理節(jié)點上進行作 業(yè)處理的虛擬機出現(xiàn)故障,包括: 若作業(yè)調(diào)度操作系統(tǒng)對虛擬機進行處理的作業(yè)無法調(diào)度,則判斷出管理節(jié)點上進行作 業(yè)處理的虛擬機出現(xiàn)故障。
6. 根據(jù)權(quán)利要求1所述的集群作業(yè)調(diào)度方法,其特征在于,所述備份虛擬機是預(yù)先部 署的虛擬機冗余,或者在判斷出虛擬機出現(xiàn)故障后采用Clone方式創(chuàng)建。
7. -種集群作業(yè)調(diào)度裝置,其特征在于,包括: 分組模塊,用于對用戶提交的作業(yè)進行分組; 調(diào)度模塊,用于將分組后的作業(yè)調(diào)度給管理節(jié)點上的至少兩個虛擬機,該至少兩個虛 擬機使用共享存儲中的共享資源進行作業(yè)處理; 切換模塊,用于若管理節(jié)點上進行作業(yè)處理的虛擬機出現(xiàn)故障,將作業(yè)切換到備份虛 擬機,備份虛擬機使用共享存儲中的共享資源進行作業(yè)處理; 遷移模塊,用于若對管理節(jié)點進行為維護,或者管理節(jié)點出現(xiàn)故障,將管理節(jié)點上的虛 擬機遷移到其他管理節(jié)點上,遷移后的虛擬機使用共享存儲中的共享資源進行作業(yè)處理。
8. 根據(jù)權(quán)利要求7所述的集群作業(yè)調(diào)度裝置,其特征在于,該裝置還包括: 第一部署模塊,用于在管理節(jié)點上部署共享存儲,該共享存儲中包括共享資源。
9. 根據(jù)權(quán)利要求7所述的集群作業(yè)調(diào)度裝置,其特征在于,該裝置還包括: 第二部署模塊,用于在管理節(jié)點上部署至少兩個虛擬機,該虛擬機存儲在共享存儲 中; 該第二部署模塊在管理節(jié)點上部署至少兩個虛擬機,具體包括: 第二部署模塊通過基于內(nèi)核的虛擬機KVM在管理節(jié)點上部署至少兩個虛擬機;若虛擬 機使用相同的作業(yè)調(diào)度操作系統(tǒng),先通過KVM部署一個虛擬機,然后采用克隆Clone方式部 署其他虛擬機。
10. 根據(jù)權(quán)利要求7所述的集群作業(yè)調(diào)度裝置,其特征在于,該裝置還包括: 第三部署模塊,用于在虛擬機上部署作業(yè)調(diào)度操作系統(tǒng)。
11. 根據(jù)權(quán)利要求7所述的集群作業(yè)調(diào)度裝置,其特征在于,該裝置還包括: 第一判斷模塊,用于判斷管理節(jié)點上進行作業(yè)處理的虛擬機是否出現(xiàn)故障; 若作業(yè)調(diào)度操作系統(tǒng)對虛擬機進行處理的作業(yè)無法調(diào)度,則判斷出管理節(jié)點上進行作 業(yè)處理的虛擬機出現(xiàn)故障。
12. 根據(jù)權(quán)利要求7所述的集群作業(yè)調(diào)度裝置,其特征在于,該裝置還包括:第二判斷 模塊,用于判斷管理節(jié)點是否在進行維護,或者管理節(jié)點是否出現(xiàn)故障; 根據(jù)預(yù)先設(shè)置的管理周期,判斷出管理節(jié)點在進行維護; 若管理節(jié)點間網(wǎng)絡(luò)故障或者管理節(jié)點宕機,判斷出管理節(jié)點出現(xiàn)故障。
【文檔編號】G06F11/16GK104123183SQ201410363745
【公開日】2014年10月29日 申請日期:2014年7月28日 優(yōu)先權(quán)日:2014年7月28日
【發(fā)明者】馬四騰 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司