本發明涉及大數據領域,具體是用于模型訓練的算力資源調度方法和系統。
背景技術:
1、隨著人工智能技術的飛速發展,深度學習模型在各個領域得到了廣泛應用,從圖像識別、語音識別到自然語言處理,無不彰顯其強大的數據處理與模式識別能力。然而,深度學習模型的訓練過程往往伴隨著對高性能計算資源的巨大需求,尤其是在處理大規模數據集或復雜模型時,單一的計算節點往往難以滿足訓練所需的算力,這就需要高效的算力資源調度方法來優化資源分配,提高訓練效率。
2、傳統的算力資源調度方法大多基于靜態分配策略,即根據預設的規則或策略為不同的訓練任務分配固定的計算資源。這種方法在面對多變的任務需求和動態的資源狀態時,顯得不夠靈活,容易導致資源利用不均衡,部分資源過載而另一部分資源閑置,嚴重影響了整體的訓練效率和資源利用率。此外,隨著云計算技術的普及,云端的算力資源變得日益豐富和多樣化,如何高效、動態地調度這些分布式算力資源,以滿足不同訓練任務的需求,成為了一個亟待解決的問題。
技術實現思路
1、本發明的目的在于克服現有技術的不足,提供用于模型訓練的算力資源調度方法,包括如下步驟:
2、步驟一,云端算力調度服務器接收算力資源請求信息,根據算力資源請求信息中的算力資源授權信息,判斷算力資源請求的合法性,若為合法請求,則進入步驟二,否則,則拒絕算力資源請求,并發出預警信息;
3、步驟二,獲取算力資源請求信息中的模型訓練任務信息,得到模型訓練任務信息中的訓練特征,在云端算力調度服務器中進行特征匹配,若匹配到對應訓練特征的訓練容器,則模型訓練任務為重復訓練任務類型,進入步驟三,否則,則為第二訓練任務類型,進入步驟四;
4、步驟三,根據匹配到的各個對應訓練特征的訓練容器,得到對應訓練特征的訓練容器序列,根據模型訓練任務信息中的算力需求信息,在對應訓練特征的訓練容器序列進行匹配,若匹配到對應算力需求信息的訓練容器,則將模型訓練任務發送到匹配的對應算力需求信息的訓練容器的任務執行列表,否則,根據算力需求信息在對應訓練特征的訓練容器序列選擇與算力需求的算力差值最小的訓練容器,將模型訓練任務發送到合并后的訓練容器,進行模型訓練,進入步驟七;
5、步驟四,云端算力調度服務器根據算力資源請求信息中的第二訓練特征,建立對應第二訓練特征的訓練容器,并根據算力資源請求信息中的第二算力需求信息,在云端算力調度服務器中匹配對應第二算力需求信息的訓練容器,若匹配到對應第二算力需求信息的訓練容器,則進入步驟五,否則,進入步驟六;
6、步驟五,得到對應第二算力需求信息的訓練容器序列,并分別獲取對應第二算力需求信息的訓練容器序列中各個訓練容器的調用特征,根據調用特征,得到調度訓練容器,將調度訓練容器連接到對應第二訓練特征的訓練容器,進行模型訓練,進入步驟七;
7、步驟六,云端算力調度服務器根據第二算力需求信息,生成對應第二算力需求的算力容器,并連接到對應第二訓練特征的訓練容器,進行模型訓練,進入步驟七;
8、步驟七,完成模型訓練任務。
9、進一步的,所述的根據算力資源請求信息中的算力資源授權信息,判斷算力資源請求的合法性,包括:
10、所述的算力資源授權信息包括授權指令和授權算力使用范圍;若授權指令授權驗證通過且授權算力使用范圍在設定的單個訓練任務算力使用范圍內,則算力資源請求合法,否則,則不合法。
11、進一步的,所述的獲取算力資源請求信息中的模型訓練任務信息,得到模型訓練任務信息中的訓練特征,在云端算力調度服務器中進行特征匹配,包括:
12、所述的訓練特征為數據集大小、訓練輪次以及模型規模中的一種或多種;在云端算力調度服務器中訓練容器包括算力大小以及訓練特征,不同的訓練容器包括不同的算力大小和訓練特征;根據訓練任務信息中的訓練特征匹配對應的訓練容器。
13、進一步的,所述的根據匹配到的各個對應訓練特征的訓練容器,得到對應訓練特征的訓練容器序列,根據模型訓練任務信息中的算力需求信息,在對應訓練特征的訓練容器序列進行匹配,包括:
14、分別獲取各個對應訓練特征的訓練容器的模型訓練任務完成剩余時長,根據模型訓練任務完成剩余時長的長短,從短到長,得到對應訓練特征的訓練容器序列,分別得到模型訓練任務信息中的算力需求與對應訓練特征的訓練容器序列中各個訓練容器的算力的算力差值,根據算力差值和模型訓練任務完成剩余時長,得到訓練容器匹配度,訓練容器匹配度最小值對應的訓練容器,為匹配的訓練容器,其中,所述的訓練容器匹配度為:
15、訓練容器匹配度=時長權重×模型訓練任務完成剩余時長+算力差值×算力權重。
16、進一步的,所述的根據算力資源請求信息中的第二算力需求信息,在云端算力調度服務器中匹配對應第二算力需求信息的訓練容器,包括:
17、在云端算力調度服務器中獲取算力大于第二算力需求信息的訓練容器,得到匹配對應第二算力需求信息的訓練容器。
18、進一步的,所述的得到對應第二算力需求信息的訓練容器序列,并分別獲取對應第二算力需求信息的訓練容器序列中各個訓練容器的調用特征,包括:
19、所述的調用特征為訓練容器的網絡傳輸延遲,其中網絡延遲最小的訓練容器為調度訓練容器。
20、用于模型訓練的算力資源調度系統,應用所述的用于模型訓練的算力資源調度方法,包括云端算力調度服務器、通信模塊、算力請求模塊、數據處理模塊、預警模塊和顯示模塊;
21、所述的算力請求模塊、通信模塊、預警模塊和顯示模塊分別與所述的數據處理模塊連接;所述的云端算力調度服務器與所述的通信模塊通信連接。
22、本發明的有益效果是:提高資源利用率:通過動態分析和智能調度,本發明能夠更有效地利用云端算力資源,避免資源閑置或過載,顯著提高資源利用率。
23、縮短模型訓練時間:通過精確匹配訓練特征和算力需求,以及優化網絡延遲,本發明能夠加快模型訓練速度,縮短訓練周期。
24、增強系統靈活性:對于特殊或新出現的訓練任務,系統能夠動態生成新的算力容器,增強了系統的靈活性和擴展性。
25、保障資源安全:通過嚴格的合法性驗證機制,本發明確保了算力資源的安全使用,防止了非法或超出權限的資源訪問。
1.用于模型訓練的算力資源調度方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的用于模型訓練的算力資源調度方法,其特征在于,所述的根據算力資源請求信息中的算力資源授權信息,判斷算力資源請求的合法性,包括:
3.根據權利要求2所述的用于模型訓練的算力資源調度方法,其特征在于,所述的獲取算力資源請求信息中的模型訓練任務信息,得到模型訓練任務信息中的訓練特征,在云端算力調度服務器中進行特征匹配,包括:
4.根據權利要求3所述的用于模型訓練的算力資源調度方法,其特征在于,所述的根據匹配到的各個對應訓練特征的訓練容器,得到對應訓練特征的訓練容器序列,根據模型訓練任務信息中的算力需求信息,在對應訓練特征的訓練容器序列進行匹配,包括:
5.根據權利要求3所述的用于模型訓練的算力資源調度方法,其特征在于,所述的根據算力資源請求信息中的第二算力需求信息,在云端算力調度服務器中匹配對應第二算力需求信息的訓練容器,包括:
6.根據權利要求5所述的用于模型訓練的算力資源調度方法,其特征在于,所述的得到對應第二算力需求信息的訓練容器序列,并分別獲取對應第二算力需求信息的訓練容器序列中各個訓練容器的調用特征,包括:
7.用于模型訓練的算力資源調度系統,其特征在于,應用權利要求1-6任一所述的用于模型訓練的算力資源調度方法,包括云端算力調度服務器、通信模塊、算力請求模塊、數據處理模塊、預警模塊和顯示模塊;