本發明涉及智能計算中心、智算中心及算力基礎設施,具體涉及面向普惠算力智能計算中心多區域算力調度方法及裝置。
背景技術:
1、隨著人工智能技術的快速發展,“智能計算中心”和“智算中心”應運而生。
2、“智能計算中心”是指通過使用大規模異構算力資源,包括通用算力和智能算力,主要為人工智能應用(如人工智能深度學習模型開發、模型訓練和模型推理等場景)提供所需算力、數據和算法的設施。智能計算中心涵蓋設施、硬件、軟件,并可提供從底層算力到頂層應用使能的全棧能力。
3、“智能計算中心”包括但不限于“智算中心”。
4、“智算中心”即人工智能計算中心,是基于人工智能理論,采用人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的一類算力基礎設施。
5、“算力”是“智能計算中心”和“智算中心”的核心,是計算機設備或計算/數據中心處理信息的能力,是計算機硬件和軟件配合共同執行某種計算需求的能力,是通過對信息數據進行處理,實現目標結果輸出的計算能力,是集信息計算力、網絡運載力、數據存儲力于一體的新型生產力,主要通過算力基礎設施向社會提供服務。
6、但目前,在基于智能計算中心的算力資源執行任務時(如模型訓練任務),任務通常固定于單一的智能計算中心運行,導致用戶在電價高峰或高成本區域會承擔巨額電費,同時,跨區域算力資源的協同能力缺失,部分智能計算中心長期超載而其他智能計算中心的算力資源閑置,加劇了算力分配的不均。
7、綜上,現有技術中,用戶依賴智能計算中心的算力資源執行任務時,仍面臨算力資源調度瓶頸以及高額的經濟成本,制約了普惠算力的推廣與應用。
技術實現思路
1、本發明提供面向普惠算力智能計算中心多區域算力調度方法及裝置,以解決現有技術中,用戶依賴智能計算中心的算力資源執行任務時,仍面臨算力資源調度瓶頸以及高額的經濟成本,制約了普惠算力的推廣與應用的技術問題。
2、為了解決上述技術問題,本發明是這樣實現的:
3、第一方面,本發明提供一種面向普惠算力智能計算中心多區域算力調度方法,所述方法包括:
4、步驟s1:確定待遷移任務,其中,所述待遷移任務需基于智能計算中心的算力而執行,所述待遷移任務當前運行在源智能計算中心上;
5、步驟s2:根據所述待遷移任務,在各個備選智能計算中心中,確定至少一個可選智能計算中心,其中,每個備選智能計算中心分別位于不同的預設區域;
6、步驟s3:根據所述待遷移任務,在所述至少一個可選智能計算中心中,確定是否存在目標智能計算中心;
7、其中,所述步驟s3包括:
8、步驟s31:計算從所述源智能計算中心,遷移所述待遷移任務到每個可選智能計算中心的遷移成本,其中,所述遷移成本根據所述待遷移任務的待遷移數據量和所述待遷移數據量的流量成本而確定;
9、步驟s32:計算所述待遷移任務在所述源智能計算中心上的第一繼續執行成本,其中,所述第一繼續執行成本由所述待遷移任務的剩余任務執行時長和所述源智能計算中心所在預設區域的估算電價而確定;
10、步驟s33:分別計算所述待遷移任務在每個可選智能計算中心上的第二繼續執行成本,其中,所述第二繼續執行成本由所述待遷移任務的剩余任務執行時長和對應的可選智能計算中心所在預設區域的估算電價而確定;
11、步驟s34:在所述第二繼續執行成本中,確定最小第二繼續執行成本;
12、步驟s35:如果所述第一繼續執行成本大于所述最小第二繼續執行成本、所述遷移成本和預設閾值之和,則確定存在所述目標智能計算中心;其中,所述目標智能計算中心為所述最小第二繼續執行成本對應的可選智能計算中心;
13、步驟s36:如果所述第一繼續執行成本小于或等于所述最小第二繼續執行成本、所述遷移成本和所述預設閾值之和,則確定不存在所述目標智能計算中心;
14、步驟s4:如果存在所述目標智能計算中心,則將所述待遷移任務當前的中間運行結果遷移至所述目標智能計算中心;
15、步驟s5:基于所述目標智能計算中心的算力和所述中間運行結果,繼續運行所述待遷移任務。
16、可選的,在所述步驟s3之后,所述方法還包括:
17、步驟s6:如果不存在所述目標智能計算中心,則在所述源智能計算中心上繼續運行所述待遷移任務,并每隔第一預設時間段,重復執行一次所述步驟s3,直至所述待遷移任務在所述源智能計算中心運行完畢,或者,直至確定存在所述目標智能計算中心。
18、可選的,所述步驟s2包括:
19、步驟s21:確定所述待遷移任務的需求標簽,其中,所述需求標簽包括以下至少一項:gpu型號、待遷移數據量;
20、步驟s22:根據所述需求標簽、所述各個備選智能計算中心在未來第二預設時間段內的估算算力情況,確定所述可選智能計算中心,其中,所述估算算力情況包括以下至少一項:在未來第二預設時間段內可供使用的gpu型號、在未來第二預設時間段內的gpu利用率。
21、可選的,所述步驟s5包括:
22、步驟s51:確定所述待遷移任務的任務內容,所述任務內容包括:訓練腳本、推理代碼和容器鏡像;
23、步驟s52:在所述目標智能計算中心上,基于所述中間運行結果和所述任務內容,繼續運行所述待遷移任務。
24、第二方面,本發明提供一種面向普惠算力智能計算中心多區域算力調度裝置,所述裝置包括:
25、確定模塊,用于確定待遷移任務,其中,所述待遷移任務需基于智能計算中心的算力而執行,所述待遷移任務當前運行在源智能計算中心上;
26、執行模塊,用于根據所述待遷移任務,在各個備選智能計算中心中,確定至少一個可選智能計算中心,其中,每個備選智能計算中心分別位于不同的預設區域;
27、根據所述待遷移任務,在所述至少一個可選智能計算中心中,確定是否存在目標智能計算中心;
28、如果存在所述目標智能計算中心,則將所述待遷移任務當前的中間運行結果遷移至所述目標智能計算中心;
29、基于所述目標智能計算中心的算力和所述中間運行結果,繼續運行所述待遷移任務;
30、其中,所述執行模塊,還用于計算從所述源智能計算中心,遷移所述待遷移任務到每個可選智能計算中心的遷移成本,其中,所述遷移成本根據所述待遷移任務的待遷移數據量和所述待遷移數據量的流量成本而確定;
31、計算所述待遷移任務在所述源智能計算中心上的第一繼續執行成本,其中,所述第一繼續執行成本由所述待遷移任務的剩余任務執行時長和所述源智能計算中心所在預設區域的估算電價而確定;
32、分別計算所述待遷移任務在每個可選智能計算中心上的第二繼續執行成本,其中,所述第二繼續執行成本由所述待遷移任務的剩余任務執行時長和對應的可選智能計算中心所在預設區域的估算電價而確定;
33、在所述第二繼續執行成本中,確定最小第二繼續執行成本;
34、如果所述第一繼續執行成本大于所述最小第二繼續執行成本、所述遷移成本和預設閾值之和,則確定存在所述目標智能計算中心;其中,所述目標智能計算中心為所述最小第二繼續執行成本對應的可選智能計算中心;
35、如果所述第一繼續執行成本小于或等于所述最小第二繼續執行成本、所述遷移成本和所述預設閾值之和,則確定不存在所述目標智能計算中心。
36、可選的,所述執行模塊,還用于在根據所述待遷移任務,在所述可選智能計算中心中,確定是否存在目標智能計算中心之后,如果不存在所述目標智能計算中心,則在所述源智能計算中心上繼續運行所述待遷移任務,并每隔第一預設時間段,重復執行一次所述根據所述待遷移任務,在所述可選智能計算中心中,確定是否存在目標智能計算中心的步驟,直至所述待遷移任務在所述源智能計算中心運行完畢,或者,直至確定存在所述目標智能計算中心。
37、可選的,所述執行模塊,還用于確定所述待遷移任務的需求標簽,其中,所述需求標簽包括以下至少一項:gpu型號、待遷移數據量;
38、根據所述需求標簽、所述各個備選智能計算中心在未來第二預設時間段內的估算算力情況,確定所述可選智能計算中心,其中,所述估算算力情況包括以下至少一項:在未來第二預設時間段內可供使用的gpu型號、在未來第二預設時間段內的gpu利用率。
39、可選的,所述執行模塊,還用于確定所述待遷移任務的任務內容,所述任務內容包括:訓練腳本、推理代碼和容器鏡像;在所述目標智能計算中心上,基于所述中間運行結果和所述任務內容,繼續運行所述待遷移任務。
40、第三方面,本發明提供了一種服務器,包括:處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的程序,所述程序被所述處理器執行時實現如上述第一方面所述的一種面向普惠算力智能計算中心多區域算力調度方法的步驟。
41、第四方面,本發明提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上述第一方面所述的一種面向普惠算力智能計算中心多區域算力調度方法的步驟。
42、第五方面,本發明提供了一種計算機程序產品,包括計算機指令,所述計算機指令被處理器執行時實現如上述第一方面所述的一種面向普惠算力智能計算中心多區域算力調度方法的步驟。
43、本發明中,首先在不同區域的備選智能計算中心中進行篩選,以確定可選智能計算中心,通過量化遷移成本(根據待遷移數據量和流量成本而確定)與可選智能計算中心的繼續執行成本(根據任務執行的剩余時長和區域估算電價而確定),將其與源智能計算中心的繼續執行成本進行對比,當源智能計算中心的繼續執行成本高于目標智能計算中心的最低執行成本、遷移成本及預設閾值之和時,則將任務中間狀態遷移至電價最優的目標智能計算中心繼續運行。
44、由此,通過智能化的任務遷移機制,實現了算力資源的高效調度與優化配置。在確保任務順利執行的前提下,顯著降低了用戶使用智能計算中心算力資源的經濟成本,促進了算力資源的跨區域共享與協同,實現了普惠算力的廣泛應用。