本發明涉及云平臺監控分析,尤其涉及云平臺算力資源性能監控與實時調度優化方法。
背景技術:
1、隨著云計算和大數據技術的快速發展,云平臺已成為支撐各種應用服務和任務處理的重要基礎設施,云平臺提供了強大的算力資源,但隨著用戶需求的不斷增加和計算任務的日益復雜,如何高效、穩定地調度和管理云平臺中的計算資源,已成為當前云計算領域亟待解決的關鍵問題。
2、在現有的云平臺算力資源調度系統中,資源分配通常基于預設的策略或靜態負載均衡算法,這種方法在計算任務需求變化較大或資源負載突發的情況下,容易導致資源浪費或任務調度不均衡,例如,當系統負載過高時,某些節點可能面臨計算資源過度集中的問題,而其他節點則處于空閑狀態,無法充分利用,這不僅降低了資源利用率,還可能導致系統性能的嚴重下降。
技術實現思路
1、本發明提供了云平臺算力資源性能監控與實時調度優化方法。
2、云平臺算力資源性能監控與實時調度優化方法,包括以下步驟:
3、s1:采集異構計算節點的實時性能數據,所述實時性能數據至少包括cpu指令周期占用率、gpu顯存帶寬利用率、npu矩陣運算延遲;
4、s2:對所述實時性能數據進行多維指標融合,生成包含時間關聯特征的融合性能指標集;
5、s3:基于所述融合性能指標集構建動態算力拓撲圖譜,所述圖譜節點表征物理計算單元,邊權重表征節點間通信帶寬與延遲的歸一化值;
6、s4:根據所述動態算力拓撲圖譜生成彈性伸縮策略集,所述彈性伸縮策略集包括虛擬資源池的拓撲約束條件與負載突變概率閾值;
7、s5:采用優先級動態調整算法執行實時調度,將待分配任務映射至滿足所述拓撲約束條件的物理節點;
8、s6:通過反饋驗證模塊對調度結果進行拓撲沖突檢測,動態修正所述彈性伸縮策略集的參數權重。
9、可選的,所述s1具體包括:
10、s11:通過在每個異構計算節點上安裝性能監控代理,實時獲取cpu指令周期占用率,所述指令周期占用率通過監控工具獲取各cpu核心的空閑周期與忙碌周期的比例;
11、s12:通過gpu驅動程序接口,實時獲取gpu顯存帶寬利用率,所述帶寬利用率通過gpu硬件計數器記錄gpu內存訪問的帶寬使用情況;
12、s13:通過npu硬件平臺的管理接口,實時獲取npu矩陣運算延遲,所述矩陣運算延遲通過硬件計時器記錄npu執行矩陣運算任務的延時情況。
13、可選的,所述s2具體包括:
14、s21:對每個異構計算節點的實時性能數據進行歸一化處理,得到標準化的性能數據集;
15、s22:將多個異構計算節點的歸一化性能數據按時間序列對齊,得到時間窗口內的性能數據集,其中,表示不同時刻的時間戳;
16、s23:采用加權平均法將不同異構計算節點的歸一化性能數據融合,得到綜合性能指標集;
17、s24:基于時序分析的滑動平均法對融合后的綜合性能指標集進行平滑處理,生成包含時間關聯特征的融合性能指標集,以捕捉性能變化的長期趨勢和短期波動。
18、可選的,所述生成包含時間關聯特征的融合性能指標集表示為:
19、,其中,表示在時間時刻的綜合性能指標,表示滑動窗口的大小,用于平滑的時間窗口長度,表示滑動窗口內的每一個時間點,,是經過滑動平均平滑處理后的融合性能指標集,反映窗口內時間點的平均性能。
20、可選的,所述s3具體包括:
21、s31:節點定義:根據融合性能指標集,將每個異構計算節點定義為圖譜中的一個節點,其中每個節點表示一個物理計算單元(cpu、gpu或npu),每個節點的屬性包括以及計算節點的負載、可用資源、當前任務狀態,表示節點在時間時刻的融合性能指標集;
22、s32:邊定義:節點之間的邊表示節點和節點之間的通信連接,邊權重表示節點間的通信帶寬與延遲的歸一化值;
23、s33:動態更新:基于實時性能數據和融合性能指標集,動態更新節點屬性和邊權重,每當性能數據更新時,重新計算節點的負載,任務分配狀態,更新相應節點的屬性;同時,根據節點間的實時通信帶寬和延遲,更新邊權重。
24、可選的,所述邊權重表示節點間的通信帶寬與延遲的歸一化值,表示為:
25、,其中,表示節點與節點之間的通信帶寬,表示節點與節點之間的通信延遲,和分別表示所有節點間帶寬和延遲的最大值,用于歸一化,為邊權重,表示該通信路徑的性能程度,值越高表示該路徑的帶寬與延遲性能越差。
26、可選的,所述s4具體包括:
27、s41,拓撲約束條件定義:以動態算力拓撲圖譜中的邊權重為依據,確定虛擬資源池中各物理計算單元之間的拓撲連接關系,定義拓撲約束條件,即對于每個虛擬資源池中的節點,基于邊權重確定其可與之進行通信的其他節點,定義約束閾值,若節點和節點之間的邊權重大于約束閾值,則不允許將任務調度到節點和節點之間的通信路徑上;
28、s42,負載突變概率計算及閾值設定:設置負載突變概率閾值,設為0.3,對于每個節點,計算其負載突變概率,若該負載突變概率超過閾值,則表示對應節點負載突變的風險高;
29、s43,生成彈性伸縮策略集:根據拓撲約束條件和負載突變概率閾值,生成虛擬資源池的彈性伸縮策略集,彈性伸縮策略集包括:
30、虛擬資源池的拓撲約束條件:定義每個節點的負載、通信帶寬、通信延遲約束,確保任務調度時遵循拓撲約束條件;
31、負載突變概率閾值:對每個節點部署設定的負載突變概率閾值,指導何時進行資源的動態調整(如擴展或收縮虛擬資源池中的節點數量、增加或減少資源分配等)。
32、可選的,所述s5具體包括:
33、s51,任務優先級評估:根據任務的計算需求、時效性要求和資源消耗因素,為每個待分配任務計算其任務優先級,表示為:
34、,其中,為任務的截止時間,為任務的緊急程度,為任務的資源需求,為權重因子,分別取0.5/0.3/0.2,根據具體場景調整;
35、s52,拓撲約束條件篩選:根據拓撲約束條件,篩選出符合資源要求且滿足拓撲約束條件的物理節點集合,其中每個節點的邊權重滿足以下條件:;
36、s53,任務映射:根據任務優先級和物理節點的負載情況,采用優先級動態調整算法將任務映射到滿足拓撲約束條件的物理節點。
37、可選的,所述s6具體包括:
38、s61:s5的實時調度完成后,收集每個任務的調度結果,包括任務的映射節點、任務完成時間、節點負載情況,通過實時監控獲取的性能數據,包括節點負載、通信延遲、帶寬利用率;
39、s62:使用反饋驗證模塊對調度結果進行拓撲沖突檢測,檢查是否存在違反拓撲約束條件的情況,拓撲沖突的檢測包括:
40、檢查任務映射是否導致節點之間的通信延遲過高;
41、檢查節點間的邊權重是否超出約束閾值,如果超出則認為發生了拓撲沖突;
42、通過比較實際的節點連接情況和預定義的拓撲結構,判斷是否存在不符合拓撲約束的任務分配情況;
43、s63:若檢測到拓撲沖突,反饋驗證模塊觸發沖突修正機制;
44、s64:動態修正彈性伸縮策略集:在沖突修正過程中,調整彈性伸縮策略集的參數權重。
45、可選的,所述沖突修正機制包括:
46、重新調整任務的映射,選擇符合拓撲約束條件的新節點;
47、調整節點的負載分配,確保通信帶寬和延遲符合預設要求。
48、本發明的有益效果:
49、本發明,通過采用動態算力拓撲圖譜和優先級動態調整算法,基于實時性能數據和拓撲約束條件,精確地將任務映射至最合適的物理節點,通過綜合評估任務的優先級、節點的負載狀態以及拓撲約束條件,能夠優化任務分配過程,避免資源浪費和負載過度集中,顯著提升算力資源的調度效率與精度,此外,動態調整算法根據實時反饋和歷史數據的分析,保證了任務分配能夠持續適應系統狀態變化,進一步提升了調度精度;
50、本發明,引入了拓撲沖突檢測與動態修正機制,能夠在實時調度過程中及時發現并糾正拓撲約束沖突,通過實時反饋驗證模塊,系統能夠快速檢測出任務分配過程中的潛在拓撲沖突,諸如通信帶寬不足、節點間延遲過高等問題,并在發現沖突時自動調整拓撲約束條件,動態修正邊權重的閾值,該機制的引入有效減少了資源沖突,提高了算力資源的利用效率,避免了因拓撲沖突引發的系統瓶頸問題,從而增強了系統的穩定性和負載均衡能力。