本發明涉及衛星通信,尤其涉及一種基于圖強化學習的leo巨型星座彈性路由方法及相關設備。
背景技術:
1、隨著通信技術的發展和衛星制造、發射成本的大幅降低,leo巨型星座通過密集部署小型衛星形成大規模的網絡體系,以提供低延遲、高帶寬和廣覆蓋的網絡接入服務。作為未來全球通信和下一代互聯網的關鍵基礎設施,路由在衛星網絡中發揮著關鍵作用,不僅決定了數據傳輸的連通性,而且直接影響著網絡的整體性能和運行效率。
2、然而,leo巨型星座的獨特網絡特性對路由算法的設計提出了諸多挑戰。首先,leo衛星暴露在開放且惡劣的太空環境中,面臨著太空碎片和太陽風暴等自然威脅。同時,小型衛星壽命較短,且存在多種安全漏洞和后門,易成為網絡攻擊的潛在入口。最后,人口分布不均和經濟發展差異等地理條件與軌道運動的動態特性影響全球流量模式,使得網絡負載不均衡,即熱點地區的鏈路帶寬長期超載,而其他鏈路帶寬閑置浪費。上述所有因素都可能導致leo巨型星座的網絡故障。
3、結合軟件定義網絡(sdn)的集中式控制架構和基于深度強化學習(drl)的智能路由方法,表現出對流量傳輸較好的控制能力,正在被廣泛研究以優化流量分配。然而,現有的智能路由方法應用于leo巨型星座,面臨著魯棒性低、難以擴展的問題。一方面,基于drl的路由通常需要控制網絡中目標元素(鏈路或數據流)的所有單元,而leo巨型星座中密集的鏈路元素導致狀態、動作空間急劇增大,模型難以有效訓練和收斂。此外,這些路由算法通常使用全連接等傳統神經網絡架構,容易過擬合訓練拓撲。一旦網絡故障引起拓撲結構變化,路由性能下降嚴重。
技術實現思路
1、為滿足leo巨型星座數據傳輸的高可用和低時延要求,本發明提出一種基于圖強化學習的leo巨型星座彈性路由方法及相關設備,旨在應對頻繁的網絡故障和巨大的網絡拓撲。
2、第一方面,本發明提供一種基于圖強化學習的leo巨型星座彈性路由方法,包括:
3、步驟1:將星座拓撲劃分為多個控制域,基于sdn架構采用主從控制器對多個控制域進行管理;其中,所有控制域形狀相同且域內均包含相同數量的leo衛星;
4、步驟2:主控制器計算從源節點到目的節點的全局最短路徑,根據所述全局最短路徑經過的域邊界節點和域間鏈路,將源目的節點對之間的跨域流量請求分解為多個域內流量請求;
5、步驟3:從控制器根據總的域內流量請求和故障鏈路構建虛擬流量拓撲,并基于所述虛擬流量拓撲在域內選擇關鍵鏈路;
6、步驟4:從控制器利用gnn提取所述虛擬流量拓撲的鏈路特征矩陣,并基于所述鏈路特征矩陣,采用強化學習算法更新關鍵鏈路的權重,進而在路徑時延和鏈路帶寬的約束下基于新的鏈路權重生成域內路由路徑。
7、進一步地,步驟2中,主控制器采用a*算法計算從源節點到目的節點的全局最短路徑;其中,啟發式函數選擇曼哈頓距離。
8、進一步地,所述啟發式函數為:
9、h(n)=δavg×(|xn-xm|+|yn-ym|)
10、其中,δavg表示鏈路的平均時延,|xn-xm|+|yn-ym|為從源節點n到目的節點m按網格線移動的曼哈頓距離。
11、進一步地,步驟3中,所述的從控制器根據域內流量請求和故障鏈路構建虛擬流量拓撲,具體包括:
12、收集域內的實時流量請求,將實時流量請求與來自主控制器的域內流量請求合并得到總的域內流量請求;將故障鏈路視為由突發流量完全耗盡的鏈路;從而生成域內的流量需求矩陣。
13、進一步地,步驟3中,通過蒙特卡羅算法基于所述虛擬流量拓撲在域內選擇關鍵鏈路,具體包括:
14、根據域內的流量需求矩陣計算域邊界節點對之間的局部最短路徑以及在所述局部最短路徑下每條鏈路的負載,并計算得到每條鏈路的抽樣概率;其中,鏈路的抽樣概率正比于鏈路的負載;
15、按照鏈路的抽樣概率從域內重復抽樣出一個包含λ條鏈路的故障場景s,檢查故障場景s是否已經存在于預設的故障場景集合,若否,則計算故障場景s下總的域內流量請求對應的最大鏈路利用率mlu,并將故障場景s增加至預設的故障場景集合,將對應的mlu增加至預設的mlu指標集合;若是,則重新抽樣;
16、檢測故障場景集合中的故障場景數量是否符合要求,若是,則選擇具有最高mlu的λ條鏈路作為關鍵鏈路,若否,則返回上一個步驟。
17、進一步地,步驟4中,所述的從控制器利用gnn提取所述虛擬流量拓撲的鏈路特征矩陣,具體包括:
18、將虛擬流量拓撲的網絡狀態初始化為特征向量,定義迭代l次后的消息表示為:
19、
20、其中,表示節點v的鄰接節點集合,表示迭代l-1次后的鄰接節點u的特征向量,表示迭代l-1次后的節點u、v組成的鏈路的特征向量,w(l)和b(l)表示權重矩陣,表示迭代l次后的節點v的特征向量,σ表示非線性激活函數relu,mt表示消息傳遞函數;
21、完成總迭代l次之后,將所有節點的特征向量匯總成一個全圖級別的表示hg,表示為
22、進一步地,步驟4中,采用強化學習算法更新關鍵鏈路的權重,具體包括:
23、定義狀態空間:將網絡狀態表示為st=[v,h,adge_index],其中,v表示節點信息,h表示鏈路信息,edge_index為用于指示網絡連接關系的邊索引信息;
24、定義動作集合:將時間步t對應的動作表示為at={a1,a2,…,aλ},其中ai是第i個關鍵鏈路的虛擬權重調整比例;
25、定義獎勵函數:執行動作at后,計算總的域內流量請求對應的最大鏈路利用率mlu,進而計算得到獎勵rt為1/mlu。
26、第二方面,本發明提供一種基于圖強化學習的leo巨型星座彈性路由裝置,包括:
27、星座拓撲劃分模塊,用于將星座拓撲劃分為多個控制域;其中,所有控制域形狀相同且域內均包含相同數量的leo衛星;
28、路由控制模塊,用于基于sdn架構采用主從控制器對多個控制域進行管理;其中,主控制器計算從源節點到目的節點的全局最短路徑,根據所述全局最短路徑經過的域邊界節點和域間鏈路,將源目的節點對之間的跨域流量請求分解為多個域內流量請求;從控制器根據總的域內流量請求和故障鏈路構建虛擬流量拓撲,并基于所述虛擬流量拓撲在域內選擇關鍵鏈路,以及利用gnn提取所述虛擬流量拓撲的鏈路特征矩陣,并基于所述鏈路特征矩陣,采用強化學習算法更新關鍵鏈路的權重,進而在路徑時延和鏈路帶寬的約束下基于新的鏈路權重生成域內路由路徑。
29、第三方面,本發明提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現如權第一方面所述的方法。
30、第四方面,本發明提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如第一方面所述的方法。
31、與現有技術相比,本發明的有益效果是:
32、(1)本發明通過構建基于圖強化學習的路由方法,能夠有效應對leo衛星網絡中因鏈路故障或高負載導致的路由不穩定問題,確保數據傳輸在動態網絡環境下的高可用性。
33、(2)本發明通過結合sdn架構的主從控制器設計,主控制器負責全局最短路徑的跨域規劃,從控制器結合虛擬流量拓撲和強化學習實現域內關鍵鏈路的控制,動態調整路徑,提高路由決策的靈活性和精確性。
34、(3)本發明采用蒙特卡羅算法識別高負載鏈路,結合強化學習算法控制關鍵鏈路權重,能夠最大限度降低鏈路失效對整體網絡性能的影響,增強網絡的抗故障能力。
35、(4)本發明通過gnn的泛化能力適應不同規模的網絡拓撲,在拓撲結構變化的情況下仍能保持高效的路由性能,克服了傳統基于drl的智能路由方法易受網絡故障影響的缺陷。