本發明涉及衛星邊緣計算,尤其涉及一種衛星邊緣計算中星地協同服務遷移方法。
背景技術:
1、隨著衛星邊緣計算(sec)技術的發展,服務遷移在提高系統性能、優化資源利用以及保證用戶體驗方面起著至關重要的作用。服務遷移通常指在不同計算節點之間遷移任務或服務,以實現負載均衡、降低延遲、提高帶寬利用率等目標。隨著通信網絡技術的不斷發展,尤其是地面基站與衛星網絡的結合,服務遷移的研究逐漸轉向如何在異構網絡環境中優化服務遷移決策。
2、目前,已有一些研究嘗試通過從歷史數據中提取隱藏的信息來指導服務遷移決策。這些方法通常依賴于從歷史數據中提取的表面特征,如邊緣服務器計算負載、通信鏈路帶寬等因素來做出遷移決策。然而,這些現有方法的數據深度挖掘不足,通常未能充分挖掘歷史數據中的時間序列模式。例如,現有方法通常依賴于靜態數據或忽視時間序列中的時序相關性,這導致決策輸入數據的質量較低,進而產生次優的服務遷移決策。同時頻繁的服務遷移會增加遷移時延和通信延遲,嚴重影響系統的性能和用戶體驗。
3、另外,現有的服務遷移研究大多集中在地面基站網絡或衛星網絡內部展開。針對單一網絡環境中的服務遷移,現有的優化算法只能夠在單一網絡范圍內實現較為理想的效果。然而,隨著地面基站與衛星網絡的結合,先前的研究未能充分考慮兩者之間的異構性和復雜的網絡拓撲結構,缺乏有效的跨網絡協作策略。不同網絡之間的快速變化和拓撲變化使得服務遷移面臨更高的挑戰。特別是在跨網絡遷移的過程中,服務中斷時間和遷移延遲往往較長,這對實時性要求高的應用(如自動駕駛、虛擬現實等)來說,不能滿足時延敏感性要求。
技術實現思路
1、為了解決上述問題,本發明設計了一種衛星邊緣計算中星地協同服務遷移方法,基于時間注意力和bigru的技術,充分提取歷史數據中的時序模式,再結合地面基站和衛星網絡的協作,從而提升服務遷移的決策精度,減少遷移延遲和通信延遲,確保跨網絡服務遷移的高效性和連續性。
2、本發明的技術方案如下:一種衛星邊緣計算中星地協同服務遷移方法haddpg,構建信息提取結構進行信息提取,得到關鍵時序信息;設計一種星地協同的服務遷移多智能體強化學習算法,所述關鍵時序信息作為星地協同的服務遷移多智能體強化學習算法中的觀測值,強化學習得到最優服務遷移策略。
3、所述信息提取結構包括時間注意力機制和雙向門控循環單元,提取歷史數據中的時序模式,通過引入對關鍵時間步的注意力,結合雙向門控循環單元捕捉雙向時序依賴性,提高時序數據的預測能力;所述時間注意力機制通過計算每個時間步長的狀態和動作信息的注意力權重;所述雙向門控循環單元分別從過去和未來兩個方向同時處理數據,捕捉到歷史數據中的長短期依賴關系、趨勢。
4、所述時間注意力機制進行如下操作:
5、a)關鍵時刻識別與注意力權重分配:在服務遷移過程中,時間注意力機制對每個時間步的狀態信息和動作信息進行權重計算;
6、b)權重動態調整與適應性遷移決策:時間注意力機制根據實時狀態動態調整權重,當用戶即將離開當前衛星覆蓋范圍時,注意力機制會分配更高的權重;
7、所述時間注意力機制選擇性地關注歷史數據中最關鍵的部分,捕捉事件中的狀態相關性,構建一個時間視圖,突出跨時間的關系與模式。
8、所述雙向門控循環單元包括前向門控循環單元和后向門控循環單元,進行雙向信息捕捉及其綜合隱藏狀態表示;
9、所述時間視圖通過雙向門控循環單元進行雙向處理,同時考慮數據的過去和未來依賴關系,捕捉隱藏的趨勢和模式,有效整合時間信息與序列依賴;
10、在服務遷移過程中,所述前向門控循環單元根據用戶過去的狀態信息和網絡鏈路變化來預測當前時刻的狀態,提取出用戶在未來時刻的狀態信息;
11、所述后向門控循環單元在時間序列的最后一個時間步開始向前處理信息,捕捉未來時間步對當前時間步的潛在影響;后向門控循環單元通過預測未來網絡拓撲的變化,提前調整服務遷移決策,減少服務中斷時間和遷移延遲;
12、通過將前向門控循環單元和后向門控循環單元的隱藏狀態拼接,得到一個綜合的隱狀態表示ht,作為觀測值。
13、所述信息提取結構具體處理過程如下:
14、輸入序列x={x1,x2,...,xt},包含每個時間步的狀態信息st和動作信息at,每個時間步的輸入xt=[st;at];在服務遷移場景中,狀態信息st包括當前用戶的位置、服務器的狀態信息、帶寬、用戶接入延遲,動作信息at代表服務器在該時刻執行的動作;
15、首先使用一個前饋神經網絡對每個時間步的輸入序列xt進行處理得到注意力得分,具體計算公式為:
16、et=vttanh(wxt+b)????(1)
17、其中,vt是權重向量,w是權重矩陣,b是偏置向量;
18、將注意力得分轉化為權重:注意力得分et通過softmax函數轉化為注意力權重αt,確保權重的總和為1,從而使得每個時間步的貢獻在總遷移決策中有一個比例:
19、
20、時間注意力表示的加權計算:通過注意力權重αt對輸入序列進行加權求和,
21、從而得到時間注意力表示ct:
22、ct=αtxt??(3)
23、前向門控循環單元處理時間步從1到t的數據,生成前向隱藏狀態
24、
25、后向門控循環單元處理時間步從t到1的數據,生成后向隱藏狀態
26、
27、雙向門控循環單元使用三個主要的門控機制:更新門zt、重置門rt和候選隱藏狀態通過這些門控機制來控制信息流動和狀態更新;具體計算過程如下:
28、zt=σ(wzct+uzht-1+bz)?(6)
29、σ是sigmoid激活函數,wz和uz是權重矩陣,ct是當前輸入,ht-1是前一時刻的隱藏狀態,bz是偏置項;更新門控制了前一時刻狀態和當前候選狀態之間的平衡;
30、rt=σ(wrct+urht-1+br)?(7)
31、
32、前向隱藏狀態和后向隱藏狀態拼接在一起,形成雙向隱藏狀態:
33、
34、隱藏狀態作為星地協同的服務遷移多智能體強化學習算法中中智能體的觀測值。
35、所述星地協同的服務遷移多智能體強化學習算法包括兩種局部actor-critic結構和全局critic網絡;兩種局部actor-critic結構分別為地面基站actor-critic結構和衛星網絡actor-critic結構;
36、所述地面基站和衛星網絡在狀態信息上異構;地面基站的狀態信息包括本地網絡的負載、帶寬、計算能力、用戶位置、服務需求;衛星網絡的狀態信息包括衛星的軌道信息、信號質量、覆蓋范圍、星地鏈路帶寬、衛星可用計算資源;
37、所述全局critic網絡用于評估局部服務遷移決策在整體上的效果,并將評估結果傳遞給各局部actor-critic網絡。
38、所述星地協同的服務遷移多智能體強化學習算法具體為:
39、每個actor-critic結構中,智能體通過局部狀態和動作信息來更新其策略,以實現局部的最優決策;通過引入全局critic網絡,所有智能體的決策得到全局評估與協調;所述全局critic網絡對所有智能體的行為進行綜合評估,并提供全局反饋,確保各智能體在局部優化的同時,能夠兼顧全局網絡性能目標;
40、地面基站局部actor-critic結構中,每個agent代表不同的地面基站,用于管理基站網絡中的服務遷移決策,考慮基站的計算資源、存儲資源、帶寬和用戶需求;actor用于生成地面基站的遷移動作,local?critic用于評估地面基站的遷移決策;當用戶從一個地面基站的覆蓋范圍移動到另一個地面基站的覆蓋范圍時,觸發基站的服務遷移的可能性;
41、衛星網絡局部actor-critic結構中,用于處理衛星網絡的遷移決策,考慮衛星的軌道、衛星間的傳輸能力和有限的計算和存儲資源;當用戶連接的衛星離開覆蓋范圍時,觸發衛星間的服務遷移;
42、全局critic網絡對地面基站和衛星網絡之間的遷移決策進行全局范圍內的反饋;
43、對于地面基站,全局critic網絡評估地面基站的服務遷移決策對于整個網絡的貢獻,包括服務中斷時間、延遲;對于衛星網絡,全局critic網絡評估衛星網絡在服務遷移過程中對延遲、鏈路質量、資源消耗的影響;全局critic網絡進行全局協同優化:全局critic網絡評估每個局部決策的效果,并根據實際的網絡狀態反饋給各自的actor。
44、基于局部獎勵值和全局獎勵值,通過評估地面基站和衛星網絡二者的服務時延和能量消耗,計算各自的局部獎勵值,并采用全局critic架構協調兩者行為,以最小化整體用戶服務時延;
45、a)地面基站的局部獎勵值計算:在計算地面基站的局部獎勵值時,考慮服務時延和能耗兩個因素;地面基站的局部獎勵值根據其服務的用戶設備ue的服務時延和能耗計算;服務時延和能耗越低,地面基站的獎勵值越高;計算公式為:
46、
47、其中,latencyue表示地面基站服務的用戶設備的服務時延,energybs表示地面基站服務的用戶設備的能量消耗;其中latencyue是由計算時延通信時延以及遷移時延組成,計算如下:
48、
49、其中energybs是地面基站計算所消耗的能量與地面用戶通信所消耗的能量以及地面基站間服務遷移所消耗的能量組成,計算如下:
50、
51、b)衛星網絡的局部獎勵值計算:在計算衛星網絡的局部獎勵值時,考慮兩個關鍵因素:服務時延和能量消耗;衛星網絡的局部獎勵值不僅根據其服務的用戶設備ue的服務時延來評估,時延越短,獎勵越高;同時還會考慮衛星的能量消耗,能量消耗越低,獎勵值越高;
52、
53、其中,latencyue表示衛星網絡服務器的服務時延,energysat表示衛星服務的用戶的能量消耗;energysat是衛星網絡計算所消耗的能量與地面用戶通信所消耗的能量以及衛星網絡間服務遷移所消耗的能量組成,計算如下:
54、
55、c)全局critic結構的獎勵值計算:
56、rglobal=-ζbs×latencybs-τbs×energybs-ηsat×latencysat-θsat×energysat??(16)
57、其中,latencybs表示地面基站的服務時延,energybs表示地面基站的能量消耗,latencysat表示衛星網絡服務器的服務時延,energysat表示衛星網絡服務的用戶的能量消耗。
58、本發明的有益效果:與現有邊緣計算中的服務遷移算法相比,本發明提出了一種衛星邊緣計算中星地協同服務遷移方法,并結合時間注意力機制和雙向門控循環單元進行信息提取。為了提升服務遷移決策的質量,本發明對現有信息提取方法進行了改進:采用時間注意力機制通過計算每個時間步的狀態和動作信息的注意力權重,確保關鍵時序信息的突出;結合bigru捕捉歷史數據中的長短期依賴關系,全面提升時序數據的預測能力。這樣智能體能夠在局部環境中基于提取的時序信息做出更加精準的決策。本發明還在地面基站和衛星網絡的狀態信息上引入異構性設計,該異構性設計使得每個智能體能夠基于其具體的環境和需求進行決策,同時,全局critic網絡用于評估局部服務遷移決策在整體上的效果,并將評估結果傳遞給各局部actor-critic網絡,確保局部決策的協同與優化。這種設計有效解決了傳統算法中的適應性不足和收斂困難問題,并在服務遷移過程中減少延遲與資源消耗,提升了系統的整體性能。經過與基線算法的對比實驗,本算法在獎勵值、遷移成本、算法收斂程度和用戶獲取服務時延方面均表現出顯著優勢。