1.一種衛星邊緣計算中星地協同服務遷移方法,其特征在于,構建信息提取結構進行信息提取,得到關鍵時序信息;設計一種星地協同的服務遷移多智能體強化學習算法,所述關鍵時序信息作為星地協同的服務遷移多智能體強化學習算法中的觀測值,強化學習得到最優服務遷移策略。
2.根據權利要求1所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述信息提取結構包括時間注意力機制和雙向門控循環單元,提取歷史數據中的時序模式,通過引入對關鍵時間步的注意力,結合雙向門控循環單元捕捉雙向時序依賴性,提高時序數據的預測能力;所述時間注意力機制通過計算每個時間步長的狀態和動作信息的注意力權重;所述雙向門控循環單元分別從過去和未來兩個方向同時處理數據,捕捉到歷史數據中的長短期依賴關系、趨勢。
3.根據權利要求2所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述時間注意力機制進行如下操作:
4.根據權利要求3所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述雙向門控循環單元包括前向門控循環單元和后向門控循環單元,進行雙向信息捕捉及其綜合隱藏狀態表示;
5.根據權利要求4所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述信息提取結構具體處理過程如下:
6.根據權利要求1所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述星地協同的服務遷移多智能體強化學習算法包括兩種局部actor-critic結構和全局critic網絡;兩種局部actor-critic結構分別為地面基站actor-critic結構和衛星網絡actor-critic結構;所述局部actor-critic結構,分別用于處理地面基站的局部服務遷移決策和衛星網絡的局部服務遷移決策;
7.根據權利要求6所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,所述星地協同的服務遷移多智能體強化學習算法具體為:
8.根據權利要求7所述的衛星邊緣計算中星地協同服務遷移方法,其特征在于,基于局部獎勵值和全局獎勵值,通過評估地面基站和衛星網絡二者的服務時延和能量消耗,計算各自的局部獎勵值,并采用全局critic架構協調兩者行為,以最小化整體用戶服務時延;