本發明屬于無線通信,涉及衛星通信,具體涉及一種多波束衛星通信系統資源分配方法。
背景技術:
1、近年來,多波束低軌道衛星網絡由于其提供全球覆蓋、滿足多樣化業務需求和抵抗重大自然災害的能力,已成為地面蜂窩網絡的有效補充。為提高多波束低軌道衛星網絡的資源利用率和系統整體性能,對其進行波束照明優化和無線資源分配是有效的解決方案,通過為用戶分配不同的時頻資源和功率資源,以最大化滿足用戶不同的業務需求。然而,由于衛星運動引起的網絡拓撲的動態變化、用戶業務需求地理分布不均勻以及不斷增長的用戶需求和有限的資源之間的矛盾,使得多波束低軌道衛星系統的波束照明和資源分配問題面臨挑戰,如何設計高效的波束照明、波束功率分配和簇內波束賦形策略以實現系統性能提升成為重要的研究課題。
2、現有研究已考慮多波束衛星通信系統的資源分配問題,但較少研究針對多個多波束低軌道衛星場景下考慮無法同時服務所有用戶以及系統平均性能的優化,導致資源分配方案性能受限。
技術實現思路
1、有鑒于此,本發明的目的在于提供一種多波束衛星通信系統資源分配方法,針對包含多個多波束低軌道衛星和多個地面用戶的通信系統,建模系統累積獎勵為優化目標,優化確定波束照明、波束功率分配和簇內波束賦形策略,提高系統綜合性能。
2、為達到上述目的,本發明提供如下技術方案:
3、一種多波束衛星通信系統資源分配方法,具體包括以下步驟:
4、s1:建模衛星通信系統模型;
5、s2:確定用戶分簇策略;
6、s3:建模波束照明變量及功率分配變量;
7、s4:建模用戶速率模型;
8、s5:建模用戶業務模型及衛星隊列模型;
9、s6:建模用戶簇待傳輸數據量及系統成本函數;
10、s7:建模系統資源分配約束條件;
11、s8:建模系統狀態、動作和獎勵;
12、s9:構建并訓練階段性策略梯度ppg網絡;
13、s10:利用訓練完成的ppg網絡確定系統資源分配策略。
14、進一步,步驟s1中,建模衛星通信系統模型,具體包括:系統包含多個多波束低軌道衛星及多個地面用戶,令m表示低軌衛星的數量,sm表示第m個衛星,每個衛星都配備一個均勻平面陣,規模大小為ns=nx×ny,每個衛星可以同時產生n個波束,令k表示地面用戶的數量,uk表示第k個用戶,每個用戶均為單天線用戶;令ptot表示單個衛星的總功率,pmax表示單個衛星波束的最大發送功率;將系統時間劃分為t個連續等長的時隙,時隙長度為τ;令qm(t)=[xm(t),ym(t),hm(t)]t表示t時隙sm的坐標,qk=[xk,yk,0]t表示uk的坐標;令b表示衛星波束的總帶寬,假設單個衛星的所有波束采用正交方式占用n個時頻資源塊;
15、建模衛星信道模型,具體包括:令hm,k(t)表示t時隙sm與uk之間鏈路的信道增益,可建模為其中gm,k(t),υm,k,τm,k和νm,k分別為t時隙sm到uk鏈路的復增益、多普勒頻移、傳播時延和陣列響應向量,fc為載波頻率;gm,k(t)可建模為其中δm,k(t)表示t時隙sm和uk之間的萊斯衰落因子,c和dm,k(t)分別表示sm的發送天線增益、uk的接收天線增益、光速和t時隙sm與uk之間的距離;νm,k可建模為其中,和分別表示x軸和y軸方向的陣列響應向量,表示克羅內克積。
16、進一步,步驟s2中,確定用戶分簇策略,具體包括:令rmax表示衛星波束覆蓋半徑,應用均值漂移算法設計用戶分簇策略,其具體步驟如下:
17、(1)初始化:令φ表示未分簇用戶的集合,即φ={uk,1≤k≤k},ci表示第i個簇的用戶集合,1≤i<k,令i=1;
18、(2)選擇初始中心點:隨機選擇一個未分簇的用戶,將其位置作為初始中心點,如選擇uk∈φ,將qk作為ci的初始中心點,記為
19、(3)確定初始簇成員:計算未分簇用戶與的距離,若則將uk′添加至ci,即ci=ci∪{uk′},令li表示ci內的用戶數;
20、(4)更新簇中心點:令mi表示ci的均值漂移向量,可建模為:其中為高斯核函數,σ為高斯核函數參數;基于更新ci的中心點;
21、(5)更新簇成員:重復步驟(3)和(4),直至mi=0;更新ci,刪除ci中與的距離大于rmax的用戶,也即,若ci=ci\{uk′};更新φ,刪除已分簇用戶,若uk′∈ci,則φ=φ\{uk′};
22、(6)判斷初始分簇算法是否終止:判斷是否存在未分簇的uk′,若則令i=i+1,返回步驟(2),否則,執行步驟(7),記此時用戶簇總數為i;
23、(7)計算成簇策略評估函數:基于簇內和簇間距離確定成簇性能評估函數,令si表示ci的分散度,定義為ci內所有用戶到中心點的平均距離,可建模為令表示ci與cj之間的距離,可建模為令fi,j為ci與cj之間的相似度度量,可建模為令fi表示ci的評估函數,可建模為令f表示成簇策略評估函數,可建模為
24、(8)判斷成簇策略更新條件:令fth為預先定義的評估函數閾值,若f≤fth,算法終止,當前分簇結果即為最終結果,輸出用戶分簇策略βi,k∈{0,1},即若uk∈ci,則βi,k=1,反之βi,k=0;若f>fth,令σ=ασ,0<α<1,返回步驟(1)。
25、進一步,步驟s3中,建模波束照明變量,具體包括:建模αm,n,i(t)∈{0,1}為t時隙sm的波束n與ci之間的照明變量,若t時隙sm的波束n照亮ci,則αm,n,i(t)=1,反之αm,n,i(t)=0;
26、建模功率分配變量,具體包括:建模t時隙sm的波束功率分配矢量為pm(t)=[pm,1(t),pm,2(t),…pm,n(t)]t,其中pm,n(t)表示t時隙sm的波束n的發送功率。
27、進一步,步驟s4中,建模用戶速率模型,具體包括:將衛星發給用戶的消息劃分為公有部分和私有部分,將每個簇內所有用戶消息的公有部分統一編碼為公有流,將每個用戶消息的私有部分獨立編碼為用戶私有流;衛星對簇內用戶的公有流和多個私有流分別設計預編碼,并進行復用傳輸,簇內用戶接收到來自衛星的消息后,解碼公有流并應用連續干擾消除sic技術,從接收信號中去除公有流后,各用戶再分別解碼其對應的私有流;
28、令si,c(t)表示t時隙ci內所有用戶消息的公有流,si,k(t)表示t時隙ci內的用戶uk的私有流,令表示t時隙sm與ci通信時的波束賦形矩陣,其中wm,i,c(t)與wm,i,k(t)分別為公有流和uk的私有流的預編碼矢量;t時隙sm發送給ci的信號可建模為t時隙ci內uk接收到來自sm的信號可建模為其中表示加性高斯白噪聲;
29、令γm,i,k,c(t)和γm,i,k(t)分別表示t時隙ci內uk接收到來自sm的信號中公有流和私有流的信干噪比,分別建模為和令rm,i,c(t)表示t時隙sm到ci的公有流傳輸速率,可建模為令rm,i,k(t)表示t時隙sm到ci內uk的私有流傳輸速率,可建模為rm,i,k(t)=blog2(1+γm,i,k(t));令表示t時隙sm到ci內uk的和速率,可建模為
30、進一步,步驟s5中,建模用戶業務模型,具體包括:假設用戶業務流隨機動態到達,且每個時隙到達各用戶的業務量遵循泊松分布;令ak(t)表示uk在t時隙到達的業務量,期望為e[ak(t)]=λkτ,其中λk表示uk業務流的平均到達率;
31、建模衛星隊列模型,具體包括:每個衛星處均配備用戶數據緩存服務器,可將各用戶隨機到達的數據流存儲在相應隊列中,令qmax表示衛星緩沖區最大容量;qm,k(t)表示t時隙末sm中緩存uk數據流的隊列長度,可建模為:
32、
33、進一步,步驟s6中,建模用戶簇待傳輸數據量,具體包括:令om,i(t)表示t時隙sm到ci的待傳輸數據量,可建模為令r(t)表示t時隙系統成本函數,可建模為
34、進一步,步驟s7中,建模系統資源分配約束條件,具體包括:
35、(1)波束照明約束
36、任意時隙每個衛星的單個波束最多只能服務一個用戶簇,則有:
37、
38、任意時隙每個用戶簇最多被一個衛星的一個波束服務,則有:
39、
40、(2)波束發送功率約束
41、任意時隙各衛星多個波束的總發送功率不能超過衛星總的發送功率,則有:
42、
43、任意時隙單個波束存在最大發送功率限制,則有:
44、
45、每個簇中用戶的數據流可分配的功率不能超過波束的發送功率,則有:
46、
47、為在接收端解碼公有流的同時成功實現sic,公有流信號強度應大于私有流和噪聲,則有:
48、
49、其中θth為公有流和私有流與噪聲之間的最小功率差。
50、進一步,步驟s8中,建模系統狀態、動作和獎勵,具體包括:定義t時隙全局狀態空間為st={st,m|1≤m≤m},其中st,m={qm,k(t),hm,k(t)1≤k≤k}表示t時隙sm的狀態;定義t時隙聯合動作空間為at={αm,n,i(t),pm,n(t),wm,i(t)1≤m≤m,1≤n≤n,1≤i≤i},包含波束照明、波束功率分配和簇內波束賦形策略;令r(t)為t時隙系統獎勵函數。
51、進一步,步驟s9中,構建并訓練階段性策略梯度ppg網絡,具體包括:ppg網絡包含策略網絡及價值網絡,令θ及φ分別表示策略網絡和價值網絡的參數;ppg網絡的訓練過程由策略訓練階段和知識蒸餾輔助訓練階段交替進行,其中策略訓練階段使用近端策略優化ppo算法訓練智能體,知識蒸餾輔助訓練階段可將價值網絡的有用信息發送至策略網絡;初始化策略網絡和價值網絡參數及經驗回放緩存池給定初始狀態st,智能體根據策略網絡的輸出π(at|st;θt)執行動作at,與環境交互后獲得獎勵rt,系統轉移到下一狀態st+1,將四元組(st,at,rt,st+1)存入每次網絡參數更新過程中,均從中抽取訓練樣本,交替更新策略網絡和價值網絡的參數;
52、定義策略網絡的損失函數為其中表示當前策略與之前策略在狀態st時采取動作at的概率比,π(at|st;θt)表示當前策略下在狀態st時采取動作at的概率,π(at|st;θold)表示之前策略下在狀態st時采取動作at的概率;a(t)=δt+(γλ)δt+1+…+(γλ)x-t+1δx-1表示t時隙的優勢函數,δt=rt+γvφ(st+1)-vφ(st)表示時間差值誤差,vφ(st)表示狀態st的價值函數,γ∈(0,1)為折扣因子,λ為常數,x為軌跡長度;ε∈(0,1)為截斷系數,clip(μt(θt),1-ε,1+ε)為截斷函數,表示將μt(θt)限制在[1-ε,1+ε]內,以保證策略更新幅度不會過大;采用隨機梯度上升法更新策略網絡的參數θ,其更新公式可建模為θt+1=θt+η·▽θl(θt),其中▽θl(θt)表示l(θt)關于參數θ的梯度,η為學習率;
53、定義價值網絡的損失函數為其中為t時隙的目標價值函數;采用隨機梯度下降法更新價值網絡的參數φ,其更新公式可建模為φt+1=φt-η·▽φl(φt);
54、知識蒸餾輔助訓練階段,定義策略網絡的損失函數為其中l(θt)aux為輔助損失部分,通過利用策略網絡的輔助價值函數vθ(st)學習價值網絡的有用信息,可建模為l(θt)joint的第二項為行為克隆損失部分,βclone為克隆參數,π(·st;θold)為輔助階段開始之前的策略,π(·st;θt)為當前策略,kl(π(·st;θold),π(·st;θt))用于計算π(·st;θold)與π(·st;θt)之間的相對熵;采用隨機梯度下降法分別更新策略網絡的參數θ和價值網絡的參數φ,其更新公式可分別建模為θt+1=θt-η·▽θl(θt)joint和φt+1=φt-η·▽φl(φt)。
55、進一步,步驟s10中,利用訓練完成的ppg網絡確定波束照明、波束功率分配和簇內波束賦形策略,具體包括:在滿足波束照明和波束發送功率約束的條件下,以最大化系統累積獎勵為目標,優化確定資源分配策略,即:
56、
57、其中和分別為最優波束照明、波束功率分配及簇內波束賦形策略。
58、本發明的有益效果在于:本發明方法能夠在保障不同用戶通信需求的情況下,基于波束照明、波束功率分配和簇內波束賦形策略,實現系統累積獎勵最大化,提高系統綜合性能。
59、本發明的其他優點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發明的實踐中得到教導。本發明的目標和其他優點可以通過下面的說明書來實現和獲得。