專利名稱:動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及無線通信技術(shù)中的認(rèn)知無線電領(lǐng)域,具體講是基于多智能體強化學(xué)習(xí)實現(xiàn)在動態(tài)頻譜環(huán)境中頻率功率聯(lián)合分配的新方法。
背景技術(shù):
目前,隨著無線通信業(yè)務(wù)種類的快速增長,對無線頻譜資源的需求也呈指數(shù)增長, 使得未來無線通信中的頻譜資源“匱乏”問題日益突出。認(rèn)知無線電技術(shù)在保證主用戶服務(wù)質(zhì)量的條件下以“伺機接入”的方式利用授權(quán)用戶的空閑頻段,大大提高了頻譜的使用效率,是解決“頻譜匱乏”問題的有效方法。認(rèn)知網(wǎng)絡(luò)中(cognitive radio networks簡稱 CRN)的頻率功率聯(lián)合分配技術(shù)通過合理的分配各認(rèn)知用戶或次級用戶(secondary user, 簡稱SU)所使用的頻率和功率,盡可能的減少SU之間的干擾,提升認(rèn)知無線網(wǎng)絡(luò)的吞吐量。 因此,頻率功率聯(lián)合分配技術(shù)是保證認(rèn)知無線網(wǎng)絡(luò)傳輸效率的前提和基礎(chǔ)。頻率功率聯(lián)合分配是實現(xiàn)認(rèn)知網(wǎng)絡(luò)共享CRN頻譜資源的主要方法之一。通過合理配置SU的接入信道以及發(fā)射功率,實現(xiàn)在不干擾主用戶(primary user,簡稱PU)的前提下,優(yōu)化認(rèn)知網(wǎng)絡(luò)的吞吐量性能。然而與非認(rèn)知系統(tǒng)的資源分配不同,由于PU占用狀態(tài)的動態(tài)變化,認(rèn)知用戶的可用頻譜資源同樣是動態(tài)的,因此SU必須根據(jù)PU狀態(tài)實時的調(diào)整策略。此時給聯(lián)合分配方法的設(shè)計帶來許多新的挑戰(zhàn)。強化學(xué)習(xí)(reinforcement learning,簡稱RL)采用對外界環(huán)境和自身決策不斷探測的方式,獲取在動態(tài)環(huán)境中,能最優(yōu)化長遠(yuǎn)收益的決策。通過采用RL學(xué)習(xí)方法,單個SU 能夠適應(yīng)頻譜資源的動態(tài)性,實現(xiàn)最大化長遠(yuǎn)收益的頻率功率聯(lián)合決策。然而在多個SU并存時,由于各SU的頻率功率聯(lián)和決策互相影響,互相制約,且處于動態(tài)變化之中,因此RL學(xué)習(xí)方法的性能將大打折扣,甚至無法收斂。多智能體強化學(xué)習(xí)方法(multi-agent reinforcement learning,簡稱MARL)考慮了在多個學(xué)習(xí)者共存時,對環(huán)境的動態(tài)變化和其它學(xué)習(xí)者策略動態(tài)變化的學(xué)習(xí)問題。其主要思想是將RL學(xué)習(xí)方法中的單個用戶決策學(xué)習(xí)擴展至多個用戶的聯(lián)合決策學(xué)習(xí),因此能有效地解決單個用戶決策學(xué)習(xí)的低效性和不穩(wěn)定性。近年來MARL方法在無線資源分配領(lǐng)域得到了廣泛應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明的目的是針對PU占用信道狀態(tài)動態(tài)變化時,多個SU共存的CRN網(wǎng)絡(luò)中的頻率功率聯(lián)和分配問題,提出一種動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法。本發(fā)明的技術(shù)方案是一種動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法,實現(xiàn)動態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時隙結(jié)構(gòu)包括三個時隙感知決策時隙、傳輸時隙和確認(rèn)時隙;感知決策時隙實現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時隙的頻率功率聯(lián)和決策;傳輸時隙實現(xiàn)信息傳輸,并且在接收端估計鏈路增益,計算當(dāng)前回報值和度量所受干擾大??;確認(rèn)時隙用于接收ACK信號、鏈路增益、當(dāng)前回報值和所受干擾大小的反饋信息,并且更新多智能體強化學(xué)習(xí)過程中所需要的行為回報函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計值。一種動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法,包括下列步驟步驟1.參數(shù)初始化,完成以下工作1. 1網(wǎng)絡(luò)中每個認(rèn)知鏈路i,i e {1,...,N}初始化其行為回報函數(shù)即Q函數(shù)Qij0 (x, fw) = 0, χ e χ, f1 e Fi其中χ表示狀態(tài)變量,而X表示所有狀態(tài)集合,#表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策,而Fi則表示聯(lián)和頻率選擇fi所有可能組合的聯(lián)合頻率決策集合;1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表Iij0 (x, f1) = N0, X e X, f1 e Fi其中Ntl表示表示噪聲功率;1. 3初始化其他認(rèn)知鏈路頻率策略的估計值元0(x,y;.)= l/|巧I,N、,jti其中。表示認(rèn)知鏈路j的頻率選擇,F(xiàn)j表示認(rèn)知鏈路j可選的頻率集合,I · I表示求解集合的勢,If」表示用戶j可選頻率集的大??;步驟2.感知決策時隙之頻率決策實現(xiàn)主用戶狀態(tài)的感知和認(rèn)知鏈路的頻率決策,通過執(zhí)行以下分布式方法實現(xiàn)在t,t = 0,1,2,...次迭代中,首先,每個認(rèn)知鏈路i,i e {1,...,N}通過執(zhí)行
2. 1求解出針對每一個狀態(tài)和聯(lián)合頻率決策的平均Q函數(shù);然后基于2. 1獲取的平均Q函數(shù),通過執(zhí)行2. 2求解認(rèn)知鏈路的頻率策略;根據(jù)鏈路的頻率策略,執(zhí)行2. 3獲取最終的頻率決策;2. 1計算平均Q函數(shù)這(x,/)
權(quán)利要求
1.一種動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法,其特征在于實現(xiàn)動態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時隙結(jié)構(gòu)包括三個時隙感知決策時隙、傳輸時隙和確認(rèn)時隙;感知決策時隙實現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時隙的頻率功率聯(lián)和決策;傳輸時隙實現(xiàn)信息傳輸,并且在接收端估計鏈路增益,計算當(dāng)前回報值和度量所受干擾大??;確認(rèn)時隙用于接收ACK信號、鏈路增益、當(dāng)前回報值和所受干擾大小的反饋信息,并且更新多智能體強化學(xué)習(xí)過程中所需要的行為回報函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計值。
2.根據(jù)權(quán)利要求1所述的動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法,其特征在于,包括下列步驟步驟1.參數(shù)初始化,完成以下工作·1.1網(wǎng)絡(luò)中每個認(rèn)知鏈路i,i e {1,...,N}初始化其行為回報函數(shù)即Q函數(shù)Α,“χ, f1) = 0, χ e X, f1 e Fi其中χ表示狀態(tài)變量,而X表示所有狀態(tài)集合,f"表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策,而Fi則表示聯(lián)和頻率決策f"所有可能組合的聯(lián)合頻率決策集合;·1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表 Iii0 (X, = N0, X e X,f1 e Fi 其中Ntl表示表示噪聲功率;·1.3初始化其他認(rèn)知鏈路頻率策略的估計值
全文摘要
一種動態(tài)頻譜環(huán)境中基于多智能體強化學(xué)習(xí)的頻率功率聯(lián)合分配方法,實現(xiàn)動態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時隙結(jié)構(gòu)包括三個時隙感知決策時隙、傳輸時隙和確認(rèn)時隙;感知決策時隙實現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時隙的頻率功率聯(lián)和決策;傳輸時隙實現(xiàn)信息傳輸,并且在接收端估計鏈路增益,計算當(dāng)前回報值和度量所受干擾大??;確認(rèn)時隙用于接收ACK信號、鏈路增益、當(dāng)前回報值和所受干擾大小的反饋信息,并且更新多智能體強化學(xué)習(xí)過程中所需要的行為回報函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計值。本發(fā)明能夠在動態(tài)的頻譜環(huán)境中實現(xiàn)實時的,性能優(yōu)越的頻率功率聯(lián)和分配。
文檔編號H04W72/04GK102448070SQ201210006680
公開日2012年5月9日 申請日期2012年1月11日 優(yōu)先權(quán)日2012年1月11日
發(fā)明者劉鑫, 吳啟暉, 王金龍, 鄭學(xué)強 申請人:中國人民解放軍理工大學(xué)