本公開涉及應(yīng)急通信節(jié)點(diǎn)要素部署,特別涉及基于強(qiáng)化學(xué)習(xí)的應(yīng)急通信節(jié)點(diǎn)要素部署方法及系統(tǒng)。
背景技術(shù):
1、應(yīng)急通信網(wǎng)絡(luò),一般是指在發(fā)生重大自然災(zāi)害或者突發(fā)緊急情況時(shí),綜合利用各種通信資源,為保障應(yīng)急處置和必要通信而構(gòu)建的特殊通信網(wǎng)絡(luò)。一個(gè)應(yīng)急通信節(jié)點(diǎn)內(nèi)部通常由7種要素構(gòu)成,包括:現(xiàn)場指揮中心、交換機(jī)、衛(wèi)星車、微波發(fā)射機(jī)、光端機(jī)、移動(dòng)通信車以及短波車。其中,衛(wèi)星、微波、光纜三種大帶寬通信手段作為傳輸網(wǎng),為災(zāi)區(qū)與后方指揮中心聯(lián)絡(luò)提供通信服務(wù);短波網(wǎng)和移動(dòng)通信網(wǎng)絡(luò)可作為指揮網(wǎng),為救災(zāi)現(xiàn)場區(qū)域用戶提供無線接入服務(wù),將前線信息實(shí)時(shí)回傳至現(xiàn)場指揮中心。隨著自然災(zāi)害頻率的不斷增長,為保證災(zāi)區(qū)不變?yōu)椤靶畔⒐聧u”,必須構(gòu)建穩(wěn)定、可靠的應(yīng)急通信網(wǎng)絡(luò)。當(dāng)前應(yīng)急通信網(wǎng)絡(luò)是由多種應(yīng)急通信手段,構(gòu)建出的多維一體異構(gòu)網(wǎng)絡(luò)。這使得現(xiàn)場指揮中心既可通過傳輸網(wǎng)與后方指揮中心建立大帶寬、可靠的傳輸鏈路,也可在救災(zāi)現(xiàn)場建立大范圍的指揮網(wǎng)絡(luò)覆蓋。
2、為了保證應(yīng)急通信節(jié)點(diǎn)的高效運(yùn)行,樞紐內(nèi)各要素的部署往往需綜合考慮地形、通信范圍、災(zāi)情方向以及要素互擾等多種因素。這導(dǎo)致應(yīng)急通信指揮員往往不能在較短時(shí)間內(nèi)規(guī)劃出合理的應(yīng)急通信網(wǎng)絡(luò)要素的配置方案,以指導(dǎo)應(yīng)急通信網(wǎng)絡(luò)快速地開設(shè)。
3、應(yīng)急通信節(jié)點(diǎn)內(nèi)包含多種通信要素。各要素的部署位置將直接決定樞紐的整體通信效果。人工的方式進(jìn)行部署,往往需要較多的知識(shí)儲(chǔ)備和較長的配置時(shí)間。這導(dǎo)致指揮員在短時(shí)間內(nèi)無法設(shè)計(jì)出高質(zhì)量的部署方案。
4、傳統(tǒng)針對(duì)通信網(wǎng)絡(luò)規(guī)劃的研究已經(jīng)相當(dāng)多,主要是采用最小生成樹、模擬退火算法以及遺傳算法等啟發(fā)式算法對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行優(yōu)化。但對(duì)于通信網(wǎng)絡(luò)規(guī)劃復(fù)雜問題,單一的啟發(fā)式算法會(huì)陷入局部最優(yōu)解中,無法達(dá)到理想的規(guī)劃效果。殷昌盛等在論文中提出,將網(wǎng)絡(luò)和節(jié)點(diǎn)等概念遷移到棋盤和棋子中,采用alpha?zero的深度強(qiáng)化學(xué)習(xí)算法對(duì)應(yīng)急通信網(wǎng)絡(luò)進(jìn)行規(guī)劃。但以上都是對(duì)通信網(wǎng)絡(luò)的高度抽象,針對(duì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行優(yōu)化,很少考慮到地形等外部因素對(duì)網(wǎng)絡(luò)造成的影響。同時(shí),深度強(qiáng)化算法使用的神經(jīng)網(wǎng)絡(luò)多為卷積神經(jīng)網(wǎng)絡(luò)cnn架構(gòu),輸出層為全連接層,這極大限制了智能體可供選擇的操作空間。
技術(shù)實(shí)現(xiàn)思路
1、本公開旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一,提出了基于強(qiáng)化學(xué)習(xí)的應(yīng)急通信節(jié)點(diǎn)要素部署方法及系統(tǒng)。
2、第一方面,本公開提供了基于強(qiáng)化學(xué)習(xí)的應(yīng)急通信節(jié)點(diǎn)要素部署方法,包括:
3、s1,基于深度強(qiáng)化學(xué)習(xí),采用具有編譯碼架構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò)作為價(jià)值網(wǎng)絡(luò),根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì);
4、s2,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型;
5、s3,依據(jù)應(yīng)急區(qū)域構(gòu)建路網(wǎng)地圖,輸入至訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,輸出要素部署方案。
6、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
7、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與當(dāng)前請(qǐng)求部署的要素類型有關(guān),在部署時(shí),先初始部署要素為現(xiàn)場指揮中心,再部署交換機(jī),其余衛(wèi)星車、微波發(fā)射機(jī)、光端機(jī)、移動(dòng)通信車以及短波車這5種要素隨機(jī)順序進(jìn)行部署。
8、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
9、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與地理環(huán)境有關(guān),在部署時(shí),應(yīng)急通信網(wǎng)絡(luò)各要素為大型車輛,所以要素開設(shè)地域的選址也為道路兩側(cè),對(duì)道路區(qū)域t設(shè)置獎(jiǎng)勵(lì)r1為1,在其他區(qū)域不設(shè)置獎(jiǎng)勵(lì)。
10、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
11、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與災(zāi)情方向有關(guān),在部署時(shí),為了降低災(zāi)情對(duì)應(yīng)急通信網(wǎng)絡(luò)要素帶來的負(fù)面影響,各要素因盡量遠(yuǎn)離災(zāi)情中心,災(zāi)情影響范圍設(shè)為r2;
12、
13、其中,災(zāi)情到要素的距離為d。
14、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
15、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與要素間通信距離有關(guān),在部署時(shí),獎(jiǎng)勵(lì)函數(shù)r3如下:
16、
17、其中,兩個(gè)要素之間距離為d,要素之間的通信距離區(qū)間為[dmax,dmin];標(biāo)準(zhǔn)方差為c。
18、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
19、對(duì)于光端機(jī)來說,光纜引接點(diǎn)位置十分關(guān)鍵。為降低傳輸衰減、減少光纜布線復(fù)雜度、便于維護(hù)管理,通常將光端機(jī)就近在光纜引接點(diǎn)附近進(jìn)行開設(shè)。設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r4如下:
20、
21、其中,光端機(jī)到光纜引接點(diǎn)的距離為d。
22、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
23、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與微波方向有關(guān),在部署時(shí),利用電磁波自由空間衰減公式,根據(jù)微波地面接收站到微波發(fā)射機(jī)部署地點(diǎn)之間傳輸距離計(jì)算傳播損耗l,并將其作為微波方向獎(jiǎng)勵(lì)r5;
24、
25、其中,gt,gr,c,f分別為微波發(fā)射和接收天線增益、光速、載波頻率。
26、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
27、采用深度強(qiáng)化學(xué)習(xí)時(shí),智能體所處的狀態(tài)與覆蓋率有關(guān),在部署時(shí),覆蓋率獎(jiǎng)勵(lì)r6如下:
28、
29、其中,iou為要素的通信覆蓋范圍acom與受災(zāi)區(qū)域adis的交并比。
30、優(yōu)選地,所述s1中的根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì),具體包括:
31、
32、其中,rj為各獎(jiǎng)勵(lì)分項(xiàng),βj為各獎(jiǎng)勵(lì)分項(xiàng)對(duì)應(yīng)的修正系數(shù)。
33、優(yōu)選地,所述s2具體包括:
34、s21,從經(jīng)驗(yàn)回放區(qū)b中隨機(jī)小批量選取h個(gè){si,ai,ri,si+1},用于訓(xùn)練神經(jīng)網(wǎng)絡(luò);
35、s22,對(duì)動(dòng)作空間a進(jìn)行采樣,步長為2,采樣后動(dòng)作空間將有n2/4個(gè)動(dòng)作,而后將提取出其中道路和具有部署能力區(qū)域,進(jìn)行價(jià)值的計(jì)算;其中,動(dòng)作空間a包含(n×n)個(gè)動(dòng)作;
36、s23,使用目標(biāo)網(wǎng)絡(luò)計(jì)算si+1狀態(tài)下最佳的動(dòng)作amax=argmaxqw(si+1,a),并計(jì)算該動(dòng)作在目標(biāo)網(wǎng)絡(luò)下的價(jià)值[qw-(si+1,amax)],作為該點(diǎn)動(dòng)作at的價(jià)值,動(dòng)作空間a′中所有動(dòng)作的最大價(jià)值qmax構(gòu)成集合q′t+1;
37、s24,采用雙線性插值,將q′t+1的大小變回(n×n);
38、s25,取動(dòng)作空間a′具有最大價(jià)值的動(dòng)作at+1max,交予目標(biāo)網(wǎng)絡(luò)進(jìn)行計(jì)算,目標(biāo)網(wǎng)絡(luò)參數(shù)w-,價(jià)值網(wǎng)絡(luò)參數(shù)為w,qw為價(jià)值網(wǎng)絡(luò),qw-為目標(biāo)網(wǎng)絡(luò),得到預(yù)估的下一步價(jià)值q′,采用時(shí)序差分算法,計(jì)算目標(biāo)價(jià)值矩陣(r+γq′);
39、q′=qw-(st+1,argmaxqw(st+1,a))
40、s26,通過比較估計(jì)價(jià)值矩陣q與目標(biāo)價(jià)值矩陣(r+γq′)來量化模型的誤差,設(shè)計(jì)模型損失函數(shù)loss,并采用隨機(jī)梯度下降法,更新價(jià)值網(wǎng)絡(luò)參數(shù);
41、
42、其中,rj為各獎(jiǎng)勵(lì)分項(xiàng),st,at,rt分別為t時(shí)刻的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),γ為折扣因子。
43、本發(fā)明還提供了基于強(qiáng)化學(xué)習(xí)的應(yīng)急通信節(jié)點(diǎn)要素部署系統(tǒng),所述系統(tǒng)用于實(shí)現(xiàn)所述的基于強(qiáng)化學(xué)習(xí)的應(yīng)急通信節(jié)點(diǎn)要素部署方法,包括:
44、建模模塊,配置為基于深度強(qiáng)化學(xué)習(xí),采用具有編譯碼架構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò)作為價(jià)值網(wǎng)絡(luò),根據(jù)不同環(huán)境因素及當(dāng)前請(qǐng)求部署的要素類型進(jìn)行智能體狀態(tài)設(shè)計(jì);
45、訓(xùn)練模塊,配置為訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型;
46、輸出模塊,配置為依據(jù)應(yīng)急區(qū)域構(gòu)建路網(wǎng)地圖,輸入至訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,輸出要素部署方案。
47、有益效果:
48、將應(yīng)急通信網(wǎng)絡(luò)要素位置部署問題視為一個(gè)馬爾可夫決策過程,應(yīng)急通信網(wǎng)絡(luò)各要素的部署只取決于當(dāng)前的狀態(tài)。在高分辨率的路網(wǎng)地圖的基礎(chǔ)上,通過智能體對(duì)環(huán)境的大量探索和學(xué)習(xí),深度強(qiáng)化學(xué)習(xí)算法能夠自動(dòng)發(fā)現(xiàn)開設(shè)環(huán)境與應(yīng)急通信網(wǎng)絡(luò)要素之間、各應(yīng)急通信網(wǎng)絡(luò)要素之間的復(fù)雜關(guān)系,并據(jù)此生成優(yōu)化的應(yīng)急通信網(wǎng)絡(luò)要素部署位置,從而提升應(yīng)急通信網(wǎng)絡(luò)要素配置方案的可靠性。該算法將全卷積神經(jīng)網(wǎng)絡(luò)作為價(jià)值網(wǎng)絡(luò),并使用經(jīng)驗(yàn)回放區(qū)中積累的數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。相較于人工部署,實(shí)驗(yàn)結(jié)果表明,提出的方法能較好地完成應(yīng)急通信節(jié)點(diǎn)要素規(guī)劃任務(wù),極大地提升了應(yīng)急通信節(jié)點(diǎn)的部署效率。