麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種車載網(wǎng)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法與流程

文檔序號(hào):11230231閱讀:1678來源:國知局

本發(fā)明屬于計(jì)算機(jī)移動(dòng)云計(jì)算領(lǐng)域,尤其涉及一種車載網(wǎng)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法。



背景技術(shù):

移動(dòng)云計(jì)算(mobilecomputing),是隨著近幾年隨著移動(dòng)終點(diǎn)的迅猛發(fā)展而興起的一種新的云計(jì)算模式。它為移動(dòng)終端用戶,以及云服務(wù)提供商提供了豐富的計(jì)算資源。移動(dòng)終端可以將任務(wù)卸載到云端,云端將計(jì)算的結(jié)果返回移動(dòng)終端以克服移動(dòng)終端計(jì)算能力有限的問題并可以減小移動(dòng)端電量的損耗。

車載網(wǎng)(vehicularad-hocnetwork簡稱vanet)作為自組織網(wǎng)絡(luò)的典型案例,可以通過車與車的通信(v2v)與車到基礎(chǔ)設(shè)施的通信(v2i)來進(jìn)行數(shù)據(jù)共享與任務(wù)卸載。隨著中國城市化進(jìn)程的發(fā)展,越來越多家庭購買汽車以方便家庭出行。汽車廠商的一大買點(diǎn)就是在汽車上裝載了豐富的傳感器與車載設(shè)備,用戶可以使用這些設(shè)備觀看多媒體視頻,享受基于位置的服務(wù)以達(dá)到提高出行體驗(yàn)的目的。而在這些豐富的設(shè)備中,大量設(shè)備是閑置的。“arifs,olarius,wangj,etal.datacenterattheairport:reasoningabouttime-dependentparkinglotoccupancy[j].ieeetransactionsonparallelanddistributedsystems,2012,23(11):2067-2080.”在文章中利用相對(duì)穩(wěn)定,但是資源豐富的停車場作為一個(gè)移動(dòng)的車云中心。“olarius,khalili,abuelelam.takingvanettotheclouds[j].internationaljournalofpervasivecomputingandcommunications,2011,7(1):7-21.”在文章中利用固定的路側(cè)單元作為車載網(wǎng)環(huán)境下的云中心。

云計(jì)算為移動(dòng)終端提供了豐富的資源,但是用戶到云中心有時(shí)候因?yàn)橥ㄐ艓挼膯栴},即使云中心有著強(qiáng)大的計(jì)算能力,但是因?yàn)橥ㄐ诺臅r(shí)延依然使得任務(wù)無法及時(shí)完成。基于此,一種稱為朵云(cloudlet)的技術(shù)應(yīng)運(yùn)而生。”zhangy,niyatod,wangp.offloadinginmobilecloudletsystemswithintermittentconnectivity[j].ieeetransactionsonmobilecomputing,2015,14(12):2516-2529.”論證了即便在時(shí)斷時(shí)續(xù)的鏈接情況下,依然可以將任務(wù)卸載到移動(dòng)朵云。

強(qiáng)化學(xué)習(xí)又稱評(píng)價(jià)學(xué)習(xí),激勵(lì)學(xué)習(xí),是機(jī)器學(xué)習(xí)中與監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)并列的一種重要的學(xué)習(xí)范式,在智能控制領(lǐng)域得到了廣泛的應(yīng)用。它可以有效的解決在開放環(huán)境下為了自己學(xué)習(xí)規(guī)則并達(dá)到長期目標(biāo)最優(yōu)的效果。深度強(qiáng)化學(xué)習(xí),是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的一個(gè)技術(shù),近年來在自動(dòng)駕駛,圍棋(alphago)取得了巨大的成功。深度強(qiáng)化學(xué)習(xí)主要分為基于策略(policybased)的強(qiáng)化學(xué)習(xí)與基于q值的強(qiáng)化學(xué)習(xí)。其中,基于策略的強(qiáng)化學(xué)習(xí)有收斂快的優(yōu)點(diǎn)。

隨著機(jī)器學(xué)習(xí)發(fā)展尤其是強(qiáng)化學(xué)習(xí)的成熟以及車載網(wǎng)移動(dòng)云計(jì)算的成熟,研究利用強(qiáng)化學(xué)習(xí)來進(jìn)行任務(wù)調(diào)度是比較符合當(dāng)前實(shí)際情況的。



技術(shù)實(shí)現(xiàn)要素:

發(fā)明目的:本發(fā)明基于車載網(wǎng)環(huán)境下,請(qǐng)求到達(dá)強(qiáng)度不穩(wěn)定的特點(diǎn),提出了一種基于強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法。

為了解決上述技術(shù)問題,本發(fā)明公開了一種車載網(wǎng)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法,包括以下步驟:

步驟1:在一定范圍內(nèi)(通常為一個(gè)路段,或者城際高速公路的起點(diǎn)到終點(diǎn)),有n個(gè)路側(cè)單元,獲取每一個(gè)路側(cè)單元(roadsideunit)在t時(shí)間段內(nèi)的車流量。用qi,t表示路側(cè)單元ri在t時(shí)間段內(nèi)的車流量,ri取值為1~n。時(shí)間段可以是1s,2s,視具體的路況(道路長度,道路寬度,路邊經(jīng)典等信息)決定。因?yàn)椋话闱闆r下車流量較大的區(qū)域內(nèi)路側(cè)單元往往會(huì)有更多的任務(wù)請(qǐng)求,代表一種潛在負(fù)載壓力。

步驟2:獲取每一個(gè)路側(cè)單元的負(fù)載數(shù)據(jù),并將此數(shù)據(jù)以多播形式傳遞共享給其他路側(cè)單元;每一個(gè)路側(cè)單元ri記錄當(dāng)前隊(duì)列長度li,并將其共享給其他n-1各路側(cè)單元,使得每一個(gè)路側(cè)單元可以獲得一個(gè)全局的負(fù)載狀況信息。

步驟3,構(gòu)架神經(jīng)網(wǎng)絡(luò),對(duì)相關(guān)變量進(jìn)行初始化;

步驟4,初始時(shí)間內(nèi),對(duì)于步驟1所述一定范圍內(nèi)到達(dá)的請(qǐng)求,隨機(jī)選擇在本地執(zhí)行或者負(fù)載到任意其他路側(cè)單元執(zhí)行記錄請(qǐng)求從到達(dá)到完成的時(shí)間;

步驟5,當(dāng)步驟4收集的數(shù)據(jù)到達(dá)一定規(guī)模,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新;

步驟6,對(duì)于新到達(dá)的請(qǐng)求,使用更新過的神經(jīng)網(wǎng)絡(luò)進(jìn)行分配;

步驟7,收集數(shù)據(jù),重復(fù)執(zhí)行步驟5~步驟6,得到新的神經(jīng)網(wǎng)絡(luò)。

步驟2包括以下步驟:

步驟2-1,每一個(gè)路側(cè)單元ri記錄當(dāng)前任務(wù)((任務(wù)指車輛電子設(shè)備服務(wù)請(qǐng)求))隊(duì)列長度li,并將其共享給其他n-1個(gè)各路側(cè)單元;

步驟2-2,對(duì)于一個(gè)路側(cè)單元,當(dāng)該路側(cè)單元共享其隊(duì)列長度給其他路側(cè)單元時(shí),記錄當(dāng)前共享時(shí)刻的任務(wù)隊(duì)列長度為llast,當(dāng)新到達(dá)一個(gè)任務(wù)時(shí)隊(duì)列長度加一,當(dāng)完成一個(gè)任務(wù)時(shí),隊(duì)列長度減一;

步驟2-3,當(dāng)|llast-li|>δ(δ為閾值,可以選擇10到50,較小的閾值會(huì)使得本發(fā)明在具體應(yīng)用中更為靈敏,也會(huì)相應(yīng)的增加通信開銷)時(shí),路側(cè)單元ri將當(dāng)前的最新隊(duì)列長度通知到其余n-1個(gè)路側(cè)單元,其中δ是一個(gè)觸發(fā)狀態(tài)共享的閾值;

步驟2-4,每個(gè)路側(cè)單元都得到一個(gè)當(dāng)前全局的環(huán)境變量vt,vt=[q1,t,q2,t,…qn,t,l1,l2,…ln]t,qn,t表示路側(cè)單元rn在t時(shí)間段內(nèi)的車流量,ln表示路側(cè)單元rn的當(dāng)前隊(duì)列長度。步驟3:定義神經(jīng)網(wǎng)絡(luò),確定神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),隱層數(shù)目以及輸出,并初始化參數(shù)。

步驟3包括以下步驟:

步驟3-1:神經(jīng)網(wǎng)絡(luò)輸入層為2n(即神經(jīng)元輸入設(shè)置為路側(cè)單元數(shù)目的兩倍)個(gè)神經(jīng)元,即為路側(cè)單元的當(dāng)前全局的環(huán)境變量vt與任務(wù)包的大小packagesize,任務(wù)包在網(wǎng)絡(luò)間傳播時(shí)間正比于任務(wù)包的大小,隱層為k個(gè)神經(jīng)元,為了便于收斂將隱層設(shè)置為兩層,輸出層為n個(gè)神經(jīng)元。使用relu函數(shù)作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù),relu函數(shù)定義為對(duì)于給定變量x,其輸出為g(x)=max(0,x),神經(jīng)網(wǎng)絡(luò)在第l層傳播按照下面公式進(jìn)行計(jì)算:

fl(xl)=wlxl+bl

其中,在輸入層wl為(2n)×k的矩陣,在第一個(gè)隱層到第二個(gè)隱層wl為k×k的矩陣,在隱層到輸出層wl為k×n的矩陣,bl為第l層的偏移量,xl為第l層的輸入;

步驟3-2:對(duì)于神經(jīng)元傳播的權(quán)重,根據(jù)下述區(qū)間的一個(gè)均勻分布來初始化權(quán)重:

其中fanin和fanout分別表示輸入神經(jīng)元的個(gè)數(shù)與輸出神經(jīng)元的個(gè)數(shù),對(duì)于輸出層到隱層fanin和fanout分別為2n+1和k,對(duì)于隱層到隱層fanin和fanout分別為k和k,從隱層到輸出層fanin和fanout分別為k和n;

步驟3-3:對(duì)于神經(jīng)網(wǎng)絡(luò)最后的輸出,再使用softmax函數(shù)得到每一個(gè)策略對(duì)應(yīng)的概率,計(jì)算公式為:

其中pi代表當(dāng)前任務(wù)派發(fā)到路側(cè)單元ri的概率。yi和yj分別為輸出層第i個(gè)神經(jīng)元的輸出與第j個(gè)神經(jīng)元的輸出。

步驟4包括以下步驟:

步驟4-1:對(duì)于新到達(dá)的任務(wù),以概率ε(一般取值0.7到0.9)選擇在本地執(zhí)行任務(wù),以1-ε(即1減ε的值)的概率選擇在其他路側(cè)單元執(zhí)行此任務(wù);

步驟4-2:如果選擇其他路側(cè)單元執(zhí)行此任務(wù),任務(wù)按照均勻分布分配到其余路側(cè)單元,即分配到其余路側(cè)單元的概率為1/(n-1);

步驟4-3:對(duì)于每一個(gè)任務(wù)ti={vt,proi,rsi},其中vt是步驟2-4得到的任務(wù)到達(dá)時(shí)刻的環(huán)境變量,proi為分配到當(dāng)前路側(cè)單元的概率,記錄每一個(gè)任務(wù)ti的響應(yīng)時(shí)間rsi,即從任務(wù)到達(dá)路側(cè)單元開始到執(zhí)行為止的時(shí)間;如果任務(wù)在當(dāng)前路側(cè)單元即本地執(zhí)行,則響應(yīng)時(shí)間等于在當(dāng)前任務(wù)隊(duì)列的等待數(shù)件,如果任務(wù)在其它路側(cè)單元執(zhí)行,則響應(yīng)時(shí)間等于網(wǎng)絡(luò)傳輸時(shí)間加上在新的路側(cè)單元的任務(wù)隊(duì)列的等待時(shí)間。對(duì)于到達(dá)的每一個(gè)任務(wù),收集記錄其對(duì)應(yīng)的環(huán)境變量、分配概率和相應(yīng)時(shí)間信息。

步驟5中,當(dāng)步驟4收集的數(shù)據(jù)到達(dá)一定規(guī)模,定為batchsize(為n的3到10倍),對(duì)神經(jīng)網(wǎng)絡(luò)各層權(quán)重w與偏移量b進(jìn)行基于反向傳播(backpropagation)算法的更新。

步驟5包括以下步驟:

步驟5-1:計(jì)算每一個(gè)任務(wù)在其對(duì)應(yīng)環(huán)境下的分配策略對(duì)應(yīng)的收益:對(duì)于batchsize個(gè)任務(wù),根據(jù)到達(dá)時(shí)間進(jìn)行排序,即任務(wù)集合為task={t1,t2,…tbatchsize},則按照如下公式計(jì)算第i個(gè)任務(wù)ti的收益ai:

其中,i取值為1~batchsize,γ為衰減因子,一般設(shè)定為0.99。收益順序指數(shù)衰減,第i個(gè)任務(wù)衰減為γi,根據(jù)該公式得到收益數(shù)組at=[a1,a2,…abatchsize],abatchsize表示第batchsize個(gè)任務(wù)tbatchsize的收益;

本發(fā)明優(yōu)化的目標(biāo)函數(shù)是損失函數(shù)是收益分布函數(shù)與分配的路側(cè)單元的概率分布的交叉熵,對(duì)收益函數(shù)進(jìn)行標(biāo)準(zhǔn)化就很重要。本發(fā)明中希望丟棄掉那些收益低于平均水平的策略,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,這樣低于平均水平的收益adi將為負(fù)值。

步驟5-2:對(duì)收益數(shù)組進(jìn)行標(biāo)準(zhǔn)化:通過如下公式計(jì)算第i個(gè)任務(wù)ti的收益ai的標(biāo)準(zhǔn)化值adi::

其中mean(at)是收益數(shù)組的均值,std(at)是收益數(shù)組的標(biāo)準(zhǔn)差。根據(jù)該公式計(jì)算得到標(biāo)準(zhǔn)化后的收益數(shù)組ad;

本發(fā)明使用隨機(jī)梯度下降的方法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,最小化的損失函數(shù)是收益分布函數(shù)與分配的路側(cè)單元的概率分布的交叉熵,即任務(wù)更容易被分配到收益較大的路側(cè)單元,而盡量減小分配到收益較小的路側(cè)單元。這里面,收益小指的是任務(wù)的響應(yīng)時(shí)間比較大。步驟5-3具體闡述了這個(gè)方法。

步驟5-3:利用標(biāo)準(zhǔn)化后的收益數(shù)組ad與task對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,最小化損失函數(shù)loss為:

使用隨機(jī)梯度下降的方法進(jìn)行梯度更新,更新公式為:

其中η表示學(xué)習(xí)率,分別表示損失函數(shù)相對(duì)于wl的梯度和損失函數(shù)相對(duì)于bl的梯度,其中梯度在基于minibatch的更新中計(jì)算公式如下:

更新后得到新的神經(jīng)網(wǎng)絡(luò),其中l(wèi)ossi代表一個(gè)minibatch中第i個(gè)樣本損失。

本發(fā)明對(duì)任務(wù)的分配并不直接按照輸出概率最大的路側(cè)單元進(jìn)行支配,而是按照相應(yīng)概率,概率大的路側(cè)單元更容易被分配到,概率小的路側(cè)單元也有被分配到的可能。本發(fā)明使用這樣的一種策略保證了當(dāng)網(wǎng)絡(luò)環(huán)境改變或者某個(gè)路側(cè)單元改變的情況下引起對(duì)應(yīng)的響應(yīng)時(shí)間發(fā)生改變,而這種改變更容易被及時(shí)的收集到并反饋給神經(jīng)網(wǎng)絡(luò)。步驟6具體闡述了這個(gè)方法。

步驟6中,對(duì)于新到達(dá)的請(qǐng)求,根據(jù)各區(qū)域車流量以及各路側(cè)單元的負(fù)載,使用更新過的神經(jīng)網(wǎng)絡(luò)進(jìn)行分配,

步驟6包括以下步驟:

步驟6-1:獲得當(dāng)前的環(huán)境狀態(tài)向量vt作為更新后神經(jīng)網(wǎng)絡(luò)的輸入,得到新任務(wù)分配到各個(gè)路側(cè)單元的概率{p1,p2,…,pn}。pn表示新任務(wù)分配到第n個(gè)路側(cè)單元的概率;

步驟6-2:產(chǎn)生一個(gè)[0,1]區(qū)間內(nèi)的隨機(jī)數(shù)。對(duì)于上面n個(gè)概率,得到n個(gè)區(qū)間,[0,pr1],[pr1,pr2],…,[prn-1,prn],其中pri-pri-1=pi,i取值1到n,pr的含義為,隨機(jī)數(shù)落入到區(qū)間[pri-1,pri],其概率正好為pi,因此如果產(chǎn)生的隨機(jī)數(shù)落在了區(qū)間[pri-1,pri]內(nèi),則將當(dāng)前任務(wù)分配到路側(cè)單元ri。

步驟7中,當(dāng)新收集的任務(wù)數(shù)量積累到batchsize,重新進(jìn)行步驟5的操作,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新。

步驟7包括以下步驟:

步驟7-1:按照上一輪訓(xùn)練的神經(jīng)網(wǎng)絡(luò),對(duì)任務(wù)進(jìn)行分配,并記錄響應(yīng)時(shí)間。

步驟7-1包括以下步驟:

步驟7-1-1:對(duì)于新到達(dá)的任務(wù),獲得當(dāng)前的各個(gè)路側(cè)單元的負(fù)載以及道路的車流量信息,得到環(huán)境變量vz=[q1,z,q2,z,…qg,z,l1,l2,…lg]t,qg,z表示路側(cè)單元rg在z時(shí)間段內(nèi)的車流量,lg表示路側(cè)單元rg的當(dāng)前隊(duì)列長度。

步驟7-1-2:然后根據(jù)環(huán)境變量,根據(jù)步驟5更新的神經(jīng)網(wǎng)絡(luò),對(duì)任務(wù)進(jìn)行分配,記錄任務(wù)的響應(yīng)時(shí)間rs1。

步驟7-1-3:持續(xù)收集環(huán)境變量以及在當(dāng)前環(huán)境變量下的分配策略以及響應(yīng)時(shí)間,到收集夠batchsize個(gè)為止。

步驟7-2:將最新收集的batchsize個(gè)記錄反饋到神經(jīng)網(wǎng)絡(luò),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新。

步驟7-2主要包括以下步驟:

步驟7-2-1:按照步驟5-1中的方法計(jì)算每一個(gè)任務(wù)的的收益advantages,并對(duì)收益值進(jìn)行標(biāo)準(zhǔn)化;

步驟7-2-2:使用隨機(jī)梯度下降的方法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,得到更新后的神經(jīng)網(wǎng)絡(luò)。將新的神經(jīng)網(wǎng)絡(luò)用于調(diào)度策略。

有益效果:利用強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)調(diào)度的方法有易于初始化,容錯(cuò)性強(qiáng)的優(yōu)點(diǎn),而本發(fā)明使用基于策略的強(qiáng)化學(xué)習(xí)又可以使得調(diào)度策略快速收斂到最優(yōu)。在移動(dòng)環(huán)境,尤其是車載網(wǎng)環(huán)境下,因?yàn)檐囕v的高速移動(dòng)性,周期性等特征,調(diào)度策略需要及時(shí)變化以達(dá)到資源利用最大化的目的。因?yàn)閺?qiáng)化學(xué)習(xí)是利用手機(jī)的數(shù)據(jù),自適應(yīng)的達(dá)到最優(yōu)化的目的,所以在進(jìn)行部署的時(shí)候不需要特別的進(jìn)行初始化。當(dāng)部署的路側(cè)單元有一個(gè)失效的時(shí)候,強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)可以利用新收集的響應(yīng)時(shí)間及時(shí)的得到反饋并訓(xùn)練處在當(dāng)前狀態(tài)下的最優(yōu)調(diào)度策略。

附圖說明

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述或其他方面的優(yōu)點(diǎn)將會(huì)變得更加清楚。

圖1是本發(fā)明方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。

本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法,該方法流程圖如圖1所示,包括以下步驟:

步驟1:收集各個(gè)路側(cè)單元覆蓋范圍內(nèi)的在一段時(shí)間t內(nèi)的車流量qi,t。然后共享給其他路側(cè)單元。

步驟2:收集每個(gè)路側(cè)單元的負(fù)載情況,即每個(gè)路側(cè)單元的任務(wù)隊(duì)列內(nèi)的任務(wù)數(shù),每當(dāng)任務(wù)隊(duì)列的任務(wù)數(shù)量變化超過一定的閾值δ,就將最新的負(fù)載信息通知其它路側(cè)單元。這樣,每個(gè)路側(cè)單元都會(huì)得到一個(gè)在誤差δ內(nèi)的實(shí)時(shí)的各個(gè)路側(cè)單元負(fù)載情況信息。

步驟3:定義以車流量以及各路側(cè)單元負(fù)載信息為輸入,即步驟1,2收集得到的環(huán)境變量vt=[q1,t,q2,t,…qn,t,l1,l2,…ln]t,以分配到路側(cè)單元ri的概率pi為輸出的神經(jīng)網(wǎng)絡(luò),它本質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)。

本發(fā)明中神經(jīng)網(wǎng)絡(luò)初始為一個(gè)2n個(gè)神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的輸入層,以k個(gè)神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的第一個(gè)隱層以k個(gè)神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的第二個(gè)隱層,輸出層為n個(gè)神經(jīng)元,通過softmax函數(shù)進(jìn)行變換得到分配到各個(gè)路側(cè)單元的概率。其中輸入層到隱層,隱層到隱層使用relu函數(shù)作為激活函數(shù)。

然后對(duì)神經(jīng)網(wǎng)絡(luò)的輸入層到隱層權(quán)重初始化為范圍內(nèi)的均勻分布,隱層到隱層初始化為內(nèi)的均勻分布,隱層到輸出層初始化范圍內(nèi)的均勻分布。

步驟4:對(duì)于新到達(dá)的任務(wù),然后選擇ε的概率在本地執(zhí)行任務(wù),以1-ε的概率選擇在其他路側(cè)單元執(zhí)行此任務(wù)。如果選擇到其它路側(cè)單元執(zhí)行任務(wù),則隨機(jī)等概率的分配到其它路側(cè)單元。

然后,每一個(gè)任務(wù)ti={vt,pro,rsi,}={,y}其中vt是任務(wù)到達(dá)時(shí)刻的環(huán)境變量,pro為分配到各個(gè)路側(cè)單元的概率,記錄每一個(gè)任務(wù)ti的響應(yīng)時(shí)間rsi,即從任務(wù)到達(dá)路側(cè)單元開始,到實(shí)行為止。如果任務(wù)在當(dāng)前路側(cè)單元執(zhí)行,則響應(yīng)時(shí)間等于在當(dāng)前任務(wù)隊(duì)列的等待數(shù)件,如果任務(wù)在其它路側(cè)單元執(zhí)行,則響應(yīng)時(shí)間等于網(wǎng)絡(luò)傳輸時(shí)間加上到在新的路側(cè)單元的任務(wù)隊(duì)列的等待時(shí)間。

步驟5:當(dāng)步驟3收集的數(shù)據(jù)到達(dá)一定規(guī)模,我們定為batchsize,對(duì)神經(jīng)網(wǎng)絡(luò)各層權(quán)重w與偏移量b進(jìn)行基于反向傳播(backpropagation)算法的更新。

首先,計(jì)算對(duì)于每一個(gè)任務(wù)ti={vt,pro}的advantages,即ai.對(duì)于batchsize個(gè)任務(wù),我們根據(jù)到達(dá)時(shí)間進(jìn)行排序,即任務(wù)集合為task={t1,t2,…tbatchsize},根據(jù)公式(1)得到每個(gè)任務(wù)的收益,對(duì)于一個(gè)任務(wù),響應(yīng)時(shí)間越短,收益越大。

其中,γ為衰減因子,一般設(shè)定為0.99。

對(duì)于一批任務(wù),得到收益數(shù)組at=[a1,a2,…abatchsize],然后對(duì)數(shù)組進(jìn)行標(biāo)準(zhǔn)化,按照公式(2)進(jìn)行標(biāo)準(zhǔn)化。

其中,mean(at)是收益數(shù)組的均值,std(at)是收益數(shù)組的標(biāo)準(zhǔn)差。

然后使用隨機(jī)梯度下降的方法最小化交叉熵?fù)p失函數(shù),本發(fā)明中損失函數(shù)定義為公式(3)。

然后使用公式(4)(5)按照η的學(xué)習(xí)率對(duì)梯度進(jìn)行更新。

實(shí)際中我們使用minibatch的方式對(duì)梯度進(jìn)行更新,即從batchsize個(gè)記錄中選取minibatch個(gè)記錄,根據(jù)公式(6),(7)得到梯度的無偏估計(jì)

步驟6:獲得當(dāng)前的環(huán)境狀態(tài)向量vt,作為神經(jīng)網(wǎng)絡(luò)的輸入,得到分配到各個(gè)路側(cè)單元的概率{p1,p2,…,pn}。然后按照對(duì)應(yīng)概率pi將當(dāng)前任務(wù)分配到對(duì)應(yīng)的路側(cè)單元ri。

步驟7:重復(fù)執(zhí)行步驟5,6,神經(jīng)網(wǎng)絡(luò)不斷的收集新的信息進(jìn)行自我更新,利用更新的神經(jīng)網(wǎng)絡(luò)對(duì)任務(wù)進(jìn)行分配。

實(shí)施例

本實(shí)施例使用了a城市某某區(qū)域進(jìn)行實(shí)驗(yàn)。

對(duì)于該區(qū)域內(nèi),有10個(gè)路側(cè)單元,統(tǒng)計(jì)每個(gè)路側(cè)單元在一定時(shí)間段內(nèi)的車輛數(shù),單位(輛){q1,q2,…q10}。得到每個(gè)路側(cè)單元的任務(wù)隊(duì)列長度{l1,l2,…l10}。

其次,對(duì)任務(wù)分配的神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化,初始化為20個(gè)神經(jīng)元的輸入層,7個(gè)神經(jīng)元的第一個(gè)隱層,七個(gè)神經(jīng)元的第二個(gè)隱層,10個(gè)神經(jīng)元的輸出層。

再次,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)熱,將一段時(shí)間內(nèi)的任務(wù)按照隨機(jī)分配的策略,記錄其響應(yīng)時(shí)間與環(huán)境變量。

然后,根據(jù)響應(yīng)時(shí)間計(jì)算每一個(gè)策略的收益值,為了厘清策略的好壞,對(duì)收益值進(jìn)行標(biāo)準(zhǔn)化。

接下來,利用標(biāo)準(zhǔn)化的收益值以及其對(duì)應(yīng)的環(huán)境變量對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行基于bp算法的更新,使用隨機(jī)梯度下降,以一個(gè)一個(gè)的minibatch進(jìn)行更新。

然后,利用更新后的神經(jīng)網(wǎng)絡(luò),根據(jù)任務(wù)到達(dá)時(shí)候的環(huán)境變量,決定任務(wù)被分配到各個(gè)路側(cè)單元的概率,然后隨機(jī)按照對(duì)應(yīng)概率對(duì)任務(wù)進(jìn)行分配。

最后,反復(fù)收集數(shù)據(jù),更新網(wǎng)絡(luò),漸進(jìn)迭代的得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)。

本發(fā)明提供了一種車載網(wǎng)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度方法,具體實(shí)現(xiàn)該技術(shù)方案的方法和途徑很多,以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 墨竹工卡县| 临夏市| 平顺县| 兴化市| 五家渠市| 彰武县| 大方县| 渑池县| 鱼台县| 屏边| 新邵县| 枞阳县| 长海县| 文化| 平江县| 垦利县| 宜兰市| 四川省| 赣榆县| 罗江县| 金门县| 长岛县| 平南县| 乌鲁木齐县| 都匀市| 临猗县| 龙海市| 莱州市| 信丰县| 绥宁县| 微山县| 东山县| 绥棱县| 武陟县| 邵东县| 应城市| 西充县| 甘孜县| 苍梧县| 商都县| 沁水县|