本公開(kāi)屬于通信網(wǎng)絡(luò)運(yùn)維,尤其涉及一種備件調(diào)度模型訓(xùn)練方法、備件調(diào)度方法及裝置。
背景技術(shù):
1、通信網(wǎng)絡(luò)作為現(xiàn)代社會(huì)的基礎(chǔ)設(shè)施,其高效、穩(wěn)定運(yùn)行對(duì)于日常生活和關(guān)鍵行業(yè)至關(guān)重要。無(wú)論是社交娛樂(lè)、在線辦公,還是金融交易、醫(yī)療服務(wù)和智能交通,通信網(wǎng)絡(luò)的暢通直接影響信息傳遞、業(yè)務(wù)開(kāi)展以及社會(huì)生活的便利與安全。以金融行業(yè)為例,毫秒級(jí)響應(yīng)速度對(duì)于股票交易和電子支付至關(guān)重要,網(wǎng)絡(luò)故障可能導(dǎo)致巨額經(jīng)濟(jì)損失。在醫(yī)療領(lǐng)域,網(wǎng)絡(luò)中斷可能延誤遠(yuǎn)程診斷和急救,危及患者生命。
2、在通信網(wǎng)絡(luò)維護(hù)中,備件的庫(kù)存與調(diào)度管理是確保網(wǎng)絡(luò)可靠性的關(guān)鍵。然而,傳統(tǒng)備件調(diào)度模式面臨諸多挑戰(zhàn),難以適應(yīng)現(xiàn)代通信網(wǎng)絡(luò)的復(fù)雜需求。傳統(tǒng)調(diào)度模型通常基于靜態(tài)規(guī)則或簡(jiǎn)單算法,靈活性不足。當(dāng)業(yè)務(wù)需求出現(xiàn)波動(dòng)時(shí),這些模型難以快速調(diào)整。例如,電商購(gòu)物節(jié)期間,網(wǎng)絡(luò)流量激增導(dǎo)致備件需求短期內(nèi)劇烈上升,而傳統(tǒng)調(diào)度方式無(wú)法及時(shí)響應(yīng),容易引發(fā)網(wǎng)絡(luò)擁塞甚至癱瘓,嚴(yán)重影響用戶體驗(yàn)和業(yè)務(wù)運(yùn)行。
3、隨著通信網(wǎng)絡(luò)規(guī)模和技術(shù)復(fù)雜度的提升,調(diào)度場(chǎng)景日益復(fù)雜,包括大量備件種類(lèi)、多倉(cāng)庫(kù)節(jié)點(diǎn)和復(fù)雜物流路徑等因素。傳統(tǒng)算法在處理這些問(wèn)題時(shí),計(jì)算量大、響應(yīng)速度慢,難以滿足實(shí)際需求。在網(wǎng)絡(luò)故障發(fā)生后,生成調(diào)度方案所需時(shí)間往往超出可接受的修復(fù)窗口,導(dǎo)致網(wǎng)絡(luò)長(zhǎng)時(shí)間不穩(wěn)定,帶來(lái)?yè)p失和不便。
4、此外,傳統(tǒng)調(diào)度模型的適用性較局限,通常只針對(duì)單一類(lèi)型的備件需求進(jìn)行優(yōu)化。現(xiàn)代通信網(wǎng)絡(luò)融合了多種技術(shù)與設(shè)備,備件需求多樣且復(fù)雜,包括電子元器件、傳輸設(shè)備和交換設(shè)備等。在實(shí)際運(yùn)維中,備件需求往往涉及多種類(lèi)型,單一調(diào)度模型無(wú)法有效應(yīng)對(duì),難以滿足全方位維護(hù)的要求。
5、因此,當(dāng)前亟需一種新的備件調(diào)度方法,以應(yīng)對(duì)通信網(wǎng)絡(luò)運(yùn)行環(huán)境的復(fù)雜性和動(dòng)態(tài)性,滿足備件調(diào)度的高效、精準(zhǔn)、低成本和智能化管理需求。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問(wèn)題,本公開(kāi)提供了一種備件調(diào)度模型訓(xùn)練方法、備件調(diào)度方法及裝置,基于構(gòu)建的備件調(diào)度環(huán)境模型和數(shù)據(jù),對(duì)基于bp神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,得到備件調(diào)度模型,進(jìn)而實(shí)現(xiàn)通信網(wǎng)絡(luò)備件供應(yīng)的高效、低成本和智能化管理。
2、第一方面,提供了一種備件調(diào)度模型訓(xùn)練方法,所述訓(xùn)練方法基于bp神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),包括:
3、基于備件供應(yīng)時(shí)間、備件調(diào)度成本和備件風(fēng)險(xiǎn)評(píng)估構(gòu)建多目標(biāo)優(yōu)化函數(shù);
4、進(jìn)行調(diào)度環(huán)境建模與數(shù)據(jù)準(zhǔn)備:定義狀態(tài)空間,將庫(kù)存信息、需求預(yù)測(cè)信息、設(shè)備故障信息和運(yùn)輸資源信息進(jìn)行量化、整合與轉(zhuǎn)換,得到狀態(tài)信息;確定動(dòng)作空間,將備件供應(yīng)管理中的動(dòng)作進(jìn)行編號(hào),得到動(dòng)作空間集合,其中,動(dòng)作包括從特定倉(cāng)庫(kù)通過(guò)特定運(yùn)輸方式調(diào)配特定備件到指定故障地點(diǎn);構(gòu)建獎(jiǎng)勵(lì)函數(shù):基于構(gòu)建的多目標(biāo)優(yōu)化函數(shù)構(gòu)建獎(jiǎng)勵(lì)函數(shù);數(shù)據(jù)采集與預(yù)處理,采集備件供應(yīng)管理中的物流時(shí)間、備件風(fēng)險(xiǎn)和調(diào)度成本數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,作為多目標(biāo)優(yōu)化函數(shù)的輸入;
5、構(gòu)建經(jīng)驗(yàn)回放記憶池,存儲(chǔ)主bp神經(jīng)網(wǎng)絡(luò)與調(diào)度環(huán)境的交互數(shù)據(jù),其中,主bp神經(jīng)網(wǎng)絡(luò)基于輸入的狀態(tài)信息與調(diào)度環(huán)境進(jìn)行交互時(shí),將每一時(shí)間步的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)及下一個(gè)時(shí)間步的狀態(tài)保存為一條經(jīng)驗(yàn);
6、從經(jīng)驗(yàn)回放記憶池中隨機(jī)抽取多條經(jīng)驗(yàn)作為訓(xùn)練樣本;
7、進(jìn)入訓(xùn)練階段,利用訓(xùn)練樣本,對(duì)主bp神經(jīng)網(wǎng)絡(luò)和目標(biāo)bp神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,主bp神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)和調(diào)度環(huán)境進(jìn)行交互,得到交互數(shù)據(jù);
8、進(jìn)入學(xué)習(xí)階段,利用主bp神經(jīng)網(wǎng)絡(luò)計(jì)算出的當(dāng)前值和目標(biāo)bp神經(jīng)網(wǎng)絡(luò)計(jì)算出的目標(biāo)值計(jì)算損失函數(shù),利用損失函數(shù)的梯度更新主bp神經(jīng)網(wǎng)絡(luò)的參數(shù);
9、重復(fù)上述訓(xùn)練階段和學(xué)習(xí)階段;
10、每當(dāng)上述訓(xùn)練階段和學(xué)習(xí)階段完成一定輪次的迭代后,將主bp神經(jīng)網(wǎng)絡(luò)的參數(shù)同步給目標(biāo)bp神經(jīng)網(wǎng)絡(luò),繼續(xù)進(jìn)行下一個(gè)訓(xùn)練階段和學(xué)習(xí)階段直至損失函數(shù)收斂到預(yù)設(shè)的閾值以下,或者損失函數(shù)的變化幅度小于設(shè)定的微小值;
11、將訓(xùn)練好的目標(biāo)bp神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練好的備件調(diào)度模型。
12、進(jìn)一步地,構(gòu)建的多目標(biāo)優(yōu)化函數(shù)為v=ωt×t+ωc×c+ωr×r;其中,v為多目標(biāo)優(yōu)化值,t為備件供應(yīng)時(shí)間,c為備件調(diào)度成本,r為備件風(fēng)險(xiǎn)評(píng)估,ωt、ωc、ωr分別為備件供應(yīng)時(shí)間的權(quán)重、備件調(diào)度成本的權(quán)重、備件風(fēng)險(xiǎn)評(píng)估的權(quán)重。
13、進(jìn)一步地,基于構(gòu)建的多目標(biāo)優(yōu)化函數(shù)構(gòu)建獎(jiǎng)勵(lì)函數(shù)為:
14、
15、其中,r為獎(jiǎng)勵(lì)值,vbase為根據(jù)歷史經(jīng)驗(yàn)以及專(zhuān)家評(píng)估設(shè)置的基準(zhǔn)優(yōu)化值,vt為本次動(dòng)作對(duì)應(yīng)的多目標(biāo)優(yōu)化值。
16、進(jìn)一步地,庫(kù)存信息包括:備件種類(lèi)、倉(cāng)庫(kù)數(shù)量和備件數(shù)量;需求預(yù)測(cè)信息包括:區(qū)域個(gè)數(shù)和備件需求數(shù)量;故障信息包括:故障設(shè)備類(lèi)型、故障位置和故障嚴(yán)重程度;運(yùn)輸資源信息包括:運(yùn)輸工具的可用數(shù)量、當(dāng)前位置和運(yùn)輸能力參數(shù)。
17、進(jìn)一步地,將庫(kù)存信息、需求預(yù)測(cè)信息、設(shè)備故障信息和運(yùn)輸資源信息進(jìn)行量化,包括:
18、假設(shè)存在n種備件,分布在m個(gè)倉(cāng)庫(kù)中,定義庫(kù)存矩陣i,其元素iij表示第j個(gè)倉(cāng)庫(kù)中第i種備件的庫(kù)存數(shù)量;
19、假設(shè)涉及p個(gè)區(qū)域,需要考慮n種備件的需求,定義需求矩陣d,其元素dij表示第i個(gè)區(qū)域?qū)Φ趈種備件的需求數(shù)量;
20、假設(shè)涉及p個(gè)區(qū)域,需求矩陣表示的是備件的需求數(shù)量,故障矩陣則表明該備件的嚴(yán)重程度,定義故障矩陣f,其元素fij表示第i個(gè)區(qū)域的第j種備件的故障程度;
21、假設(shè)存在k種運(yùn)輸工具,分布在m個(gè)倉(cāng)庫(kù)中,定義庫(kù)存矩陣t,其元素tij表示第j個(gè)倉(cāng)庫(kù)中第i種運(yùn)輸工具的可用數(shù)量。
22、進(jìn)一步地,將備件供應(yīng)管理中的動(dòng)作進(jìn)行編號(hào),包括:
23、將不同的倉(cāng)庫(kù)-備件-故障地點(diǎn)的組合調(diào)配形成的各個(gè)動(dòng)作進(jìn)行編號(hào)。
24、第二方面,提供了一種備件調(diào)度方法,所述調(diào)度方法包括,
25、采集當(dāng)前備件調(diào)度信息,基于當(dāng)前備件調(diào)度信息構(gòu)建狀態(tài)信息;其中,備件調(diào)度信息包括:庫(kù)存信息、需求預(yù)測(cè)信息、設(shè)備故障信息和運(yùn)輸資源信息;
26、將構(gòu)建的狀態(tài)信息,輸入到訓(xùn)練好的備件調(diào)度模型,得到執(zhí)行每個(gè)動(dòng)作對(duì)應(yīng)的所能獲得的長(zhǎng)期累積獎(jiǎng)勵(lì)的預(yù)期值,將最大預(yù)期值對(duì)應(yīng)的動(dòng)作作為備件調(diào)度策略,其中,訓(xùn)練好的備件調(diào)度模型是上述的訓(xùn)練方法得到的。
27、進(jìn)一步地,所述調(diào)度方法還包括:
28、將構(gòu)建的狀態(tài)信息和備件調(diào)度策略作為經(jīng)驗(yàn)保存。
29、第三方面,提供了一種備件調(diào)度模型訓(xùn)練裝置,所述訓(xùn)練裝置基于bp神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),包括:成本函數(shù)構(gòu)建模塊、建模與數(shù)據(jù)準(zhǔn)備模塊、記憶池構(gòu)建模塊、訓(xùn)練模塊和模型建立模塊;其中:
30、成本函數(shù)構(gòu)建模塊,用于基于備件供應(yīng)時(shí)間、備件調(diào)度成本和備件風(fēng)險(xiǎn)評(píng)估構(gòu)建多目標(biāo)優(yōu)化函數(shù);
31、建模與數(shù)據(jù)準(zhǔn)備模塊,用于進(jìn)行調(diào)度環(huán)境建模與數(shù)據(jù)準(zhǔn)備:定義狀態(tài)空間,將庫(kù)存信息、需求預(yù)測(cè)信息、設(shè)備故障信息和運(yùn)輸資源信息進(jìn)行量化、整合與轉(zhuǎn)換,得到狀態(tài)信息;確定動(dòng)作空間,將備件供應(yīng)管理中的動(dòng)作進(jìn)行編號(hào),得到動(dòng)作空間集合,其中,動(dòng)作包括從特定倉(cāng)庫(kù)通過(guò)特定運(yùn)輸方式調(diào)配特定備件到指定故障地點(diǎn);構(gòu)建獎(jiǎng)勵(lì)函數(shù):基于構(gòu)建的多目標(biāo)優(yōu)化函數(shù)構(gòu)建獎(jiǎng)勵(lì)函數(shù);數(shù)據(jù)采集與預(yù)處理,采集備件供應(yīng)管理中的物流時(shí)間、備件風(fēng)險(xiǎn)和調(diào)度成本數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,作為多目標(biāo)優(yōu)化函數(shù)的輸入;
32、記憶池構(gòu)建模塊,用于構(gòu)建經(jīng)驗(yàn)回放記憶池,存儲(chǔ)主bp神經(jīng)網(wǎng)絡(luò)與調(diào)度環(huán)境的交互數(shù)據(jù),其中,主bp神經(jīng)網(wǎng)絡(luò)基于輸入的狀態(tài)信息與調(diào)度環(huán)境進(jìn)行交互時(shí),將每一時(shí)間步的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)及下一個(gè)時(shí)間步的狀態(tài)保存為一條經(jīng)驗(yàn);
33、訓(xùn)練模塊,用于從經(jīng)驗(yàn)回放記憶池中隨機(jī)抽取多條經(jīng)驗(yàn)作為訓(xùn)練樣本;進(jìn)入訓(xùn)練階段,利用訓(xùn)練樣本,對(duì)主bp神經(jīng)網(wǎng)絡(luò)和目標(biāo)bp神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,主bp神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)和調(diào)度環(huán)境進(jìn)行交互,得到交互數(shù)據(jù);進(jìn)入學(xué)習(xí)階段,利用主bp神經(jīng)網(wǎng)絡(luò)計(jì)算出的當(dāng)前值和目標(biāo)bp神經(jīng)網(wǎng)絡(luò)計(jì)算出的目標(biāo)值計(jì)算損失函數(shù),利用損失函數(shù)的梯度更新主bp神經(jīng)網(wǎng)絡(luò)的參數(shù);重復(fù)上述訓(xùn)練階段和學(xué)習(xí)階段;每當(dāng)上述訓(xùn)練階段和學(xué)習(xí)階段完成一定輪次的迭代后,將主bp神經(jīng)網(wǎng)絡(luò)的參數(shù)同步給目標(biāo)bp神經(jīng)網(wǎng)絡(luò),繼續(xù)進(jìn)行下一個(gè)訓(xùn)練階段和學(xué)習(xí)階段直至損失函數(shù)收斂到預(yù)設(shè)的閾值以下,或者損失函數(shù)的變化幅度小于設(shè)定的微小值;
34、模型建立模塊,用于將訓(xùn)練好的目標(biāo)bp神經(jīng)網(wǎng)絡(luò)作為訓(xùn)練好的備件調(diào)度模型。
35、第四方面,提供了一種備件調(diào)度裝置,所述調(diào)度裝置包括:采集模塊和調(diào)度策略確定模塊;其中:
36、采集模塊,用于采集當(dāng)前備件調(diào)度信息,基于當(dāng)前備件調(diào)度信息構(gòu)建狀態(tài)信息;其中,備件調(diào)度信息包括:庫(kù)存信息、需求預(yù)測(cè)信息、設(shè)備故障信息和運(yùn)輸資源信息;
37、調(diào)度策略確定模塊,用于將構(gòu)建的狀態(tài)信息,輸入到訓(xùn)練好的備件調(diào)度模型,得到執(zhí)行每個(gè)動(dòng)作對(duì)應(yīng)的所能獲得的長(zhǎng)期累積獎(jiǎng)勵(lì)的預(yù)期值,將最大預(yù)期值對(duì)應(yīng)的動(dòng)作作為備件調(diào)度策略,其中,訓(xùn)練好的備件調(diào)度模型是利用上述訓(xùn)練裝置得到的。
38、第五方面,提供了一種電子設(shè)備,包括處理器、通信接口、存儲(chǔ)器和通信總線,其中,處理器,通信接口和存儲(chǔ)器通過(guò)通信總線完成相互間的通信;
39、存儲(chǔ)器,用于存放計(jì)算機(jī)程序;
40、處理器,用于執(zhí)行存儲(chǔ)器上所存放的程序時(shí),實(shí)現(xiàn)上述方法的步驟。
41、第六方面,提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)上述方法的步驟。
42、與現(xiàn)有技術(shù)相比,本公開(kāi)具有如下優(yōu)點(diǎn):
43、對(duì)備件調(diào)度環(huán)境進(jìn)行建模和數(shù)據(jù)準(zhǔn)備,基于bp神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練出備件調(diào)度模型,利用備件調(diào)度模型,進(jìn)行調(diào)度可以提升調(diào)度效率、降低調(diào)度成本、實(shí)現(xiàn)優(yōu)先級(jí)排序、適應(yīng)多類(lèi)型備件需求和提供優(yōu)化供應(yīng)方案,具體如下:
44、提升調(diào)度效率:構(gòu)建靈活的備件調(diào)度模型,進(jìn)行優(yōu)化,能夠快速響應(yīng)需求不平衡的情況,有效提高備件調(diào)度的速度和準(zhǔn)確性,減少故障處理時(shí)間,提升通信網(wǎng)絡(luò)的可用性。
45、降低調(diào)度成本:綜合考慮備件供應(yīng)時(shí)間、備件調(diào)度成本和備件風(fēng)險(xiǎn)評(píng)估構(gòu)建多目標(biāo)優(yōu)化函數(shù),使得可以在日常調(diào)度中進(jìn)行精細(xì)化管理,以及在突發(fā)故障處理中合理選擇調(diào)度策略,能夠顯著降低備件調(diào)度過(guò)程中的人工成本、運(yùn)輸成本和庫(kù)存成本,提高企業(yè)的經(jīng)濟(jì)效益。
46、實(shí)現(xiàn)優(yōu)先級(jí)排序:在模型設(shè)計(jì)中引入備件風(fēng)險(xiǎn)和故障的嚴(yán)重等級(jí)等因素,能夠根據(jù)故障的嚴(yán)重性和緊迫性合理分配資源,確保嚴(yán)重等級(jí)高的故障得到及時(shí)處理,提高故障恢復(fù)的效率和質(zhì)量。
47、適應(yīng)多類(lèi)型備件需求:能夠處理多種類(lèi)型備件的調(diào)度問(wèn)題,適用于復(fù)雜多樣的通信網(wǎng)絡(luò)維護(hù)場(chǎng)景,提高了算法的通用性和實(shí)用性。
48、提供優(yōu)化供應(yīng)方案:通過(guò)多目標(biāo)優(yōu)化函數(shù)以及強(qiáng)化學(xué)習(xí)對(duì)調(diào)度策略的持續(xù)優(yōu)化,能夠在成本、時(shí)間與風(fēng)險(xiǎn)等多目標(biāo)之間找到平衡,為通信網(wǎng)絡(luò)備件調(diào)度提供系統(tǒng)化、最優(yōu)化的供應(yīng)方案,提升整體運(yùn)維管理水平。
49、本公開(kāi)的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本公開(kāi)而了解。本公開(kāi)的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。