1.針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的強(qiáng)化學(xué)習(xí)系統(tǒng),其特征在于:至少包括正演員-評(píng)論家模型、負(fù)演員-評(píng)論家模型、演員-評(píng)論家模型、策略相似度模型和策略動(dòng)作選擇模型,
2.如權(quán)利要求1所述的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的強(qiáng)化學(xué)習(xí)系統(tǒng),其特征在于:所述演員-評(píng)論家模型、正演員-評(píng)論家模型、負(fù)演員-評(píng)論家模型均為深度神經(jīng)網(wǎng)絡(luò),所述深度神經(jīng)網(wǎng)絡(luò)通過(guò)3層全連接層處理向量信號(hào),通過(guò)3層卷積層加2層全連接層處理圖像信號(hào)。
3.使用如權(quán)利要求1所述系統(tǒng)的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的強(qiáng)化學(xué)習(xí)方法,其特征在于:至少包括訓(xùn)練和執(zhí)行兩個(gè)階段,
4.如權(quán)利要求3所述的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的正負(fù)網(wǎng)絡(luò)對(duì)比強(qiáng)化學(xué)習(xí)方法,其特征在于:所述正演員網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為最大化期望q值:
5.如權(quán)利要求4所述的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的正負(fù)網(wǎng)絡(luò)對(duì)比強(qiáng)化學(xué)習(xí)方法,其特征在于:所述目標(biāo)價(jià)值y+的計(jì)算方式具體為:
6.如權(quán)利要求4所述的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的正負(fù)網(wǎng)絡(luò)對(duì)比強(qiáng)化學(xué)習(xí)方法,其特征在于:所述策略相似度模型的自編碼器的訓(xùn)練目標(biāo)為最小化下一步環(huán)境狀態(tài)預(yù)測(cè)與實(shí)際下一步環(huán)境的差距:
7.如權(quán)利要求6所述的針對(duì)高動(dòng)態(tài)決策場(chǎng)景智能體探索的正負(fù)網(wǎng)絡(luò)對(duì)比強(qiáng)化學(xué)習(xí)方法,其特征在于:所述策略動(dòng)作選擇模型中,動(dòng)作被選擇的概率以softmax歸一化形式得到,其中主策略對(duì)應(yīng)動(dòng)作被選擇概率計(jì)算方式如下: