麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

面向復(fù)雜系統(tǒng)中的maxq任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法

文檔序號:6438774閱讀:433來源:國知局
專利名稱:面向復(fù)雜系統(tǒng)中的maxq任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法
技術(shù)領(lǐng)域
本發(fā)明涉及利用計算機(jī)解決復(fù)雜系統(tǒng)中大規(guī)模任務(wù)下的分層強(qiáng)化學(xué)習(xí)的自動分層的方法。
背景技術(shù)
目前尚未發(fā)現(xiàn)利用計算機(jī)通過結(jié)合聚類方法對解決大規(guī)模任務(wù)下的MAXQ自動分層問題。雖然已有一些方法可以解決分層強(qiáng)化學(xué)習(xí)的分層問題,諸如瓶頸和路標(biāo)狀態(tài)法、 共用子空間法、多維狀態(tài)法和馬氏空間法等,這些方法與本發(fā)明有著一定的聯(lián)系,即都是分層強(qiáng)化學(xué)習(xí)的自動分層領(lǐng)域的問題。但是具體解決的是完全不同的問題,之前的方法大都是基于Option,或是Q-Iearning等方法,而本人的發(fā)明是基于MAXQ方法的分層強(qiáng)化學(xué)習(xí)。在各種典型的分層強(qiáng)化學(xué)習(xí)方法中任務(wù)分解和問題表達(dá)方式有所不同,但其本質(zhì)可歸結(jié)為對馬爾科夫決策過程(MDP :Markov Decision Process)劃分并抽象出子MDP系列以及在不同層次分別進(jìn)行學(xué)習(xí)的模式。微觀上,子MDP在各自所處的局部狀態(tài)空間中學(xué)習(xí)其內(nèi)部策略,屬MDP;宏觀上,將每個子MDP視為一個抽象動作在抽象狀態(tài)空間中學(xué)習(xí)最優(yōu)策略,屬半馬爾可夫決策過程(SMDP :Semi-Markov Decision Process),各子MDP所處的局部狀態(tài)空間和抽象后的狀態(tài)空間維數(shù)或規(guī)模均低于原MDP狀態(tài)空間。這種抽象概念的引入,自然導(dǎo)致了強(qiáng)化學(xué)習(xí)系統(tǒng)的分層控制結(jié)構(gòu),抽象方法和抽象程度不同,層次結(jié)構(gòu)也隨之不同。Option框架下,允許執(zhí)行時態(tài)拓展動作,顯著改變了 Agent的學(xué)習(xí)效率,縮短了強(qiáng)化學(xué)習(xí)系統(tǒng)中常見的擺動期,Option的設(shè)計可以利用先驗知識,加速了從學(xué)習(xí)到相關(guān)任務(wù)的轉(zhuǎn)移,不過在未知環(huán)境中利用先驗知識設(shè)計Option內(nèi)部策略是非常困難的。HAM通過限定待學(xué)習(xí)策略類型簡化了 MDP,從而提高了強(qiáng)化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)效率,由于隨機(jī)有限狀態(tài)機(jī)的狀態(tài)轉(zhuǎn)移只需依據(jù)部分狀態(tài)即可確定,所以HAM可以應(yīng)用到環(huán)境部分可觀測領(lǐng)域。而 MAXQ不直接將問題簡化為單個SMDP,而是建立可以同時學(xué)習(xí)的分層SMDP,MAXQ采用的是讓人更易理解的分層學(xué)習(xí)框架而不是子任務(wù)策略,它既包含時態(tài)抽象又包含狀態(tài)抽象,它的特點是子任務(wù)與上下文無關(guān),因此,每個子任務(wù)都可以用一個SMDP進(jìn)行建模并且可以并發(fā)學(xué)習(xí)。在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)收斂條件下,Option, HAM可收斂到最優(yōu)策略解,MAXQ收斂到遞歸最優(yōu)解。MA)(Q方法用任務(wù)圖可以清楚地表達(dá)任務(wù)的分層結(jié)構(gòu),而且該方法在線學(xué)習(xí)能力強(qiáng),但 MAXQ自動分層能力較弱,且經(jīng)常存在狀態(tài)空間依然很大的子任務(wù)無法繼續(xù)劃分。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種讓計算機(jī)以類似于人的方式(類似)對分層強(qiáng)化學(xué)習(xí)的層次結(jié)構(gòu)進(jìn)行感知,可以達(dá)到與人類似的水平。而且本發(fā)明利用學(xué)習(xí)感知到的各種信息建立聚類模型可以達(dá)到更高的精度。本發(fā)明提出一種新的解決方法——采用基于動作執(zhí)行效果的聚類方法 DMEA(Clustering Method by the Effect of Action)的面向復(fù)雜系統(tǒng)中的MAXQ任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法,該方法通過搜集動作影響的狀態(tài)變量,分析動作的執(zhí)行對系統(tǒng)狀態(tài)的影響,從而抽象出聚類對象,通過執(zhí)行聚類算法實現(xiàn)MAMH壬務(wù)圖的自動構(gòu)造。在對該方法具體步驟進(jìn)行描述之前,首先給出相關(guān)定義(I)MDP由四元組(S,A,R,P)定義,包含一個環(huán)境狀態(tài)集S,系統(tǒng)動作集合A,報酬函數(shù)R :S函A — R和狀態(tài)轉(zhuǎn)移概率P =S轉(zhuǎn)移概率環(huán)境狀。強(qiáng)化學(xué)習(xí)的模型圖如

圖1所示;(2)MAXQ方法將MDP任務(wù)分解為子任務(wù)集M = {M0, M1,…,Mj以及將策略π分解為策略集合!>。,^,…,η J,其中,Jii是Mi的策略;(3)子任務(wù)形成以M0為根節(jié)點的分層結(jié)構(gòu),稱為任務(wù)圖(Task Graph),解決了 M0 也就解決了 M,要解決Mtl所采取的動作或者是執(zhí)行基本動作或者是執(zhí)行其它子任務(wù),如此依次調(diào)用。本發(fā)明的技術(shù)方案如下一種面向復(fù)雜系統(tǒng)中的MAXQ任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法,強(qiáng)化學(xué)習(xí)模型是如下假設(shè)Agent與環(huán)境的交互發(fā)生在一系列的離散時刻t = 0,1,2,…;在每個時刻t, Agent通過觀察環(huán)境得到狀態(tài)si e S ;Agent按策略π選擇探索動作at e A并執(zhí)行;在下一時刻t+1,Agent收到環(huán)境給與的強(qiáng)化信號即報酬值rt+1 e R,并達(dá)到新狀態(tài)st+1 e S ; 根據(jù)強(qiáng)化信號rt+1,Agent改進(jìn)策略π ;強(qiáng)化學(xué)習(xí)的最終目標(biāo)是尋找到一個最優(yōu)策略Z = argm嚴(yán)『㈡,Vs使得Agent獲
9
得的狀態(tài)值即該狀態(tài)所獲得的總報酬^(幻最大或最小,其中Y為報酬折扣因子,所述 νπ(》= Σ:。Α,0< Y ( 1 ;由于環(huán)境的狀態(tài)轉(zhuǎn)移具有隨機(jī)性,因此,在策略η的作用下,
狀態(tài)St的值= η + r^sP(S'+l ‘其中P (st+11 st, at)為環(huán)境的狀態(tài)轉(zhuǎn)移概
9
率;本自動發(fā)現(xiàn)方法的步驟包括(1)首先采用Q-Iearning探索環(huán)境,搜集動作影響的狀態(tài)變量;(2)調(diào)用基于動作執(zhí)行效果的聚類算法,這種策略是以數(shù)據(jù)對象作為原子類,然后將這些原子類進(jìn)行聚合;逐步聚合成越來越大的類,直到滿足終止條件;凝聚算法的過程為在初始時,每一個成員都組成一個單獨的簇,在以后的迭代過程中,再把那些相互鄰近的簇合并成一個簇,直到所有的成員組成一個簇為止。其時間和空間復(fù)雜性均為0(n2);通過凝聚式的方法將兩簇合并后,無法再將其分離到之前的狀態(tài);(3)得出分層任務(wù)圖。所述聚類算法的編程實現(xiàn)步驟如下輸入訓(xùn)練集Xk ⑴={[Sk,ai; Sk,],Att}輸出C1初始化模型參數(shù)向量Ck ;2i — 03repeat4(Ck, Ch) < -FindO ;5//返回系統(tǒng)中任意兩個聚類間的距離D(Ci,Cj)最小的兩個聚類
5
6 (Ck, Ch) < -(Ci, Cj);7Ci = Ci U Cj8Delete(Cj);9until存在一個以上的聚類;IOend ;其中
權(quán)利要求
1.一種面向復(fù)雜系統(tǒng)中的MA)(Q任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法,強(qiáng)化學(xué)習(xí)模型是如下 假設(shè)Agent與環(huán)境的交互發(fā)生在一系列的離散時刻t = 0,1,2,…;在每個時刻t,Agent通過觀察環(huán)境得到狀態(tài)si e S ;Agent按策略π選擇探索動作at e A并執(zhí)行;在下一時刻t+1,Agent收到環(huán)境給與的強(qiáng)化信號即報酬值rt+1 e R,并達(dá)到新狀態(tài)st+1 e S ; 根據(jù)強(qiáng)化信號rt+1,Agent改進(jìn)策略π ;強(qiáng)化學(xué)習(xí)的最終目標(biāo)是尋找到一個最優(yōu)策略
2.根據(jù)權(quán)利要求1所述的面向復(fù)雜系統(tǒng)中的MA)(Q任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法,其特征是首先采用Q-Iearning探索環(huán)境,搜集動作影響的狀態(tài)變量,搜集的信息包括狀態(tài)Si 在執(zhí)行動作%后狀態(tài)Si中狀態(tài)變量的改變;狀態(tài)Si在執(zhí)行動作%后指向的下一個狀態(tài)Si,, 將Si- > Bi- > S/這一執(zhí)行序列記錄下來;將獲取的信息表示為)(k(i) = {[Sk, Bi, Sk’ ],Att},其中Att記錄了狀態(tài)&在執(zhí)行動作 后狀態(tài)&中狀態(tài)變量的改變情況,[Sk,a,, Sk']則是記錄狀態(tài)&在執(zhí)行動作 后指向的下一個狀態(tài)Sk’這一動作;根據(jù)MDP已知有η個動作,ρ個狀態(tài),每個動作都可以作用在P個不同的系統(tǒng)狀態(tài)上,那么將MDP問題映射到聚類模型中,就是已知η個數(shù)據(jù)對象,也就是聚類對象,每個對象都有P個實數(shù)的測量值; 表示第i個對象的觀測向量的方法如下X⑴=(X1(I)jX2(I),,&(1)},1<=1<=11,其中父(1)表示第1個對象的觀測向量集合,也就是第i個動作%作用在P個不同狀態(tài)上的觀測集合,該集合里的每一個元素表示動作%作用在某個狀態(tài)上的觀測向量;用d(i,j)表示兩個數(shù)據(jù)對象之間的相異性,并滿足以下三個條件的不相似尺度 對于所有的i和j,d(i,j),并且當(dāng)且僅當(dāng)i = j時d(i,j) = 0 ; 對于所有的i和j,d(i,j) = d(j, i); 對于所有的 i,j 和 k,d(i,j) <= d(i,k)+d(k,j); 那么對象之間的歐式距離Euclidean distance被定義為
全文摘要
一種面向復(fù)雜系統(tǒng)中的MAXQ任務(wù)圖結(jié)構(gòu)的自動發(fā)現(xiàn)方法,步驟包括首先采用Q-learning探索環(huán)境,搜集動作影響的狀態(tài)變量;然后調(diào)用基于動作執(zhí)行效果的聚類算法,這種策略是以數(shù)據(jù)對象作為原子類,然后將這些原子類進(jìn)行聚合;逐步聚合成越來越大的類,直到滿足終止條件;凝聚算法的過程為在初始時,每一個成員都組成一個單獨的簇,在以后的迭代過程中,再把那些相互鄰近的簇合并成一個簇,直到所有的成員組成一個簇為止。其時間和空間復(fù)雜性均為O(n2);通過凝聚式的方法將兩簇合并后,無法再將其分離到之前的狀態(tài);(3)得出分層任務(wù)圖。本方法用學(xué)習(xí)感知到的各種信息建立聚類模型,通過聚類自動構(gòu)造出MAXQ的任務(wù)圖,最終實現(xiàn)MAXQ的自動分層。
文檔編號G06F15/18GK102521202SQ20111036759
公開日2012年6月27日 申請日期2011年11月18日 優(yōu)先權(quán)日2011年11月18日
發(fā)明者李文雅, 王紅兵 申請人:東南大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 西安市| 威海市| 加查县| 阿巴嘎旗| 民权县| 鄂托克前旗| 桐城市| 天柱县| 沙田区| 那坡县| 黎城县| 天祝| 原阳县| 镇康县| 邢台县| 新源县| 安吉县| 清新县| 怀化市| 蓬溪县| 菏泽市| 石嘴山市| 金堂县| 河曲县| 凉城县| 宝清县| 海伦市| 湖口县| 宜良县| 政和县| 新田县| 新河县| 凤冈县| 宜昌市| 上蔡县| 景洪市| 高要市| 宜丰县| 郁南县| 黔西| 家居|