麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

五自由度無軸承永磁同步電機強化學習控制器及構造方法與流程

文檔序號:11064609閱讀:608來源:國知局
五自由度無軸承永磁同步電機強化學習控制器及構造方法與制造工藝

本發明屬于電力傳動控制設備的技術領域,涉及五自由度無軸承永磁同步電機的控制器結構及其構造方法,適用于五自由度無軸承永磁同步電機的高性能控制。五自由度無軸承永磁同步電機在離心機、密封泵、航空航天、數控機床、飛輪儲能、生命科學等眾多高速、超高速特種電氣傳動領域應用廣闊。



背景技術:

五自由度無軸承永磁同步電機由一臺二自由度無軸承永磁同步電機和一個三自由度混合磁軸承構成,是多變量、強耦合的非線性復雜系統。五自由度無軸承永磁同步電機具備運行可靠、質量輕、運行損耗低、控制性能好等優良特性。在五自由度無軸承永磁同步電機的控制系統里,控制器設計往往需要精確的電機參數值來輔助設計,如無速度傳感器控制、矢量控制等。但是隨著溫度、負載和磁飽和程度的變化,永磁同步電機的定子電感、繞組電阻和轉子永磁磁鏈幅值等參數值大小都會隨之而變化,當電機實際參數值相對于常溫下的設計參數值發生比較大變化時,會對所設計的控制系統性能造成很大影響,甚至會讓其無法工作。同樣的,三自由度混合磁軸承由于鐵芯飽和以及溫度對永磁體影響等因素也導致類似問題。

自適應控制器具有修正自己的特性以適應對象擾動的能力。在系統運行中,自適應控制器依靠不斷采集控制過程信息,確定被控對象的當前實際工作狀態,以優化性能為準則,產生自適應控制規律,從而實時地調整控制器結構或參數,使系統始終自動地工作在最優或次最優狀態下。然而要實施自適應控制,通常需要準確獲得被控對象的數學模型,而五自由度無軸承永磁同步電機系統是一個多變量、非線性、強耦合的復雜系統,很難獲取其精確的數學模型。

中國專利公開號為CN1737708的文獻中公開的“基于神經網絡逆五自由度無軸承永磁同步電機控制系統及控制方法”,對五自由度無軸承永磁同步電機系統設計了神經網絡逆解耦控制器,該神經網絡需要事先讀取訓練數據,進行大量離線訓練,權值一旦固定無法在線調節,導致控制器無法克服五自由度無軸承永磁同步電機系統參數變化、負載突變、鐵芯飽和等不確定因素對系統的影響,魯棒性差。中國專利公開號為CN102790579A的文獻中公開的“一種五自由度無軸承永磁同步電機解耦控制器的構造方法”,對五自由度無軸承永磁同步電機系統設計了基于支持向量機逆的解耦控制器,該支持向量機逆解耦控制器同樣存在學習之后不能在線調節參數的問題,導致控制器無法克服五自由度無軸承永磁同步電機系統參數變化、負載突變、鐵芯飽和等不確定因素對系統的影響。

執行器–評價器算法(Actor-Critic,AC),也稱為自適應啟發式評價算法,是一種重要的強化學習算法,具有無模型在線學習能力。它包含兩個部件:執行器(Actor)和評價器(Critic)。執行器即策略結構,用于選擇動作。評價器即值函數,用于評估執行器選擇的動作。執行器–評價器算法中,動作的選擇與值函數的更新釆用了相同的策略。評價器必須了解和評價執行器當前采用的策略。評價采用瞬時差分誤差的方式。這個標量信號是評價器的唯一輸出并推動了執行器–評價器的所有學習。一般情況下,評價器是一個狀態值函數,評價器的實現機制,即值函數的更新可以采用時間差分學習(Temporal-Difference learning,TD)。評價器的作用在于,在每個動作選擇之后,評價器評估新狀態來決定事情是否比期望的好或者更糟,這個評估就是瞬時差分誤差。如果瞬時差分誤差是正值,表明未來選擇當前動作的傾向要被加強,但是如果瞬時差分誤差是負值,表明傾向要被減弱。



技術實現要素:

本發明的目的是為解決現有五自由度無軸承永磁同步電機控制存在的自適應控制需要精確數學模型的難題,解決現有單一神經網絡控制器需要事先讀取訓練數據,進行大量離線訓練,權值一旦固定無法在線調節的問題,提出一種可使五自由度無軸承永磁同步電機具有優良的動、靜態控制性能的自適應強化學習控制器,同時提出該強化學習控制器的構造方法。

本發明五自由度無軸承永磁同步電機強化學習控制器采用的技術方案是:由一個電流控制模塊、六個微分器和三個執行器-評價器模塊組成,三個執行器-評價器模塊的輸出經電流控制模塊連接無軸承永磁同步電機系統,電流控制模塊的輸出是組成無軸承永磁同步電機中二自由度無軸承永磁同步電機的轉矩繞組電流iMa、iMb、iMc、懸浮繞組電流iBa、iBb、iBc、組成無軸承永磁同步電機中三自由度混合磁軸承徑向位移控制電流ia、ib、ic和軸向位移控制電流iz;無軸承永磁同步電機系統的輸出為二自由度無軸承永磁同步電機實時徑向位移值x、y與實際轉速ω以及所述磁軸承徑向位移xr、yr與軸向位移z;實時徑向位移值x、y、實際轉速ω以及磁軸承徑向位移xr、yr與軸向位移z分別與相應的給定值x*、y*、xr*、yr*、z*、ω*一一對應地比較得到實時徑向位移誤差ex、ey、實際轉速eω誤差以及磁軸承徑向位移誤差exr、eyr與軸向位移ez這6個誤差,每個誤差各輸入一個對應的微分器得到誤差誤差ex、ey、是第一執行器-評價器模塊的輸入,誤差eω、是第二執行器-評價器模塊的輸入,誤差exr、eyr、ez、是第三執行器-評價器模塊的輸入,第一執行器-評價器模塊的輸出是二自由度無軸承永磁同步電機d-q坐標系下的懸浮繞組給定電流iBd*、iBq*,第二執行器-評價器模塊的輸出是d-q坐標系下的轉矩繞組給定電流iMd*、iMq*,第三執行器-評價器模塊的輸出是三自由度混合磁軸承控制電流ix*、iy*、iz*

本發明五自由度無軸承永磁同步電機強化學習控制器的構造方法采用的技術方案是:其特別是包括以下步驟:

步驟1:構造電流控制模塊和五自由度無軸承永磁同步電機系統;

步驟2:采用三個執行器-評價器復合RBF神經網絡同時實現三個執行器神經網絡和評價器神經網絡的學習,每個執行器與評價器共享執行器-評價器復合RBF神經網絡的輸入層和隱含層,構造出三個執行器神經網絡與三個評價器神經網絡;

步驟3:構造三個強化信號模塊,第一強化信號模塊輸出強化信號r1(t)=αxrx(t)+αyry(t),rx(t)、ry(t)分別為x、y軸向位移誤差強化信號,αx、αy分別為x、y軸向位移誤差強化信號系數;第二強化信號模塊輸出強化信號r2(t)=βω1rω1(t)+βω2rω2(t),rω1(t)、rω2(t)分別為轉速當前時刻誤差強化信號和轉速誤差變化強化信號,βω1和βω2分別為它們的權重;第三強化信號模塊輸出強化信號r3(t)=αxrrxr(t)+αyrryr(t)+αzrz(t),rxr(t)、ryr(t)和rz(t)分別為磁軸承x、y軸向位移誤差強化信號和z軸向位移強化信號,αxr、αyr和αz分別為x、y軸向位移誤差強化信號系數和z軸向位移強化信號系數;

步驟4.構造三個瞬時差分模塊,瞬時差分信號δa(t)=ra(t)+γaVa(t+1)-Va(t),γa折扣因子,0≤γa≤1,t為當前時刻,Va(t+1)和Va(t)分別為更新前后的值函數,a=1,2,3,分別代表第一、第二、第二執行器-評價器模塊;

步驟5:由三個執行器-評價器模塊與電流控制模塊共同組成五自由度無軸承永磁同步電機強化學習控制器。

本發明的優點在于:

1.本發明將人工智能領域強化學習中的執行器-評價器(Actor-Critic,AC)與傳統矢量控制技術相結合,利用強化學習中的執行器-評價器算法,也稱為自適應啟發式評價算法,是一種重要的強化學習算法,由評價器評價五自由度無軸承永磁同步電機系統的轉速與位移反饋信息,并指導執行器輸出五自由度無軸承永磁同步電機的各個電流,能夠在沒有電機精確模型的情況下在線更新控制器參數,維持五自由度無軸承永磁同步電機的穩定運行,抗電機參數變化及抗負載擾動能力強,同時克服了系統參數變化、負載突變等不確定因素對系統性能的影響,具有更好的魯棒性,能夠維持五自由度無軸承永磁同步電機的高性能穩定運行和跟蹤控制。

2.本發明采用了徑向基函數神經網絡(RBF network)。RBF神經網絡能夠逼近任意的非線性函數,可以處理系統內的難以解析的規律性,具有良好的泛化能力。同時RBF神經網絡作為一種局部逼近網絡相比BP神經網絡等全局逼近網絡具有更快的學習收斂速度。已成功應用于非線性函數逼近、時間序列分析、數據分類、模式識別、信息處理、圖像處理、系統建模、控制和故障診斷等。

附圖說明

圖1是本發明五自由度無軸承永磁同步電機強化學習控制器的結構框圖;

圖2是圖1中電流控制模塊和五自由度無軸承永磁同步電機系統的放大的構造框圖及等效圖;

圖3是圖1中第一執行器-評價器模塊1的構造框圖及等效圖;

圖4是圖1中第二執行器-評價器模塊2的構造框圖及等效圖;

圖5是圖1中第三執行器-評價器模塊3的構造框圖及等效圖;

圖6是圖3中復合RBF神經網絡結構圖;

圖7是圖4中復合RBF神經網絡結構圖;

圖8是圖5中復合RBF神經網絡結構圖;

圖9是圖3中第一強化信號模塊13的構造原理圖;

圖10是圖4中第二強化信號模塊23的構造原理圖;

圖11是圖5中第三強化信號模塊23的構造原理圖;

圖12是圖3中第一瞬時差分模塊14的構造原理圖;

圖13是圖4中第二瞬時差分模塊24的構造原理圖;

圖14是圖5中第三瞬時差分模塊34的構造原理圖;

圖15是圖1中三個執行器-評價器模塊的算法流程圖。

圖中:1.第一執行器-評價器模塊;2.第二執行器-評價器模塊;3.第三執行器-評價器模塊;4.電流控制模塊;7.五自由度無軸承永磁同步電機系統;8.五自由度無軸承永磁同步電機強化學習控制器;9.復合被控對象;11.第一執行器神經網絡;12.第一評價器神經網絡;13.第一強化信號模塊;14.第一瞬時差分模塊;

21.第二執行器神經網絡;22.第二評價器神經網絡;23.第二強化信號模塊;24.第二瞬時差分模塊;

31.第三執行器神經網絡;32.第三評價器神經網絡;33.第三強化信號模塊;34.第三瞬時差分模塊;

41.第一PI調節器;42.第二PI調節器;43.第一IPARK變換器;44.第一SVPWM;45.第一PARK變換器;46.第一CLARK變換器;47.第一電流傳感器;48.第一電壓源逆變器;49.第三PI調節器;

50.第四PI調節器;51.第二SVPWM;52.第二電壓源逆變器;53.第二CLARK變換器;54.第二電流傳感器;55.功率放大器;56.第五PI調節器;57.第六PI調節器;58.第二IPARK變換器;59.第三SVPWM;

60.第三電壓源逆變器;61.第三電流傳感器;62.第三CLARK變換器;63.第二PARK變換器;64.光電編碼器;65.位移傳感器;66.五自由度無軸承永磁同步電機。

具體實施方式

參見圖1,本發明五自由度無軸承永磁同步電機強化學習控制器8由一個電流控制模塊4、六個微分器和三個執行器-評價器模塊組成,三個執行器-評價器模塊分別是第一執行器-評價器模塊1、第二執行器-評價器模塊2和第三執行器-評價器模塊3。三個執行器-評價器模塊的輸出端連接電流控制模塊4的輸入端,電流控制模塊4的輸出端連接五自由度無軸承永磁同步電機系統7。五自由度無軸承永磁同步電機系統7中的五自由度無軸承永磁同步電機由一臺二自由度無軸承永磁同步電機和一個三自由度混合磁軸承構成。

由無軸承永磁同步電機系統7和電流控制模塊4組成復合被控對象9,復合被控對象9的輸出即無軸承永磁同步電機系統7的輸出,為二自由度無軸承永磁同步電機實時徑向位移值x、y與實際轉速ω以及三自由度混合磁軸承徑向位移xr、yr與軸向位移z。電流控制模塊4的輸出是二自由度無軸承永磁同步電機的轉矩繞組電流iMa、iMb、iMc、二自由度無軸承永磁同步電機的懸浮繞組電流iBa、iBb、iBc、三自由度混合磁軸承徑向位移控制電流ia、ib、ic和軸向位移控制電流iz

將電機實時徑向位移值x、y、實際轉速ω以及磁軸承徑向位移xr、yr與軸向位移z作為反饋值,分別與相應的給定值x*、y*、xr*、yr*、z*、ω*一一對應地進行比較,得到電機實時徑向位移誤差ex、ey、實際轉速eω誤差以及磁軸承徑向位移誤差exr、eyr與軸向位移ez這6個誤差,將每個誤差各輸入一個對應的微分器d/dt,通過6個微分器分別對時間求導,得到誤差將其中的誤差ex、ey、作為第一執行器-評價器模塊1的輸入,誤差eω、作為第二執行器-評價器模塊2的輸入,誤差exr、eyr、ez、作為第三執行器-評價器模塊3的輸入。第一執行器-評價器模塊1的輸出是二自由度無軸承永磁同步電機d-q坐標系下的懸浮繞組給定電流iBd*、iBq*,第二執行器-評價器模塊2的輸出是d-q坐標系下的轉矩繞組給定電流iMd*、iMq*,第三執行器-評價器模塊3的輸出是三自由度混合磁軸承控制電流ix*、iy*、iz*。復合被控對象9的輸入即電流控制模塊4的輸入,為三個執行器-評價器模塊的輸入。

如圖2所示,電流控制模塊4由6個PI調節器、2個PARK變換器與2個IPARK變換器、3個CLARK變換器、3個SVPWM、3個電流傳感器與3個電壓源逆變器以及1個功率放大器55組成。五自由度無軸承永磁同步電機系統7由位移傳感器65、光電編碼器64和五自由度無軸承永磁同步電機66組成。其中,6個PI調節器分別是第一PI調節器41、第二PI調節器42、第三PI調節器49、第四PI調節器50、第五PI調節器56和第六PI調節器57;2個PARK變換器分別是第一PARK變換器45和第二PARK變換器63;2個IPARK變換器分別是第一IPARK變換器43和第二IPARK變換器58;3個CLARK變換器分別是第一CLARK變換器46、第二CLARK變換器53和第三CLARK變換器62;3個SVPWM分別是第一SVPWM44、第二SVPWM51和第三SVPWM59;3個電流傳感器分別是第一電流傳感器47、第二電流傳感器54和第三電流傳感器61;3個電壓源逆變器分別是第一電壓源逆變器48、第二電壓源逆變器52和第三電壓源逆變器60。

位移傳感器65采用五個電渦流位移傳感器分別檢測二自由度無軸承永磁同步電機轉子的x軸與y軸的實時徑向位移值x、y以及三自由度混合磁軸承的徑向位移xr、yr和軸向位移z,采用光電編碼器64檢測二自由度無軸承永磁同步電機轉子的轉速ω。

第三電流傳感器61檢測二自由度無軸承永磁同步電機的懸浮繞組電流iBa、iBb、iBc,第三電流傳感器61的輸出端依序連接第三CLARK變換器62和第二PARK變換器63,懸浮繞組電流iBa、iBb、iBc經第三CLARK變換器62處理后生成α-β坐標系下的懸浮繞組電流i、i。第二PARK變換器63處理α-β坐標系下的懸浮繞組電流i、i生成d-q坐標系下的懸浮繞組電流iBd、iBq。將該懸浮繞組電流iBd、iBq作為反饋電流,與d-q坐標系下的懸浮繞組給定電流iBd*、iBq*比較,比較得到的誤差分別一一對應地輸出到第五PI調節器56和第六PI調節器57,第五PI調節器56和第六PI調節器57的輸出端依序連接第二IPARK變換器58、第三SVPWM59和第三電壓源逆變器60,比較得到的誤差經第五PI調節器56和第六PI調節器57處理后分別生成d-q坐標系下的懸浮繞組電壓VBd*和VBq*,懸浮繞組電壓VBd*和VBq*經第二IPARK變換器58處理后生成α-β坐標系下的懸浮繞組電壓V*和V*。α-β坐標系下的懸浮繞組電壓V*和V*經第三SVPWM59處理后生成第三電壓源逆變器60的開關信號SB(B=1,2,3,4,5,6)。第三電壓源逆變器60根據開關信號SB控制二自由度無軸承永磁同步電機的懸浮繞組電流。

第一電流傳感器47檢測二自由度無軸承永磁同步電機的轉矩繞組電流iMa、iMb、iMc,第一電流傳感器47的輸出端依序連接第一CLARK變換器46和第一PARK變換器45,轉矩繞組電流iMa、iMb、iMc經第一CLARK變換器46處理后生成α-β坐標系下的轉矩繞組電流i、i,第一PARK變換器45處理α-β坐標系下的轉矩繞組電流i、i生成d-q坐標系下的轉矩繞組電流iMd、iMq,將轉矩繞組電流iMd、iMq作為反饋電流,與d-q坐標系下的轉矩繞組給定電流iMd*、iMq*比較,比較得到誤差分別一一對應地輸出到第一PI調節器41和第二PI調節器42,比較得到的誤差經第一PI調節器41和第二PI調節器42處理后分別生成d-q坐標系下的轉矩繞組電壓VMd*和VMq*,第一PI調節器41和第二PI調節器42的輸出端依次串接第一IPARK變換器43、第一SVPWM44和第一電壓源逆變器48,第一IPARK變換器43處理d-q坐標系下的轉矩繞組電壓VMd*和VMq*,生成α-β坐標系下的轉矩繞組電壓V*和V*,α-β坐標系下的轉矩繞組電壓V*和V*經第一SVPWM44處理后生成第一電壓源逆變器48的開關信號SM(M=1,2,3,4,5,6)。第一電壓源逆變器48根據開關信號SM控制二自由度無軸承永磁同步電機的轉矩繞組電流。

第二電流傳感器54檢測三自由度混合磁軸承徑向位移控制電流ia、ib、ic,徑向位移控制電流ia、ib、ic經第二CLARK變換器53處理后生成α-β坐標系下的徑向位移控制電流ix、iy,將α-β坐標系下的徑向位移控制電流ix、iy作為反饋電流,與給定徑向位移控制電流ix*、iy*比較,比較得到的誤差分別一一對應地輸出到第三PI調節器49和第四PI調節器50,比較誤差經第三PI調節器49和第四PI調節器50處理后生成α-β坐標系下的徑向位移控制電壓Vx*和Vy*。第三PI調節器49和第四PI調節器50的輸出端依次串接第二SVPWM51和第二電壓源逆變器52,α-β坐標系下的徑向位移控制電壓Vx*和Vy*經第二SVPWM51處理后生成第二電壓源逆變器52的開關信號ST(T=1,2,3,4,5,6),第二電壓源逆變器52根據開關信號ST控制三自由度混合磁軸承徑向位移控制電流。

三自由度磁軸承軸向位移控制電流iz直接經由軸向位移給定電流iz*經過功率放大器55得到。

如圖3所示,第一執行器-評價器模塊1由第一執行器神經網絡11、第一評價器神經網絡12、第一強化信號模塊13和第一瞬時差分模塊14組成。誤差ex、ey、為第一執行器神經網絡11和第一評價器神經網絡12的共同輸入,第一評價器神經網絡12的輸出端經第一瞬時差分模塊14連接第一執行器神經網絡11,第一瞬時差分模塊14的輸出端還連接第一評價器神經網絡12的輸入端。誤差ex、ey作為第一強化信號模塊13的輸入,第一強化信號模塊13的輸出端連接第一瞬時差分模塊14,第一強化信號模塊13輸出強化信號r1(t)。第一評價器神經網絡12生成并輸出值函數V1(t),第一執行器神經網絡11輸出d-q坐標系下的懸浮繞組給定電流iBd*、iBq*,第一瞬時差分模塊14根據強化信號r1(t)和值函數V1(t)生成瞬時差分信號δ1(t)。第一執行器神經網絡11和第一評價器神經網絡12根據瞬時差分信號δ1(t)調整權值。

如圖4所示,第二執行器-評價器模塊2由第二執行器神經網絡21、第二評價器神經網絡22、第二強化信號模塊23和第二瞬時差分模塊24組成。將誤差eω、作為第二執行器神經網絡21和第二評價器神經網絡22的共同輸入,第二評價器神經網絡22的輸出端經第二瞬時差分模塊24連接第二執行器神經網絡21,第二瞬時差分模塊24的輸出端還連接第二評價器神經網絡22的輸入端。第二強化信號模塊23以eω作為的輸入,第二強化信號模塊23的輸出端連接第二瞬時差分模塊24,輸出強化信號r2(t)。第二評價器神經網絡22生成輸出值函數V2(t),第二執行器神經網絡21輸出d-q坐標系下的轉矩繞組給定電流iMd*、iMq*。第二瞬時差分模塊24根據強化信號r2(t)和值函數V2(t)生成瞬時差分信號δ2(t)。第二執行器神經網絡21和第二評價器神經網絡22根據瞬時差分信號δ2(t)調整權值。

如圖5所示,第三執行器-評價器模塊3由第三執行器神經網絡31、第三評價器神經網絡32、第三強化信號模塊33和第三瞬時差分模塊34組成。將誤差exr、eyr、ez、作為第三執行器神經網絡31和第三評價器神經網絡32的共同輸入,第三評價器神經網絡32的輸出端經第三瞬時差分模塊34連接第三執行器神經網絡31,第三瞬時差分模塊34的輸出端還連接第三評價器神經網絡32的輸入端。第三強化信號模塊33以exr、eyr、ez作為的輸入,第三強化信號模塊33的輸出端連接第三瞬時差分模塊34,輸出強化信號r3(t)。第三評價器神經網絡32生成輸出值函數V3(t),第三執行器神經網絡31輸出三自由度混合磁軸承控制電流ix*、iy*、iz*,第三瞬時差分模塊34根據強化信號r3(t)和值函數V3(t)生成瞬時差分信號δ3(t),第三執行器神經網絡31和第三評價器神經網絡32根據瞬時差分信號δ3(t)調整權值。

五自由度無軸承永磁同步電機強化學習控制器8的具體構造方法分以下6步:

1.構造電流控制模塊4和五自由度無軸承永磁同步電機系統7

如圖2所示,由6個PI調節器、2個PARK變換器與2個IPARK變換器、3個CLARK變換器、3個SVPWM、3個電流傳感器與3個電壓源逆變器以及1個功率放大器55構成電流控制模塊4。由位移傳感器65、光電編碼器64和五自由度無軸承永磁同步電機66構成五自由度無軸承永磁同步電機系統7。

第三電流傳感器61檢測二自由度無軸承永磁同步電機的懸浮繞組電流iBa、iBb、iBc,懸浮繞組電流iBa、iBb、iBc經第三CLARK變換器62處理后生成α-β坐標系下的懸浮繞組電流i、i。第二PARK變換器63處理α-β坐標系下的懸浮繞組電流i、i生成d-q坐標系下的懸浮繞組電流iBd、iBq。懸浮繞組電流iBd、iBq作為反饋電流與d-q坐標系下的懸浮繞組給定電流iBd*、iBq*比較,比較誤差分別輸出到第五PI調節器56和第六PI調節器57,比較誤差經第五PI調節器56和第六PI調節器57處理后生成d-q坐標系下的懸浮繞組電壓VBd*和VBq*。第二IPARK變換器58處理d-q坐標系下的懸浮繞組電壓VBd*和VBq*生成α-β坐標系下的懸浮繞組電壓V*和V*。α-β坐標系下的懸浮繞組電壓V*和V*經第三SVPWM59處理后生成第三電壓源逆變器60的開關信號SB(B=1,2,3,4,5,6)。第三電壓源逆變器60根據開關信號控制二自由度無軸承永磁同步電機的懸浮繞組電流。第一電流傳感器47檢測二自由度無軸承永磁同步電機的轉矩繞組電流iMa、iMb、iMc,轉矩繞組電流iMa、iMb、iMc經第一CLARK變換器46處理后生成α-β坐標系下的轉矩繞組電流i、i。第一PARK變換器45處理α-β坐標系下的轉矩繞組電流i、i生成d-q坐標系下的轉矩繞組電流iMd、iMq。轉矩繞組電流iMd、iMq作為反饋電流與d-q坐標系下的轉矩繞組給定電流iMd*、iMq*比較,比較誤差分別輸出到第一PI調節器41和第二PI調節器42,比較誤差經第一PI調節器41和第二PI調節器42處理后生成d-q坐標系下的轉矩繞組電壓VMd*和VMq*。第一IPARK變換器43處理d-q坐標系下的轉矩繞組電壓VMd*和VMq*生成α-β坐標系下的轉矩繞組電壓V*和V*。α-β坐標系下的轉矩繞組電壓V*和V*經第一SVPWM44處理后生成第一電壓源逆變器48的開關信號SM(M=1,2,3,4,5,6)。第一電壓源逆變器48根據開關信號控制二自由度無軸承永磁同步電機的轉矩繞組電流。第二電流傳感器54檢測三自由度混合磁軸承徑向位移控制電流ia、ib、ic,徑向位移控制電流ia、ib、ic經第二CLARK變換器53處理后生成α-β坐標系下的徑向位移控制電流ix、iy。α-β坐標系下的徑向位移控制電流ix、iy作為反饋電流與g給定徑向位移控制電流ix*、iy*比較,比較誤差分別輸出到第三PI調節器49和第四PI調節器50,比較誤差經第三PI調節器49和第四PI調節器50處理后生成α-β坐標系下的徑向位移控制電壓Vx*和Vy*。α-β坐標系下的徑向位移控制電壓Vx*和Vy*經第二SVPWM51處理后生成第二電壓源逆變器的開關信號ST(T=1,2,3,4,5,6)。第二電壓源逆變器52根據開關信號控制三自由度混合磁軸承徑向位移控制電流。三自由度磁軸承軸向位移控制電流iz直接由iz*經過功率放大器55得到。

2.構造第一執行器神經網絡11、第二執行器神經網絡21、第三執行器神經網絡31與第一評價器神經網絡12、第二評價器神經網絡22、第三評價器神經網絡32。

如圖6、7、8所示,本發明采用三個執行器-評價器復合RBF神經網絡同時實現三個執行器神經網絡和評價器神經網絡的學習,每個執行器與評價器共享執行器-評價器復合RBF神經網絡的輸入層和隱含層資源。如圖6所示,第一執行器-評價器模塊1的復合RBF神經網絡共有三層,第一層為輸入層節點數為4個,第二層為隱含層節點數為8個,第三層為輸出層節點數為3個。如圖7所示,第二執行器-評價器模塊2的復合RBF神經網絡共有三層,第一層為輸入層節點數為2個,第二層為隱含層節點數為6個,第三層為輸出層節點數為3個。如圖8所示,第三執行器-評價器模塊3的復合RBF神經網絡共有三層,第一層為輸入層節點數為6個,第二層為隱含層節點數為12個,第三層為輸出層節點數為4個。

如圖6,第一執行器-評價器模塊1的復合RBF神經網絡的第一層為輸入層,每個輸入節點代表狀態向量的一個分量,其中t代表當前時刻,上標T表示矩陣的轉置。第二層為隱含層,隱含層的節點基函數采用高斯核函數。第j個隱含層節點的輸出為:

其中:

μ(1)j=[μ(1)1jμ(1)2jμ(1)3jμ(1)4j]T

為第一個神經網絡的第j個節點的基函數中心向量,μ(1)1j,μ(1)2j,μ(1)3j,μ(1)4j分別對應狀態變量ex(t)、ey(t)、的基函數中心向量,t為當前時刻,上標T表示矩陣的轉置。σ(1)j為第一個神經網絡的第j個節點的方差。下標(1)代表執行器-評價器模塊1。第三層為輸出層,由執行器輸出和評價器輸出兩個部分組成。執行器神經網絡輸出值函數I1m(t)和評價器神經網絡輸出值函數V1(t)由下面式子計算:

其中w(1)jk(t)為第一個神經網絡的第j個隱含層節點到執行器的第k個輸出節點的權值。I(1)1(t)、I(1)2(t)分別對應iBd*、iBq*

其中v(1)j(t)為第j個隱含層節點到評價器輸出節點的權值。

如圖7,第二執行器-評價器模塊2的復合RBF神經網絡的第一層為輸入層,每個輸入節點代表狀態向量的一個分量,其中t代表當前時刻。第二層為隱含層,隱含層的節點基函數采用高斯核函數。第j個隱含層節點的輸出為:

其中:

μ(2)j=[μ(2)1jμ(2)2j]T

為第二個神經網絡的第j個節點的基函數中心向量,μ(2)1j、μ(2)2j分別對應狀態變量eω(t)、的基函數中心向量。σ(2)j為第二個神經網絡的第j個節點的方差。下標(2)代表第二執行器-評價器模塊2。第三層為輸出層由執行器輸出和評價器輸出兩個部分組成。執行器神經網絡輸出值函數I2m(t)和評價器神經網絡輸出值函數V2(t)由下面式子計算:

其中w(2)jk(t)為第二個神經網絡的第j個隱含層節點到執行器的第k個輸出節點的權值。I(2)1(t)、I(2)2(t)分別對應iMd*、iMq*

其中v(2)j(t)為第二個神經網絡第j個隱含層節點到評價器輸出節點的權值。

如圖8,第三執行器-評價器模塊3的復合RBF神經網絡的第一層為輸入層,每個輸入節點代表狀態向量的一個分量,其中t代表當前時刻。第二層為隱含層,隱含層的節點基函數采用高斯核函數。第j個隱含層節點的輸出為:

其中:

μ(3)j=[μ1jμ2jμ3jμ4jμ5jμ6j]T

為第三個神經網絡的第j個節點的基函數中心向量,μ1j、μ2j、μ3j、μ4j、μ5j、μ6j分別對應狀態變量exr(t)、eyr(t)、ez(t)、的基函數中心向量,上標T表示矩陣的轉置。σ(3)j為第三個神經網絡的第j個節點的方差。下標(3)代表第三執行器-評價器模塊3。第三層為輸出層由執行器輸出和評價器輸出兩個部分組成。執行器神經網絡輸出值函數I3m(t)和評價器神經網絡輸出值函數V3(t)由下面式子計算:

其中w(3)jk(t)為第三個神經網絡的第j個隱含層節點到執行器的第k個輸出節點的權值。I(3)1(t)、I(3)2(t)、I(3)3(t)分別對應ix*、iy*、iz*

其中v(3)j(t)為第三個神經網絡第j個隱含層節點到評價器輸出節點的權值。

3.構造第一強化信號模塊13、第二強化信號模塊23、第三強化信號模塊33。

如圖3和圖9所示,第一強化信號模塊13有兩個輸入端,一個輸出端。輸入為二自由度無軸承永磁同步電機位移誤差信號ex、ey,輸出為強化信號r1(t)。強化信號的計算由以下公式得到:

r1(t)=αxrx(t)+αyry(t),

其中rx(t)、ry(t)分別為x軸向位移誤差強化信號,y軸向位移誤差強化信號。αx、αy分別為x軸向位移誤差強化信號系數,y軸向位移誤差強化信號系數。這里兩個系數值都取0.5。

x軸向位移誤差強化信號rx(t),y軸向位移誤差強化信號ry(t)的計算由以下公式得到:

rx(t)=βx1rx1(t)+βx2rx2(t)

ry(t)=βy1ry1(t)+βy2ry2(t)

其中rx1(t),rx2(t)分別為x軸向位移當前時刻誤差強化信號和x軸向位移誤差變化強化信號,系數βx1和βx2分別為他們的權重,這里均取0.5。其中ry1(t),ry2(t)分別為y軸向位移當前時刻誤差強化信號和誤差變化強化信號系數βy1和βy2分別為他們的權重,均取0.5。ex(t)為x軸向位移當前時刻誤差,ey(t)為y軸向位移當前時刻誤差,ex(t-1)為x軸向位移上一時刻誤差,ey(t-1)為y軸向位移上一時刻誤差,εx和εy分別為x軸向位移誤差信號的容許誤差帶,y軸向位移誤差信號的容許誤差帶,統一設為反饋量大小的1%。

如圖4和圖10所示,第二強化信號模塊23有一個輸入端,一個輸出端。輸入為轉速誤差信號eω,輸出為強化信號r2(t)。強化信號的計算由以下公式得到:

r2(t)=βω1rω1(t)+βω2rω2(t)

其中rω1(t)、rω2(t)分別為轉速當前時刻誤差強化信號和轉速誤差變化強化信號。系數βω1和βω2分別為它們的權重,這里均取0.5。轉速當前時刻誤差強化信號rω1(t)和轉速誤差變化強化信號rω2(t)的計算由以下公式得到:

其中eω(t)為轉速當前時刻誤差,eω(t-1)為轉速上一時刻誤差,εω轉速誤差信號的容許誤差帶,設為反饋量大小的1%。

如圖5和圖11所示,第三強化信號模塊33有三個輸入端,一個輸出端。輸入為三自由度混合磁軸承徑向與軸向位移誤差信號exr、eyr和ez,輸出為強化信號r3(t)。強化信號的計算由以下公式得到:

r3(t)=αxrrxr(t)+αyrryr(t)+αzrz(t)

其中rxr(t)、ryr(t)和rz(t)分別為三自由度混合磁軸承x軸向位移誤差強化信號,y軸向位移誤差強化信號和z軸向位移強化信號。αxr、αyr和αz分別為x軸向位移誤差強化信號系數,y軸向位移誤差強化信號系數和z軸向位移強化信號系數。這里三個系數值都取0.3。

三自由度混合磁軸承的x軸向位移誤差強化信號rxr(t)、y軸向位移誤差強化信號ryr(t)和x軸向位移誤差強化信號rz(t)的計算由以下公式得到:

rxr(t)=βxr1rxr1(t)+βxr2rxr2(t)

ryr(t)=βyr1ryr1(t)+βyr2ryr2(t)

rz(t)=βz1rz1(t)+βz2rz2(t)

其中rxr1(t),rxr2(t)分別為三自由度混合磁軸承x軸向位移當前時刻誤差強化信號和x軸向位移誤差變化強化信號,系數βxr1和βxr2分別為它們的權重,這里均取0.5。ryr1(t),ryr2(t)分別為三自由度混合磁軸承y軸向位移當前時刻誤差強化信號和誤差變化強化信號系數βyr1和βyr2分別為他們的權重,均取0.5。rz1(t),rz2(t)分別為三自由度混合磁軸承z軸向位移當前時刻誤差強化信號和誤差變化強化信號系數βz1和βz2分別為他們的權重,均取0.5。exr(t)為x軸向位移當前時刻誤差,eyr(t)為y軸向位移當前時刻誤差,ez(t)為z軸向位移當前時刻誤差。exr(t-1)為x軸向位移上一時刻誤差,eyr(t-1)為y軸向位移上一時刻誤差,ez(t-1)為z軸向位移上一時刻誤差。εxr、εyr和εz分別為x軸向位移誤差信號的容許誤差帶,y軸向位移誤差信號的容許誤差帶和z軸向位移誤差信號的容許誤差帶,統一設為反饋量大小的1%。

4.構造第一瞬時差分模塊14、第二瞬時差分模塊24和第三瞬時差分模塊34。

如圖3-5所示,三個瞬時差分模塊14、24、34中的每個都有兩個輸入端和兩個輸出端。兩個輸入分別為強化信號ra(t)(a=1,2,3,分別代表執行器-評價器模塊1,2,3),評價器神經網絡輸出值函數Va(t)(a=1,2,3),兩個輸出相同都為瞬時差分信號δa(t)(a=1,2,3),一個輸出到執行器神經網絡,一個輸出到評價器神經網絡。如圖12、13和圖14所示,瞬時差分信號δa(t)的計算由以下公式得到:

δa(t)=ra(t)+γaVa(t+1)-Va(t)(a=1,2,3)

其中0≤γa≤1(a=1,2,3)為折扣因子,其大小表明了未來的回報相對于當前回報的重要程度。特別的,γa=0時,相當于只考慮立即不考慮長期回報,γa=1時,將長期回報和立即回報看得同等重要。t為當前時刻,Va(t+1)和Va(t)分別為更新前后的值函數。

5.確定執行器-評價器復合RBF神經網絡參數更新方式。

在執行器-評價器復合RBF神經網絡中需要更新的參數有w(a)jk,v(a)j,μ(a)j和σ(a)j(a=1,2,3)。其計算方法由如下公式得到:

w(a)jk(t+1)=w(a)jk(t)+α(a)Aδa(t)Φ(a)j(t),

v(a)j(t+1)=v(a)j(t)+α(a)Cδa(t)Φ(a)j(t),

其中α(a)A和α(a)C分別為執行器和評價器的學習率,α(a)μ和α(a)σ分別為中心向量和方差的學習率,所有學習率的取值范圍均為0到1。所有的下標a可取1,2,3表示執行器-評價器模塊1,2,3。

6.確定執行器-評價器算法流程

本發明中的強化學習執行器評價器算法流程如圖15所示。具體步驟如下:

步驟1:初始化第一、第二、第三執行器評價器模塊1,2,3中各個參數。

步驟2:由系統輸出得到反饋值x、y、xr、yr、z、ω。

步驟3:將反饋值x、y、xr、yr、z、ω與給定值x*、y*、xr*、yr*、z*、ω*比較得到系統誤差ex、ey、exr、eyr、ez、eω

步驟4:誤差信號分別對時間求導,得到

步驟5:構造狀態向量:

步驟6:計算三個執行器-評價器復合RBF神經網絡的輸出I(a)m(t)、V(a)(t)。

步驟7:計算三個強化信號r(a)(t)。

步驟8:計算下一采樣時間的系統輸出。

步驟9:計算t+1時刻三個執行器-評價器復合RBF神經網絡輸出I(a)m(t+1)、V(a)(t+1)。

步驟10:計算強化信號r(a)(t+1)。

步驟11:計算瞬時差分信號δa(t)。

步驟12:更新執行器-評價器復合RBF神經網絡的參數包括w(a)jk、v(a)j、μ(a)j、σ(a)j

步驟13:判斷系統是否穩定即誤差信號是否處于容許誤差帶。若系統穩定則結束流程,否則跳轉到步驟8。

最終由第一、第二、第三執行器-評價器模塊1,2,3與電流控制模塊4共同組成完整的五自由度無軸承永磁同步電機強化學習控制器8,如圖1所示。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 浙江省| 石泉县| 临泽县| 通城县| 长葛市| 阿巴嘎旗| 扬州市| 专栏| 咸丰县| 翁牛特旗| 库车县| 兴业县| 商河县| 澜沧| 忻城县| 东方市| 长汀县| 聊城市| 安塞县| 莱州市| 康平县| 松滋市| 天津市| 灌云县| 乌审旗| 郓城县| 祥云县| 辽阳市| 洪雅县| 沅江市| 上思县| 昌江| 德清县| 阿坝县| 棋牌| 嘉善县| 六盘水市| 丰镇市| 奉化市| 伊川县| 文昌市|