背景技術:
1、雙輥連鑄(trc)是一種近凈成形制造工藝,其用于生產鋼和其他金屬的帶材。在該過程中,將熔融金屬傾倒在兩個鑄輥的表面上,這兩個鑄輥同時將金屬冷卻并固化成接近其最終厚度的帶材。該過程的特征在于快速的熱機械動力學,其難以控制以實現最終產品的期望特性。這不僅對于穩態鑄造是真實的,而且在“啟動”期間(穩態鑄造之前的鑄造過渡時期)更是如此。在啟動期間生產的帶材金屬通常包含不可接受量的缺陷。例如,帶顫振是連鑄機在35hz和65hz附近振動的現象。更具體地,振動引起固化過程中的變化并導致表面缺陷,如圖1a和1b所示。在能夠制造商業上可接受的帶材金屬之前,需要使顫振低于上限。
2、在啟動和穩態鑄造過程期間,人類操作者的任務是手動調節某些過程控制設定點。在啟動過程期間,操作者的目標是盡可能快地穩定鋼帶的生產,包括減少顫振,以便在滿足特定帶質量度量的情況下最小化啟動周期的長度,從而通過最小化過程啟動損失來增加產品產量。他們通過一系列二元決策(接通/斷開開關)和多個設定點的連續調節來做到這一點。總共,操作者控制超過二十個開關和設定點;對于后者,操作者必須確定何時調節設定點以及調節多少。
3、在操作者調節的設定點中,鑄輥分離力設定點(從這里起將被稱為“力設定點”)是在啟動過程中被最頻繁調節的設定點。它可以在大約五分鐘的時段內被調節數十次。操作者在調節力設定點時考慮許多因素,但最重要的是帶顫振,這是由連鑄機的固有頻率引起的帶材缺陷。
4、操作者使用各種策略來調節力設定點。一種是考慮顫振測量的閾值;當顫振值增加到閾值以上時,操作者將開始減小力。然而,各個操作者基于他們自己的經驗以及包括鋼的特定等級或正在鑄造的寬度的因素來使用不同的閾值。另一方面,將力減小太多可能導致鋼帶內的其他質量問題;因此,操作者通常被訓練成在顫振減輕的情況下維持盡可能高的力。
5、已經嘗試改進各種工業工藝,包括雙輥連鑄。近年來,人在回路控制系統變得越來越普及。代替將人考慮為外源信號(諸如干擾),人在回路系統將人視為控制系統的一部分。人在回路應用可以分為三個主要類別:人類控制、人類監測以及這兩者的混合。人類控制是當人直接控制過程時,這也可以被稱為直接控制。監督控制是一種混合途徑,其中人類操作者調節特定的設定點并且以其他方式監督主要自動控制的過程。監督控制通常出現在工業中,并且到目前為止一直是操作雙輥連鑄機的主要方式。然而,人類操作者之間的變化,例如他們的個性特征、過去的經驗、技能水平或甚至他們當前的情緒的變化,以及變化的、非特征的過程因素,持續導致過程操作的不一致。
6、已經考慮將人類行為建模為黑盒問題。更具體地,研究人員同意系統識別技術可以用于模擬人在回路控制系統中的人類行為。這些通常參考人類行為的預測模型,并且隨后參考基于所識別的模型的控制器設計。首先識別人類行為的模型并且然后設計基于模型的控制器的這種途徑的有效性取決于可用數據。不利地,如果人類數據包含多個不同的操作者行為,則由于不同操作者之間的顯著變化,任何識別的模型將可能對數據欠擬合并導致表現不佳的控制器。
7、此外,所提出的途徑旨在表征人類操作者在系統中作為反饋控制器的角色,但是,所提出的途徑不是對人類操作者的行為進行建模,而是基于系統模型來識別最優控制策略。換句話說,它們不直接從經驗豐富的人類操作者使用的策略中學習。在一些工業應用中,特別是在諸如過程啟動的操作的高度瞬態時段期間,系統建模可能極其困難,并且不是所有控制目標都能夠被量化。因此,使用基于模型的方法使這樣的過程自動化并不是微不足道的;相反,需要一種方法來根據顯式控制目標和人類操作者行為揭示的隱式控制目標兩者來確定最優操作策略。
技術實現思路
1、雙輥連鑄系統包括一對反向旋轉的鑄輥、鑄輥控制器、鑄帶傳感器、以及控制器,所述一對反向旋轉的鑄輥在鑄輥之間具有輥隙并且能夠從輥隙向下輸送鑄帶,鑄輥控制器被配置為響應于控制信號調節鑄輥之間的至少一個過程控制設定點,鑄帶傳感器能夠測量鑄帶的至少一個參數,控制器聯接到鑄帶傳感器以從鑄帶傳感器接收鑄帶測量信號,并且聯接到鑄輥控制器以向鑄輥控制器提供控制信號,控制器包括強化學習(rl)代理。rl代理還包括具有值函數和策略函數的無模型行動者-評論者代理(actor-critic?agent),rl代理已經在由多個不同的人類操作者執行的連鑄運行組成的多個連鑄系統操作數據集上被訓練。
2、在一些實施例中,rl代理還包括優勢函數,該優勢函數將所選動作的優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值;并且優勢值用于訓練策略函數。在一些實施例中,策略函數被配置為以如下方式評估優勢函數:相對于在所述多個連鑄系統操作數據集中未找到的動作,對來自所述多個連鑄系統操作數據集的具有負優勢值的動作進行賦值(value)。
3、在一些實施例中,rl代理還包括優勢函數,該優勢函數將所選動作的優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值;并且優勢值的自然指數用于訓練策略函數。
4、鑄帶傳感器可以包括厚度測量儀,該厚度測量儀跨鑄帶的寬度上以間隔測量鑄帶的厚度。過程控制設定點可以包括鑄輥之間的力設定點,并且鑄帶的參數可以包括顫振。
5、在一些實施例中,rl代理還包括獎勵函數,該獎勵函數基于顫振和邊緣尖峰參數的用戶定義閾值將即時獎勵計算為加權的分段定義的獎勵函數。在一些實施例中,rl代理還包括優勢函數,該優勢函數將優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值。
6、鑄帶的所述至少一個參數可包括顫振和至少一個帶輪廓參數。所述至少一個帶輪廓參數可選自由邊緣凸起、邊緣脊、最大峰值和高邊緣標志(high?edge?flag)組成的組。
7、策略函數可以包括隨機策略函數。策略函數還可以包括對先前步驟的動作的依賴性。
8、操作數據集中的數據可以被擴充。在該實施例中,對于操作數據集中的每個步驟,嵌入來自前一步驟的遞歸(recurrence)以改進行動者訓練過程。
1.一種雙輥連鑄系統,包括:
2.根據權利要求1所述的雙輥連鑄系統,其中,所述rl代理還包括優勢函數,所述優勢函數將所選動作的優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值;并且
3.根據權利要求2所述的雙輥連鑄系統,其中,所述策略函數被配置為以如下方式評估所述優勢函數:相對于在所述多個連鑄系統操作數據集中未找到的動作,對來自所述多個連鑄系統操作數據集的具有負優勢值的動作進行賦值。
4.根據權利要求1所述的雙輥連鑄系統,其中,所述rl代理還包括優勢函數,所述優勢函數將所選動作的優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值;并且
5.根據權利要求1所述的雙輥連鑄系統,其中,所述鑄帶傳感器包括厚度測量儀,所述厚度測量儀跨所述鑄帶的寬度以間隔測量所述鑄帶的厚度。
6.根據權利要求1所述的雙輥連鑄系統,其中,所述過程控制設定點包括所述鑄輥之間的力設定點;并且
7.根據權利要求1所述的雙輥連鑄系統,其中,所述rl代理還包括獎勵函數,所述獎勵函數將即時獎勵計算為分段定義的獎勵函數:
8.根據權利要求1所述的雙輥連鑄系統,還包括優勢函數,所述優勢函數將優勢值計算為所選動作的即時獎勵值加上所選動作的后續狀態的折扣值減去當前狀態的值;
9.根據權利要求1所述的雙輥連鑄系統,其中,所述鑄帶的所述至少一個參數包括顫振和至少一個帶輪廓參數。
10.根據權利要求9所述的雙輥連鑄系統,其中,所述至少一個帶輪廓參數選自由邊緣凸起、邊緣脊、最大峰值和高邊緣標志組成的組。
11.根據權利要求1所述的雙輥連鑄系統,其中,所述策略函數包括隨機策略函數。
12.根據權利要求1所述的雙輥連鑄系統,其中,所述策略函數包括對先前步驟的動作的依賴性。
13.根據權利要求1所述的雙輥連鑄系統,其中,對于操作數據集中的每個步驟,嵌入來自先前步驟的遞歸以改進所述行動者訓練過程。