示例涉及訓練和使用用于對生物有機體的動力學方面進行建模的至少一個機器學習模型的構思,并且尤其涉及訓練用于對生物有機體的動力學方面進行建模的至少一個機器學習模型的方法、裝置和計算機程序,以及使用這樣的經訓練的至少一個機器學習模型的各種方法。
背景技術:
1、如今,數字孿生(digital?twin)已廣泛應用于各種工業領域(例如汽車行業),因為數字孿生可顯著改善和加快機器、工業產品和供應鏈的設計、優化和控制。憑借其預測能力,數字孿生可用于直接干預生產或者預測并改進資產和供應鏈的整體行為。這有助于監測和優化過程并且進行控制,以提高過程的穩健性、產品收率和質量。
2、盡管有這些優勢,但數字孿生很少應用于生物技術生產過程。主要原因在于數字孿生對不同有機體和細胞系的有限適用性、過程設置和規模以及對測量數據的高要求。例如,在制造期間,只能獲得有限數量的數據。通常,并非先前用于生成具有高預測質量的數字孿生的所有所需測量實體都可用。測量噪聲可能會進一步限制模型的預測質量,而該預測質量對于穩健的過程控制而言正是所期望的。
3、盡管過去已經開發了生物技術過程的數學模型,但這些模型大多數不能處理不同的應用情況,例如克隆、產品和過程形式(process?format)方面。對于每一種新的應用情況,都需要生成新的數據和模型。這導致了大量的資源和時間成本。另一方面,由于缺乏合適的模型或軟件平臺來實現數據的自動整合以及高質量模型的生成和應用,因此過程優化主要是通過簡單的實驗設計和經由葡萄糖曲線以及諸如ph和溫度之類的其他量的控制來完成的。這種模型的適用性有限,因為對于例如在制造期間觀察到的數據減少和質量降低的情況,預測質量可能被認為是不夠的。因此,其通常不能用于過程監測和穩健控制。
4、可能期望一種用于生物技術生產過程的數字孿生的改進構思。
技術實現思路
1、該期望由獨立權利要求的主題來解決。
2、本公開的各種實施例是基于以下發現,即通過使用在多個克隆、細胞系和/或過程形式之間的實驗數據來生成廣義數字孿生,可以克服缺乏生成數字孿生所必需的實驗數據的問題,所述廣義數字孿生然后可被額外地調整為細胞系的特定克隆。由于可獲得的附加實驗數據,這樣的數字孿生可以比特定于細胞系、克隆和過程形式的較小數字孿生產生更高的預測質量。在所提出的構思中,這樣的數字孿生的生成包括訓練至少一個機器學習模型,該至少一個機器學習模型包括:第一分量(例如,第一機器學習模型或神經網絡的第一多層),該第一分量經過訓練以對被建模的生物有機體的通用(即,非特定于克隆的)動力學方面進行建模;以及第二分量(例如,第二機器學習模型或神經網絡的第二多層),該第二分量經過訓練以對生物有機體的特定于克隆的方面進行建模。對于該訓練,使用訓練數據,其中僅使用特定于克隆的子集來訓練特定于克隆的第二分量。一旦經過訓練,經訓練的參數可以被再次用于新數據集的整合,使得所述數字孿生可以被擴展和調整到特定克隆,同時降低計算成本并減少數據需求。這些數字孿生可離線用于過程改進或優化(包括克隆選擇、平臺培養基設計),也可在線用于監測和控制生物技術過程,以提高過程穩健性、性能和產品質量。因此,所提出的數字孿生例如可以在制造期間用于改進產品質量或用于過程監測以及控制,因為盡管存在測量的不確定性,但其高預測質量可以改進相關系統狀態的估計。
3、因此,所提出的構思可以通過再次使用來自先前培養運行的數據和模型參數來解決上述限制中的一個或多個,以便降低為新應用情況(包括不同克隆或過程規模)生成數字孿生的數據需求,同時保持高預測質量。可以經由將通用機器學習模型和特定于克隆的機器學習模型(即,上述第一分量和第二分量)(例如,神經網絡)與代謝功能以及反應器模型組合來創建數字孿生,所述反應器模型可以通過混合方法而適應于不同的過程設置和規模(例如,如wo?2020/224779?a1中所示的)。所述機器學習模型包含通用參數以及特定于克隆的參數(即,前述的第一分量和第二分量),這些參數可以取決于應用規范而被一起或單獨地訓練。這使得所述方法廣泛適用于不同的細胞系、克隆和規模。所述通用參數可以用所有數據集進行訓練并保存通用代謝行為。另一方面,所述特定于克隆的參數僅用針對某個克隆(特定于克隆)的數據集進行訓練,并且因此可以學習除通用行為之外的特定于克隆的行為。基于這些機器學習模型的數字孿生可以學習通用行為和特定于克隆的行為,并且可以被嵌入到控制策略(包括狀態估計和模型預測控制)中。所提出的數字孿生例如可以在制造期間用于改進產品質量或用于過程監測以及控制,因為盡管存在測量的不確定性,但其高預測質量也使得能夠估計相關系統狀態。
4、本公開的各個方面涉及一種訓練用于對生物有機體的動力學方面進行建模的至少一個機器學習模型的方法。例如,所述至少一個機器學習模型可以適合于生物有機體或包括生物有機體的生物反應器的數字孿生。所述方法包括基于訓練數據來訓練所述機器學習模型。所述訓練數據基于所述生物有機體的多個克隆的實驗數據。所述訓練數據包括基于單個克隆的實驗數據的訓練數據子集。所述至少一個機器學習模型的第一分量使用(全部)訓練數據來訓練。所述第一分量表示所述生物有機體的通用動力學行為。所述至少一個機器學習模型的第二分量使用所述訓練數據子集來訓練。所述第二分量表示所述生物有機體的特定于克隆的動力學行為。通過訓練表示通用動力學行為(不同克隆、過程規模和/或細胞系所共有的)的第一分量和表示特定于克隆的行為的第二分量,可以使用附加實驗數據來訓練具有提高的預測質量的第一分量,該第一分量通過使用所述第二分量而被微調到感興趣的特定克隆。這可以導致機器學習模型具有總體上提高的預測質量,并且因此提高了采用這種機器學習模型的數字孿生的預測質量。
5、總體上,例如,在基于監督學習的訓練方法中,訓練數據包括訓練輸入數據和訓練輸出數據。例如,訓練輸入數據可以包括有機體的實驗環境的表示。訓練輸出數據可以表示響應于相應的實驗環境而觀察到的動力學特性(例如,濃度、濃度或(流)量的變化)。因此,在涉及生物反應器中的生物有機體的實驗期間通常采樣的數據可以用于訓練所述至少一個機器學習模型,例如,通過一些預處理來生成所述至少一個機器學習模型所期望的輸入(和輸出)。
6、訓練機器學習模型通常涉及改變機器學習模型,使得在訓練期間,所述機器學習模型的觀察到的輸出與所述機器學習模型的預期輸出(例如,如訓練輸出數據所定義的)之間的差隨時間減小。因此,訓練所述至少一個機器學習模型可以包括確定函數的輸出與訓練輸出數據之間的偏差,其中所述函數基于所述至少一個機器學習模型、表示所述生物有機體的所述多個克隆的通用功能的第一通量模式集和特定于所述生物有機體的所述單個克隆的第二通量模式集。例如,所述至少一個機器學習模型的輸出可以與所述第一通量模式集以及所述第二通量模式集一起用作所述函數的參數,然后與所述訓練輸出數據進行比較,或者所述訓練輸出數據可以使用所述第一通量模式集和所述第二通量模式集進行預處理,然后與所述至少一個機器學習模型的輸出進行比較。在具體示例中,可以將所述訓練輸出數據與混合模型進行比較(例如,如wo?2020/224779?a1中所討論的),該混合模型可以基于所述至少一個機器學習模型、所述第一通量模式集和所述第二通量模式集,并且任選地,基于一個或多個其他模型,例如反應器模型。例如,所述通量模式可以是基元通量模式(efm)和代謝基礎功能(也被稱為基礎模式)。例如,對于代謝基礎功能的生成(例如生物質生產、產物形成或非必需氨基酸的生產),可以應用通量平衡分析。進一步的功能可以通過基元通量模式分析來補充。
7、在一些示例中,實驗環境的表示(包含在訓練輸入數據中)可以包括比訓練目的所需的信息更多的信息。因此,可以將降維應用于所述實驗環境的表示。例如,所述實驗環境的表示可以對應于所述實驗環境的壓縮表示,該壓縮表示與所述實驗環境的未壓縮表示相比具有降低的維度。這可以在表示所述實驗環境的不同數據集之間協調輸入向量,并且還降低訓練的復雜性,并因此降低訓練所需的計算能力。
8、在許多情況下,所設想的數字孿生用于改進藥物產品的生物成分的生產過程。因此,所述生物成分的質量可以是所述機器學習模型可以被訓練的另一個因子。例如,所述訓練輸出數據還可以表示實驗環境中所述生物有機體的一個或多個生物制藥產品質量特性。實際上,所述至少一個機器學習模型以及基于所述至少一個機器學習模型的數字孿生還可以用于對正在生產的生物成分的質量進行預測,并且因此可以用于選擇所述生物有機體的環境,使得所述生物制藥產品的質量得到改善。
9、如上所述,所述訓練數據基于來自多個克隆的實驗數據。在一些實施例中,所述多個克隆可以是同一細胞系的克隆。換句話說,所述訓練數據可以基于所述生物有機體的同一細胞系的多個克隆的實驗數據。盡管基于更有限的訓練數據庫,但使用同一細胞系的多個克隆可以提高實驗結果的均一性,并因此提高預測質量。或者,所述訓練數據可以基于所述生物有機體的多個不同細胞系的多個克隆的實驗數據。這可以增大訓練數據池,從而可以提高預測質量,但是如果所述細胞系的行為不夠相似,則可能導致問題(例如,在至少一個機器學習模型的收斂上出現問題)。
10、此外,所述訓練數據可以基于來自多個不同過程規模(例如,從小的實驗設置到全規模生產)的實驗數據。這可以提高所述至少一個機器學習模型當應用于預測不同過程規模下的生物有機體的動力學行為時的預測質量。
11、例如,所述至少一個機器學習模型可以包括至少一個深度神經網絡,其中所述第一分量包括所述至少一個深度神經網絡的第一多層,并且所述第二分量包括所述至少一個深度神經網絡的第二多層。例如,所述第一分量和所述第二分量可以被實現為同一神經網絡的不同層,或者被實現為兩個單獨的神經網絡。
12、根據一個示例,可以在訓練的第一階段中訓練所述第一分量和所述第二分量,并且可以在所述訓練的第一階段之后的所述訓練的第二階段中訓練所述第二分量,其中在所述訓練的第二階段期間凍結所述第一分量。總體而言,額外的、特定于克隆的訓練可能向所述第一分量僅提供有限的益處,因此所述第一分量可被凍結以降低訓練復雜性。
13、在各種示例中,所述第一分量和所述第二分量基于相應的另一者分量的輸出來訓練。例如,可以將所述訓練輸出數據與所述第一分量和所述第二分量的相應輸出的組合進行比較,使得這兩個分量的輸出對相應的另一者分量的訓練具有影響。
14、在一些示例中,所述至少一個機器學習模型還可以包括第三分量,該第三分量將所述第一分量和所述第二分量的輸出作為其輸入。所述方法可以包括使用所述訓練數據來訓練所述至少一個機器學習模型的第三分量。例如,該第三分量可以用于組合所述第一分量和所述第二分量的輸出。或者,可以將輸出進行組合(例如,相乘)以作為(確定性)函數的一部分。
15、在各種示例中,所述至少一個機器學習模型還可以包括第四分量,該第四分量表示未由所述第一分量和/或所述第二分量表示的一個或多個通量模式。所述方法可以包括使用所述訓練數據來訓練第四機器學習模型。因此,所述第四機器學習模型可以增加對未由所述第一機器學習模型和所述第二機器學習模型表示的特定于克隆的通量模式的支持。
16、在各種示例中,可以使用隨機算法來訓練所述至少一個機器學習模型。例如,可以使用所謂的adam算法,該adam算法可以被認為是隨機梯度下降型算法。
17、根據一個示例,所述至少一個機器學習模型可以形成機器學習模型集。例如,所述方法可以包括訓練多個機器學習模型集。可以用不同的種子值來訓練所述多個機器學習模型集,其中所述不同的種子值影響相應的機器學習模型的參數的隨機初始化和隨機失活(dropout)中的至少一個。所述方法被稱為“集成方法(ensemble?method)”,并且可以用于通過比較和/或組合由已經接收相同訓練(盡管在開始參數和/或隨機失活中具有隨機差異)的多個不同機器學習模型生成的結果來評估預測模型中的不確定性。
18、在一些示例中,所述方法還包括使用遷移學習,基于訓練數據來至少調整所述至少一個機器學習模型的所述特定于克隆的第二分量,所述訓練數據基于另外的單個克隆的實驗數據。這樣,已經投入到生成用于對第一克隆進行建模的機器學習模型中的計算努力可以被再次用于生成用于對第二克隆進行建模的另外的機器學習模型。
19、根據一個示例,所述至少一個機器學習模型的第一分量和第二分量是單獨的機器學習模型。或者,所述至少一個機器學習模型的第一分量和第二分量可以是同一深度神經網絡的第一多層和第二多層。這兩種方法都適用于本公開的情況。
20、如上所述,所述至少一個機器學習模型的訓練可以是生成數字孿生的過程的一部分,所述數字孿生可用于對生物有機體(例如,包括生物有機體的生物反應器)的行為進行建模。因此,所述方法還可以包括使用經訓練的至少一個機器學習模型來生成生物有機體的數字孿生。該數字孿生可用于許多不同的目的,正如下文所表明的那樣。
21、例如,所述數字孿生可用于實驗設計的目的。例如,所述方法可以包括確定要使用所述生物有機體執行的多個實驗。例如,可以確定實驗,使得覆蓋先前未研究的環境條件,或者使得更詳細地研究導致較不準確預測的環境條件。一旦已經進行了實驗,所得到的實驗數據就可以用于繼續訓練,并且因此提高了所述至少一個機器學習模型的預測質量,并且因此提高了所述數字孿生的預測質量。換句話說,所述方法可以包括基于另外的訓練數據來繼續訓練所述至少一個機器學習模型,另外的訓練數據基于多個實驗。
22、所生成的數字孿生的另一個應用是確定用于包含生物有機體的生物反應器的目標參數,例如培養基組成、進料策略等。因此,本公開的一些方面涉及一種用于確定包含至少一種生物有機體的至少一個生物反應器(即,每個生物反應器包含生物有機體)的至少一個目標參數的方法。所述方法包括使用根據上述方法生成的至少一個生物有機體的至少一個數字孿生以及至少一個對應的代價函數來確定所述至少一個目標參數。例如,所述至少一個目標參數可以包括以下項中的至少一個:用于所述至少一種生物有機體的進料培養基的目標培養基組成;用于所述至少一種生物有機體的目標進料策略;用于所述至少一種生物有機體的目標流出策略;以及用于所述至少一種生物有機體的目標初始條件。由于所述數字孿生的改進的預測質量,所確定的目標參數的質量也可得到改進。例如,可以使用至少兩種生物有機體的至少兩個數字孿生來共同確定所述至少兩種生物有機體的至少一個目標參數(例如,針對共同用于多種不同生物有機體的平臺培養基)。
23、此外,例如,出于克隆選擇的目的,這樣的數字孿生可用于比較不同克隆的特性。因此,本公開的一些方面涉及用于選擇生物有機體的克隆的方法。所述方法包括使用上述方法生成生物有機體的多個克隆的多個數字孿生。所述方法包括通過比較所述多個數字孿生的一個或多個特性來選擇克隆。同樣,所述數字孿生的改進的預測質量還可以改進克隆選擇過程。
24、這種數字孿生的兩個進一步的應用涉及監測和控制生物制造過程。例如,本公開的一些方面涉及一種用于監測涉及生物有機體的生物制造過程的方法。所述方法包括使用根據上述方法生成的生物有機體的數字孿生來確定生物制造過程的估計的狀態。例如,可以使用滾動時域方法為所述數字孿生提供關于生物有機體的環境的信息。所述方法包括將所述生物制造過程的估計的狀態與所述生物制造過程的觀察到的狀態進行比較。這樣,可以在制造過程期間檢測意外事件。
25、例如,在所述生物制造過程的估計的狀態與所述生物制造過程的觀察到的狀態的比較中,可以使用滾動時域估計算法。這可以使得能夠隨時間估計未知參數,例如未知代謝物濃度。
26、如上所述,本公開的一些方面涉及一種用于控制涉及生物有機體的生物制造過程的方法。所述方法包括使用根據上述方法生成的生物有機體的數字孿生來連續地調整生物制造過程的環境。使用后退時域方法為所述數字孿生提供關于生物有機體的環境的信息。所述方法包括將所述生物制造過程的估計的狀態與所述生物制造過程的定義的參考狀態軌跡進行比較。例如,所述估計的狀態和所述定義的參考狀態軌跡之間的差異可以用于執行連續調整,例如,用于根據狀態軌跡來改變狀態。
27、本公開的各個方面涉及包括處理電路和存儲電路的一個或多個計算機系統,其中所述計算機系統被配置為執行上述方法中的至少一個。
28、類似地,本公開的各個方面涉及具有程序代碼的計算機程序,用于當所述計算機程序在計算機、處理器或可編程硬件部件上執行時執行上述方法中的至少一個。