
各種示例實施例涉及電子設備,和/或涉及用于自動化機器學習(ml)模型再訓練的方法和電子設備。
背景技術:
1、第五代(5g)蜂窩網絡是一種基于服務的架構,其被部署用于支持數百到數千的服務。5g蜂窩網絡的管理和手動理解模式是非常困難的任務。因此,運營商結合了基于機器學習(ml)的解決方案,其可以預先理解和預測5g蜂窩網絡中的問題。因此,運營商可以做出決定以提前緩解問題。在5g蜂窩網絡中存在數百萬個基站和數萬億個網絡設備以及它們各自的ml模型。
2、網絡切片是5g蜂窩網絡的另一個重要特征,以實現網絡資源的最佳使用以用于多種服務。目前存在許多用于使用ml模型優化網絡切片的解決方案。對于這些解決方案中的大多數,對網絡切片中的每一個執行ml模型的有效訓練。這涉及在訓練和部署ml模型之前為這些切片收集所需的數據量達足夠的時間段。當服務和網絡切片的數量呈指數增加時,需要通過使用現有的已經訓練的模型來減少ml資源。由于還將創建許多新類型的切片,因此可用于訓練的數據量將非常有限。
3、由于隨時間推移對所預測的問題采取的閉環校正/預防動作可以改變時間序列數據,并且5g蜂窩網絡中發生的新的非計劃事件可能影響網絡關鍵性能指標(kpi),因此ml模型可能遭受性能劣化(degradation)。此外,具有新的和多樣的服務要求的新網絡服務請求可以在5g蜂窩網絡處接收,該5g蜂窩網絡需要新的網絡服務/網絡切片部署。為每個新的服務請求部署新的網絡服務/網絡切片導致ml資源的嚴重浪費,這可能進一步引起5g蜂窩網絡中的未優化部署導致服務質量(qos)劣化或體驗質量(quality?of?experience,?qoe)劣化、不滿足服務水平協議(service?level?agreement,?sla)、高運營支出(operationalexpenditure,?opex)并使訂戶無法消耗網絡服務。
4、以上信息僅作為背景信息呈現以幫助理解本公開。關于上述內容中的任何內容是否可用作關于本公開的現有技術,沒有做出確定,并且沒有做出斷言。
技術實現思路
1、解決方案
2、ml模型的性能劣化可以由ml模型再訓練通過及時識別性能劣化來防止或減少。此外,ml模型再訓練是一項昂貴的任務,因為它需要專用硬件,如圖形處理單元(gpu)或張量處理單元(tpu),并且預期部署大量ml模型,該過程必須自動化。服務提供商需要預測的且廉價的手段來再訓練ml模型,以使5g蜂窩網絡的ml部署在經濟上可行。存在手動智能解決方案以識別ml模型的性能劣化并糾正性能劣化。然而,手動智能解決方案依賴于人為干預,人為干預延遲了處理ml模型的性能劣化。手動檢測ml模型的性能劣化并手動緩解性能劣化可能導致服務的qos/qoe劣化,這對運營商不利。因此,期望提供ml模型性能劣化或數據模式改變的可能性的自動預測,以滿足5g蜂窩網絡中部署的所有服務的關鍵要求。
3、各種示例實施例提供了用于自動化ml模型再訓練的方法和/或電子設備。ml模型需要或可以被設計用于再訓練,這是由于當根據新輸入值的ml模型的預測的準確度與訓練時段期間的準確度相比劣化時發生的性能劣化。所提出的示例電子設備是預測ml訓練資源管理(predictive?ml?training?resource?management)和優化器,其將降低ml模型再訓練的成本。
4、本文的各種示例實施例在檢測到ml模型的性能劣化時自動部署ml模型再訓練。所提出的方法用于使過程自動化,防止或減少ml模型的性能劣化,這節省了時間。所提出的方法解決了由于智能而導致的增加的資本支出(capital?expenditures,?capex)和opex的問題,因為運營商可以負擔得起具有有限的ml資源和服務器,而不能負擔得起在ml服務劣化的情況下浪費ml資源和服務器。再訓練增強了ml模型的預測準確度,這進而有助于優化網絡服務。
5、本文的各種示例實施例智能地和/或自動地識別合適的經訓練的ml超模型,以用于針對僅最小量數據可用的新創建的網絡切片的預測。
6、因此,本文的各種示例實施例提供了一種用于由電子設備進行自動化ml模型再訓練的方法。該方法可以包括由電子設備運行第一ml模型和第二ml模型。該方法可以包括由電子設備使用第二ml模型預測第一ml模型的準確度劣化。該方法可包括通過電子設備確定所預測的準確度劣化是否滿足預定義閾值。該方法可以包括當所預測的準確度劣化滿足預定義閾值時,由電子設備再訓練第一ml模型。
7、在示例實施例中,其中準確度劣化是由于在第一ml模型中發生的非計劃事件。
8、在示例實施例中,其中由電子設備使用第二ml模型預測第一ml模型的準確度劣化可以包括,由電子設備接收第一ml模型的準確度的數據,其包括模型類型、參數和超參數、網絡節點、小區模型、切片/小區配置信息、可以用于遷移學習的現有模型、模型訓練時間、模型預測準確度、用于模型訓練的資源、提取時間、數據提取的時間窗口、數據生成模式、模型準確度數據和每個訓練流水線的執行時間中的至少一個;由電子設備將第一ml模型的準確度的數據存儲到再訓練數據存儲(datastore);以及由電子設備通過利用第二ml模型分析第一ml模型的準確度的數據來預測第一ml模型的準確度劣化。
9、在示例實施例中,其中由電子設備再訓練第一ml模型可以包括由電子設備基于存儲在再訓練數據存儲中的準確度的數據來估計完成模型再訓練和數據提取的預期時間;由電子設備從再訓練數據存儲中提取第一ml模型的準確度的數據;由電子設備預測第一ml模型的傳入請求(incoming?requests);由電子設備估計資源和資源約束;由電子設備基于所預測的傳入請求、完成再訓練的預期時間、所估計的資源和資源約束來創建用于再訓練第一ml模型的計劃;以及由電子設備基于所創建的計劃向上/向下和向內/向外縮放ml資源;以及由電子設備基于所創建的計劃觸發第一ml模型的再訓練。
10、在另一示例實施例中,其中由電子設備再訓練第一ml模型可以包括由電子設備接收利用新網絡切片配置ml服務的請求;由電子設備確定具有第一ml模型的網絡切片,該具有第一ml模型的網絡切片與新網絡切片相似并且能夠用于遷移學習;由電子設備基于來自模型注冊表的輸入來預測第一ml模型的用于遷移學習的超模型以及第一ml模型的要被再訓練的剩余層;以及由電子設備觸發對第一ml模型的剩余層的再訓練。
11、各種示例實施例提供了一種用于自動化ml模型再訓練的電子設備。電子設備可以包括主動再訓練引擎,該主動再訓練引擎包括電路、存儲器、處理器,其中主動再訓練引擎直接或間接地耦合到存儲器和處理器。主動再訓練引擎可以被配置用于運行第一ml模型和第二ml模型。主動再訓練引擎可以被配置用于使用第二ml模型預測第一ml模型的準確度劣化。主動再訓練引擎可以被配置用于確定所預測的準確度劣化是否滿足預定義閾值。主動再訓練引擎可以被配置用于當所預測的準確度劣化滿足預定義閾值時再訓練第一ml模型。
12、當結合以下描述和附圖考慮時,將更好地領會和理解本文的示例實施例的這些和其他方面。然而,應當理解,以下描述雖然指示了優選實施例及其許多具體細節,但是以說明而非限制的方式給出。可以在實施例的范圍內進行許多改變和修改,并且本文的示例實施例包括所有這樣的修改。