本發明涉及人工智能,尤其涉及一種模型訓練的評估方法、裝置、系統、設備及存儲介質。
背景技術:
1、隨著人工智能技術的發展,網絡模型的參數量和訓練集規模逐漸增大。智能加速器集群規模也邁向了萬卡級別。在網絡模型訓練中也包含復雜訓練場景,例如混合智能加速器的場景。對于智能加速器集群上的模型訓練效果進行評估是網絡模型優化中必須要解決的問題。
2、傳統網絡模型訓練優化采用模型切分、網絡調優、以及故障容忍等方式。在進行模型訓練評估時,往往需要等待模型訓練過程自身環境存在異常發生,或者等待模型訓練完成后根據模型參數進行性能評估。傳統評估方式導致模型訓練評估周期長,且評估維度受限。
3、此外,傳統模型訓練評估采用的方式均為手動或簡單腳本處理,操作比較零散,在模型訓練平臺的集群規模增大后,操作十分不便,導致模型訓練評估耗時且成本高。
技術實現思路
1、本發明提供了一種模型訓練的評估方法、裝置、系統、設備及存儲介質,以主動對模型訓練過程中的性能進行評估,縮短評估周期,提升評估速率以及多樣性。
2、根據本發明的一方面,提供了一種模型訓練的評估方法,該方法包括:
3、獲取模型訓練的評估任務描述文件;
4、根據所述評估任務描述文件中的模型信息、算法信息以及評估任務信息對模型訓練平臺進行任務調度以及模型訓練觸發;
5、獲取所述模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據;
6、將所述調度日志數據和訓練日志數據關聯,并根據關聯的調度日志數據和訓練日志數據進行模型訓練評估,得到評估結果。
7、根據本發明的另一方面,提供了一種模型訓練的評估裝置,該裝置包括:
8、評估任務描述文件獲取模塊,用于獲取模型訓練的評估任務描述文件;
9、模型訓練觸發模塊,用于根據所述評估任務描述文件中的模型信息、算法信息以及評估任務信息對模型訓練平臺進行任務調度以及模型訓練觸發;
10、日志數據獲取模塊,用于獲取所述模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據;
11、評估結果確定模塊,用于將所述調度日志數據和訓練日志數據關聯,并根據關聯的調度日志數據和訓練日志數據進行模型訓練評估,得到評估結果。
12、根據本發明的另一方面,提供了一種模型訓練的評估系統,所述系統包括:評估任務配置器、激勵工具、日志采集器、以及數據分析器;其中:
13、評估任務配置器,用于配置生成模型訓練的評估任務描述文件;
14、激勵工具與所述評估任務配置器連接,并對接模型訓練平臺;
15、激勵工具,用于根據獲取的評估任務描述文件中的模型信息、算法信息以及評估任務信息對模型訓練平臺進行任務調度以及模型訓練觸發;
16、日志采集器與模型訓練平臺連接,用于獲取所述模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據;
17、數據分析器與日志采集器連接,用于將獲取的所述調度日志數據和訓練日志數據關聯,并根據關聯的調度日志數據和訓練日志數據進行模型訓練評估,得到評估結果。
18、根據本發明的另一方面,提供了一種電子設備,所述電子設備包括:
19、至少一個處理器;以及
20、與所述至少一個處理器通信連接的存儲器;其中,
21、所述存儲器存儲有可被所述至少一個處理器執行的計算機程序,所述計算機程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本發明任一實施例所述的模型訓練的評估方法。
22、根據本發明的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現本發明任一實施例所述的模型訓練的評估方法。
23、根據本發明的另一方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現本發明任一實施例所述的模型訓練的評估方法。
24、本發明實施例的技術方案,通過獲取模型訓練的評估任務描述文件;根據評估任務描述文件中的模型信息、算法信息以及評估任務信息對模型訓練平臺進行任務調度以及模型訓練觸發;獲取模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據;將調度日志數據和訓練日志數據關聯,并根據關聯的調度日志數據和訓練日志數據進行模型訓練評估,得到評估結果,解決了網絡模型在訓練過程中的性能評估問題,通過在模型訓練中主動注入評估任務信息可以主動對模型訓練過程中的性能進行評估,無需等待模型訓練完成,可縮短評估周期,提升評估速率以及多樣性。
25、應當理解,本部分所描述的內容并非旨在標識本發明的實施例的關鍵或重要特征,也不用于限制本發明的范圍。本發明的其它特征將通過以下的說明書而變得容易理解。
1.一種模型訓練的評估方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述評估任務信息包括:評估場景信息、評估資源信息、以及評估節點規模信息;
3.根據權利要求2所述的方法,其特征在于,所述評估場景信息包括下述至少一項:模型訓練的線性加速比評估場景、模型訓練的算力利用率評估場景、模型訓練的容錯能力評估場景、以及模型訓練的規模效益評估場景。
4.根據權利要求1所述的方法,其特征在于,獲取所述模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據,包括:
5.根據權利要求1所述的方法,其特征在于,獲取所述模型訓練平臺在進行任務調度以及模型訓練時的調度日志數據和訓練日志數據,包括:
6.根據權利要求1所述的方法,其特征在于,將所述調度日志數據和訓練日志數據關聯,包括:
7.一種模型訓練的評估裝置,其特征在于,包括:
8.一種模型訓練的評估系統,其特征在于,所述系統包括:評估任務配置器、激勵工具、日志采集器、以及數據分析器;其中:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執行時實現權利要求1-6中任一項所述的模型訓練的評估方法。