本申請涉及機器學習,特別是涉及一種機器學習模型訓練方法、計算設備及計算機可讀存儲介質
背景技術:
1、在基于機器學習模型進行數據分析中,數據之間的分布差異給數據分析帶來巨大的挑戰,對機器學習模型的性能及其泛化能力造成了負面影響。例如,當訓練集中的樣本數據分布與實際應用場景中的未知數據(也可稱為測試樣本)分布存在顯著差異時,由訓練集數據構建的機器學習模型往往難以準確捕捉未知數據的潛在特征,從而導致機器學習模型在面對未知數據時,預測準確率可能會顯著下降的問題。然而,如何提高機器學習模型的預測準確率一直處于研究之中。
技術實現思路
1、本申請的目的在于提供一種機器學習模型訓練方法、計算設備及計算機可讀存儲介質,以至少解決相關技術中的問題。
2、為達到上述目的:
3、第一方面,本申請實施例提供了一種機器學習模型訓練方法,所述方法包括:
4、步驟s1、根據目標測試樣本和預設訓練集中的訓練樣本,生成合并集;
5、步驟s2、確定合并集中具有最小正則化協方差行列式的目標子集,目標測試樣本到目標子集的馬氏距離小于魯棒距離截止值,且目標子集包含的樣本數量大于預設數量閾值;
6、步驟s3、根據合并集中到目標子集的馬氏距離小于魯棒距離截止值的目標訓練樣本,以及預設訓練集中目標訓練樣本對應標注的識別結果,確定目標訓練集;
7、步驟s4、基于目標訓練集訓練機器學習模型,以根據訓練后的機器學習模型對目標測試樣本進行預測。
8、在一實施方式中,步驟s2之前,包括:
9、計算合并集的qn估計量;
10、對qn估計量進行截斷,得到對角矩陣;
11、根據對角矩陣對合并集進行標準化處理。
12、在一實施方式中,步驟s2,包括:
13、步驟s10、確定當前次迭代中子集應包含的樣本數量h;
14、步驟s11、基于當前次迭代中子集應包含的樣本數量h從合并集中尋找具有最小正則化協方差行列式的子集,獲得當前次迭代所確定的合并集中具有最小正則化協方差行列式的第一子集;
15、步驟s12、根據合并集到第一子集的馬氏距離,確定魯棒距離截止值;
16、步驟s13、將合并集中到第一子集的馬氏距離小于魯棒距離截止值的樣本作為第二子集;
17、步驟s14、檢測第二子集是否包含目標測試樣本且第二子集包含的樣本數量是否大于預設數量閾值,若否,則執行步驟s15,否則執行步驟s16;
18、步驟s15、執行操作h=h+1,并返回步驟s10;
19、步驟s16、將第二子集確定為合并集中具有最小正則化協方差行列式的目標子集。
20、在一實施方式中,所述步驟s11,包括:
21、步驟s110、計算最小正則化協方差行列式的當前子集的均值和正則化協方差矩陣;最小正則化協方差行列式的初始子集設為目標測試樣本;
22、步驟s111、檢測當前子集的正則化協方差矩陣的行列式與上一個子集的正則化協方差矩陣的行列式是否相同,若否,則執行步驟s112,否則執行步驟s114;
23、步驟s112、根據當前子集的均值和正則化協方差矩陣,計算合并集中的所有樣本分別到當前子集的馬氏距離;
24、步驟s113、將合并集中的所有樣本按照馬氏距離的大小進行排序,并將合并集中馬氏距離最小的h個樣本,作為最小正則化協方差行列式的更新后的當前子集,并返回步驟s110;
25、步驟s114、將當前子集確定為合并集中具有最小正則化協方差行列式的第一子集。
26、在一實施方式中,第一次迭代中子集應包含的樣本數量h設為2。
27、在一實施方式中,機器學習模型用于定量分析和/或分類預測。
28、第二方面,本申請實施例提供一種計算設備,包括:處理器和存儲有計算機程序的存儲器,在所述處理器運行所述計算機程序時,實現上述第一方面所述的機器學習模型訓練方法。
29、第三方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序,所述計算機程序被處理器執行時實現上述第一方面所述的機器學習模型訓練方法。
30、本申請實施例提供的機器學習模型訓練方法、計算設備及計算機可讀存儲介質中,通過確定合并集中具有最小正則化協方差行列式的目標子集,獲取合并集中到目標子集的馬氏距離小于魯棒距離截止值的目標訓練樣本,即獲取與目標測試樣本具有相同的分布的訓練樣本,進而利用與目標測試樣本具有相同分布的訓練樣本訓練機器學習模型,以根據訓練后的機器學習模型對目標測試樣本進行預測,從而可有效提高機器學習模型的預測準確率,提升了用戶使用體驗。
1.一種機器學習模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,步驟s2之前,包括:
3.根據權利要求1或2所述的方法,其特征在于,步驟s2,包括:
4.根據權利要求3所述的方法,其特征在于,步驟s11,包括:
5.根據權利要求3所述的方法,其特征在于,第一次迭代中子集應包含的樣本數量h設為2。
6.根據權利要求1所述的方法,其特征在于,機器學習模型用于定量分析和/或分類預測。
7.一種計算設備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述的機器學習模型訓練方法。
8.一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述的機器學習模型訓練方法。