背景技術:
1、本公開的各方面涉及機器學習。
2、機器學習架構已被用于為各種計算問題提供解決方案。存在各種各樣的機器學習模型架構,諸如人工神經網絡(其可包括卷積神經網絡(cnn)、遞歸神經網絡(rnn)、深度神經網絡、生成對抗網絡(gan)等)、隨機森林模型等。許多機器學習模型依賴于訓練期間的良好調諧的超參數(諸如權重衰減、學習速率等)來表現良好。在常規系統中,通常使用迭代訓練來定義超參數,諸如通過手動地、隨機地或自動地(例如,使用貝葉斯優化)選擇或定義候選超參數集合。然后可以使用所選擇的超參數來訓練模型,并且可以評估模型性能。然后為新一輪的模型訓練定義新的超參數集合。此類常規超參數調整過程通常較慢,需要大量計算資源(例如,以多次訓練模型),并且常常導致次優結果。
3、一些方法試圖通過使用數據的驗證集合來在訓練期間實現超參數優化。然而,這些方法通常依賴于大的驗證集合(其并不總是可用的)。此外,模型性能通常可以通過將驗證集合本身用于訓練而不是用于超參數優化來改善。因此,常規解決方案不能提供最佳超參數細化和模型準確度。
技術實現思路
1、某些方面提供了一種方法,該方法包括:確定神經網絡的多個子網絡;使用來自訓練范例的多個集合的訓練范例的第一集合來促進對多個子網絡中的第一子網絡的訓練;使用來自訓練范例的多個集合的訓練范例的第二集合來促進對多個子網絡中的第二子網絡的訓練;至少部分地基于通過使用第一子網絡處理訓練范例的第二集合生成的第一損失來生成神經網絡的近似邊際似然;以及基于近似邊際似然來細化神經網絡的一個或多個超參數。
2、其他方面提供了:處理系統,該處理系統被配置為執行前述方法以及本文所述的那些方法;非暫態計算機可讀介質,該非暫態計算機可讀介質包括指令,該指令在由處理系統的一個或多個處理器執行時使該處理系統執行前述方法以及本文所述的那些方法;計算機程序產品,該計算機程序產品體現在計算機可讀存儲介質上,該計算機可讀存儲介質包括用于執行前述方法以及本文進一步所述的那些方法的代碼;和處理系統,該處理系統包括用于執行前述方法以及本文進一步所述的那些方法的部件。
3、以下描述和相關附圖詳細闡述了一個或多個方面的某些例示性特征。
1.一種計算機實現的方法,包括:
2.根據權利要求1所述的計算機實現的方法,其中確定所述多個子網絡包括基于定義的分組標準對所述神經網絡的參數進行分區。
3.根據權利要求1所述的計算機實現的方法,還包括將訓練范例的語料庫分區成訓練范例的所述多個集合。
4.根據權利要求1所述的計算機實現的方法,還包括:
5.根據權利要求1所述的計算機實現的方法,其中:
6.根據權利要求5所述的計算機實現的方法,其中訓練所述第二子網絡包括僅細化權重的所述第二集合。
7.根據權利要求1所述的計算機實現的方法,還包括:
8.根據權利要求7所述的計算機實現的方法,還包括:
9.根據權利要求7所述的計算機實現的方法,其中在訓練期間,不向所述第一客戶端發送所述第二子網絡。
10.根據權利要求1所述的計算機實現的方法,其中所述近似邊際似然被定義為其中:
11.根據權利要求10所述的計算機實現的方法,其中:
12.根據權利要求1所述的計算機實現的方法,還包括:
13.一種處理系統,包括:
14.根據權利要求13所述的處理系統,其中確定所述多個子網絡包括基于定義的分組標準對所述神經網絡的參數進行分區。
15.根據權利要求13所述的處理系統,所述操作還包括將訓練范例的語料庫分區成訓練范例的所述多個集合。
16.根據權利要求13所述的處理系統,所述操作還包括:
17.根據權利要求13所述的處理系統,其中:
18.根據權利要求17所述的處理系統,其中訓練所述第二子網絡包括僅細化權重的所述第二集合。
19.根據權利要求13所述的處理系統,所述操作還包括:
20.根據權利要求19所述的處理系統,所述操作還包括:
21.根據權利要求19所述的處理系統,其中在訓練期間,不向所述第一客戶端發送所述第二子網絡。
22.根據權利要求13所述的處理系統,其中所述近似邊際似然被定義為其中:
23.根據權利要求22所述的處理系統,其中:
24.根據權利要求13所述的處理系統,還包括:
25.一種非暫態計算機可讀介質,所述非暫態計算機可讀介質包括計算機可執行指令,所述計算機可執行指令在由處理系統的一個或多個處理器執行時使所述處理系統執行包括以下的操作:
26.根據權利要求25所述的非暫態計算機可讀介質,所述操作還包括:
27.根據權利要求25所述的非暫態計算機可讀介質,其中:
28.根據權利要求25所述的非暫態計算機可讀介質,所述操作還包括:
29.根據權利要求25所述的非暫態計算機可讀介質,還包括:
30.一種處理系統,包括: