所屬的技術人員能夠理解,用于大模型訓練優化的數據增強方法各個方面可以實現為系統、方法或程序產品。因此,本公開的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“系統”。盡管通過參考附圖并結合優選實施例的方式對本發明進行了詳細描述,但本發明并不限于此。在不脫離本發明的精神和實質的前提下,本領域普通技術人員可以對本發明的實施例進行各種等效的修改或替換,而這些修改或替換都應在本發明的涵蓋范圍內/任何熟悉本的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。
背景技術:
1、隨著人工智能和深度學習技術的快速發展,基于大模型的計算機視覺和自然語言處理模型已在多種應用場景中展現出強大的表現能力,例如文本生成、文檔摘要、機器翻譯以及問答系統等。
2、然而,這些大模型的訓練和微調過程通常依賴于大量高質量的標注數據集,而這些數據集的構建耗費大量的時間和人力資源,且數據的來源和規模在一定程度上影響了模型的泛化性能。同時,手工標注數據存在較高的成本和隱私風險,導致在許多場景中難以獲得足夠多樣的訓練數據。此外,當前的生成數據方法在數據質量和多樣性上有所不足,直接依賴已有大模型生成的數據,往往存在生成內容趨同、覆蓋任務場景不夠全面等問題,從而影響了模型在實際應用中的表現。
技術實現思路
1、針對大模型訓練優化過程中依賴手工標注數據存在較高的成本和隱私風險,導致在許多場景中難以獲得足夠多樣的訓練數據的問題,本發明提供一種用于大模型訓練優化的數據增強方法、裝置、設備及介質。
2、第一方面,本發明技術方案提供一種用于大模型訓練優化的數據增強方法,包括如下步驟:
3、構建用于生成任務樣本對的任務模板函數;
4、通過多次調用不同類型的任務模板函數生成多樣化的數據樣本生成混合數據集;
5、根據每個任務對應的模板生成的數據訓練模型得到模型集合m;
6、基于模型集合m對n個任務對應的樣本數據進行預測,并根據模型的預測結果和真實標簽,計算評估指標值,根據計算得到的評估指標的值,得出每個任務的精度;
7、基于每個任務的精度使用softmax函數計算任務模板的權重;
8、根據任務模板的權重,調整混合數據集中不同任務類型的數據比例,生成增強數據集。
9、通過多樣化的任務模板函數生成數據,提高了數據集的豐富性和多樣性。根據任務精度調整數據比例,使得增強數據集更加符合模型訓練的需求,提高了模型訓練的效率和準確性。
10、作為本發明技術方案的進一步限定,構建用于生成任務樣本對的任務模板函數的步驟包括:根據需求生成的任務樣本數據的類型,構建不同類型的任務模板函數并為每個任務模板函數配置參數;
11、每種類型的任務模板函數的構建過程如下:
12、根據任務需求設計輸入輸出的格式;
13、制定符合任務需求的用于生成輸入輸出的邏輯規則;
14、根據所述輸入輸出的格式和邏輯規則制作成提示詞,利用gpt-4o模型生成對應的任務模板函數;所述任務模板函數能接收輸入數據,并根據邏輯規則生成相應的輸出數據。
15、通過明確的任務模板函數,可以方便地生成符合特定任務需求的數據樣本。提高了數據生成的靈活性和可定制性。
16、作為本發明技術方案的進一步限定,通過多次調用不同類型的任務模板函數生成多樣化的數據樣本生成混合數據集的步驟包括:
17、根據需要生成的數據樣本數量和類型,多次調用不同類型的任務模板函數,每次調用時,傳遞不同的參數以生成不同的數據樣本;
18、將生成的數據樣本整合到一個混合數據集中,并對混合數據集進行數據預處理操作。
19、通過多次調用任務模板函數并傳遞不同參數,生成了多樣化的數據樣本,提高了數據集的豐富性。數據預處理操作有助于提高數據質量,為模型訓練提供更好的數據支持。
20、作為本發明技術方案的進一步限定,基于模型集合m對n個任務對應的樣本數據進行預測,并根據模型的預測結果和真實標簽,計算評估指標值,根據計算得到的評估指標的值,得出每個任務的精度的步驟包括:
21、根據任務n類型和目標,選擇預測準確率作為評估指標;
22、基于任務n的類型獲取對應的樣本數據;
23、將獲取的樣本數據輸入模型集合m得到任務n的預測結果集合r;
24、設定r中出現頻率最高的結果為真實標簽;
25、根據每個模型在其對應任務中的預測結果和真實標簽,統計預測正確的樣本數和預測錯誤的樣本數;
26、根據統計結果計算預測準確率,得出每個任務的精度。
27、通過計算模型的精度,可以了解模型在不同任務上的表現情況。為后續調整數據比例提供了重要依據。
28、作為本發明技術方案的進一步限定,基于每個任務的精度使用softmax函數計算任務模板的權重的步驟中公式如下:
29、
30、個任務模板,混合數據集的比例表示為:;
31、其中,s為用于控制權重的平滑程度的可調節的系數。
32、通過softmax函數計算權重,可以確保權重的分布更加合理和穩定。系數s的引入為控制權重的平滑程度提供了靈活性。
33、作為本發明技術方案的進一步限定,根據任務模板的權重,調整混合數據集中不同任務類型的數據比例,生成增強數據集的步驟包括:
34、根據計算得到的權重,調整混合數據集中每個任務類型的數據比例,數據集中第個任務的數據量為,則調整后的數據量;
35、其中,m是混合數據集的總數據量。
36、通過調整數據比例,使得增強數據集更加符合模型訓練的需求。提高了模型訓練的效率和準確性,有助于提升模型在特定任務上的表現。
37、第二方面,本發明技術方案還提供一種用于大模型訓練優化的數據增強裝置,包括構建模塊、混合數據集生成模塊、模型集合生成模塊、任務精度計算模塊、模板權重計算模塊和增強數據集生成模塊;
38、構建模塊,用于構建用于生成任務樣本對的任務模板函數;
39、混合數據集生成模塊,用于通過多次調用不同類型的任務模板函數生成多樣化的數據樣本生成混合數據集;
40、模型集合生成模塊,用于根據每個任務對應的模板生成的數據訓練模型得到模型集合m;
41、任務精度計算模塊,用于基于模型集合m對n個任務對應的樣本數據進行預測,并根據模型的預測結果和真實標簽,計算評估指標值,根據計算得到的評估指標的值,得出每個任務的精度;
42、模板權重計算模塊,用于基于每個任務的精度使用softmax函數計算任務模板的權重;
43、增強數據集生成模塊,用于根據任務模板的權重,調整混合數據集中不同任務類型的數據比例,生成增強數據集。
44、作為本發明技術方案的進一步限定,構建模塊,具體用于根據需求生成的任務樣本數據的類型,構建不同類型的任務模板函數并為每個任務模板函數配置參數;
45、所述構建模塊包括格式設計單元、邏輯規則制定單元和函數編寫單元;
46、格式設計單元,用于根據任務需求設計輸入輸出的格式;
47、邏輯規則制定單元,用于制定符合任務需求的用于生成輸入輸出的邏輯規則;
48、函數編寫單元,用于根據所述輸入輸出的格式和邏輯規則制作成提示詞,利用gpt-4o模型生成對應的任務模板函數;所述任務模板函數能接收輸入數據,并根據邏輯規則生成相應的輸出數據。
49、作為本發明技術方案的進一步限定,任務精度計算模塊,具體用于根據任務n類型和目標,選擇預測準確率作為評估指標;基于任務n的類型獲取對應的樣本數據;將獲取的樣本數據輸入模型集合m得到任務n的預測結果集合r;設定r中出現頻率最高的結果為真實標簽;根據每個模型在其對應任務中的預測結果和真實標簽,統計預測正確的樣本數和預測錯誤的樣本數;根據統計結果計算預測準確率,得出每個任務的精度。
50、基于每個任務的精度使用softmax函數計算任務模板的權重的公式如下:
51、
52、個任務模板,混合數據集的比例表示為:;
53、其中,s為用于控制權重的平滑程度的可調節的系數。
54、作為本發明技術方案的進一步限定,增強數據集生成模塊,用于根據計算得到的權重,調整混合數據集中每個任務類型的數據比例,數據集中第個任務的數據量為,則調整后的數據量;
55、其中,m是混合數據集的總數據量。
56、第三方面,本發明技術方案還提供一種電子設備,所述電子設備包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;存儲器存儲有可被至少一個處理器執行的計算機程序指令,所述計算機程序指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如第一方面所述的用于大模型訓練優化的數據增強方法。
57、第四方面,本發明技術方案還提供一種非暫態計算機可讀存儲介質,所述非暫態計算機可讀存儲介質存儲計算機指令,所述計算機指令使所述計算機執行如第一方面所述的用于大模型訓練優化的數據增強方法。
58、從以上技術方案可以看出,本發明具有以下優點:通過構建適應具體任務的模板、自動生成符合任務邏輯的數據樣本、引入多任務數據混合策略,能夠使數據增強過程更加高效和靈活,從而大幅提升大模型的訓練效果。具體而言,該方法首先通過對任務進行分析,設計適用于特定任務的模板,使得數據生成過程具有更強的針對性,從而提高生成樣本與實際任務之間的匹配度。在模板的指導下,自動生成滿足任務特定要求的數據樣本,以模擬多種真實應用中的輸入輸出關系。這些生成的數據樣本既可以用于補充現有的數據集,也可以直接用于模型的微調過程。為了進一步提升生成數據的多樣性,提出了多任務數據混合策略,即在數據增強過程中混合來自不同任務的數據,使得模型能夠在微調過程中從多種任務中學習到通用特征,從而提升其泛化性能。
59、這種數據增強方法不僅能夠顯著減少對手工標注數據的依賴,降低了人工成本,同時也有效解決了在數據生成過程中可能存在的數據內容趨同問題。由于該方法并不直接依賴已有的大模型進行生成,而是通過特定任務模板和多任務混合策略來增強數據的質量和多樣性,因而其在數據覆蓋和任務表現上具有顯著優勢。這種數據增強方案能夠幫助模型更好地理解和適應不同的任務需求,從而在各類應用場景中展現出更強的適應能力與魯棒性,使得基于大模型的人工智能系統在文本生成、問答系統、機器翻譯等多種任務上實現更優的表現。