本發(fā)明涉及數(shù)據(jù)處理,特別是涉及一種數(shù)據(jù)處理的方法、裝置、電子設備及介質(zhì)。
背景技術:
1、隨著人工智能的發(fā)展,越來越多復雜的工作依賴于人工智能平臺,人工智能平臺通過調(diào)用相應的模型來進行任務處理,如通過模型來對用戶提出的數(shù)學題目進行解答,又如通過模型來生成用戶所需的代碼。然而,現(xiàn)有的模型進行任務處理時,經(jīng)常出現(xiàn)任務處理出錯的情況,影響結(jié)果的準確性。
技術實現(xiàn)思路
1、鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的一種數(shù)據(jù)處理的方法、裝置、電子設備及介質(zhì),包括:
2、一種數(shù)據(jù)處理的方法,所述方法包括:
3、獲取樣本提示信息及所述樣本提示信息的正確結(jié)果數(shù)據(jù);
4、將所述樣本提示信息輸入預置的數(shù)據(jù)模型,得到所述數(shù)據(jù)模型輸出的推理結(jié)果數(shù)據(jù),并從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù);
5、對所述目標推理結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第一邏輯塊,并從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊;
6、對所述正確結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第二邏輯塊,并從所述多個第二邏輯塊中確定與所述目標第一邏輯塊對應的目標第二邏輯塊;
7、根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,訓練所述數(shù)據(jù)模型;
8、獲取目標提示信息,將所述目標提示信息輸入調(diào)用訓練好的數(shù)據(jù)模型,得到訓練好的數(shù)據(jù)模型輸出的目標結(jié)果數(shù)據(jù)。
9、可選地,所述從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù),包括:
10、將所述正確結(jié)果數(shù)據(jù)與所述推理結(jié)果數(shù)據(jù)進行對比,并根據(jù)對比結(jié)果,從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù)。
11、可選地,所述對所述目標推理結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第一邏輯塊,包括:
12、獲取所述目標推理結(jié)果數(shù)據(jù)的模型推理過程的第一思維鏈,并對所述第一思維鏈進行拆分,得到多個第一邏輯塊;
13、所述對所述正確結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第二邏輯塊,包括:
14、獲取所述正確結(jié)果數(shù)據(jù)的模型推理過程的第二思維鏈,并對所述第二思維鏈進行拆分,得到多個第二邏輯塊。
15、可選地,所述從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊,包括:
16、分別對所述多個第一邏輯塊進行正確性驗證,并根據(jù)正確性驗證結(jié)果,從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊。
17、可選地,所述根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,訓練所述數(shù)據(jù)模型,包括:
18、根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,確定損失值;
19、根據(jù)所述損失值,調(diào)整所述數(shù)據(jù)模型的參數(shù),以訓練所述數(shù)據(jù)模型。
20、可選地,所述正確結(jié)果數(shù)據(jù)、所述推理結(jié)果數(shù)據(jù)、目標結(jié)果數(shù)據(jù)為代碼數(shù)據(jù),所述第一邏輯塊、所述第二邏輯塊為代碼數(shù)據(jù)中的代碼塊。
21、可選地,所述正確結(jié)果數(shù)據(jù)、所述推理結(jié)果數(shù)據(jù)、目標結(jié)果數(shù)據(jù)為數(shù)學解題答案,所述第一邏輯塊、所述第二邏輯塊為計算數(shù)學解題答案的解題步驟。
22、可選地,所述數(shù)據(jù)模型為大模型。
23、一種數(shù)據(jù)處理的裝置,所述裝置包括:
24、獲取樣本提示信息及所述樣本提示信息的正確結(jié)果數(shù)據(jù);
25、將所述樣本提示信息輸入預置的數(shù)據(jù)模型,得到所述數(shù)據(jù)模型輸出的推理結(jié)果數(shù)據(jù),并從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù);
26、對所述目標推理結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第一邏輯塊,并從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊;
27、對所述正確結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第二邏輯塊,并從所述多個第二邏輯塊中確定與所述目標第一邏輯塊對應的目標第二邏輯塊;
28、根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,訓練所述數(shù)據(jù)模型;
29、獲取目標提示信息,將所述目標提示信息輸入調(diào)用訓練好的數(shù)據(jù)模型,得到訓練好的數(shù)據(jù)模型輸出的目標結(jié)果數(shù)據(jù)。
30、一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上所述的方法。
31、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。
32、本發(fā)明實施例具有以下優(yōu)點:
33、在本發(fā)明實施例中,通過獲取樣本提示信息及所述樣本提示信息的正確結(jié)果數(shù)據(jù);將所述樣本提示信息輸入預置的數(shù)據(jù)模型,得到所述數(shù)據(jù)模型輸出的推理結(jié)果數(shù)據(jù),并從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù);對所述目標推理結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第一邏輯塊,并從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊;對所述正確結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第二邏輯塊,并從所述多個第二邏輯塊中確定與所述目標第一邏輯塊對應的目標第二邏輯塊;根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,訓練所述數(shù)據(jù)模型;獲取目標提示信息,將所述目標提示信息輸入調(diào)用訓練好的數(shù)據(jù)模型,得到訓練好的數(shù)據(jù)模型輸出的目標結(jié)果數(shù)據(jù),實現(xiàn)了通過思維鏈拆分的方式將模型的處理過程拆解為多個邏輯塊,并通過對比學習的方法,根據(jù)正確邏輯塊和錯誤邏輯塊的對比幫助模型學習每個邏輯塊的錯誤點,提升模型處理的準確性。
1.一種數(shù)據(jù)處理的方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述從所述推理結(jié)果數(shù)據(jù)中確定存在錯誤的目標推理結(jié)果數(shù)據(jù),包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述對所述目標推理結(jié)果數(shù)據(jù)進行思維鏈拆分,得到多個第一邏輯塊,包括:
4.根據(jù)權利要求3所述的方法,其特征在于,所述從所述多個第一邏輯塊中確定存在錯誤的目標第一邏輯塊,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述目標第一邏輯塊和所述目標第二邏輯塊,訓練所述數(shù)據(jù)模型,包括:
6.根據(jù)權利要求1至5任一項所述的方法,其特征在于,所述正確結(jié)果數(shù)據(jù)、所述推理結(jié)果數(shù)據(jù)、目標結(jié)果數(shù)據(jù)為代碼數(shù)據(jù),所述第一邏輯塊、所述第二邏輯塊為代碼數(shù)據(jù)中的代碼塊。
7.根據(jù)權利要求1至5任一項所述的方法,其特征在于,所述正確結(jié)果數(shù)據(jù)、所述推理結(jié)果數(shù)據(jù)、目標結(jié)果數(shù)據(jù)為數(shù)學解題答案,所述第一邏輯塊、所述第二邏輯塊為計算數(shù)學解題答案的解題步驟。
8.根據(jù)權利要求1所述的方法,其特征在于,所述數(shù)據(jù)模型為大模型。
9.一種數(shù)據(jù)處理的裝置,其特征在于,所述裝置包括:
10.一種電子設備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權利要求1至8中任一項所述的方法。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至8中任一項所述的方法。