本說明書涉及人工智能,尤其涉及大語言模型的訓練方法、自然語言處理方法及裝置。
背景技術:
1、大語言模型(large?language?model,llm),是指使用大量文本數據訓練的深度學習模型,可以生成自然語言文本或理解語言文本的含義。
2、梯度下降是迭代法的一種,可以用于求解最小二乘問題。梯度下降可以通過迭代調整參數來逐步逼近最小值,可以用于最小化函數,例如可以用于模型訓練中最小化損失函數。在求解損失函數的最小值時,可以通過梯度下降方法來一步步的迭代求解,得到最小化的損失函數和相應的模型參數。
3、現有技術采用梯度下降來對大語言模型進行訓練時,效率較低。
技術實現思路
1、為克服相關技術中存在的問題,本說明書提供了大語言模型的訓練方法、自然語言處理方法、裝置、電子設備及介質。
2、根據本說明書實施例的第一方面,提供一種大語言模型的訓練方法,所述方法包括:利用大語言模型對文本數據進行自然語言處理,得到處理結果,所述大語言模型的參數包括第一參數和第二參數,所述文本數據包括文本、圖像、視頻、音頻中的至少一個;根據處理結果,計算損失函數值;根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度;根據所述第一參數和所述第二參數,計算余弦函數值和正弦函數值;根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,并根據所述正弦函數值和所述第二梯度,調整所述第二參數的值;返回所述利用大語言模型對文本數據進行自然語言處理,得到處理結果的操作,直到訓練結束條件被滿足。
3、根據本說明書實施例的第二方面,提供一種自然語言處理方法,所述方法包括:獲取待處理文本;利用大語言模型對所述待處理文本進行自然語言處理,得到處理結果,其中,所述大語言模型是根據上述第一方面或其對應的任一實施方式的大語言模型的訓練方法訓練得到的。
4、根據本說明書實施例的第三方面,提供一種大語言模型的訓練裝置,包括:第一處理模塊,用于利用大語言模型對文本數據進行自然語言處理,得到處理結果,所述大語言模型的參數包括第一參數和第二參數,所述文本數據包括文本、圖像、視頻、音頻中的至少一個;損失計算模塊,用于根據處理結果,計算損失函數值;梯度計算模塊,用于根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度;三角函數計算模塊,用于根據所述第一參數和所述第二參數,計算余弦函數值和正弦函數值;調整模塊,用于根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,并根據所述正弦函數值和所述第二梯度,調整所述第二參數的值;返回所述利用大語言模型對文本數據進行自然語言處理,得到處理結果的操作,直到訓練結束條件被滿足。
5、根據本說明書實施例的第四方面,提供一種自然語言處理裝置,所述裝置包括:文本獲取模塊,用于獲取待處理文本;第二處理模塊,用于利用大語言模型對所述待處理文本進行自然語言處理,得到處理結果,其中,所述大語言模型是根據上述第一方面或其對應的任一實施方式的大語言模型的訓練方法訓練得到的。
6、根據本說明書實施例的第五方面,提供一種電子設備,包括:
7、處理器;
8、用于存儲處理器可執行指令的存儲器;
9、其中,所述處理器被配置為執行上述第一方面、第二方面或其對應的任一實施方式的方法。
10、根據本說明書實施例的第六方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行上述第一方面、第二方面或其對應的任一實施方式的方法。
11、本說明書的實施例提供的技術方案可以包括以下有益效果:
12、本說明書實施例中,根據第一參數和第二參數,計算余弦函數值和正弦函數值,結合余弦函數值和正弦函數值來優化梯度下降過程,能夠有效地放大步長,提高大模型的訓練效率。
13、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本說明書。
1.一種大語言模型的訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度,包括:
3.根據權利要求1所述的方法,其特征在于,所述根據所述第一參數和第二參數,計算余弦函數值和正弦函數值,包括:
4.根據權利要求1所述的方法,其特征在于,所述根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,包括:
5.根據權利要求1所述的方法,其特征在于,所述根據所述正弦函數值和所述第二梯度,調整所述第二參數的值,包括:
6.根據權利要求1所述的方法,其特征在于,所述訓練結束條件包括:所述損失函數值收斂或者迭代次數達到迭代次數閾值。
7.一種自然語言處理方法,其特征在于,所述方法包括:
8.一種大語言模型的訓練裝置,其特征在于,所述裝置包括:
9.一種自然語言處理裝置,其特征在于,所述裝置包括:
10.一種電子設備,包括:
11.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行權利要求1至7中任一項所述的方法。