麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

大語言模型的訓練方法、自然語言處理方法及裝置與流程

文檔序號:41744253發布日期:2025-04-25 17:27閱讀:2來源:國知局
大語言模型的訓練方法、自然語言處理方法及裝置與流程

本說明書涉及人工智能,尤其涉及大語言模型的訓練方法、自然語言處理方法及裝置。


背景技術:

1、大語言模型(large?language?model,llm),是指使用大量文本數據訓練的深度學習模型,可以生成自然語言文本或理解語言文本的含義。

2、梯度下降是迭代法的一種,可以用于求解最小二乘問題。梯度下降可以通過迭代調整參數來逐步逼近最小值,可以用于最小化函數,例如可以用于模型訓練中最小化損失函數。在求解損失函數的最小值時,可以通過梯度下降方法來一步步的迭代求解,得到最小化的損失函數和相應的模型參數。

3、現有技術采用梯度下降來對大語言模型進行訓練時,效率較低。


技術實現思路

1、為克服相關技術中存在的問題,本說明書提供了大語言模型的訓練方法、自然語言處理方法、裝置、電子設備及介質。

2、根據本說明書實施例的第一方面,提供一種大語言模型的訓練方法,所述方法包括:利用大語言模型對文本數據進行自然語言處理,得到處理結果,所述大語言模型的參數包括第一參數和第二參數,所述文本數據包括文本、圖像、視頻、音頻中的至少一個;根據處理結果,計算損失函數值;根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度;根據所述第一參數和所述第二參數,計算余弦函數值和正弦函數值;根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,并根據所述正弦函數值和所述第二梯度,調整所述第二參數的值;返回所述利用大語言模型對文本數據進行自然語言處理,得到處理結果的操作,直到訓練結束條件被滿足。

3、根據本說明書實施例的第二方面,提供一種自然語言處理方法,所述方法包括:獲取待處理文本;利用大語言模型對所述待處理文本進行自然語言處理,得到處理結果,其中,所述大語言模型是根據上述第一方面或其對應的任一實施方式的大語言模型的訓練方法訓練得到的。

4、根據本說明書實施例的第三方面,提供一種大語言模型的訓練裝置,包括:第一處理模塊,用于利用大語言模型對文本數據進行自然語言處理,得到處理結果,所述大語言模型的參數包括第一參數和第二參數,所述文本數據包括文本、圖像、視頻、音頻中的至少一個;損失計算模塊,用于根據處理結果,計算損失函數值;梯度計算模塊,用于根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度;三角函數計算模塊,用于根據所述第一參數和所述第二參數,計算余弦函數值和正弦函數值;調整模塊,用于根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,并根據所述正弦函數值和所述第二梯度,調整所述第二參數的值;返回所述利用大語言模型對文本數據進行自然語言處理,得到處理結果的操作,直到訓練結束條件被滿足。

5、根據本說明書實施例的第四方面,提供一種自然語言處理裝置,所述裝置包括:文本獲取模塊,用于獲取待處理文本;第二處理模塊,用于利用大語言模型對所述待處理文本進行自然語言處理,得到處理結果,其中,所述大語言模型是根據上述第一方面或其對應的任一實施方式的大語言模型的訓練方法訓練得到的。

6、根據本說明書實施例的第五方面,提供一種電子設備,包括:

7、處理器;

8、用于存儲處理器可執行指令的存儲器;

9、其中,所述處理器被配置為執行上述第一方面、第二方面或其對應的任一實施方式的方法。

10、根據本說明書實施例的第六方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行上述第一方面、第二方面或其對應的任一實施方式的方法。

11、本說明書的實施例提供的技術方案可以包括以下有益效果:

12、本說明書實施例中,根據第一參數和第二參數,計算余弦函數值和正弦函數值,結合余弦函數值和正弦函數值來優化梯度下降過程,能夠有效地放大步長,提高大模型的訓練效率。

13、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本說明書。



技術特征:

1.一種大語言模型的訓練方法,其特征在于,所述方法包括:

2.根據權利要求1所述的方法,其特征在于,所述根據所述損失函數值,計算所述第一參數的第一梯度和所述第二參數的第二梯度,包括:

3.根據權利要求1所述的方法,其特征在于,所述根據所述第一參數和第二參數,計算余弦函數值和正弦函數值,包括:

4.根據權利要求1所述的方法,其特征在于,所述根據所述余弦函數值和所述第一梯度,調整所述第一參數的值,包括:

5.根據權利要求1所述的方法,其特征在于,所述根據所述正弦函數值和所述第二梯度,調整所述第二參數的值,包括:

6.根據權利要求1所述的方法,其特征在于,所述訓練結束條件包括:所述損失函數值收斂或者迭代次數達到迭代次數閾值。

7.一種自然語言處理方法,其特征在于,所述方法包括:

8.一種大語言模型的訓練裝置,其特征在于,所述裝置包括:

9.一種自然語言處理裝置,其特征在于,所述裝置包括:

10.一種電子設備,包括:

11.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行權利要求1至7中任一項所述的方法。


技術總結
本說明書提供一種大語言模型的訓練方法、自然語言處理方法及裝置。所述方法包括:利用大語言模型對文本數據進行自然語言處理,得到處理結果,大語言模型的參數包括第一參數和第二參數,文本數據包括文本、圖像、視頻、音頻中的至少一個;根據處理結果,計算損失函數值;根據損失函數值,計算第一參數的第一梯度和第二參數的第二梯度;根據第一參數和第二參數,計算余弦函數值和正弦函數值;根據余弦函數值和第一梯度,調整第一參數的值,并根據正弦函數值和第二梯度,調整第二參數的值;返回利用大語言模型對文本數據進行自然語言處理,得到處理結果的操作,直到訓練結束條件被滿足。

技術研發人員:文晉陽
受保護的技術使用者:新華三技術有限公司
技術研發日:
技術公布日:2025/4/24
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 锡林郭勒盟| 博白县| 曲周县| 安徽省| 茂名市| 夏河县| 汕头市| 探索| 九江县| 平塘县| 新河县| 遂昌县| 德令哈市| 玛纳斯县| 鄂尔多斯市| 河东区| 克什克腾旗| 镇江市| 龙岩市| 寿光市| 湛江市| 鹤壁市| 茂名市| 高唐县| 罗甸县| 巧家县| 马关县| 开阳县| 平武县| 雅江县| 长岭县| 正镶白旗| 平阳县| 东光县| 兰坪| 布尔津县| 天等县| 垫江县| 八宿县| 南郑县| 稻城县|