一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備與流程

文檔序號(hào)：41374980發(fā)布日期：2025-03-21 15:30閱讀：28來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備與流程

本發(fā)明涉及語(yǔ)言大模型，尤其涉及一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備。

背景技術(shù)：

1、語(yǔ)言大模型是目前人工智能領(lǐng)域最先進(jìn)且核心的技術(shù)，通過(guò)語(yǔ)言大模型可以迭代生成出各類可完成不同下游任務(wù)，例如機(jī)器翻譯、語(yǔ)音轉(zhuǎn)錄等的精細(xì)化模型。同時(shí)為了應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景下可能存在的多語(yǔ)言需求，對(duì)高質(zhì)量多語(yǔ)言大模型的需求日益增長(zhǎng)。多語(yǔ)言大模型利用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)和共享的模型參數(shù)來(lái)處理多種語(yǔ)言，實(shí)現(xiàn)了不同語(yǔ)言間知識(shí)的轉(zhuǎn)移與共享。這些模型通過(guò)大規(guī)模多語(yǔ)言文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練，特別是通過(guò)掩碼語(yǔ)言建模(mlm)任務(wù)，來(lái)學(xué)習(xí)語(yǔ)言的通用和特定特征，幫助模型通過(guò)上下文來(lái)推斷被隱藏詞匯的含義，增強(qiáng)其上下文理解能力，且為了有效處理多種語(yǔ)言，采用與語(yǔ)言無(wú)關(guān)的輸入表示方法。

2、然后，在多語(yǔ)言大模型中，盡管采用了與語(yǔ)言無(wú)關(guān)等技術(shù)(如字節(jié)對(duì)編碼)以提高對(duì)多種語(yǔ)言的處理能力，但由于訓(xùn)練數(shù)據(jù)不平衡、對(duì)低資源語(yǔ)種表征不足等因素，導(dǎo)致其仍存在著一些問(wèn)題，特別是在處理低資源語(yǔ)種時(shí)的性能不足。

3、因此，如何提高平行語(yǔ)料數(shù)據(jù)的利用效率，在保證多語(yǔ)言大模型原有能力的基礎(chǔ)上提高其對(duì)低資源語(yǔ)種的理解能力是目前亟待解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備，通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù)，高效利用少量的平行語(yǔ)料數(shù)據(jù)，充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義，從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。

2、為了解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法，包括以下步驟：獲取平行語(yǔ)料數(shù)據(jù)，并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換，得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式；將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型，所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層，所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接，所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng)；計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ；根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ，計(jì)算得到全局損失l；根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新，得到更新后的多語(yǔ)言大模型。

3、在一種可能的實(shí)現(xiàn)方式中，添加第一指示向量，所述第一指示向量用于指示當(dāng)前輸入的平行語(yǔ)料數(shù)據(jù)及數(shù)據(jù)格式對(duì)應(yīng)的子任務(wù)類型，所述第一指示向量的值為固定值。

4、在另一種可能的實(shí)現(xiàn)方式中，所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層，所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接，且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。

5、在另一種可能的實(shí)現(xiàn)方式中，根據(jù)每個(gè)子任務(wù)的重要性系數(shù)λ對(duì)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ進(jìn)行加權(quán)求和得到所述全局損失l，其中，所述λ的取值范圍是0至1。

6、在另一種可能的實(shí)現(xiàn)方式中，利用彈性權(quán)重固化算法計(jì)算得到全局損失l，所述彈性權(quán)重固化算法如下所示：

7、

8、其中，l(θ)表示全局的損失函數(shù)，lew(θ)是經(jīng)過(guò)各個(gè)所述子網(wǎng)絡(luò)層的損失函數(shù)，θi是模型參數(shù)，θi，ld是在之前任務(wù)上學(xué)習(xí)到的參數(shù)值，λ表示子任務(wù)的重要性系數(shù)，fi是之前任務(wù)的fisher信息矩陣的對(duì)角元素，用于表征每個(gè)參數(shù)的重要性。

9、在另一種可能的實(shí)現(xiàn)方式中，根據(jù)所述l(θ)對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新，得到更新后的多語(yǔ)言大模型。

10、在另一種可能的實(shí)現(xiàn)方式中，所述子任務(wù)類型包括以下類型中的一種或多種：機(jī)器翻譯，命名實(shí)體識(shí)別，掩碼語(yǔ)言模型，句子對(duì)分類，跨語(yǔ)言信息檢索。

11、為了解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例還提供一種多語(yǔ)言大模型訓(xùn)練裝置，包括：獲取模塊，用于獲取平行語(yǔ)料數(shù)據(jù)，并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換，得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式；訓(xùn)練模塊，用于將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型，所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層，所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接，所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng)；計(jì)算模塊，用于計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ，根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ，計(jì)算得到全局損失l；更新模塊，用于根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新，得到更新后的多語(yǔ)言大模型。

12、為了解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。

13、為了解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

14、本發(fā)明實(shí)施例提供的多語(yǔ)言大模型訓(xùn)練方法，通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù)，高效利用少量的平行語(yǔ)料數(shù)據(jù)，充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義，從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。

技術(shù)特征：

1.一種多語(yǔ)言大模型訓(xùn)練方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型，包括：

3.如權(quán)利要求1或2所述的方法，其特征在于，所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層，所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接，且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。

4.如權(quán)利要求1或2所述的方法，其特征在于，所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ，計(jì)算得到全局損失l，包括：

5.如權(quán)利要求1或2所述的方法，其特征在于，所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ，計(jì)算得到全局損失l，包括：

6.如權(quán)利要求5所述的方法，其特征在于，所述根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新，得到更新后的多語(yǔ)言大模型，包括：

7.如權(quán)利要求1或2所述的方法，其特征在于，所述子任務(wù)類型包括以下類型中的一種或多種：

8.一種多語(yǔ)言大模型訓(xùn)練裝置，其特征在于，所述裝置包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備，所述方法包括：獲取平行語(yǔ)料數(shù)據(jù)，并基于子任務(wù)類型對(duì)其進(jìn)行格式轉(zhuǎn)換，得到與多個(gè)子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式；將平行語(yǔ)料數(shù)據(jù)和數(shù)據(jù)格式輸入初始多語(yǔ)言大模型，該模型包括子網(wǎng)絡(luò)層，子網(wǎng)絡(luò)層與子任務(wù)類型一一對(duì)應(yīng)；計(jì)算每個(gè)子網(wǎng)絡(luò)層的損失τ；根據(jù)每個(gè)子網(wǎng)絡(luò)層的損失τ，計(jì)算全局損失L；利用該L對(duì)模型進(jìn)行更新，得到更新后的多語(yǔ)言大模型。采用本發(fā)明可以提高平行語(yǔ)料數(shù)據(jù)的利用效率，并在不影響多語(yǔ)言大模型的能力的基礎(chǔ)上提高其對(duì)低資源語(yǔ)種的理解能力。

技術(shù)研發(fā)人員：林余楚,何浩坤,汪一鳴
受保護(hù)的技術(shù)使用者：深繹未來(lái)科技（廣東橫琴）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/3/20

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林余楚,何浩坤,汪一鳴
技術(shù)所有人：深繹未來(lái)科技（廣東橫琴）有限公司
我是此專利的發(fā)明人

上一篇：一種通訊基站防水散熱機(jī)構(gòu)的制作方法
上一篇：一種電動(dòng)工具底座的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備與流程