麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備與流程

文檔序號(hào):41374980發(fā)布日期:2025-03-21 15:30閱讀:28來(lái)源:國(guó)知局
一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備與流程

本發(fā)明涉及語(yǔ)言大模型,尤其涉及一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備。


背景技術(shù):

1、語(yǔ)言大模型是目前人工智能領(lǐng)域最先進(jìn)且核心的技術(shù),通過(guò)語(yǔ)言大模型可以迭代生成出各類可完成不同下游任務(wù),例如機(jī)器翻譯、語(yǔ)音轉(zhuǎn)錄等的精細(xì)化模型。同時(shí)為了應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景下可能存在的多語(yǔ)言需求,對(duì)高質(zhì)量多語(yǔ)言大模型的需求日益增長(zhǎng)。多語(yǔ)言大模型利用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)和共享的模型參數(shù)來(lái)處理多種語(yǔ)言,實(shí)現(xiàn)了不同語(yǔ)言間知識(shí)的轉(zhuǎn)移與共享。這些模型通過(guò)大規(guī)模多語(yǔ)言文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,特別是通過(guò)掩碼語(yǔ)言建模(mlm)任務(wù),來(lái)學(xué)習(xí)語(yǔ)言的通用和特定特征,幫助模型通過(guò)上下文來(lái)推斷被隱藏詞匯的含義,增強(qiáng)其上下文理解能力,且為了有效處理多種語(yǔ)言,采用與語(yǔ)言無(wú)關(guān)的輸入表示方法。

2、然后,在多語(yǔ)言大模型中,盡管采用了與語(yǔ)言無(wú)關(guān)等技術(shù)(如字節(jié)對(duì)編碼)以提高對(duì)多種語(yǔ)言的處理能力,但由于訓(xùn)練數(shù)據(jù)不平衡、對(duì)低資源語(yǔ)種表征不足等因素,導(dǎo)致其仍存在著一些問(wèn)題,特別是在處理低資源語(yǔ)種時(shí)的性能不足。

3、因此,如何提高平行語(yǔ)料數(shù)據(jù)的利用效率,在保證多語(yǔ)言大模型原有能力的基礎(chǔ)上提高其對(duì)低資源語(yǔ)種的理解能力是目前亟待解決的技術(shù)問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備,通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù),高效利用少量的平行語(yǔ)料數(shù)據(jù),充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義,從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。

2、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法,包括以下步驟:獲取平行語(yǔ)料數(shù)據(jù),并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式;將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層,所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接,所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng);計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ;根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l;根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。

3、在一種可能的實(shí)現(xiàn)方式中,添加第一指示向量,所述第一指示向量用于指示當(dāng)前輸入的平行語(yǔ)料數(shù)據(jù)及數(shù)據(jù)格式對(duì)應(yīng)的子任務(wù)類型,所述第一指示向量的值為固定值。

4、在另一種可能的實(shí)現(xiàn)方式中,所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層,所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接,且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。

5、在另一種可能的實(shí)現(xiàn)方式中,根據(jù)每個(gè)子任務(wù)的重要性系數(shù)λ對(duì)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ進(jìn)行加權(quán)求和得到所述全局損失l,其中,所述λ的取值范圍是0至1。

6、在另一種可能的實(shí)現(xiàn)方式中,利用彈性權(quán)重固化算法計(jì)算得到全局損失l,所述彈性權(quán)重固化算法如下所示:

7、

8、其中,l(θ)表示全局的損失函數(shù),lew(θ)是經(jīng)過(guò)各個(gè)所述子網(wǎng)絡(luò)層的損失函數(shù),θi是模型參數(shù),θi,ld是在之前任務(wù)上學(xué)習(xí)到的參數(shù)值,λ表示子任務(wù)的重要性系數(shù),fi是之前任務(wù)的fisher信息矩陣的對(duì)角元素,用于表征每個(gè)參數(shù)的重要性。

9、在另一種可能的實(shí)現(xiàn)方式中,根據(jù)所述l(θ)對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。

10、在另一種可能的實(shí)現(xiàn)方式中,所述子任務(wù)類型包括以下類型中的一種或多種:機(jī)器翻譯,命名實(shí)體識(shí)別,掩碼語(yǔ)言模型,句子對(duì)分類,跨語(yǔ)言信息檢索。

11、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種多語(yǔ)言大模型訓(xùn)練裝置,包括:獲取模塊,用于獲取平行語(yǔ)料數(shù)據(jù),并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式;訓(xùn)練模塊,用于將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層,所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接,所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng);計(jì)算模塊,用于計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ,根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l;更新模塊,用于根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。

12、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。

13、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

14、本發(fā)明實(shí)施例提供的多語(yǔ)言大模型訓(xùn)練方法,通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù),高效利用少量的平行語(yǔ)料數(shù)據(jù),充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義,從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。



技術(shù)特征:

1.一種多語(yǔ)言大模型訓(xùn)練方法,其特征在于,所述方法包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,包括:

3.如權(quán)利要求1或2所述的方法,其特征在于,所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層,所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接,且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。

4.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l,包括:

5.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l,包括:

6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型,包括:

7.如權(quán)利要求1或2所述的方法,其特征在于,所述子任務(wù)類型包括以下類型中的一種或多種:

8.一種多語(yǔ)言大模型訓(xùn)練裝置,其特征在于,所述裝置包括:

9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備,所述方法包括:獲取平行語(yǔ)料數(shù)據(jù),并基于子任務(wù)類型對(duì)其進(jìn)行格式轉(zhuǎn)換,得到與多個(gè)子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式;將平行語(yǔ)料數(shù)據(jù)和數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,該模型包括子網(wǎng)絡(luò)層,子網(wǎng)絡(luò)層與子任務(wù)類型一一對(duì)應(yīng);計(jì)算每個(gè)子網(wǎng)絡(luò)層的損失τ;根據(jù)每個(gè)子網(wǎng)絡(luò)層的損失τ,計(jì)算全局損失L;利用該L對(duì)模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。采用本發(fā)明可以提高平行語(yǔ)料數(shù)據(jù)的利用效率,并在不影響多語(yǔ)言大模型的能力的基礎(chǔ)上提高其對(duì)低資源語(yǔ)種的理解能力。

技術(shù)研發(fā)人員:林余楚,何浩坤,汪一鳴
受保護(hù)的技術(shù)使用者:深繹未來(lái)科技(廣東橫琴)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/3/20
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 大方县| 达拉特旗| 台北市| 灵寿县| 中江县| 洞口县| 湘潭县| 阿拉善左旗| 黄梅县| 密山市| 临沧市| 枞阳县| 剑川县| 洪泽县| 塔河县| 辉南县| 丰都县| 平陆县| 宁乡县| 三都| 获嘉县| 阿图什市| 太湖县| 莱芜市| 长垣县| 通江县| 金华市| 广安市| 玉龙| 天气| 建平县| 沂水县| 安阳市| 昌乐县| 奉节县| 临颍县| 德兴市| 新兴县| 府谷县| 裕民县| 北京市|