本發(fā)明涉及語(yǔ)言大模型,尤其涉及一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備。
背景技術(shù):
1、語(yǔ)言大模型是目前人工智能領(lǐng)域最先進(jìn)且核心的技術(shù),通過(guò)語(yǔ)言大模型可以迭代生成出各類可完成不同下游任務(wù),例如機(jī)器翻譯、語(yǔ)音轉(zhuǎn)錄等的精細(xì)化模型。同時(shí)為了應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景下可能存在的多語(yǔ)言需求,對(duì)高質(zhì)量多語(yǔ)言大模型的需求日益增長(zhǎng)。多語(yǔ)言大模型利用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)和共享的模型參數(shù)來(lái)處理多種語(yǔ)言,實(shí)現(xiàn)了不同語(yǔ)言間知識(shí)的轉(zhuǎn)移與共享。這些模型通過(guò)大規(guī)模多語(yǔ)言文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,特別是通過(guò)掩碼語(yǔ)言建模(mlm)任務(wù),來(lái)學(xué)習(xí)語(yǔ)言的通用和特定特征,幫助模型通過(guò)上下文來(lái)推斷被隱藏詞匯的含義,增強(qiáng)其上下文理解能力,且為了有效處理多種語(yǔ)言,采用與語(yǔ)言無(wú)關(guān)的輸入表示方法。
2、然后,在多語(yǔ)言大模型中,盡管采用了與語(yǔ)言無(wú)關(guān)等技術(shù)(如字節(jié)對(duì)編碼)以提高對(duì)多種語(yǔ)言的處理能力,但由于訓(xùn)練數(shù)據(jù)不平衡、對(duì)低資源語(yǔ)種表征不足等因素,導(dǎo)致其仍存在著一些問(wèn)題,特別是在處理低資源語(yǔ)種時(shí)的性能不足。
3、因此,如何提高平行語(yǔ)料數(shù)據(jù)的利用效率,在保證多語(yǔ)言大模型原有能力的基礎(chǔ)上提高其對(duì)低資源語(yǔ)種的理解能力是目前亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法、裝置及相關(guān)設(shè)備,通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù),高效利用少量的平行語(yǔ)料數(shù)據(jù),充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義,從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。
2、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種多語(yǔ)言大模型訓(xùn)練方法,包括以下步驟:獲取平行語(yǔ)料數(shù)據(jù),并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式;將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層,所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接,所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng);計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ;根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l;根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。
3、在一種可能的實(shí)現(xiàn)方式中,添加第一指示向量,所述第一指示向量用于指示當(dāng)前輸入的平行語(yǔ)料數(shù)據(jù)及數(shù)據(jù)格式對(duì)應(yīng)的子任務(wù)類型,所述第一指示向量的值為固定值。
4、在另一種可能的實(shí)現(xiàn)方式中,所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層,所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接,且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。
5、在另一種可能的實(shí)現(xiàn)方式中,根據(jù)每個(gè)子任務(wù)的重要性系數(shù)λ對(duì)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ進(jìn)行加權(quán)求和得到所述全局損失l,其中,所述λ的取值范圍是0至1。
6、在另一種可能的實(shí)現(xiàn)方式中,利用彈性權(quán)重固化算法計(jì)算得到全局損失l,所述彈性權(quán)重固化算法如下所示:
7、
8、其中,l(θ)表示全局的損失函數(shù),lew(θ)是經(jīng)過(guò)各個(gè)所述子網(wǎng)絡(luò)層的損失函數(shù),θi是模型參數(shù),θi,ld是在之前任務(wù)上學(xué)習(xí)到的參數(shù)值,λ表示子任務(wù)的重要性系數(shù),fi是之前任務(wù)的fisher信息矩陣的對(duì)角元素,用于表征每個(gè)參數(shù)的重要性。
9、在另一種可能的實(shí)現(xiàn)方式中,根據(jù)所述l(θ)對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。
10、在另一種可能的實(shí)現(xiàn)方式中,所述子任務(wù)類型包括以下類型中的一種或多種:機(jī)器翻譯,命名實(shí)體識(shí)別,掩碼語(yǔ)言模型,句子對(duì)分類,跨語(yǔ)言信息檢索。
11、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種多語(yǔ)言大模型訓(xùn)練裝置,包括:獲取模塊,用于獲取平行語(yǔ)料數(shù)據(jù),并基于子任務(wù)類型對(duì)所述平行語(yǔ)料數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,得到多個(gè)與所述子任務(wù)類型對(duì)應(yīng)的數(shù)據(jù)格式;訓(xùn)練模塊,用于將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,所述初始多語(yǔ)言大模型包括子網(wǎng)絡(luò)層,所述子網(wǎng)絡(luò)層與所述初始多語(yǔ)言大模型的最后一個(gè)隱藏層相連接,所述子網(wǎng)絡(luò)層與所述子任務(wù)類型一一對(duì)應(yīng);計(jì)算模塊,用于計(jì)算每個(gè)所述子網(wǎng)絡(luò)層的損失τ,根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l;更新模塊,用于根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型。
12、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。
13、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
14、本發(fā)明實(shí)施例提供的多語(yǔ)言大模型訓(xùn)練方法,通過(guò)基于多任務(wù)學(xué)習(xí)的知識(shí)對(duì)齊技術(shù),高效利用少量的平行語(yǔ)料數(shù)據(jù),充分理解學(xué)習(xí)低資源語(yǔ)種的詞匯意義,從而在維持多語(yǔ)言大模型的原有能力的基礎(chǔ)上提高對(duì)低資源語(yǔ)種的理解能力。
1.一種多語(yǔ)言大模型訓(xùn)練方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述將所述平行語(yǔ)料數(shù)據(jù)和所述數(shù)據(jù)格式輸入初始多語(yǔ)言大模型,包括:
3.如權(quán)利要求1或2所述的方法,其特征在于,所述子網(wǎng)絡(luò)層包括第一子網(wǎng)絡(luò)層和第二子網(wǎng)絡(luò)層,所述第一子網(wǎng)絡(luò)層與所述第二子網(wǎng)絡(luò)層連接,且所述第一子網(wǎng)絡(luò)層的輸出為所述第二子網(wǎng)絡(luò)層的輸入。
4.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l,包括:
5.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述每個(gè)所述子網(wǎng)絡(luò)層的損失τ,計(jì)算得到全局損失l,包括:
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述全局損失l對(duì)所述初始多語(yǔ)言大模型進(jìn)行更新,得到更新后的多語(yǔ)言大模型,包括:
7.如權(quán)利要求1或2所述的方法,其特征在于,所述子任務(wù)類型包括以下類型中的一種或多種:
8.一種多語(yǔ)言大模型訓(xùn)練裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。