麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法和裝置

文檔序號(hào):41744879發(fā)布日期:2025-04-25 17:28閱讀:8來(lái)源:國(guó)知局
音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法和裝置

本發(fā)明涉及音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法和裝置,屬于自然語(yǔ)言處理。


背景技術(shù):

1、隨著人工智能技術(shù)的發(fā)展,語(yǔ)音合成的聲學(xué)模型和聲碼器模型效果都在不斷提高,在數(shù)據(jù)規(guī)模足夠的情況下,單一語(yǔ)言的語(yǔ)音合成任務(wù)已經(jīng)能夠合成較高品質(zhì)的語(yǔ)音了。但是需求會(huì)隨著技術(shù)發(fā)展,混合語(yǔ)言語(yǔ)音合成逐漸被重視。混合語(yǔ)言語(yǔ)音合成在近年來(lái)相對(duì)成熟,在富資源語(yǔ)言上的混合語(yǔ)言合成任務(wù)更是取得了極好的成績(jī),但是由于老撾語(yǔ)中偶爾出現(xiàn)英語(yǔ)單詞,而當(dāng)需要對(duì)該類文本進(jìn)行語(yǔ)音合成時(shí),會(huì)發(fā)現(xiàn)老撾人無(wú)法準(zhǔn)確對(duì)英文進(jìn)行發(fā)音,因?yàn)榛旌险Z(yǔ)言中語(yǔ)言表征不同,使得老撾人跨英語(yǔ)音素發(fā)音困難。

2、每種語(yǔ)言都有自己獨(dú)特的音素集,這就導(dǎo)致難以實(shí)現(xiàn)說話人混合語(yǔ)言音素有效發(fā)音。在實(shí)際效果中,特別是在老撾語(yǔ)和英語(yǔ)獨(dú)有的音素集合在合成音頻時(shí)會(huì)導(dǎo)致說話人音素遷移非常困難,使得整個(gè)模型的流暢度和自然度降低。例如老撾語(yǔ)中的音素“h”是英語(yǔ)中不存在的音素,那么當(dāng)使用英語(yǔ)說話人合成老撾語(yǔ)音頻時(shí),難以對(duì)沒見過的音素“h”實(shí)現(xiàn)發(fā)音。因此在混合語(yǔ)言語(yǔ)音合成任務(wù)中,如何實(shí)現(xiàn)混合語(yǔ)言統(tǒng)一表征文本到發(fā)音的方式是關(guān)鍵,現(xiàn)有的方法通常是將文本序列或者音素序列作為輸入,在文本或音素到聲音的過程中,模型會(huì)顯式的忽略掉音素隱藏特征,純粹的是實(shí)現(xiàn)音素合成為固定聲色。如果能在輸入序列中將音素隱藏信息顯式的作為輸入之一,那么模型在實(shí)現(xiàn)說話人混合語(yǔ)言合成時(shí),特別是對(duì)說話人遷移中不可見音素,能夠?qū)ζ滹@式的高級(jí)特征進(jìn)行更深層次的建模,從而提升遷移說話人時(shí)的合成音頻的自然度和流暢度。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法和裝置,通過增加與說話人無(wú)關(guān)的音素細(xì)粒度發(fā)音特征作為顯式的發(fā)音特征,并將發(fā)音特征與編碼器特征融合,有助于模型在推理時(shí),老撾語(yǔ)說話人能夠?qū)τ⒄Z(yǔ)音素實(shí)現(xiàn)有效發(fā)音。

2、本發(fā)明的技術(shù)方案是:音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法,所述方法包括:

3、步驟1、構(gòu)建音素細(xì)粒度發(fā)音知識(shí)詞典;

4、步驟2、構(gòu)建音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成模型,音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成模型包括:

5、在編碼階段融入了細(xì)粒度發(fā)音特征,直接對(duì)發(fā)音進(jìn)行建模;

6、在模型訓(xùn)練時(shí),首先通過音素細(xì)粒度發(fā)音知識(shí)詞典將字符轉(zhuǎn)化為id標(biāo)識(shí),再通過嵌入層生成向量表示,從而得到傳統(tǒng)音素嵌入;然后,將音素的發(fā)音特征表示為一維矩陣,通過設(shè)置矩陣中的值為1或-1來(lái)區(qū)分音素發(fā)音的差異,從而對(duì)細(xì)粒度發(fā)音特征建模;結(jié)合音素發(fā)音特征向量與傳統(tǒng)的音素嵌入序列,模型在訓(xùn)練階段能精準(zhǔn)地建模老撾語(yǔ)和英語(yǔ)的音素發(fā)音,用于緩解混合語(yǔ)言音素統(tǒng)一建模的困難;

7、步驟3、老-英混合語(yǔ)言語(yǔ)音合成:將步驟2音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成模型整合為能在服務(wù)器上調(diào)用的api接口,通過調(diào)用模型api接口,構(gòu)建了一個(gè)老撾語(yǔ)-英語(yǔ)混合語(yǔ)言語(yǔ)音合成裝置,用于進(jìn)行老-英混合語(yǔ)言語(yǔ)音合成。

8、進(jìn)一步地,所述步驟1中,采用ipa國(guó)際音標(biāo)將老撾語(yǔ)和英語(yǔ)統(tǒng)一表征為音素,并在所有的音素序列上構(gòu)建音素細(xì)粒度發(fā)音知識(shí)詞典。

9、進(jìn)一步地,所述步驟1的具體步驟包括:

10、步驟1.1音素詞典構(gòu)建:人工對(duì)從互聯(lián)網(wǎng)上爬取的老撾語(yǔ)數(shù)據(jù)進(jìn)行了標(biāo)注,包括去除無(wú)用字符;隨后,使用epitran和espeak工具分別將老撾語(yǔ)和英語(yǔ)文本化為音素序列,以初步構(gòu)建音素詞典;

11、步驟1.2音素細(xì)粒度發(fā)音知識(shí)處理:基于步驟1.1構(gòu)建的音素詞典加上符號(hào)以及屬性標(biāo)簽,從而使每一個(gè)字符都有額外的屬性,通過賦予的不同屬性值標(biāo)記不同字符的發(fā)音方式。

12、進(jìn)一步地,所述步驟2中,音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成模型的操作過程包括:

13、步驟2.1、基于步驟1構(gòu)建的音素細(xì)粒度發(fā)音知識(shí)詞典,采用one-hot編碼的方式,根據(jù)屬性詞典的大小構(gòu)建等長(zhǎng)度的一維全零矩陣,根據(jù)細(xì)粒度發(fā)音詞典中每個(gè)音素被標(biāo)記的屬性值,對(duì)一維全零矩陣中對(duì)應(yīng)的標(biāo)簽位置為1,并對(duì)相反的類型置為-1,以加劇發(fā)音相差較遠(yuǎn)的音素之間的差距,從而對(duì)音素細(xì)粒度發(fā)音屬性進(jìn)行嵌入,隨后引入lstm網(wǎng)絡(luò)輸出音素序列在細(xì)粒度發(fā)音嵌入上的隱狀態(tài);輸入的細(xì)粒度發(fā)音特征向量大小為:

14、shape(inputvector)=b*l*h1;

15、其中,inputvector表示為音素細(xì)粒度發(fā)音特征,b為批次大小,l為一個(gè)批次中最長(zhǎng)句子長(zhǎng)度,h1表示每個(gè)字符嵌入維度;

16、音素細(xì)粒度發(fā)音特征向量通過lstm網(wǎng)絡(luò)得到細(xì)粒度發(fā)音隱狀態(tài)hlstm,該隱狀態(tài)表示為:

17、hlstm=lstm(inputvector);

18、步驟2.2、采用文本卷積編碼器根據(jù)發(fā)音詞典直接將字符轉(zhuǎn)id,然后通過embedding嵌入獲得音素嵌入hconv,嵌入維度為256;

19、步驟2.3、基于步驟2.1和步驟2.2獲得的兩個(gè)音素粒度的隱狀態(tài)值,通過交叉注意力機(jī)制將細(xì)粒度發(fā)音隱狀態(tài)hlstm融合到文本編碼器的輸出向量hconv中,從而增加編碼器輸出的特征信息;最后,采用殘差網(wǎng)絡(luò)結(jié)構(gòu)對(duì)編碼器的輸出進(jìn)行進(jìn)一步處理,其中細(xì)粒度發(fā)音隱狀態(tài)hlstm作為交叉注意力的k和v,文本編碼器的輸出向量hconv作為q,計(jì)算如下:

20、hatt=cross_att(hconv,hlstm,hlstm)

21、hatt表示交叉注意力的輸出;

22、注意力輸出再與編碼器相加送入到層歸一化中:

23、hl_n=nn.layernorm(hatt+dropout(hconv))

24、在歸一化層之后,首先接一個(gè)線性層,然后經(jīng)過relu激活函數(shù),接著再通過一個(gè)線性層;最后,將該線性層的輸出與hl_n相加,從而得到編碼器的最終輸出表示hout,計(jì)算如下:

25、hout=nn.laynorm(fc(max(0,fc(hl_n)))+dropout(hl_n))

26、fc表示線性層、dropout(hl_n)表示對(duì)歸一化層的輸出hl_n應(yīng)用dropout操作,減少模型對(duì)歸一化層的輸出特征的依賴;

27、步驟2.4、將stpe2.3得到的輸出hout同時(shí)送入解碼器和說話人分類器模塊中,通過解碼器進(jìn)行語(yǔ)音預(yù)測(cè);在說話人分類器模塊中,hout首先經(jīng)過梯度反置模塊,確保正向傳播時(shí)梯度反置模塊輸出保存不變,然后經(jīng)過兩個(gè)線性層,最后通過softmax函數(shù)實(shí)現(xiàn)說話人分類預(yù)測(cè)。

28、進(jìn)一步地,所述步驟3的具體步驟為:

29、步驟3.1、將訓(xùn)練好的“.pt”格式模型部署到服務(wù)器端上,通過調(diào)用該模型,實(shí)現(xiàn)多用戶并發(fā)請(qǐng)求的功能,構(gòu)建了一個(gè)老撾語(yǔ)-英語(yǔ)混合語(yǔ)言語(yǔ)音合成裝置,該裝置包括客戶端和服務(wù)端;

30、步驟3.2、用戶將原始待合成的老撾語(yǔ)文本輸入合成裝置客戶端,客戶端將輸入的文本傳遞給服務(wù)器端的翻譯模型;該模型負(fù)責(zé)將輸入文本合成目標(biāo)語(yǔ)音,并將合成語(yǔ)音返回到客戶端界面上播放。

31、音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成裝置,包括:用于執(zhí)行所述音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法的模塊。

32、一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法。

33、一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法。

34、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述音素知識(shí)增強(qiáng)的老-英混合語(yǔ)言語(yǔ)音合成方法。

35、本發(fā)明的有益效果是:

36、本發(fā)明引入了音素嵌入中看不見的發(fā)音特征信息,每個(gè)音素及符號(hào)標(biāo)記有類型和多個(gè)發(fā)音屬性,模型在訓(xùn)練階段能看到音素更多的信息,從而在轉(zhuǎn)換音素到音頻時(shí)能夠更加準(zhǔn)確地進(jìn)行發(fā)音合成,有效緩解混合語(yǔ)言音素及說話人音色統(tǒng)一建模困難的問題。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 临西县| 深泽县| 安庆市| 西青区| 铅山县| 绩溪县| 三明市| 太仓市| 丰原市| 张北县| 府谷县| 来凤县| 安丘市| 军事| 宜州市| 杨浦区| 河南省| 宁城县| 毕节市| 巴彦淖尔市| 视频| 永顺县| 盐池县| 郯城县| 达孜县| 中超| 蚌埠市| 布拖县| 鸡泽县| 哈尔滨市| 民丰县| 富顺县| 准格尔旗| 巴彦淖尔市| 鄂伦春自治旗| 翁牛特旗| 曲靖市| 灵川县| 牟定县| 阿瓦提县| 陈巴尔虎旗|