麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于網(wǎng)絡(luò)配音游戲的語(yǔ)音樣本收集方法與流程

文檔序號(hào):12036175閱讀:492來(lái)源:國(guó)知局
一種基于網(wǎng)絡(luò)配音游戲的語(yǔ)音樣本收集方法與流程

本發(fā)明涉及語(yǔ)音信號(hào)處理技術(shù)和語(yǔ)音樣本收集技術(shù),具體涉及一種基于網(wǎng)絡(luò)配音游戲的語(yǔ)音樣本收集方法。



背景技術(shù):

隨著可穿戴設(shè)備、智能硬件、智能家居領(lǐng)域的火熱,語(yǔ)音識(shí)別作為其中最重要的人機(jī)交互手段,其市場(chǎng)也是越來(lái)越大。傳統(tǒng)連續(xù)語(yǔ)音識(shí)別技術(shù)以gmm-hmm為主,現(xiàn)代語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模擬人類(lèi)神經(jīng)元結(jié)構(gòu)搭建,其深層結(jié)構(gòu)對(duì)語(yǔ)音的描述能力比傳統(tǒng)方法強(qiáng),更能適應(yīng)語(yǔ)音識(shí)別這樣的復(fù)雜模式分類(lèi)問(wèn)題。在眾多神經(jīng)網(wǎng)絡(luò)算法中,深度神經(jīng)網(wǎng)絡(luò)(deepneutralnetwork)與長(zhǎng)短時(shí)記憶單元網(wǎng)絡(luò)(long-shorttermmemory)憑借訓(xùn)練大量數(shù)據(jù)的能力及在識(shí)別準(zhǔn)確率上對(duì)傳統(tǒng)方法的顯著超越,成為近年來(lái)學(xué)術(shù)界工業(yè)界的熱點(diǎn)。而在dnn與lstm等神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型的訓(xùn)練過(guò)程中,海量的含發(fā)音標(biāo)注的語(yǔ)音樣本至關(guān)重要,訓(xùn)練語(yǔ)音樣本的大小和語(yǔ)音識(shí)別系統(tǒng)的性能正相關(guān)。

現(xiàn)有的語(yǔ)音樣本收集方法一般分為:人工現(xiàn)場(chǎng)錄制和人工電話錄制。這兩種方法費(fèi)時(shí)費(fèi)力耗資巨大,導(dǎo)致訓(xùn)練語(yǔ)音樣本的規(guī)模也難以擴(kuò)大,限制了語(yǔ)音識(shí)別系統(tǒng)識(shí)別能力的提高。

現(xiàn)有語(yǔ)音樣本收集方法的不足之處在于:

(1)人工現(xiàn)場(chǎng)錄制語(yǔ)音樣本限制了說(shuō)話人的地域分布,不利于語(yǔ)音識(shí)別系統(tǒng)在大范圍地域內(nèi)的泛化能力的提升;

(2)人工現(xiàn)場(chǎng)錄制語(yǔ)音樣本人力成本、交通成本高昂;

(3)人工現(xiàn)場(chǎng)錄制語(yǔ)音樣本方案收集語(yǔ)音樣本時(shí)間長(zhǎng),語(yǔ)音樣本庫(kù)建立耗時(shí)也長(zhǎng);

(4)人工錄制與收集語(yǔ)音樣本枯燥無(wú)味,說(shuō)話人志愿者和收集語(yǔ)音樣本工作人員工作積極性都不高;

(5)人工電話錄制語(yǔ)音樣本包含電話信道噪聲,與日常現(xiàn)場(chǎng)語(yǔ)音識(shí)別應(yīng)用場(chǎng)景不一樣,其訓(xùn)練出來(lái)的語(yǔ)音識(shí)別模型在現(xiàn)場(chǎng)應(yīng)用時(shí)效果不佳;

(6)人工現(xiàn)場(chǎng)錄制與人工電話錄制方案在語(yǔ)音樣本篩選階段人力消耗巨大。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于解決現(xiàn)有人工現(xiàn)場(chǎng)錄制語(yǔ)音樣本方案錄制成本高、時(shí)間長(zhǎng),和人工電話錄制語(yǔ)音樣本方案包含信道噪聲的缺點(diǎn),提供一種基于網(wǎng)絡(luò)配音游戲的語(yǔ)音樣本收集方法:通過(guò)配音游戲引導(dǎo)用戶錄制語(yǔ)音來(lái)收集語(yǔ)音樣本。

為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:

本發(fā)明提供了一種基于網(wǎng)絡(luò)配音游戲的語(yǔ)音樣本收集方法,包括下述步驟:

s1.通過(guò)如下游戲過(guò)程進(jìn)行語(yǔ)音樣本收集并進(jìn)行自動(dòng)質(zhì)量評(píng)價(jià):

s1.1熟悉配音需求:游戲用戶在配音游戲客戶端點(diǎn)播視頻獨(dú)白節(jié)目,客戶端通過(guò)videoview類(lèi)第一遍播放含音頻與畫(huà)面的視頻,使用戶對(duì)視頻場(chǎng)景和對(duì)話過(guò)程有較好的認(rèn)知;

s1.2配音:客戶端通過(guò)videoview類(lèi)播放無(wú)聲視頻,畫(huà)面底部同步顯示字幕與進(jìn)度條,游戲用戶根據(jù)字幕與畫(huà)面進(jìn)行配音,客戶端通過(guò)audiorecord類(lèi)按照16khz采樣頻率,16bit采樣深度,單聲道,線性pcm編碼格式錄制用戶語(yǔ)音,畫(huà)面結(jié)束,自動(dòng)通過(guò)uploadutil類(lèi)向服務(wù)器上傳用戶錄制原始語(yǔ)音以及用戶所處地理位置;

s1.3配音變聲處理:客戶端提供變聲功能,該變聲功能通過(guò)基于gmm的音色變換算法實(shí)現(xiàn),音色變換算法在客戶端對(duì)配音進(jìn)行處理,使用戶語(yǔ)音能以視頻原聲為目標(biāo)進(jìn)行粗略音色變換,用戶對(duì)處理效果滿意后將變聲音頻上傳至服務(wù)器,使得語(yǔ)音收集過(guò)程更具趣味性,本語(yǔ)音收集工具也更易傳播;

s1.4配音質(zhì)量評(píng)價(jià):用戶原始音頻上傳到服務(wù)器后,服務(wù)器端通過(guò)算法對(duì)語(yǔ)音清晰度與發(fā)音準(zhǔn)確性進(jìn)行自動(dòng)評(píng)價(jià),算法由客觀語(yǔ)音質(zhì)量評(píng)價(jià)和語(yǔ)音識(shí)別兩部分構(gòu)成,減少了傳統(tǒng)方法在樣本篩選階段大量的人力消耗;

s1.5分享:服務(wù)器將前述步驟s1.4生成的分?jǐn)?shù)與前述步驟s1.3生成的變聲音頻鏈接下發(fā)給游戲用戶,用戶在社交平臺(tái)分享分?jǐn)?shù)與變聲后的音頻鏈接,本步驟使得本語(yǔ)音收集工具也更具傳播性,有利于獲取大量的用戶,從而得到大量的說(shuō)話人的語(yǔ)音;

s1.6獎(jiǎng)勵(lì):高點(diǎn)擊量語(yǔ)音給予積分獎(jiǎng)勵(lì),鼓勵(lì)用戶分享,高分語(yǔ)音給予積分獎(jiǎng)勵(lì),鼓勵(lì)用戶錄制高質(zhì)量語(yǔ)音;

s2.對(duì)機(jī)器打分語(yǔ)音樣本抽樣進(jìn)行主觀評(píng)價(jià)。

作為優(yōu)選的技術(shù)方案,步驟s1.3中,音色變換的步驟如下:

音色變換功能通過(guò)基于gmm的音色變換算法實(shí)現(xiàn),將用戶原始音頻的音色向視頻演員的音色做粗略轉(zhuǎn)換,聲學(xué)特征在聲學(xué)空間內(nèi)的不同分布造成了說(shuō)話人之間的音色差異,基于gmm的音色變換算法就是用gmm將空間分布參數(shù)化并構(gòu)造線性映射函數(shù),映射函數(shù)參數(shù)通過(guò)最小二乘法構(gòu)造:

給定n對(duì)對(duì)齊的源說(shuō)話人和目標(biāo)說(shuō)話人語(yǔ)音特征矢量(xi,yi),首先利用最大期望算法估計(jì)出源說(shuō)話人連續(xù)概率空間的m組參數(shù)(αi,μi,σi),每組刻畫(huà)了一類(lèi)聲學(xué)子空間的概率分布,根據(jù)貝葉斯準(zhǔn)則,特征矢量x屬于第i類(lèi)聲學(xué)子空間ci的條件概率為

定義映射函數(shù)為

f(xi)=f(xi,v1,v2,…,vm,γ1,γ2,…,γm)

變換目標(biāo)函數(shù)為

其中:xt、yt分別表示源矢量和目標(biāo)矢量,最后通過(guò)最小二乘法估計(jì)映射函數(shù)的參數(shù)v、γ,由此,即可通過(guò)該映射函數(shù)對(duì)用戶的音色向視頻中演員的音色進(jìn)行粗略轉(zhuǎn)變,增強(qiáng)本語(yǔ)料收集工具的趣味性。

作為優(yōu)選的技術(shù)方案,步驟s1.4中,配音質(zhì)量評(píng)價(jià)的具體步驟如下:

s1.4.1客觀語(yǔ)音質(zhì)量評(píng)價(jià):運(yùn)用基于pesq的有參考源客觀語(yǔ)音質(zhì)量評(píng)價(jià)算法,以示例視頻原聲為參考源語(yǔ)音,經(jīng)過(guò)電平調(diào)整、輸入濾波、時(shí)間對(duì)齊、聽(tīng)覺(jué)轉(zhuǎn)換、抖動(dòng)處理和感知測(cè)量步驟計(jì)算得到用戶語(yǔ)音的pesq得分,生成進(jìn)行5分制打分;

s1.4.2語(yǔ)音識(shí)別:調(diào)用現(xiàn)有成熟的商用語(yǔ)音識(shí)別api接口,對(duì)用戶原始語(yǔ)音進(jìn)行識(shí)別,對(duì)比評(píng)估識(shí)別結(jié)果與文本吻合度,語(yǔ)音識(shí)別吻合度百分比乘以50作為語(yǔ)音識(shí)別分?jǐn)?shù);

s1.4.3最終分?jǐn)?shù)=客觀語(yǔ)音質(zhì)量評(píng)價(jià)分?jǐn)?shù)*10+語(yǔ)音識(shí)別吻合度*50。

作為優(yōu)選的技術(shù)方案,所述步驟s1.4.1中,客觀語(yǔ)音質(zhì)量評(píng)價(jià)的具體步驟如下:

a)電平調(diào)整;

語(yǔ)音信號(hào)通過(guò)不同系統(tǒng)之后,信號(hào)電平會(huì)有差異,為了統(tǒng)一,將其調(diào)整到pesq設(shè)定首選的79dbspl,信號(hào)聲壓級(jí)別計(jì)算公式:

其中,p是語(yǔ)音信號(hào)聲壓,pr=20μpa是基準(zhǔn)聲壓級(jí);

b)irs濾波;

由于用戶是通過(guò)手機(jī)聽(tīng)到語(yǔ)音的,所以利用irs濾波來(lái)模擬手機(jī)的發(fā)送頻率特性,頻域?yàn)V波過(guò)程為:首先對(duì)參考源信號(hào)和待測(cè)信號(hào)進(jìn)行通帶為300~3400hz的帶通濾波,然后分別計(jì)算出平均功率和全局縮放因子,用該平均功率和全局縮放因子分別對(duì)兩個(gè)信號(hào)進(jìn)行能量對(duì)齊,然后進(jìn)行fft變換,在頻域內(nèi)用與irs接收特性相似的分段線性頻率響應(yīng)濾波,最后進(jìn)做逆fft變換,即可實(shí)現(xiàn)irs濾波;

c)時(shí)間對(duì)齊;

因?yàn)閰⒖荚凑Z(yǔ)音和待測(cè)語(yǔ)音之間存在時(shí)間延遲,而pesq計(jì)算是按幀進(jìn)行的,所以要讓兩者達(dá)到幀級(jí)別的對(duì)齊,時(shí)間對(duì)齊通過(guò)基于包絡(luò)互相關(guān)的粗略延時(shí)估計(jì),配合基于加權(quán)直方圖的幀到幀精細(xì)延遲估計(jì)算法實(shí)現(xiàn);

d)聽(tīng)覺(jué)變換;

聽(tīng)覺(jué)轉(zhuǎn)換模擬了人耳接收語(yǔ)音信號(hào)的過(guò)程,將信號(hào)映射為感知響度表示,該過(guò)程首先對(duì)信號(hào)進(jìn)行時(shí)域-頻域變換,并對(duì)bark譜進(jìn)行估計(jì),為了補(bǔ)償濾波效果,對(duì)bark譜進(jìn)行線性頻率響應(yīng)補(bǔ)償,另一方面,補(bǔ)償增益的短時(shí)變化,即參考源語(yǔ)音和待測(cè)語(yǔ)音的“可聽(tīng)功率”之間的比率,該比率是在bark域估計(jì)得到,它僅包括在功率計(jì)算時(shí)大于各頻帶對(duì)聽(tīng)力閾值的bark分量,最后在補(bǔ)償了濾波效果和短時(shí)增益變化以后,通過(guò)zwicker算法完成參考源語(yǔ)音和待測(cè)語(yǔ)音的響度譜估計(jì);

e)感知測(cè)量

pesq方法的感知測(cè)量主要有這幾個(gè)步驟:失真干擾密度的計(jì)算,非對(duì)稱處理和干擾值的計(jì)算,在計(jì)算出平均對(duì)稱幀干擾度和平均非對(duì)稱幀干擾度后,就可以計(jì)算得帶噪語(yǔ)音的客觀質(zhì)量mos分?jǐn)?shù)。

作為優(yōu)選的技術(shù)方案,所述步驟d)中,聽(tīng)覺(jué)變換的具體步驟如下:

時(shí)域-頻域變換:經(jīng)過(guò)時(shí)間對(duì)齊的兩路語(yǔ)音信號(hào)xirss[n]、yirss[n]加32ms的漢寧窗,得到xwirss[n]n、ywirss[n]n,然后進(jìn)行短時(shí)fft變換,相鄰幀重疊50%,并計(jì)算每一幀的頻率功率譜密度pxwirss[k]n、pywirss[k]n,其中下標(biāo)n代表幀序號(hào);

bark譜密度:將hz刻度上的功率譜變換到bark尺度上的譜密度ppxwirss[j]n、

ppywirss[j]n,

其中,sp是bark譜密度校準(zhǔn)因子,ii[j]是第j個(gè)hz頻段上最后一個(gè)樣點(diǎn)的序號(hào),if[j]是第j個(gè)hz頻段上第一個(gè)樣點(diǎn)的序號(hào),δz是第j個(gè)頻段在臨界頻率群上的帶寬,δfi是第j個(gè)頻段在hz刻度上的帶寬;

線性頻率響應(yīng)補(bǔ)償:因?yàn)榇郎y(cè)語(yǔ)音是被評(píng)價(jià)的目標(biāo),所以線性補(bǔ)償只對(duì)參考源語(yǔ)音進(jìn)行,首先計(jì)算兩路信號(hào)能量超過(guò)絕對(duì)聽(tīng)覺(jué)閾值30db以上的有效話音幀的平均bark譜值,將其比值作為補(bǔ)償因子sj

參考信號(hào)線性頻率補(bǔ)償后的bark譜密度ppx′wirss[j]n=sj·ppxwirss[j]n;

增益補(bǔ)償:求兩路信號(hào)的=每一幀中超過(guò)30db部分的可聽(tīng)功率和,二者的比值通過(guò)一階低通濾波器平滑處理,其輸出即補(bǔ)償因子sn

待測(cè)信號(hào)增益補(bǔ)償后的bark譜密度ppy′wirss[j]n=sn·ppywirss[j]n;

響度變換:將兩路信號(hào)功率譜密度映射到響度級(jí),由zwicker定律有,兩路信號(hào)每個(gè)時(shí)頻單元的響度為:

其中,p0[j]是絕對(duì)聽(tīng)閾,sl是響度調(diào)整因子,sl=240.05,響度高于4bark時(shí)γ=0.23,響度低于4bark時(shí),γ緩慢增長(zhǎng)。

作為優(yōu)選的技術(shù)方案,步驟e)中,感知測(cè)量的具體步驟如下:

失真干擾密度計(jì)算:首先計(jì)算兩路信號(hào)響度密度的帶符號(hào)差draw[j]n,即為原始干擾密度,

draw[j]n=ly[j]n-lx[j]n

計(jì)算出每對(duì)時(shí)頻分量的響度密度較小者,乘以0.25,將其結(jié)果作為掩蔽閾值,形成掩蔽序列m[j]n;

然后模擬人耳掩蔽效應(yīng)對(duì)每個(gè)時(shí)頻分量做掩蔽處理得到干擾密度d[j]n;

非對(duì)稱處理:通過(guò)給每幀的干擾密度d[j]n乘以一個(gè)非對(duì)稱因子來(lái)模擬這種非對(duì)稱效應(yīng),得到非對(duì)稱干擾密度da[j]n;

其中,括號(hào)內(nèi)及其次冪部分即為非對(duì)稱因子,若該非對(duì)稱因子小于3,則定為0;若大于12,則定為12;

干擾度:使用不同的lp范數(shù),對(duì)干擾密度d[j]n和非對(duì)稱干擾密度da[j]n在bark域取平均,得到幀干擾度dn和非對(duì)稱幀干擾度dan,設(shè)m為臨界帶寬的個(gè)數(shù),則:

其中,mn是乘因子,與幀功率有關(guān),wj是一系列和修正bark頻帶組寬度成比例的常量;

干擾度的時(shí)域平均:p階范數(shù)lp加權(quán)強(qiáng)調(diào)了響度高的干擾度,使得客觀分?jǐn)?shù)和主觀打分的相關(guān)性更好;

其中,n為總幀數(shù),p>1.0;

幀干擾度和非對(duì)稱幀干擾度的時(shí)域平均分兩級(jí)實(shí)現(xiàn),即求瞬態(tài)間隔內(nèi)的干擾總計(jì)和話音持續(xù)時(shí)間內(nèi)的干擾總計(jì),瞬態(tài)問(wèn)隔內(nèi)的干擾總計(jì)采用高階范數(shù),話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)采用低階范數(shù),對(duì)稱干擾度dn和非對(duì)稱幀干擾度dan分別計(jì)算,得到平均對(duì)稱干擾度dsym和平均非對(duì)稱幀干擾度dasym;

計(jì)算客觀得分:pesq算法客觀評(píng)價(jià)分?jǐn)?shù)是平均對(duì)稱干擾度dsym和平均非對(duì)稱幀干擾度dasym的線性組合,最高分為5分,代表語(yǔ)音質(zhì)量最好,最低分為0分,代表語(yǔ)音質(zhì)量最差;

pesqmos=4.5-0.1·dsym-0.0309·dasym。

作為優(yōu)選的技術(shù)方案,所述步驟s2中,對(duì)機(jī)器打分語(yǔ)音樣本抽樣進(jìn)行主觀評(píng)價(jià)具體包括下述步驟:

s2.1抽樣展示:將經(jīng)步驟s1.5打分后的語(yǔ)音樣本按分?jǐn)?shù)排序,抽取前5條語(yǔ)音在游戲首頁(yè)展示作為示范,隨機(jī)抽取排名后20%的語(yǔ)音樣本中的15條語(yǔ)音樣本在游戲首頁(yè)展示,讓用戶進(jìn)行評(píng)價(jià);

s2.2用戶評(píng)價(jià):在語(yǔ)音樣本展示頁(yè)面中提供評(píng)價(jià)按鈕,用戶對(duì)展示語(yǔ)音樣本進(jìn)行試聽(tīng)評(píng)價(jià)后,選擇“符合原文”按鈕或“不符原文”按鈕;

s2.3人工試聽(tīng):對(duì)用戶點(diǎn)擊“不符原文”按鈕數(shù)量較多的語(yǔ)音樣本,后臺(tái)抽取出來(lái)進(jìn)行人工試聽(tīng),人工試聽(tīng)后確實(shí)與文本不符的語(yǔ)音樣本從精選語(yǔ)音樣本庫(kù)中剔除,對(duì)機(jī)器打分后的樣本抽樣主觀評(píng)價(jià),實(shí)現(xiàn)語(yǔ)音樣本質(zhì)量閉環(huán)控制。

作為優(yōu)選的技術(shù)方案,所述步驟s1.1中的視頻是新聞聯(lián)播視頻或熱門(mén)電影、電視劇、或動(dòng)畫(huà)片視頻。

作為優(yōu)選的技術(shù)方案,所述步驟1.2中的進(jìn)度條是用于使得用戶語(yǔ)速與視頻播放速度相同;

所述步驟s1.2中的“16khz采樣頻率,16bit采樣深度,單聲道,線性pcm編碼”音頻格式滿足語(yǔ)音識(shí)別開(kāi)源工具箱kaldi對(duì)音頻格式的要求,該格式語(yǔ)音樣本能直接用于基于kaldi的語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型的訓(xùn)練。

作為優(yōu)選的技術(shù)方案,所述步驟s1.4中結(jié)合pesq語(yǔ)音質(zhì)量客觀評(píng)價(jià)和語(yǔ)音識(shí)別對(duì)錄音樣本進(jìn)行自動(dòng)評(píng)估,確保語(yǔ)音樣本的質(zhì)量。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:

1、本發(fā)明可以使得語(yǔ)音收集過(guò)程更具趣味性,本語(yǔ)音收集工具也更易傳播,有利于獲取大量的用戶,從而得到大量的說(shuō)話人的語(yǔ)音;

2、本發(fā)明可以按照語(yǔ)音樣本庫(kù)的使用效果來(lái)方便地調(diào)整發(fā)布的示例視頻,補(bǔ)充發(fā)布經(jīng)過(guò)音素平衡設(shè)計(jì)或者其他設(shè)計(jì)策略的示例視頻,來(lái)引導(dǎo)用戶配音增加要補(bǔ)充的語(yǔ)音樣本;

3、本發(fā)明以語(yǔ)音質(zhì)量客觀評(píng)價(jià)和語(yǔ)音識(shí)別相結(jié)合的方式對(duì)錄音樣本進(jìn)行自動(dòng)評(píng)估,確保語(yǔ)音樣本的質(zhì)量,用機(jī)器打分的方法減少了傳統(tǒng)方法在樣本篩選階段大量的人力消耗;

4、本發(fā)明對(duì)機(jī)器打分后的樣本抽樣主觀評(píng)價(jià),實(shí)現(xiàn)語(yǔ)音樣本質(zhì)量閉環(huán)控制,提高了語(yǔ)音樣本庫(kù)的質(zhì)量;

5、本發(fā)明通過(guò)安裝本客戶端的智能手機(jī)方獲取了用戶的所在地區(qū),方便生成偏向某地口音的語(yǔ)音語(yǔ)料庫(kù),如:普通話南方口音語(yǔ)料庫(kù)、普通話北方口音語(yǔ)料庫(kù);

6、本發(fā)明容易在客戶端發(fā)布新的引導(dǎo)功能,比如在普通話配音的主要功能外,增加粵語(yǔ)、上海話等方言的標(biāo)注選項(xiàng)讓用戶進(jìn)行標(biāo)注,以便生成粵語(yǔ)語(yǔ)音識(shí)別語(yǔ)音語(yǔ)料庫(kù)、上海話語(yǔ)音識(shí)別語(yǔ)音語(yǔ)料庫(kù)等;

7、本發(fā)明由于不用雇傭人員去進(jìn)行采樣、篩選等工作,使得拓展語(yǔ)音語(yǔ)料庫(kù)的邊際成本大大降低;

8、本發(fā)明由于不用購(gòu)置語(yǔ)音樣本采樣錄音裝置,節(jié)省了開(kāi)支,并且經(jīng)由用戶型號(hào)繁多的智能手機(jī)終端錄制上傳的語(yǔ)音樣本,其訓(xùn)練出來(lái)的聲學(xué)模型在不同設(shè)備上的識(shí)別魯棒性更高。

附圖說(shuō)明

圖1是本發(fā)明兩個(gè)主要環(huán)節(jié)的概略流程圖;

圖2是本發(fā)明的詳細(xì)流程圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。

實(shí)施例

圖1、圖2是根據(jù)本發(fā)明的一個(gè)語(yǔ)音樣本收集實(shí)施例的概略流程圖和詳細(xì)流程圖。

如圖1所示,本發(fā)明所采用的技術(shù)方案包括兩個(gè)環(huán)節(jié):步驟101語(yǔ)音樣本收集環(huán)節(jié)、步驟102語(yǔ)音樣本抽樣主觀評(píng)價(jià)環(huán)節(jié)。

如圖2所示,首先在步驟201中,游戲用戶在配音游戲客戶端點(diǎn)播視頻獨(dú)白節(jié)目,客戶端通過(guò)videoview類(lèi)第一遍播放含音頻與畫(huà)面的視頻,使用戶對(duì)視頻場(chǎng)景和對(duì)話過(guò)程有較好的認(rèn)知;

前面步驟201的視頻播放結(jié)束后,接著步驟202,客戶端通過(guò)videoview類(lèi)播放無(wú)聲視頻,畫(huà)面底部同步播放字幕與進(jìn)度條,向用戶展示需錄制語(yǔ)音的文本,用戶按照字幕與畫(huà)面進(jìn)行配音,客戶端通過(guò)audiorecord類(lèi)按照16khz采樣頻率,16bit采樣深度,單聲道,線性pcm編碼格式錄制用戶語(yǔ)音,畫(huà)面結(jié)束,通過(guò)uploadutil類(lèi)自動(dòng)上傳用戶原始語(yǔ)音以及用戶所處地理位置到服務(wù)器;

接下來(lái)的步驟203,用戶在客戶端選擇自己喜歡的變聲效果,在本地對(duì)配音進(jìn)行處理,處理算法基于gmm音色變換算法。基于gmm的音色變換算法就是用gmm將空間分布參數(shù)化并構(gòu)造線性映射函數(shù)。

863漢語(yǔ)普通話連續(xù)語(yǔ)音識(shí)別訓(xùn)練語(yǔ)料庫(kù)中,60位說(shuō)話人的錄音都是同樣的1560句話,故將其作為30對(duì)語(yǔ)音進(jìn)行訓(xùn)練。其中,男性說(shuō)話人24名,分為12對(duì),女性說(shuō)話人36名,分為18對(duì)。每對(duì)中一名相當(dāng)于源說(shuō)話人,另一名相當(dāng)于目標(biāo)說(shuō)話人。1560句語(yǔ)音內(nèi)容的音節(jié)覆蓋比較完整。本實(shí)施例中,gmm模型的高斯混合數(shù)使用256個(gè)。

映射函數(shù)參數(shù)通過(guò)最小二乘法構(gòu)造:

給定30對(duì)對(duì)齊的源說(shuō)話人和目標(biāo)說(shuō)話人語(yǔ)音特征矢量(xi,yi),首先利用最大期望算法估計(jì)出源說(shuō)話人連續(xù)概率空間的m組參數(shù)(αi,μi,σi),每組刻畫(huà)了一類(lèi)聲學(xué)子空間的概率分布。根據(jù)貝葉斯準(zhǔn)則,特征矢量x屬于第i類(lèi)聲學(xué)子空間ci的條件概率為

定義映射函數(shù)為

f(xi)=f(xi,v1,v2,…,vm,γ1,γ2,…,γm)

變換目標(biāo)函數(shù)為

其中:xt、yt分別表示源矢量和目標(biāo)矢量。最后通過(guò)最小二乘法估計(jì)映射函數(shù)的參數(shù)v、γ。由此,即可通過(guò)該映射函數(shù)對(duì)用戶的音色向視頻中演員的音色進(jìn)行粗略轉(zhuǎn)變;

在步驟204中,服務(wù)器端結(jié)合基于pesq的有參考源客觀語(yǔ)音質(zhì)量評(píng)價(jià)算法和訊飛語(yǔ)音識(shí)別speechrecognizer接口對(duì)步驟203獲得的用戶原始音頻進(jìn)行機(jī)器打分。其中,基于pesq的有參考源客觀語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)對(duì)用戶原始音頻進(jìn)行客觀語(yǔ)音質(zhì)量評(píng)價(jià),對(duì)游戲用戶錄音質(zhì)量進(jìn)行五分制打分,錄音質(zhì)量越高則分?jǐn)?shù)越高。

基于pesq的有參考源客觀語(yǔ)音質(zhì)量評(píng)價(jià)方法可以概述為:首先將參考源語(yǔ)音和待測(cè)語(yǔ)音的電平調(diào)整到標(biāo)準(zhǔn)聽(tīng)覺(jué)電平,然后用輸入濾波器模擬標(biāo)準(zhǔn)電話聽(tīng)筒進(jìn)行濾波,再將這兩個(gè)信號(hào)進(jìn)行時(shí)間對(duì)齊,之后進(jìn)行聽(tīng)覺(jué)轉(zhuǎn)換,轉(zhuǎn)換后這兩個(gè)信號(hào)的差值就是干擾度,然后通過(guò)感知測(cè)量,最后得到pesq分值。該語(yǔ)音質(zhì)量評(píng)價(jià)方法的具體步驟如下:

a)電平調(diào)整

語(yǔ)音信號(hào)通過(guò)不同系統(tǒng)之后,信號(hào)電平會(huì)有差異,為了統(tǒng)一,將其調(diào)整到pesq設(shè)定首選的79dbspl。信號(hào)聲壓級(jí)別計(jì)算公式:

其中,p是語(yǔ)音信號(hào)聲壓,pr=20μpa是基準(zhǔn)聲壓級(jí)。

b)irs濾波

因?yàn)橛脩羰峭ㄟ^(guò)手機(jī)聽(tīng)到語(yǔ)音的,所以用irs濾波來(lái)模擬手機(jī)的發(fā)送頻率特性,頻域?yàn)V波過(guò)程為:首先對(duì)參考源信號(hào)和待測(cè)信號(hào)進(jìn)行通帶為300~3400hz的帶通濾波,然后分別計(jì)算出平均功率和全局縮放因子,用該因子分別對(duì)兩個(gè)信號(hào)進(jìn)行能量對(duì)齊,然后進(jìn)行fft變換,在頻域內(nèi)用與irs接收特性相似的分段線性頻率響應(yīng)濾波,最后進(jìn)做逆fft變換,即可實(shí)現(xiàn)irs濾波。

c)時(shí)間對(duì)齊

因?yàn)閰⒖荚凑Z(yǔ)音和待測(cè)語(yǔ)音之間存在時(shí)間延遲,而pesq計(jì)算是按幀進(jìn)行的,所以要讓兩者達(dá)到幀級(jí)別的對(duì)齊。時(shí)間對(duì)齊通過(guò)基于包絡(luò)互相關(guān)的粗略延時(shí)估計(jì),配合基于加權(quán)直方圖的幀到幀精細(xì)延遲估計(jì)算法實(shí)現(xiàn)。

基于包絡(luò)互相關(guān)的粗略延時(shí)估計(jì):將經(jīng)過(guò)前述步驟b)濾波的信號(hào)進(jìn)行窄帶濾波,濾除占自然語(yǔ)音大部分能量的500hz以下的部分,留下對(duì)感知模型最重要的1000~3000hz部分;分別求出兩路信號(hào)每4ms幀語(yǔ)音的平均能量,該能量序列即為語(yǔ)音信號(hào)包絡(luò),參考源語(yǔ)音信號(hào)包絡(luò)xes[n],待測(cè)信號(hào)包絡(luò)yes[n];這兩個(gè)包絡(luò)的最大互相關(guān)值的下標(biāo)即為粗略延時(shí)估計(jì),兩路信號(hào)包絡(luò)的互相關(guān)值c[n]為:

c[n]=corr(xes[n]k,yes[n]k)

對(duì)于500ms語(yǔ)音,該粗略延時(shí)估計(jì)方法的誤差范圍為±8ms。

基于加權(quán)直方圖的幀到幀精細(xì)延遲估計(jì):前述基于包絡(luò)互相關(guān)的粗略延時(shí)估計(jì)排除了常量延時(shí)或同步較差的時(shí)間偏移量,本步驟基于加權(quán)直方圖的精細(xì)延時(shí)估計(jì)將計(jì)算出語(yǔ)句的精細(xì)延時(shí)。

首先對(duì)irs濾波后的兩路語(yǔ)音信號(hào)分別加漢寧窗,劃分幀長(zhǎng)64ms,相鄰幀重疊75%;然后求出每個(gè)64ms幀的互相關(guān)絕對(duì)值最大時(shí)的序號(hào),該序號(hào)為每一幀的延時(shí),對(duì)絕對(duì)值最大互相關(guān)做0.125次冪,作為該幀的加權(quán)因子;根據(jù)幀延時(shí),將加權(quán)因子加到相應(yīng)的直方圖中,得到每一語(yǔ)句的加權(quán)直方圖;歸一化加權(quán)直方圖;用一個(gè)寬2ms,峰值為1的三角窗卷積,對(duì)歸一化加權(quán)直方圖做平滑,此時(shí)平滑后的直方圖峰值對(duì)應(yīng)的時(shí)域值加上粗略時(shí)延值,即為該語(yǔ)句的實(shí)際延時(shí)值。

依據(jù)語(yǔ)句實(shí)際延時(shí)值對(duì)兩路信號(hào)做時(shí)間對(duì)齊,對(duì)齊后的參考源信號(hào)xirss[n],對(duì)齊后的待測(cè)信號(hào)yirss[n]。

d)聽(tīng)覺(jué)變換

聽(tīng)覺(jué)轉(zhuǎn)換模擬了人耳接收語(yǔ)音信號(hào)的過(guò)程,將信號(hào)映射為感知響度表示。該過(guò)程首先對(duì)信號(hào)進(jìn)行時(shí)域-頻域變換,并對(duì)bark譜進(jìn)行估計(jì)。為了補(bǔ)償濾波效果,對(duì)bark譜進(jìn)行線性頻率響應(yīng)補(bǔ)償。另一方面,補(bǔ)償增益的短時(shí)變化,即參考源語(yǔ)音和待測(cè)語(yǔ)音的“可聽(tīng)功率(audiblepower)”之間的比。該比率是在bark域估計(jì)得到,它僅包括在功率計(jì)算時(shí)大于各頻帶對(duì)聽(tīng)力閾值的bark分量。最后在補(bǔ)償了濾波效果和短時(shí)增益變化以后,通過(guò)zwicker算法完成參考源語(yǔ)音和待測(cè)語(yǔ)音的響度譜估計(jì)。下面是聽(tīng)覺(jué)變換的詳細(xì)過(guò)程:

時(shí)域-頻域變換:經(jīng)過(guò)時(shí)間對(duì)齊的兩路語(yǔ)音信號(hào)xirss[n]、yirss[n]加32ms的漢寧窗,得到xwirss[n]n、ywirss[n]n,然后進(jìn)行短時(shí)fft變換,相鄰幀重疊50%,并計(jì)算每一幀的頻率功率譜密度pxwirss[k]n、pywirss[k]n,其中下標(biāo)n代表幀序號(hào)。

bark譜密度:將hz刻度上的功率譜變換到bark尺度上的譜密度ppxwirss[j]n、ppywirss[j]n,

其中,sp是bark譜密度校準(zhǔn)因子,ii[j]是第j個(gè)hz頻段上最后一個(gè)樣點(diǎn)的序號(hào),if[j]是第j個(gè)hz頻段上第一個(gè)樣點(diǎn)的序號(hào),δz是第j個(gè)頻段在臨界頻率群上的帶寬,δfi是第j個(gè)頻段在hz刻度上的帶寬。

線性頻率響應(yīng)補(bǔ)償:因?yàn)榇郎y(cè)語(yǔ)音是被評(píng)價(jià)的目標(biāo),所以線性補(bǔ)償只對(duì)參考源語(yǔ)音進(jìn)行。首先計(jì)算兩路信號(hào)能量超過(guò)絕對(duì)聽(tīng)覺(jué)閾值30db以上的有效話音幀的平均bark譜值,將其比值作為補(bǔ)償因子sj

參考信號(hào)線性頻率補(bǔ)償后的bark譜密度ppx′wirss[j]n=sj·ppxwirss[j]n。

增益補(bǔ)償:求兩路信號(hào)的=每一幀中超過(guò)30db部分的可聽(tīng)功率和,二者的比值通過(guò)一階低通濾波器平滑處理,其輸出即補(bǔ)償因子sn

待測(cè)信號(hào)增益補(bǔ)償后的bark譜密度ppy′wirss[j]n=sn·ppywirss[j]n。

響度變換:將兩路信號(hào)功率譜密度映射到響度級(jí),由zwicker定律有,兩路信號(hào)每個(gè)時(shí)頻單元的響度為:

其中,p0[j]是絕對(duì)聽(tīng)閾,sl是響度調(diào)整因子,sl=240.05,響度高于4bark時(shí)γ=0.23,響度低于4bark時(shí),γ緩慢增長(zhǎng)。

e)感知測(cè)量

pesq方法的感知測(cè)量主要有這幾個(gè)步驟:失真干擾密度的計(jì)算,非對(duì)稱處理和干擾值的計(jì)算。在計(jì)算出平均對(duì)稱幀干擾度和平均非對(duì)稱幀干擾度后,就可以計(jì)算得帶噪語(yǔ)音的客觀質(zhì)量mos分?jǐn)?shù)。

失真干擾密度計(jì)算:首先計(jì)算兩路信號(hào)響度密度的帶符號(hào)差draw[j]n,即為原始干擾密度。

draw[j]n=ly[j]n-lx[j]n

計(jì)算出每對(duì)時(shí)頻分量的響度密度較小者,乘以0.25,將其結(jié)果作為掩蔽閾值,形成掩蔽序列m[j]n。

然后模擬人耳掩蔽效應(yīng)對(duì)每個(gè)時(shí)頻分量做掩蔽處理得到干擾密度d[j]n。

非對(duì)稱處理:非對(duì)稱是指損失和引入一個(gè)時(shí)頻分量所導(dǎo)致的失真后果相差很大。主觀測(cè)試表明,當(dāng)信號(hào)中引入一個(gè)新的時(shí)頻分量時(shí),這個(gè)新的分量和輸入信號(hào)混為一體,使輸出信號(hào)分解為兩個(gè)不同的部分,即輸入信號(hào)和失真,這將導(dǎo)致明顯的能聽(tīng)到失真。然而,當(dāng)損失一個(gè)時(shí)頻分量時(shí),輸出信號(hào)不能按同樣方式分解,失真也變得不太明顯。通過(guò)給每幀的干擾密度d[j]n乘以一個(gè)非對(duì)稱因子來(lái)模擬這種非對(duì)稱效應(yīng),得到非對(duì)稱干擾密度da[j]n。

其中,括號(hào)內(nèi)及其次冪部分即為非對(duì)稱因子,若該非對(duì)稱因子小于3,則定為0;若大于12,則定為12。

干擾度:使用不同的lp范數(shù),對(duì)干擾密度d[j]n和非對(duì)稱干擾密度da[j]n在bark域取平均,得到幀干擾度dn和非對(duì)稱幀干擾度dan,設(shè)m為臨界帶寬的個(gè)數(shù),則:

其中,mn是乘因子,與幀功率有關(guān),wj是一系列和修正bark頻帶組寬度成比例的常量。

干擾度的時(shí)域平均:p階范數(shù)lp加權(quán)強(qiáng)調(diào)了響度高的干擾度,使得客觀分?jǐn)?shù)和主觀打分的相關(guān)性更好。

其中,n為總幀數(shù),p>1.0。

幀干擾度和非對(duì)稱幀干擾度的時(shí)域平均分兩級(jí)實(shí)現(xiàn),即求瞬態(tài)間隔內(nèi)的干擾總計(jì)和話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)。瞬態(tài)問(wèn)隔內(nèi)的干擾總計(jì)采用高階范數(shù),話音持續(xù)時(shí)間內(nèi)的干擾總計(jì)采用低階范數(shù)。對(duì)稱干擾度dn和非對(duì)稱幀干擾度dan分別計(jì)算,得到平均對(duì)稱干擾度dsym和平均非對(duì)稱幀干擾度dasym。

計(jì)算客觀得分:pesq算法客觀評(píng)價(jià)分?jǐn)?shù)是平均對(duì)稱干擾度dsym和平均非對(duì)稱幀干擾度dasym的線性組合,最高分為5分,代表語(yǔ)音質(zhì)量最好,最低分為0分,代表語(yǔ)音質(zhì)量最差。

pesqmos=4.5-0.1·dsym-0.0309·dasym

語(yǔ)音識(shí)別:調(diào)用現(xiàn)有成熟的商用語(yǔ)音識(shí)別api接口例如科大訊飛的speechrecognizer接口,對(duì)用戶原始語(yǔ)音進(jìn)行識(shí)別,對(duì)比評(píng)估識(shí)別結(jié)果與文本吻合度,吻合度定義為:識(shí)別正確字?jǐn)?shù)除以總字?jǐn)?shù),語(yǔ)音識(shí)別吻合度百分比乘以50作為語(yǔ)音識(shí)別分?jǐn)?shù);

最終分?jǐn)?shù)=客觀語(yǔ)音質(zhì)量評(píng)價(jià)分?jǐn)?shù)*10+語(yǔ)音識(shí)別吻合度*50。

其中,客觀語(yǔ)音質(zhì)量評(píng)價(jià)分?jǐn)?shù)滿分為5分,語(yǔ)音識(shí)別吻合度滿分為1,分別乘以10和50后,兩者之和為100分制分?jǐn)?shù),以這個(gè)經(jīng)過(guò)pesq得分和語(yǔ)音識(shí)別得分融合的分?jǐn)?shù)為最終分?jǐn)?shù)。

步驟205,服務(wù)器將生成的分?jǐn)?shù)與前述步驟204變聲音頻鏈接下發(fā)給游戲用戶,用戶在社交平臺(tái)分享分?jǐn)?shù)與原聲或變聲的音頻鏈接;

步驟206,對(duì)于分享環(huán)節(jié)中的高點(diǎn)擊量語(yǔ)音,游戲運(yùn)營(yíng)方給予該用戶積分獎(jiǎng)勵(lì),鼓勵(lì)用戶分享;高分語(yǔ)音給予積分獎(jiǎng)勵(lì),鼓勵(lì)用戶錄制高質(zhì)量語(yǔ)音,積分累積到一定數(shù)量可兌換禮品等。

至此游戲環(huán)節(jié)結(jié)束,服務(wù)器端也獲得了用戶的原始語(yǔ)音樣本。下面進(jìn)行語(yǔ)音樣本抽樣主觀評(píng)價(jià),利用龐大的游戲用戶對(duì)精選語(yǔ)音樣本進(jìn)行檢查。

步驟207,將經(jīng)步驟204打分后的語(yǔ)音樣本按分?jǐn)?shù)排序,抽取前5條語(yǔ)音在游戲首頁(yè)展示作為示范,隨機(jī)抽取排名后20%的語(yǔ)音樣本中的15條語(yǔ)音樣本在游戲首頁(yè)展示,讓用戶進(jìn)行評(píng)價(jià);

步驟208,在語(yǔ)音樣本展示頁(yè)面中提供評(píng)價(jià)按鈕,用戶對(duì)展示語(yǔ)音樣本進(jìn)行試聽(tīng)評(píng)價(jià)后,選擇“符合原文”按鈕或“不符原文”按鈕;

步驟209,對(duì)用戶點(diǎn)擊“不符原文”按鈕數(shù)量較多的語(yǔ)音樣本,后臺(tái)抽取出來(lái)進(jìn)行人工試聽(tīng),人工試聽(tīng)后確實(shí)與文本不符的語(yǔ)音樣本從語(yǔ)音樣本庫(kù)中剔除。

至此,一個(gè)經(jīng)過(guò)機(jī)器評(píng)價(jià)與人工篩選的語(yǔ)音樣本庫(kù)就制作完成了。

上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 措美县| 长岛县| 栾城县| 崇左市| 罗平县| 安乡县| 宁陵县| 金平| 永平县| 莎车县| 安陆市| 丰台区| 扎囊县| 鞍山市| 佛冈县| 巴楚县| 读书| 北宁市| 青田县| 新龙县| 台东县| 抚宁县| 托克托县| 津市市| 南召县| 栖霞市| 二连浩特市| 南阳市| 昭平县| 安乡县| 泰兴市| 吉林省| 丰镇市| 吴忠市| 施甸县| 上杭县| 萝北县| 阜平县| 习水县| 松溪县| 印江|