1.一種智能語音評測方法,其特征在于,包括以下步驟:
a.提供第一訓(xùn)練數(shù)據(jù)集,所述第一訓(xùn)練數(shù)據(jù)集包括測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集,所述測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集均包括音頻數(shù)據(jù)、文本數(shù)據(jù)及其對應(yīng)的音素集合,提供所述音素集合之間的映射關(guān)系;
b.訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),利用所述第一訓(xùn)練數(shù)據(jù)集對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以形成深度神經(jīng)網(wǎng)絡(luò)模型;
c.提供第二訓(xùn)練數(shù)據(jù)集,對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所述第二訓(xùn)練數(shù)據(jù)集包括至少兩種語種數(shù)據(jù)集,定義一種語種數(shù)據(jù)集為測試語種數(shù)據(jù)集,其他語種數(shù)據(jù)集為對比語種數(shù)據(jù)集,所述測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集分別輸入到所述深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,所述測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集均包括音頻數(shù)據(jù)、文本數(shù)據(jù)及其對應(yīng)的音素集合;
d.獲取待評測語音,提取所述待評測語音的特征序列,將所述特征序列輸入到所述深度神經(jīng)網(wǎng)絡(luò)模型中;對所述待評測語音進(jìn)行識別以形成音素序列;
e.輸出對應(yīng)所述音素序列的評測分值;
f.比較以及處理所述評測分值,輸出評測結(jié)果。
2.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟f中,通過線性融合或非線性融合的方式對所述評測分值進(jìn)行處理。
3.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟a中,不同語種發(fā)音相似的音素映射成一套音素集合,發(fā)音不能映射的音素標(biāo)記為單獨的音素。
4.根據(jù)權(quán)利要求3所述的智能語音評測方法,其特征在于:所述測試語種數(shù)據(jù)集為英文,所述對比語種數(shù)據(jù)集包括中文,中文帶調(diào)音素和英文音素映射為一套音素集合。
5.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟b中,還包括提取所述第一訓(xùn)練數(shù)據(jù)集的梅爾頻譜倒譜系數(shù)特征或線性預(yù)測系數(shù)特征或梅爾濾波系數(shù)特征。
6.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟e中,還包括輸出:
第一類節(jié)點:對應(yīng)為使用所述第一訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練后的輸出評測分值;
第二類節(jié)點:對應(yīng)為使用所述測試語種數(shù)據(jù)集進(jìn)行訓(xùn)練后的輸出評測分值;
第三類節(jié)點:對應(yīng)為使用所述對比語種數(shù)據(jù)集進(jìn)行訓(xùn)練后的輸出評測分值。
7.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟e中,利用后驗概率特征,通過映射得到所述音素序列的評測分值。
8.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟a中,所述第一訓(xùn)練數(shù)據(jù)集的測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集一同被提供以進(jìn)行所述音素集合之間的映射。
9.根據(jù)權(quán)利要求1所述的智能語音評測方法,其特征在于:在所述步驟c中,所述第二訓(xùn)練數(shù)據(jù)集的測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集分別被提供以進(jìn)行所述音素集合之間的映射。
10.一種智能語音評測系統(tǒng),其特征在于,包括:
數(shù)據(jù)輸入模塊,與特征提取模塊連接,用于將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集傳送至所述特征提取模塊;與音素映射模塊連接,用于將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集傳送至所述音素映射模塊;所述第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集均包括測試語種數(shù)據(jù)集和對比語種數(shù)據(jù)集;
音素映射模塊,與深度神經(jīng)網(wǎng)絡(luò)模塊連接,用于將所述第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集的音素集合進(jìn)行映射,傳送至所述深度神經(jīng)網(wǎng)絡(luò)模塊;
語音接收模塊,與所述特征提取模塊連接,用于獲取待評測語音,并傳送至所述特征提取模塊;
特征提取模塊,與所述深度神經(jīng)網(wǎng)絡(luò)模塊連接,用于提取所述第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集的特征序列以及所述待評測語音的特征序列,傳送至所述深度神經(jīng)網(wǎng)絡(luò)模塊;
深度神經(jīng)網(wǎng)絡(luò)模塊,與解碼網(wǎng)絡(luò)模塊及輸出節(jié)點模塊連接,經(jīng)訓(xùn)練后形成深度神經(jīng)網(wǎng)絡(luò)模型,傳送至所述輸出節(jié)點模塊;
解碼網(wǎng)絡(luò)模塊,與所述輸出節(jié)點模塊及語音接收模塊連接,用于對所述待評測語音進(jìn)行識別以形成音素序列,傳送至所述輸出節(jié)點模塊;
輸出節(jié)點模塊,與優(yōu)化融合模塊連接,用于輸出所述音素序列對應(yīng)的評測分值,傳送至所述優(yōu)化融合模塊;
優(yōu)化融合模塊,與評分模塊連接,用于處理經(jīng)所述輸出節(jié)點模塊輸出的評測分值,傳送至所述評分模塊;
評分模塊,用于輸出對應(yīng)所述待評測語音的評測結(jié)果。