麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

用于語音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法

文檔序號(hào):2834955閱讀:993來源:國(guó)知局
專利名稱:用于語音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別領(lǐng)域,尤其涉及一種用于語音識(shí)別的聲學(xué)模型的建模方法及建模系統(tǒng)。
背景技術(shù)
目前語音識(shí)別的主流框架基于統(tǒng)計(jì)模式識(shí)別。典型的語音識(shí)別系統(tǒng)框架如圖1所示:包括語音采集及前端處理模塊、特征提取模塊、聲學(xué)模型模塊、語言模型模塊以及解碼器模塊。語音識(shí)別的基本流程如下:語音采集裝置收集人的語音后經(jīng)過前端處理之后進(jìn)行特征提取,提取的特征序列如MFCC或PLP通過聲學(xué)模型獲得其觀察概率,結(jié)合語言模型概率送入解碼器獲得最有可能的文本序列。所述聲學(xué)模型建模基于隱馬爾科夫框架,采用混合高斯模型對(duì)語音特征的概率分布進(jìn)行建模。所述混合高斯模型會(huì)對(duì)語音特征及其分布做一些不恰當(dāng)?shù)募僭O(shè),如相鄰語音特征的線性無關(guān)假設(shè),其觀察概率服從混合高斯分布等。此夕卜,混合高斯模型進(jìn)行參數(shù)訓(xùn)練時(shí)目標(biāo)函數(shù)是使觀察特征的似然概率最大,而解碼時(shí)使用的卻是最大后驗(yàn)準(zhǔn)則,概率模型上不一致。可見傳統(tǒng)的聲學(xué)模型,建模精度不高,導(dǎo)致語音識(shí)別效果欠佳。

發(fā)明內(nèi)容
針對(duì)上述問題,本發(fā)明實(shí)施例提出一種用于語音識(shí)別的聲學(xué)模型的建模方法、建模系統(tǒng)。在第一方面,本發(fā)明實(shí)施例提出一種用于語音識(shí)別的聲學(xué)模型的建模方法,所述方法包括:用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語音特征經(jīng)過音素決策樹聚類后的三音子狀態(tài),所述HMM-GMM模型通過期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率;基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息;對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù);基于所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。優(yōu)選地,所述基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息,具體為:基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語音特征幀級(jí)狀態(tài)信息。優(yōu)選地,所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。在第二方面,本發(fā)明實(shí)施例提出一種用于語音識(shí)別聲學(xué)模型的建模系統(tǒng),其包括:第一模塊,用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語音特征經(jīng)過音素決策樹聚類后的三音子狀態(tài),所述HMM-GMM模型通過期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率;第二模塊,用于基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息;第三模塊,用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù);第四模塊,用于基于所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。優(yōu)選地,所述第二模塊基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息,具體為:所述第二模塊基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語音特征幀級(jí)狀態(tài)信息。優(yōu)選地,所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。本發(fā)明實(shí)施例采用三音子狀態(tài),基于深層神經(jīng)網(wǎng)絡(luò)建模,使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重,所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新,能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn),并進(jìn)一步提高聲學(xué)模型的建模精度。


下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。圖1是現(xiàn)有的語音識(shí)別系統(tǒng)示意圖;圖2是本發(fā)明實(shí)施例的基于上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)語音識(shí)別系統(tǒng)框圖;圖3是本發(fā)明實(shí)施例的用于語音識(shí)別的聲學(xué)模型的建模方法示意圖;圖4是本發(fā)明實(shí)施例的用于語音識(shí)別的聲學(xué)模型的建模系統(tǒng)示意圖。
具體實(shí)施例方式下面通過附圖和實(shí)施例,對(duì)本發(fā)明實(shí)施例的技術(shù)方案做進(jìn)一步的詳細(xì)描述。考慮到混合高斯模型需要對(duì)語音特征及其概率分布做出不恰當(dāng)假設(shè),本發(fā)明實(shí)施例使用上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò)代替混合高斯模型進(jìn)行聲學(xué)模型建模。所述深層神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱含層,其建模單元是經(jīng)音素決策樹聚類后的上下文相關(guān)三音子狀態(tài)。整個(gè)系統(tǒng)的基本框圖如圖2所示。深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)采用最小交叉熵準(zhǔn)則作為目標(biāo)函數(shù),由于其具有多個(gè)隱含層,其誤差函數(shù)具有很多的局部極值,導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程很容易陷入局部極值而過早的收斂。針對(duì)此問題,神經(jīng)計(jì)算領(lǐng)域提出的通過神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練來初始化權(quán)重參數(shù),再采用傳統(tǒng)的誤差反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。預(yù)訓(xùn)練算法采用受限玻爾茲曼機(jī),受限玻爾茲曼機(jī)為雙向圖模型,包括一個(gè)可見層和一個(gè)隱含層,其中同一層的各單兀之間無互聯(lián)而不同層的單元稠密鏈接。該模型通過一個(gè)能量函數(shù)定義可見層與隱含層變量的聯(lián)合分布,具體公式如下:
權(quán)利要求
1.一種用于語音識(shí)別的聲學(xué)模型的建模方法,其特征在于,所述方法包括: 用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語音特征經(jīng)過音素決策樹聚類后的三音子狀態(tài),所述HMM-GMM模型通過期望最大EM算法訓(xùn)練獲得,同時(shí)獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率; 基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)別的三音子狀態(tài)信息; 對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù); 基于所述訓(xùn)練數(shù)據(jù)語音特征的語音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。
2.如權(quán)利要求1所述的建模方法,其特征在于,所述基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息,具體為:基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語音特征幀級(jí)狀態(tài)信息。
3.如權(quán)利要求1所述的建模方法,其特征在于,所述對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
4.一種用于語音識(shí)別聲學(xué)模型的建模系統(tǒng),其特征在于,所述建模系統(tǒng)包括: 第一模塊,用于用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾可夫-混合高斯HMM-GMM模型,該HMM-GMM模型的建模單元為所述訓(xùn)練數(shù)據(jù)的語音特征經(jīng)過音素決策樹聚類后的三音子狀態(tài),所述HMM-GMM模型通過期望最大EM算法獲得所述三音子狀態(tài)的狀態(tài)轉(zhuǎn)移概率; 第二模塊,用于基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)的三音子狀態(tài)信息; 第三模塊,用于對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù); 第四模塊,用于基于所述訓(xùn)練數(shù)據(jù)語音特征的語音特征幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)所述深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新其各隱含層的權(quán)重。
5.如權(quán)利要求4所述的建模系統(tǒng),其特征在于,所述第二模塊基于所述HMM-GMM模型,對(duì)所述訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得所述語音特征幀級(jí)狀態(tài)信息,具體為:所述第二模塊基于所述HMM-GMM模型,將所述訓(xùn)練數(shù)據(jù)語音特征與其最可能的三音子狀態(tài)進(jìn)行對(duì)應(yīng),獲得所述語音特征幀級(jí)狀態(tài)信息。
6.如權(quán)利要求4所述的建模系統(tǒng),其特征在于,所述第三模塊對(duì)作為所述聲學(xué)模型的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到用于初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重的參數(shù)具體為:所述第三模塊利用受限波爾茲曼機(jī)基于所述訓(xùn)練數(shù)據(jù)進(jìn)行逐層訓(xùn)練至收斂,用獲得的參數(shù)初始化所述深層網(wǎng)絡(luò)的各隱含層的權(quán)重。
全文摘要
本發(fā)明涉及一種用于語音識(shí)別的聲學(xué)模型的建模方法及語音識(shí)別系統(tǒng)。所述方法包括訓(xùn)練一個(gè)初始模型,建模單元為經(jīng)音素決策樹聚類后的三音子狀態(tài),所述模型還給出狀態(tài)轉(zhuǎn)移概率;基于初始模型對(duì)訓(xùn)練數(shù)據(jù)語音特征的三音子狀態(tài)進(jìn)行強(qiáng)制對(duì)齊,獲得其幀級(jí)別的狀態(tài)信息;對(duì)深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練以得到各隱含層初始權(quán)重;基于所獲得的幀級(jí)狀態(tài)信息采用誤差反向傳播算法對(duì)已初始化的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更新權(quán)重。本發(fā)明采用上下文相關(guān)三音子狀態(tài)做為建模單元,基于深層神經(jīng)網(wǎng)絡(luò)建模,使用受限波爾茲曼算法初始化所述網(wǎng)絡(luò)各隱含層的權(quán)重,所述權(quán)重在后續(xù)還可以借助反向誤差傳播算法被更新,能夠有效地緩解所述網(wǎng)絡(luò)預(yù)訓(xùn)練時(shí)容易陷入局部極值的風(fēng)險(xiǎn),并進(jìn)一步提高聲學(xué)模型的建模精度。
文檔編號(hào)G10L15/06GK103117060SQ201310020010
公開日2013年5月22日 申請(qǐng)日期2013年1月18日 優(yōu)先權(quán)日2013年1月18日
發(fā)明者顏永紅, 肖業(yè)鳴, 潘接林 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 秦安县| 蓬莱市| 永泰县| 图们市| 鄂尔多斯市| 安顺市| 合作市| 石狮市| 大厂| 阜阳市| 什邡市| 承德市| 余干县| 兰州市| 秦皇岛市| 汉寿县| 罗平县| 静乐县| 威海市| 谢通门县| 正镶白旗| 江永县| 平武县| 城口县| 鄂温| 嘉义县| 时尚| 兰西县| 信宜市| 县级市| 丁青县| 刚察县| 民乐县| 丹棱县| 类乌齐县| 成都市| 济源市| 项城市| 湘阴县| 蒙山县| 电白县|