本發(fā)明涉及電子行業(yè)信號處理技術領域,尤其涉及一種語音識別中的正則化口音自適應方法。
背景技術:
語音是人與人進行交流的最自然和最高效的媒介,而語音識別是人與機器進行自然交互的重要途徑。識別近年來,隨著深度學習技術的在語音識別中的深入應用,語音識別取得令人矚目的成績。尤其是最近提出的端到端基于聯(lián)結時序分類進行訓練的長短時記憶的聲學模型訓練方法的興起,不僅極大的簡化了聲學模型的步驟和提高了解碼的速度,而且提高了語音識別的精度。但是當說話人發(fā)音不太標準或者帶濃重口音時,語音識別的準確率急劇下降。
技術實現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術存在的上述問題,提出一種語音識別中的正則化口音自適應方法,以提高口音語音的識別準確率。
本發(fā)明的語音識別中的正則化口音自適應方法包括以下步驟:
步驟S100,對采集到的口音數(shù)據(jù)進行特征參數(shù)提取;
步驟S101,利用提取的所述特征參數(shù),訓練口音獨立的基線聲學模型;
步驟S102,利用提取的所述特征參數(shù),用分類器對口音數(shù)據(jù)識別出其口音類別;
步驟S103,計算軟化概率分布;
步驟S104,正則化所述基線聲學模型的損失函數(shù);
步驟S105,利用正則化的損失函數(shù)對所述口音獨立的基線聲學模型進行自適應,生成口音依賴的聲學模型。
進一步地,所述特征參數(shù)為梅爾頻譜特征或梅爾頻率倒譜特征。
進一步地,先提取所述口音數(shù)據(jù)的靜態(tài)參數(shù),然后分別計算所述靜態(tài)參數(shù)的一階差分和二階差分,得到所述特征參數(shù)。
進一步地,所述基線聲學模型為長短時記憶神經(jīng)網(wǎng)絡模型。
進一步地,所述分類器是前饋神經(jīng)網(wǎng)絡分類器。
進一步地,利用前向算法計算所述軟化概率分布。
進一步地,所述損失函數(shù)為聯(lián)結時序分類損失函數(shù)。
進一步地,在步驟S104中,將所述基線聲學模型的損失函數(shù)視為一個正則化項加入到口音依賴的標準損失函數(shù)上,對于輸入目標語音x,其對應的標簽系列為z,正則化的聯(lián)結時序分類損失函數(shù)為:
L(S)=-ln∏(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x)
其中,ρ是正則化參數(shù),S是訓練樣本集,L(S)是口音依賴的聲學模型的標準聯(lián)結時序分類損失函數(shù),是口音依賴的聲學模型的正則化聯(lián)結時序分類損失函數(shù)。lnp(z|x)是口音依賴的聲學模型中標簽z對應的正確對數(shù)概率;lnpAI(z|x)是標簽z的軟化對數(shù)概率分布,采用前向算法,從對口音獨立的長短時記憶模型基線聲學模型中計算得到;為正確對數(shù)概率和軟化對數(shù)概率的線性組合。
進一步地,在步驟S105中,僅對所述基線聲學模型的最后一層進行自適應,以得到口音依賴的聲學模型。
進一步地,在步驟S105中,使用后向傳播算法進行所述基線聲學模型的自適應。
本發(fā)明中,通過對聲學模型進行正則化自適應,提高了帶口音的語音識別的準確率。
附圖說明
圖1是本發(fā)明實施例語音識別中的正則化口音自適應方法的流程示意圖;
圖2是本發(fā)明實施例語音識別中的正則化口音自適應方法中口音識別的流程示意圖;
圖3是本發(fā)明實施例語音識別中的正則化口音自適應方法中軟化概率生成的流程示意圖;
圖4是本發(fā)明實施例語音識別中的正則化口音自適應方法中的口音依賴聲學模型的生成流程示意圖。
具體實施方式
下面參照附圖來描述本發(fā)明的優(yōu)選實施方式。本領域技術人員應當理解的是,這些實施方式僅僅用于解釋本發(fā)明的技術原理,并非旨在限制本發(fā)明的保護范圍。
如圖1所示,本發(fā)明實施例的正則化口音自適應方法主要包括下述步驟:
步驟S100,對采集到的口音數(shù)據(jù)進行特征參數(shù)提取。
可根據(jù)不同地域、年齡和性別采集各種方言口音的普通話音頻數(shù)據(jù),從而形成一個口音數(shù)據(jù)庫,用于訓練口音獨立的基線聲學模型。
本實施方式中使用梅爾頻譜特征或梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC),MFCC是基于人耳聽覺提出來的,其識別性能較好,廣泛應用于語音信號處理的各個領域。在此,可先提取靜態(tài)參數(shù),然后分別計算它們的一階差分和二階差分,最終提取的參數(shù)例如是39維的,利用這39維屬性進行后續(xù)狀態(tài)的識別。
在其它實施方式中,也可使用LPCC(線性預測倒譜系數(shù))、HMM(隱馬爾科夫模型)、DTW(動態(tài)時間規(guī)整)等方法進行特征參數(shù)提取。
步驟S101,利用提取的所述特征參數(shù),訓練口音獨立的基線聲學模型。
本實施方式中使用基于長短時記憶神經(jīng)網(wǎng)絡的模型作為所述基線聲學模型,損失函數(shù)為聯(lián)結時序分類損失函數(shù)。
在其它實施方式中,也可使用其它模型來訓練所述聲學模型,包括隱馬爾科夫-高斯混合模型,隱馬爾科夫-前饋神經(jīng)網(wǎng)絡模型,隱馬爾科夫-長短時記憶神經(jīng)網(wǎng)絡模型,隱馬爾科夫-卷積神經(jīng)網(wǎng)絡模型等。
具體地,可根據(jù)所述提取的聲學特征參數(shù),采用聯(lián)結時序分類損失函數(shù),訓練一個口音獨立的長短時記憶深度循環(huán)神經(jīng)網(wǎng)絡的基線聲學模型。該聯(lián)結時序分類損失函數(shù)是標準損失函數(shù)。
步驟S102,如圖2所示,利用提取的所述特征參數(shù),用分類器對口音數(shù)據(jù)識別出其口音類別。
本發(fā)明中,對口音數(shù)據(jù)進行分類的分類器可以是任意的分類器。本實施方式中使用前饋神經(jīng)網(wǎng)絡分類器,該分類器是基于深度神經(jīng)網(wǎng)絡構建的,可具有4個類別,含有2個隱藏層,每個隱藏層含有1024個節(jié)點,損失函數(shù)為交叉熵。
步驟S103,計算軟化概率分布。
如圖3所示,根據(jù)提取的所述特征參數(shù),利用在步驟S101中構建的口音獨立的基線聲學模型計算口音數(shù)據(jù)的軟化概率分布。
計算軟化概率用前向算法,為所述聲學模型輸出層的每個標簽計算出概率值,即軟化概率。
在此顯然的是,步驟S102和步驟S103可以同時進行,也可按不同順序先后進行。
步驟S104,正則化所述基線聲學模型的損失函數(shù)。
具體地,將口音獨立的基線聲學模型的損失函數(shù)視為一個正則化項加入到口音依賴的標準損失函數(shù)上,從而防止自適應過程破壞了神經(jīng)網(wǎng)絡聲學模型的參數(shù)或者讓訓練過程產(chǎn)生過擬合的現(xiàn)象。本實施方式中,該損失函數(shù)是聯(lián)結時序分類損失函數(shù)。
對于輸入的目標語音x,其對應的標簽系列為z,正則化的聯(lián)結時序分類損失函數(shù)則有如下公式:
L(S)=-ln∏(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x)
ρ是正則化參數(shù),S是訓練樣本集,L(S)是口音依賴的聲學模型的標準聯(lián)結時序分類損失函數(shù),是口音依賴的聲學模型的正則化聯(lián)結時序分類損失函數(shù)。lnp(z|x)是口音依賴的聲學模型中標簽z對應的正確對數(shù)概率;lnpAI(z|x)是標簽z的軟化對數(shù)概率分布,采用前向算法,從對口音獨立的長短時記憶模型基線聲學模型中計算得到;是最終新的對數(shù)概率,即正確對數(shù)概率和軟化對數(shù)概率的線性組合。
步驟S105,利用正則化的所述損失函數(shù)對所述口音獨立的基線聲學模型進行自適應,生成口音依賴的聲學模型。
如圖4所示,利用步驟S100中提取的特征參數(shù),利用步驟S102生成的口音類別和步驟S103計算出的軟化概率以及口音數(shù)據(jù)作為輸入,利用步驟S104中推導的正則化的損失函數(shù)對口音獨立的聲學模型進行自適應,生成口音依賴的聲學模型。
本實施方式中在進行自適應的過程中可用后向傳播算法進行,最后生成口音依賴的聲學模型。后向傳播算法尤其適用于神經(jīng)網(wǎng)絡訓練。
優(yōu)選地,僅對所述基線聲學模型的最后一層進行自適應,從而得到口音依賴的聲學模型。僅對聲學模型的最后一層進行自適應,相比對聲學模型的所有層都進行自適應的方法而言,提高了自適應的速度。
本發(fā)明的方法,通過對聲學模型進行正則化自適應,提高了帶口音的語音識別的準確率。通過對損失函數(shù)進行正則化,簡化了自適應的步驟。
需要說明的是,上述對各元件的定義并不僅限于實施方式中提到的各種具體結構或形狀,本領域的普通技術人員可對其進行簡單地熟知地替換。
至此,已經(jīng)結合附圖所示的優(yōu)選實施方式描述了本發(fā)明的技術方案,但是,本領域技術人員容易理解的是,本發(fā)明的保護范圍顯然不局限于這些具體實施方式。在不偏離本發(fā)明的原理的前提下,本領域技術人員可以對相關技術特征做出等同的更改或替換,這些更改或替換之后的技術方案都將落入本發(fā)明的保護范圍之內。