一種基于聽覺感知特性的語音質量客觀評價方法

文檔序號：2833372閱讀：1340來源：國知局

專利名稱：一種基于聽覺感知特性的語音質量客觀評價方法
技術領域：
本發明涉及一種基于人耳聽覺感知特性的語音質量客觀評價技術，更具體地，涉及一種將人耳的聽覺模型引入MFCC特征參數的提取過程中，通過計算特征參數的失真程度來實現語音質量客觀評價的方法。
背景技術：
語音質量評價是衡量語音通信系統性能優劣的根本標準之一，從評價主體上講可分為兩大類主觀評價和客觀評價。ITU-T建議P. 830提出的MOS (Mean Opinion Score)方法是一種廣泛使用的主觀評價方法，用測試者的平均意見分來直觀地反映人對語音質量的感覺，但此類方法可操作性和可重復性較差。客觀評價方法通過測量語音信號特征參數來評價語音質量，使客觀評價結果能夠準確預測出語音質量的主觀評價結果，具有更高的實用價值。基于輸入-輸出方式的客觀評價方法是以語音系統的輸入信號和輸出信號之間的誤差大小來判別語音質量的好壞，是一種誤差度量。目前，比較成熟的算法基本上都是基于輸入-輸出方式的，包括PESQ、Mel-⑶等。ITU-T建議P. 862提出的PESQ感知語音質量評價是當前性能很高的語音質量客觀評價方法，能夠較好地識別通信時延、環境噪聲和錯誤，但其是基于Bark譜的感知模型，運算復雜度較高，不利于實時評價語音質量。Mel-CD失真測度以MFCC作為語音特征參數，運算復雜度較低，是一種簡便有效的語音質量評價方法，但其評價性能與PESQ相差較大。分析表明，雖然MFCC特征參數提取過程中利用了人耳的聽覺原理和Mel倒譜的解相關特性，但是其采用了三角形濾波器組來模擬耳蝸基底膜的頻率選擇特性和對數運算來模擬幅值非線性變換過程，并不能充分地反映人耳的聽覺感知特性。Gammatone濾波器具有尖銳的頻率選擇特性，濾波器邊沿的衰減很緩慢，有效地避免了相鄰頻帶間的能量泄露，這些幅頻響應特性與人耳蝸基底膜的濾波特性是一致的，也補償了不同的人發同一音時共振峰的偏移對語音特征參數提取的影響；同時該濾波器只需要較少的參數就能很好地模擬聽覺實驗中的生理數據，便于進行濾波器性能分析和聽覺模型的實現。非線性壓縮運算基于強度-響度感知變換，能使特征參數的提取過程更好地符合聽覺生理模型。

發明內容
本發明的目的是針對MFCC特征參數提取過程中存在的問題，提供一種簡單有效的基于人耳聽覺感知特性的語音質量客觀評價技術，使用Ga_atone濾波器組和非線性壓縮運算來更好地模擬人耳的聽覺生理模型，得到一種新的特征參數來進行語音質量客觀評價。說明書附圖I示出了基于輸入-輸出方式的語音質量客觀評價方法的基本處理過程。基于聽覺感知特性的語音質量客觀評價方法是這樣實現的
I.采集原始語音和通過被測系統的失真語音，對兩路語音信號進行電平調整、帶通濾波和時間對齊等預處理，以便于分別提取兩路信號的特征參數；2.加漢寧窗對預處理后的語音信號進行分幀，提取每幀信號的特征參數。附圖2示出了語音信號特征參數的提取流程。首先，使用在Mel尺度上均勻分布Gammatone濾波器組對語音幀信號的能量譜進行濾波，能很好地仿真基底膜的頻率選擇特性、頻譜分析特性和動態響應過程等特征；接著，對每個濾波器的輸出能量進行立方根非線性壓縮變換來模擬人耳對語音的強度-響度感知特性，這不僅符合了人耳的聽覺感知特性，而且計算過程簡單；然后，立方根能量經過RASTA濾波，抑制了信號頻譜中的常量或變化緩慢的非語音部分，同時增強了動態成分；最后，經過DCT變換(離散余弦變換)到倒譜域，即可實現特征參數的提取；
3.計算原始語音和失真語音特征參數之間的平均動態Mel倒譜距離D，用D來表示失真語音相對于原始語音的失真大小。使用二次多項式將倒譜距離D映射為客觀(預測)MOS值，MOS值的大小說明了被測系統語音質量的好壞。與其它的技術相比，本發明具有以下的優點
1.使用Gammatone濾波器組和立方根非線性壓縮運算來模擬人耳的聽覺生理模型，有效地提高了客觀評價結果與主觀評價結果的相關度；
2.Gammatone濾波器用較少的參數就能很好地模擬聽覺實驗中的生理數據，立方根變換避免了復雜的計算模型，使得算法復雜度低且運行時間較短，適合于語音質量實時評價和嵌入式系統實現；
3.適用于評價 CS-ACELP、ADPCM、LD-CELP、GSM、^ -PCM/A-PCM和VSELP等編碼算法下的語音信號，算法通用性強；
4.本發明保留了Mel-CD方法運行時間較短和算法復雜度低的優點，評價準確性較Mel-CD方法有很大的提高；與PESQ算法相比，評價準確性相差較小，但運行時間和算法復雜度減小明顯，借助于各種語音信號處理方法可將其應用于語音編解碼器和通信網絡的語音質量客觀評價。

結合附圖閱讀本發明的以下詳細描述，可以更好地理解本發明及其優點和其他特征，其中
圖I示出了基于輸入-輸出方式的語音質量客觀評價方法結構圖2示出了語音信號特征參數的提取流程；
圖3示出了一組在Mel尺度上均勻分布的Gammatone濾波器組。
具體實施例方式為了更好地理解本發明，下面將詳細描述本發明的
具體實施例方式 1.原始語音和經過被測系統的失真語音首先經過電平調整，將其強度統一到相當于19dB SPL的能量水平；然后經過理想帶通濾波器，對兩路信號進行輸入濾波；最后通過時間對齊來補償由被測系統產生的時延，完成預處理過程；
2.對預處理后的語音信號x( )和>< )分別進行特征參數的提取；
附圖2示出了語音信號特征參數的具體提取流程
3.對語音信號進行加漢寧窗的FFT變換，得到信號頻譜(Λ；
4.人耳所聽到的聲音的高低與聲音的頻率并不呈線性正比關系，采用更符合人耳的聽覺特性的Mel頻率尺度來進行頻率劃分。Mel頻率與實際頻率的具體關系為
權利要求
1.一種簡單有效的基于聽覺感知特性的語音質量客觀評價技術，根據心理聲學原理將人耳聽覺模型和非線性壓縮變換引入特征參數的提取過程來進行語音質量的客觀評價，其特征在于采用以下步驟 A、將原始語音和通過被測系統的失真語音進行預處理，以便于提取各自的特征參數； B、對經過預處理的語音信號進行加漢寧窗的FFT變換，得到第A幀信號頻譜聊; C、采用Mel頻率尺度來模擬人耳對聲音頻率的感知特性，Mel頻率與實際頻率的具體關系為
全文摘要
本發明公開了一種簡單有效的基于聽覺感知特性的語音質量客觀評價方法，根據心理聲學原理將人耳聽覺模型和非線性壓縮變換引入MFCC(Mel頻率倒譜系數)特征參數的提取過程。本發明使用Gammatone濾波器組對耳蝸基底膜進行仿真，在幅值非線性變換過程中用立方根非線性壓縮變換來模擬語音的強度-響度感知特性。使用新的特征參數，提出了一種更加符合人耳聽覺感知特性的語音質量評價方法。與其它方法相比，本發明有效地提高了客觀評價結果與主觀評價結果的相關度，運行時間較短且復雜度低，具有較強的適應性，可靠性和實用性。本發明通過模擬人耳的聽覺感知特性來進行語音質量評價的方法可為改善語音質量客觀評價提供新的解決思路。
文檔編號G10L19/00GK102881289SQ201210332288
公開日2013年1月16日申請日期2012年9月11日優先權日2012年9月11日
發明者譚曉衡, 秦基偉, 周帥, 裴婧, 黃振林, 唐永剛, 馬旭東申請人:重慶大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：譚曉衡;秦基偉;周帥;裴婧;黃振林;唐永剛;馬旭東
技術所有人：重慶大學
我是此專利的發明人

上一篇：和弦琴的制作方法
上一篇：一種自適應消除噪聲的方法和裝置的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于聽覺感知特性的語音質量客觀評價方法