專利名稱:一種單通道語音去混響的方法和裝置的制作方法
技術領域:
本發明涉及語音增強領域,特別涉及單通道語音去混響的方法和裝置。
背景技術:
在遠距離語音通訊中,麥克風端接收的信號容易受到環境混響的影響。比如,在房間內,語音經過墻面、地板和家具等多次放射,麥克風端接收到的信號是直達聲和反射聲的混合信號。這部分反射聲就是混響信號。當說話人距離麥克風比較遠,且通話環境是一個相對封閉的空間時,就很容易產生混響。混響嚴重時,會導致語音不清楚,影響通話質量。另夕卜,混響帶來的干擾,還會導致聲學接收系統性能變差,語音識別系統性能顯著下降等。早期的去混響方法主要是利用反卷積來進行的。這類方法需要提前知道準確的混響環境(房間或辦公室等)的沖激響應或傳遞函數。混響環境的沖激響應可以通過某種特別 的方法或裝置提前測量得到,也可以通過其它方法單獨估計得到。然后利用這個已知的混響環境沖激響應,估計逆濾波器,實現對混響信號的反卷積,從而實現去混響。這類方法的問題是,混響環境的沖激響應往往很難提前獲得,且求取逆濾波器的過程本身可能引入新的不穩定因素。另一類去混響方法,不需要估計混響環境的沖激響應,因此不需要計算逆濾波器和進行逆濾波運算,也被稱為盲去混響方法。這類方法通常基于語音模型假設,比如混響導致接收的濁音激勵脈沖發生變化,使得周期性變得不那么明顯,從而影響語音清晰度。這類方法一般基于LPC (Linear Prediction Coding,線性預測編碼)模型,假定產生語音的模型是一個全極點模型,而混響或其它加性噪聲在整個系統中引入了新的零點,從而干擾了濁音激勵脈沖,但并不影響全極點濾波器。去混響方法是估計信號的LPC殘差,然后按照基因同步粹發準則(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化準則等,來估計干凈的脈沖激勵序列,從而實現去混響。這類方法的問題是計算復雜度往往非常高,且對于混響只影響全零點濾波器的假設,與實驗分析存在不相符的情況。利用譜減法去混響是一個較佳的方案,語音信號包括直達聲、早期反射聲和晚期反射聲,采用譜減法將晚期反射聲的功率譜從整個語音的功率譜中除去能夠提高語音質量。但其中的關鍵問題在于晚期反射聲的譜的估計,即如何獲得比較準確的晚期反射聲的功率譜,從而在將晚期反射聲的成份有效去除的同時又不損傷語音。在單通道語音去混響中,因為只有一路麥克風信息可用,因此估計混響環境的傳遞函數或估計混響時間(RT60)非常困難。
發明內容
本發明提供的一種單通道語音去混響的方法和裝置,以解決單通道語音去混響中估計混響環境的傳遞函數或估計混響時間困難的問題。本發明公開了一種單通道語音去混響的方法,所述方法包括對輸入的單通道語音信號進行分幀,按時間順序對幀信號進行如下處理
對當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜;選取當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀,將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜;通過譜減法從當前幀的功率譜中去除估計出的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜;將當前幀的直達聲和早期反射聲的功率譜與當前幀的相位譜一起進行短時傅里葉逆變換,獲得當前幀去混響后的信號。 較佳地,依據晚期反射聲的衰減特性,設置所述時長范圍的上限值;和/ 或,依據語音相關特性及直達聲和早期反射聲在混響環境下的沖擊響應分布區域,設置所述時長范圍的下限值。較佳地,所述時長范圍的上限值選擇在0. 3秒5秒之間的值。較佳地,所述時長范圍的下限值選擇在50毫秒 80毫秒之間的值。較佳地,所述將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜具體包括應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加估計出當前幀的晚期反射聲的功率譜;或者,應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加估計出當前幀的晚期反射聲的功率譜;或者,應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加,并且應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加,估計出當前幀的晚期反射聲的功率譜。本發明還公開了一種單通道語音去混響的裝置,所述裝置包括分幀單元,用于對輸入的單通道語音信號進行分幀,按時間順序向傅里葉變換單兀輸出巾貞信號;傅里葉變換單元,用于對接收的當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜,向譜減單元和譜估計單元輸出當前巾貞的功率譜,向傅里葉逆變換單元輸出相位譜;譜估計單元,用于將當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀的功率譜進行線性疊加,估計出當前幀的晚期反射聲的功率譜,向譜減單元輸出估計的當前幀的晚期反射聲的功率譜;譜減單元,用于通過譜減法從傅里葉變換單元獲得的當前幀的功率譜中去除從譜估計單元獲得的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜,向傅里葉逆變換單元輸出當前幀的直達聲和早期反射聲的功率譜;傅里葉逆變換單元,用于將從譜減單元獲得的當前幀的直達聲和早期反射聲的功率譜與從傅里葉變換單元獲得的當前幀的相位譜一起進行短時傅里葉逆變換,輸出當前幀去混響后的信號。
較佳地,所述譜估計單元具體用于,依據晚期反射聲的衰減特性設置所述時長范圍的上限值;和/或,依據語音相關特性及直達聲和早期反射聲在混響環境下的沖擊響應分布區域設置所述時長范圍的下限值。較佳地,所述譜估計單元具體用于,選擇時長范圍的上限值為0. 3秒5秒之間的值。較佳地,所述譜估計單元具體用于,選擇時長范圍的下限值為50毫秒 80毫秒之間的值。較佳地,所述譜估計單元具體用于對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加估計出當前幀的晚期反射聲的功率譜; 或者,對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加估計出當前幀的晚期反射聲的功率譜;或者,對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加,并且應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加,估計出當前幀的晚期反射聲的功率譜。本發明實施例的有益效果是通過選取當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀,將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜,能夠不需估計混響環境的傳遞函數或混響時間,便可以估計出當前幀的晚期反射聲的功率譜,進而利用譜減法進行去混響,簡化了去混響的操作復雜度,使得實現更為簡單;依據語音相關特性及直達聲和早期反射聲在混響環境下的沖擊響應分布區域設置時長范圍的下限值,能夠在去除混響的同時更好保留有用的直達聲和早期反射聲,提高話音質量;依據晚期反射聲的衰減特性設置時長范圍的上限值,能夠在保證估計的晚期反射聲的功率譜的準確性的同時,減少疊加運算量;本發明實施例將上限值選擇為0. 3秒5秒之間的值,該上限值為通過實驗獲得的門限值,在混響環境發生變化時,無需調整該上限值,都能夠獲得較好的去混響效果;本發明實施例將下限值設置在50毫秒 80毫秒之間,在混響環境變化時,無需改變下限值,便能夠有效避開直達聲和早期反射聲進行疊加,使得疊加結果中基本不包含直達聲和早期反射聲,從而在去混響的同時保留有用的直達聲和早期反射聲,取得較好的話音質量。上述混響環境的變化包括從無混響的消聲室到混響非常嚴重的大禮堂。
圖I為本發明單通道語音去混響的方法的流程圖2為真實房間的沖激響應的示意圖;圖3為本發明實施效果示意圖,圖3 (a)為混響信號時域示意圖,圖3 (b)為去混響后的信號的時域示意圖,圖3 (c)為混響信號頻域示意圖,圖3 (d)為去混響信號頻域示意圖;圖4為本發明單通道語音去混響裝置的結構圖;圖5為本發明單通道語音去混響裝置具體實施方式
的結構圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述。參見圖1,為本發明提供的單通道語音去混響的方法的流程圖。 步驟S100,對輸入的單通道語音信號進行分幀,按時間順序對幀信號進行如下處理。步驟S200,對當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜。步驟S300,選取當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀,將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜。所述若干幀為一個預設數量的幀,可以為時長范圍內的所有幀或該時長范圍內的一部分中貞。步驟S400,通過譜減法從當前幀的功率譜中去除估計的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜。步驟S500,將當前幀的直達聲和早期反射聲的功率譜與當前幀的相位譜一起進行短時傅里葉逆變換,獲得當前幀去混響后的信號。在混響環境中,麥克風采集到的信號x(t),即單通道語音信號,是直達聲和反射聲的混合,可用如下混響模型表示X (t) = h*s (t) +n (t)其中,s(t)是從聲源發出的信號,h是從聲源位置到麥克風位置兩點之間的房間沖激響應,*表示卷積運算,n(t)表示混響環境內的其它加性噪聲。一個真實房間的沖激響應,如圖2所示。可以將它劃分為3個部分,直達峰hd、早期反射he和晚期反射hi。hd和s(t)的卷積可以簡單地認為是聲源發出的信號經過一定的延遲后在麥克風端的再現,對應于X(t)中的直達聲部分。早期反射部分的沖擊響應對應于hd之后一段時長的部分,該時長的結束時間點為50ms至80ms中的某個時間點。一般認為這一部分和s(t)卷積所產生的早期反射聲對直達聲有加強和改善音質的作用。晚期反射聲部分的沖擊響應是去除hd和he后房間沖激響應余下的長長的拖尾部分,這一部分與信號s(t)卷積所產生的反射聲,就是會對聽感造成影響的混響成份。去混響算法主要是去除這一部分的影響。因此,混響模型也可表示為X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指數衰減模型,可用如下方程近似
權利要求
1.一種單通道語音去混響的方法,其特征在于,所述方法包括 對輸入的單通道語音信號進行分幀,按時間順序對幀信號進行如下處理 對當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜; 選取當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀,將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜; 通過譜減法從當前幀的功率譜中去除估計出的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜; 將當前幀的直達聲和早期反射聲的功率譜與當前幀的相位譜一起進行短時傅里葉逆變換,獲得當前幀去混響后的信號。
2.根據權利要求I所述的方法,其特征在于, 依據晚期反射聲的衰減特性,設置所述時長范圍的上限值; 和/或, 依據語音相關特性及直達聲和早期反射聲在混響環境下的沖擊響應分布區域,設置所述時長范圍的下限值。
3.根據權利要求I所述的方法,其特征在于, 所述時長范圍的上限值選擇在0. 3秒5秒之間的值。
4.根據權利要求I所述的方法,其特征在于, 所述時長范圍的下限值選擇在50毫秒 80毫秒之間的值。
5.根據權利要求1-4任一項所述的方法,其特征在于, 所述將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜具體包括 應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加估計出當前幀的晚期反射聲的功率譜; 或者, 應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加估計出當前幀的晚期反射聲的功率譜; 或者, 應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加,并且應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加,估計出當前幀的晚期反射聲的功率譜。
6.一種單通道語音去混響的裝置,其特征在于,所述裝置包括 分幀單元,用于對輸入的單通道語音信號進行分幀,按時間順序向傅里葉變換單元輸出中貞信號; 傅里葉變換單元,用于對接收的當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜,向譜減單元和譜估計單元輸出當前巾貞的功率譜,向傅里葉逆變換單元輸出相位譜; 譜估計單元,用于將當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀的功率譜進行線性疊加,估計出當前幀的晚期反射聲的功率譜,向譜減單元輸出估計的當前幀的晚期反射聲的功率譜;譜減單元,用于通過譜減法從傅里葉變換單元獲得的當前幀的功率譜中去除從譜估計單元獲得的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜,向傅里葉逆變換單元輸出當前幀的直達聲和早期反射聲的功率譜; 傅里葉逆變換單元,用于將從譜減單元獲得的當前幀的直達聲和早期反射聲的功率譜與從傅里葉變換單元獲得的當前幀的相位譜一起進行短時傅里葉逆變換,輸出當前幀去混響后的信號。
7.根據權利要求6所述的裝置,其特征在于, 所述譜估計單元具體用于,依據晚期反射聲的衰減特性設置所述時長范圍的上限值;和/或,依據語音相關特性及直達聲和早期反射聲在混響環境下的沖擊響應分布區域設置所述時長范圍的下限值。
8.根據權利要求6所述的裝置,其特征在于, 所述譜估計單元具體用于,選擇時長范圍的上限值為0. 3秒5秒之間的值。
9.根據權利要求6所述的裝置,其特征在于, 所述譜估計單元具體用于,選擇時長范圍的下限值為50毫秒 80毫秒之間的值。
10.根據權利要求6-9任一項所述的裝置,其特征在于, 所述譜估計單元具體用于 對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加估計出當前幀的晚期反射聲的功率譜; 或者, 對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加估計出當前幀的晚期反射聲的功率譜; 或者, 對于當前幀之前的、到當前幀的距離在所述設置的時長范圍內的若干幀,應用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加,并且應用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加,估計出當前幀的晚期反射聲的功率P曰。
全文摘要
本發明公開一種單通道語音去混響的方法和裝置,所述方法包括對輸入的單通道語音信號進行分幀,按時間順序對幀信號進行如下處理對當前幀進行短時傅里葉變換,獲得當前幀的功率譜和相位譜;選取當前幀之前的、到當前幀的距離在設置的時長范圍內的若干幀,將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜;通過譜減法從當前幀的功率譜中去除估計出的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜;將當前幀的直達聲和早期反射聲的功率譜與當前幀的相位譜一起進行短時傅里葉逆變換,獲得當前幀去混響后的信號。本發明能夠解決單通道語音去混響中估計混響環境的傳遞函數或估計混響時間困難的問題。
文檔編號G10L21/02GK102750956SQ201210201879
公開日2012年10月24日 申請日期2012年6月18日 優先權日2012年6月18日
發明者吳曉婕, 李波, 樓夏夏 申請人:歌爾聲學股份有限公司