專利名稱:2.3kb/s諧波激勵線性預測語音編碼方法
技術領域:
2.3kb/s諧波激勵線性預測語音編碼方法的技術領域為語音信號處理,其應用范圍覆蓋如下兩個方面第一,語音信號的數字傳輸,如數字通信系統、移動無線電、蜂窩電話和保密電話系統等;第二,語音信號的數字存貯,如數字錄音電話、語音郵件、語音信箱、電子留言簿、發聲字典、多媒體查詢系統以及各類電子發聲玩具等。
語音編碼目前主要分為三類,即波形編碼、參數編碼和混合編碼。波形編碼力圖使重建語音波形保持原語音信號的波形形狀,它通常將語音信號作為一般的波形信號來處理,它具有適應能力強、話音質量高等優點,但所需要的比特率高,通常能在64~16kb/s的速率上給出高的編碼質量,當速率進一步降低時,其性能會迅速下降。參數編碼則通過對語音信號特征參數的提取和編碼,力圖使重建語音信號具有盡可能高的可懂性,即保持原語音的語意,而重建語音信號的波形同原始語音信號的波形可能會有相當大的差別,但其編碼速率很低,可低至2.4kb/s以下。它的主要問題是合成語音質量差,自然度低。混合編碼克服了波形編碼和參數編碼的弱點,同時又結合了它們各自的長處,在4~16kb/s速率上能夠得到高質量的合成語音,但當比特率低于4kb/s時很難得到高質量的合成語音。
近十年來,語音編碼取得了突飛猛進的發展,在國際標準化工作中堪稱為最活躍的領域,就目前的語音編碼現狀而言,5kb/s以上的技術已經標準化和產品化,已具備比較完善的理論和技術體系,并進入實用階段。今后重要的研究焦點將逐步轉向更低的碼率。
目前,2.4kb/s及其以下速率的高質量語音編碼是語音編碼研究領域最感興趣的課題之一,這是因為在電信和保密通信中的許多應用和服務迫切需要這些低比特率語音編碼方法。在過去的幾年中,一些成功的語音編碼方法,諸如,波形內插(WI)、多帶激勵(MBE)、混合激勵線性預測(MELP)、諧波+隨機激勵(HSX)和分裂帶LPC(SB-LPC)等方法均產生了具有較高可懂度和自然度的合成語音,這些方法的共同特征是語音信號或線性預測殘差信號的諧波成分和類噪聲成分的合成模型是獨立產生的,語音質量強烈地依賴于這兩種成分的正確判別。這對于有調漢語語音來說會產生較嚴重的變調失真,導致合成語音的自然度下降。
本發明2.3kb/s諧波激勵線性預測語音編碼(HE-LPC)方法,是由語音采集系統將所需進行的語音信號輸入計算機,在計算機處理器中完成對語音信號的編碼過程,該方法包括語音編碼和譯碼兩部分,編碼方法中基音周期檢測采用了一種基于波形相關法的語音信號基音周期檢測方法,語音譜參數的量化采用了線譜頻率參數一步插值預測矢量量化方法,本發明的特征在于使用基音檢測方法和濁音度分析方法將LPC激勵信號分裂為兩個帶,低帶對應于語音信號的濁音部分,而高帶對應于語音信號的清音部分,用統一的諧波模型來表達線性預測殘差信號的諧波成分和類噪聲成分,在統一的諧波激勵模型中引入了一個來自男性講話者濁音區的固定相位譜,并使用諧波激勵模型參數內插方法,得到了平滑自然的合成語音;減少傳統LPC聲碼器中的噪聲后獲取合成語音,最后使用一個短時后濾波器增強合成語音的質量。
另外,本發明使用線譜頻率參數一步插值預測矢量量化方法減少聲道參數的比特率,并在譯碼端使用一個短時后濾波器增強合成語音的質量。
本發明的技術方案結合
圖1可見,本發明方法的編碼部分主要包括預處理方法、線性預測分析方法、線性預測逆濾波方法、基音檢測與濁音度判決方法、殘差諧波幅度確定方法、線性預測系數到線譜頻率參數的轉換方法和參數量化與編碼方法。編碼器的工作程序如下第一步,輸入語音經預處理模塊去除輸入信號的直流成分;第二步,對去除直流的語音信號加240點哈明窗,窗的中心位于當前幀的右邊界,即窗覆蓋了前一幀的120個樣點和當前幀的120個樣點;然后對加窗的語音進行自相關估計,并使用萊文遜-杜賓遞歸算法獲取10階線性預測系數;最后用0.998k,k=1,…,10乘以線性預測系數來獲取30HZ共振峰帶寬展寬的線性預測系數;第三步,將第二步得到的線性預測系數利用常規方法轉換成線譜頻率參數;第四步,用最新技術中的一步插值預測矢量量化方法量化線譜頻參數;第五步,當前幀和前一幀量化的線譜頻率參數線性內插到當前的4個子幀中,保證線譜頻率參數的平滑過渡,每子幀內插的線譜頻率參數再變回到線性預測系數,通過逆濾波器求得當前幀的線性預測殘差信號。另外,當前幀最后一個子幀內插的線性預測系數用于計算將來幀的40個樣點的殘差信號,這40個樣點將用于當前幀殘差諧波幅度的提取;第六步,利用基于波形相關法的語音信號基音周期檢測方法這一最新技術、在去除直流的輸入信號上進行基音周期檢測和濁音度估計。該方法主要包括四個步驟,第一步為預處理,第二步為相關系數估計,第三步為后處理,第四步為濁音度判決。預處理包括低通濾波和數值濾波二部分,主要是去除共振峰對基音檢測的影響。相關系數在三個疊接窗上獨立計算,第一個窗覆蓋整個當前窗,第二個窗覆蓋當前幀的一半樣點和將來幀的一半樣點,第三個窗覆蓋整個將來幀。后處理是為了避免在每個窗內出現基音加倍而采取的措施。
在按上述預處理、相關系數估計和后處理步驟求得三個窗內的最優延遲后,再用下面的閥值和邏輯從三個窗獲得的最優延遲中得到當前幀的延遲估計。令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分別為對應三個疊接窗的最優延遲和相關系數,則當前幀最終的基音周期估計 按如下邏輯獲得t1=ρ2/ρ3,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)τ^opt=(τ1+τ2)/2,=ρ(ρ1+ρ3)/2]]>Elseτ^opt=τ2,ρ=ρ2]]>這里 的值為整數,用7比特量化。在8kHz采樣率,這種具有1個樣點解析的基音檢測器已很好滿足了本發明中的諧波激勵線性預測語音編碼法的要求。
在本發明的諧波激勵線性預測語音編碼法中,無論是何種類型的語音幀都要給出確切的濁音度值pv,這個pv將語音信號分為兩個帶,pv決定了這兩個帶的分界頻率,在分界頻率以下的頻譜看作是周期信號頻譜,而在分界頻率以上的頻譜看作是類噪聲頻譜。這里pv由預處理后的語音信號能量Elpf和相關系數ρ共同確定。如果Elpf小于給定的閥值,則直接令pv等于零,根據聽覺分析,設此幀的基音頻率為100Hz(80個樣點);如果Elpf大于給定的閥值,則pv由ρ確定。為了節省比特數,ρ根據主觀聽力測試用2比特量化。
第七步,根據上述步驟得到的預測殘差信號和基音周期,估計殘差諧波。首先,用256點FFT將預測殘差信號轉換到頻域以便求得諧波幅度;其次,用類似于SEEVOC的方法估計殘差諧波幅。但這里我們使用的基音周期是第六步得到的基音周期而不是SEEVOC方法中使用的平均基音周期,這為實際諧波幅度的估計帶來了極大的便利,并提高了諧波估計的準確度。估計完諧波幅度后,要對其進行歸一化處理,歸一化的目的是為了分離諧波幅度的功率和形狀,以便于分別量化,提高量化效率。
由于諧波個數隨基音周期變化,所以,諧波幅度譜是變維的。通常,人們使用變維矢量量化技術量化語音信號的諧波幅度,但這將需要巨大的計算量和存貯空間。為此,我們充分利用了線性預測殘差譜趨于平坦的特性,通過對殘差諧波幅度截斷來獲取固定的10維矢量。在譯碼端,高于10維的諧波用譯碼的10維矢量元素的均值統一表示。這個截斷的10維矢量碼書用LBG方法訓練獲得,碼書體積為512(9比特碼書)。歸一化增益用8比特在對數域標量量化。
第八步,將量化的基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數進行二進制編碼,并將比特流送入信道或存入媒質,供譯碼器用。
本發明方法的譯碼部分主要包括參數解碼方法、參數內插方法、殘差信號重建方法、線譜頻率參數到線性預測系數的轉換方法、語音合成方法、后濾波和自動增益控制方法;參數內插模塊完成基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數的內插工作。譯碼器的工作程序如下第一步,參數解碼模塊根據接收到的比特流,在譯碼器的5個碼書中得到對應的基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數的實數值;
第二步,根據譯碼端恢復的諧波幅度和基音周期,用如下的諧波模型重建線性預測殘差信號e(n)=Σk=1L(n)Ak(n)cos(kφ(n)+θk(n))]]>其中 這里L(n),pv(n,k)和Ak(n)分別為在樣點n處的諧波個數、濁音度和第k個去歸一化的諧波幅度。D(k)是一個固定相位譜,它來自于男性講話者的某幀濁音語音信號,選擇男性講話者是考慮到男性發聲具有高的基音周期,它能比女性發聲提供更多的諧波成分,從而保證D(k)的維數大于等于給定的最大諧波數。對于低于分帶頻率的諧波,其諧波相位等于固定值,而對高于分帶頻率的諧波,其諧波相位是均勻分布的隨機數。
令樣點n處的基音周期值為P(n),則每個樣點處的相位φ(n)可通過如下逐點迭代獲得φ(n)=φ(n-1)+2πP(n)]]>為了得到平滑漸變的激勵信號e(n),諧波激勵模型中用到的基音周期、去歸一化諧波幅度和濁音度參數必須內插。即為了重建殘差信號e(n),需要知道每個樣點處的諧波幅度及其基音周期長度。本發明使用簡單的線性內插方法來增樣諧波幅度。當在兩個等維的諧波幅度間完成增樣時,可直接進行內插。然而,當諧波幅度的長度不同和基音周期加倍/減半發生時,還需要額外的處理,以便保證平滑內插。下面描述三種情況下諧波幅度內插和基音周期內插的過程。(1)等維情況下諧波幅度和基音周期的內插此時,當前幀和前一幀具有相同的基音周期P,如果用n0和n1表示內插區間分界處的時刻,則可以確定時刻n處的瞬時基音周期P(n,m)和瞬時諧波幅度Ak(n,m)分別為P(n,m)=(n1-nn1-n0)P(n0,m)+(n-n0n1-n0)P(n1,m)n0≤n≤n1,0≤m<N]]> 式中N為幀長。內插要在每幀上完成,所以,n1-n0=160。
由于邊界點處的諧波幅度具有相同的長度,所以,它們之間內插得到的諧波幅度也具有相同的長度,即基音輪廓為一常數。(2)不等維情況下諧波幅度和基音周期的內插一般地,邊界點處諧波幅度的長度不同({Ak}的個數不同),基音周期在邊界點之間的區間上要變化。在這種情況下,內插前要將短的諧波幅度維數調整到與長的諧波幅度相同,這等價于對短的諧波幅度系數添零。完成添零工作后,即可用等維情況下的內插公式獲得瞬時基音周期和瞬時諧波幅度。
由于添零的原因,這種過程得到的內插基音周期值可能和內插的諧波幅度維數不同。為了避免這種不一致性,可將內插的諧波幅度維數截斷到和內插的基音周期長度一致。(3)基音加倍/減半情況下諧波幅度和基音周期的內插如果當前幀的諧波幅度維數比原來幀的諧波幅度維數長或短很多,則很可能發生了基音加倍/減半,這時本發明使用前后幀基音周期比值因子C作為基音加倍/減半判決準則。如果在幀間基音確實發生了加倍/減半(C>1),則將較短的諧波幅度和基音周期重復整數倍,使其最大可能地與較長的諧波幅度和基音周期匹配。這等價于在原來的諧波間插入零幅度諧波。插入零幅度諧波后,將諧波幅度和基音周期按不等維情況進行內插即可。
另外,濁音度pv(n)的內插方法類似于等維情況下基音周期的內插公式,諧波數L(n)由內插的后的基音周期得到,即 。為了增強相位軌跡的準確性,用于相位軌跡φ(n)計算的瞬時基音周期不再取為整數。由于φ(n)是一個不斷增大的函數,為防止φ(n)的溢出,當φ(n)值增大到比2π大時,就從φ(n)值中減去2π。根據余弦函數的性質,這不會影響激勵信號e(n)的計算。
第三步,將線譜頻率參數在四個子幀線性內插,再將4個內插的線譜頻率參數轉換為線性預測系數,得到了4個子幀的合成濾波器系數。
第四步,將重建的線性預測殘差信號e(n)經過全極點合成濾波器,得到合成語音。
第五步,使用傳統的短時后濾波器增強合成語音的質量。
第六步,使用自動增益控制技術保證后濾波前后合成語音信號的平均能量不變。
本發明的漢語語音主觀測試結果證明,2.3kb/s諧波激勵線性預測編碼(HE-LPC-Harmonic Excited LinearPredictive Coding)方法產生的合成語音質量優于美國聯邦標準的2.4kb/s MELP編碼器,并且延時小于MELP編碼器,可用于移動通信、短波通信、保密通信、大容量語音存貯設備、多媒體查詢系統、IP電話和因特網上的語音郵寄等,可帶來可觀的經濟效益和社會效益。
本發明的實驗效果如下為了評價2.3kb/s HE-LPC語音編碼方法的性能,我們用漢語語音進行了主觀A/B聽力測試,11名聽眾比較了2.3kb/s HE-LPC編碼器和美國聯邦標準2.4kb/s MELP聲碼器產生的合成語音質量。漢語語音由16個句子組成,其中8句來自男性講話,另外8句來自女性講話。測試結果如表2所示。測試結果證明2.3kb/s HE-LPC編碼器產生的合成語音質量好于美國聯邦標準的2.4kb/s MELP聲碼器,尤其是對女性講話者。
表12.3kb/s HE-LPC比特分配方案
表2主觀A/B測試結果
權利要求
1.2.3kb/s諧波激勵線性預測語音編碼方法,是由語音采集系統將所需進行的語音信號輸入計算機,在計算機處理器中完成對語音信號的編碼過程,該方法包括語音編碼和譯碼兩部分,編碼方法中基音周期檢測采用了一種基于波形相關法的語音信號基音周期檢測方法,語音譜參數的量化采用了線譜頻率參數一步插值預測矢量量化方法,本發明的特征在于用基音檢測方法和濁音度分析方法將LPC激勵信號分裂為兩個帶,低帶對應于語音信號的濁音部分,而高帶對應于語音信號的清音部分,用統一的諧波模型來表達線性預測殘差信號的諧波成分和類噪聲成分,即在該諧波模型中引入了一個來自男性講話者濁音區的固定相位譜,并使用諧波激勵模型參數內插方法,減少傳統LPC聲碼器中的噪聲后獲取合成語音,最后使用一個短時后濾波器增強合成語音的質量;本發明方法的編碼部分主要包括預處理方法、線性預測分析方法、線性預測逆濾波方法、基音檢測與濁音度判決方法、殘差諧波幅度確定方法、線性預測系數到線譜頻率參數的轉換方法和參數量化與編碼方法;編碼器的工作程序如下第一步,輸入語音經預處理模塊去除輸入信號的直流成分;第二步,先對去除直流的語音信號加240點哈明窗,然后對加窗的語音進行自相關估計,最后獲取線性預測系數;第三步,將第二步得到的線性預測系數利用常規方法轉換成線譜頻率參數;第四步,用最新技術中的一步插值預測矢量量化方法量化線譜頻率參數;第五步,當前幀和前一幀量化的線譜頻率參數線性內插到當前的4個子幀中,每子幀內插的線譜頻率參數再變回到線性預測系數,通過逆濾波器求得當前幀的線性預測殘差信號,另外,當前幀最后一個子幀內插的線性預測系數用于計算將來幀的殘差信號,這個未來幀的殘差信號將用于當前幀殘差諧波幅度的提取;第六步,利用基于波形相關法的語音信號基音周期檢測方法這一最新技術、在去除直流的輸入信號上進行基音周期檢測和濁音度估計;該方法的應用中,在按上述預處理、相關系數估計和后處理步驟求得三個窗內的最優延遲后,再用下面的閥值和邏輯從三個窗獲得的最優延遲中得到當前幀的延遲估計;令(τ1,ρ1), (τ2,ρ2)和 (τ3,ρ3)分別為對應三個疊接窗的最優延遲和相關系數,則當前幀最終的基音周期估計 按如下邏輯獲得t1=ρ2/ρ1,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)τ^opt=(τ1+τ3)/2,ρ=(ρ1+ρ3)/2]]>Elseτ^opt=τ2,ρ=ρ2]]>這里 的值為整數,用7比特量化;在本發明的諧波激勵線性預測語音編碼法中,無論是何種類型的語音幀都要給出確切的濁音度值pv,這個pv將語音信號分為兩個帶,pv決定了這兩個帶的分界頻率,在分界頻率以下的頻譜看作是周期信號頻譜,而在分界頻率以上的頻譜看作是類噪聲頻譜;這里pv由預處理后的語音信號能量Elpf和相關系數ρ共同確定;如果Elpf小于給定的閥值,則直接令pv等于零,根據常規的聽覺測定分析,設此幀的基音頻率為100Hz(80個樣點);如果Elpf大于給定的閥值,則pv由ρ確定;第七步,根據上述步驟得到的預測殘差信號和基音周期,估計殘差諧波;估計完諧波幅度后,對其進行歸一化處理,以便于分別量化;第八步,將量化的基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數進行二進制編碼,并將比特流送入信道或存入媒質,供譯碼器用;本發明方法的譯碼部分主要包括參數解碼方法、參數內插方法、殘差信號重建方法、線譜頻率參數到線性預測系數的轉換方法、語音合成方法、后濾波和自動增益控制方法;參數內插模塊完成基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數的內插工作;譯碼器的工作程序如下第一步,參數解碼模塊根據接收到的比特流,在譯碼器的5個碼書中得到對應的基音周期、濁音度、殘差諧波幅度、歸一化增益和線譜頻率參數的實數值;第二步,根據譯碼端恢復的諧波幅度和基音周期,用如下的諧波模型重建線性預測殘差信號e(n)=Σk=1L(n)Ak(n)cos(kφ(n)+θk(n))]]>其中 這里L(n),pv(n,k)和Ak(n)分別為在樣點n處的諧波個數、濁音度和第k個去歸一化的諧波幅度;D(k)是一個固定相位譜,它來自于男性講話者的某幀濁音語音信號,從而保證D(k)的維數大于等于給定的最大諧波數,對于低于分帶頻率的諧波,其諧波相位等于固定值,而對高于分帶頻率的諧波,其諧波相位是均勻分布的隨機數;令樣點n處的基音周期值為P(n),則每個樣點處的相位φ(n)可通過如下逐點迭代獲得φ(n)=φ(n-1)+2πP(n)]]>為了重建殘差信號e(n),需要知道每個樣點處的諧波幅度及其基音周期長度,本發明使用線性內插方法來增樣諧波幅度;第三步,將線譜頻率參數在四個子幀線性內插,再將4個內插的線譜頻率參數轉換為線性預測系數,得到了4個子幀的合成濾波器系數;第四步,將重建的線性預測殘差信號e(n)經過合成濾波器,得到合成語音;第五步,使用傳統的短時后濾波器增強合成語音的質量;第六步,使用自動增益控制技術保證后濾波前后合成語音信號的平均能量不變。
2.根據權利要求1所述的2.3kb/s諧波激勵線性預測語音編碼(HE-LPC)方法,其特征在于,所述的編碼器的工作程序中第二步的具體步驟為先對去除直流的語音信號加240點哈明窗,窗的中心是位于當前幀的右邊界,即窗覆蓋了前一幀的120個樣點和當前幀的120個樣點,然后對加窗的語音進行自相關估計,并使用萊文遜-杜賓遞歸算法獲取10階線性預測系數,最后用0.998k,k=1,…,10乘以線性預測系數來獲取30HZ共振峰帶寬展寬的線性預測系數;第五步中,當前幀最后一個子幀內插的線性預測系數用于計算將來幀的40個樣點的殘差信號,這40個樣點將用于當前幀殘差諧波幅度的提取;第七步估計殘差諧波的具體步驟為,首先,用256點FFT將預測殘差信號轉換到頻域以便求得諧波幅度;其次,用類似于SEEVOC的方法估計殘差諧波幅;由于諧波個數隨基音周期變化,本發明中利用了線性預測殘差譜趨于平坦的特性,通過對殘差諧波幅度截斷來獲取固定的10維矢量;在譯碼端,高于10維的諧波用譯碼的10維矢量元素的均值統一表示;這個截斷的10維矢量碼書用LBG方法訓練獲得,碼書體積為512(9比特碼書);歸一化增益用8比特在對數域標量量化。
3.根據權利要求1所述的2.3kb/s諧波激勵線性預測語音編碼方法,其特征在于,所述的譯碼器工作程序中,本發明使用簡單的線性內插方法來增樣諧波幅度,是指當在兩個等維的諧波幅度間完成增樣時,可直接進行內插;然而,當諧波幅度的長度不同和基音周期加倍/減半發生時,還需要額外的處理,以便保證平滑內插;下面描述三種情況下諧波幅度內插和基音周期內插的過程(1)等維情況下諧波幅度和基音周期的內插此時,當前幀和前一幀具有相同的基音周期P,如果用n0和n1表示內插區間分界處的時刻,則可以確定時刻n處的瞬時基音周期P(n,m)和瞬時諧波幅度Ak(n,m)分別為P(n,m)=(n1-nn1-n0)P(n0,m)+(n-n0n1-n0)P(n1,m)n0≤n≤n1,0≤m<N]]> 式中N為分析幀長,n1-n0=N;由于邊界點處的諧波幅度具有相同的長度,所以,它們之間內插得到的諧波幅度也具有相同的長度,即基音輪廓為一常數;(2)不等維情況下諧波幅度和基音周期的內插在這種情況下,內插前要將短的諧波幅度維數調整到與長的諧波幅度相同,這等價于對短的諧波幅度系數添零;完成添零工作后,即可用等維情況下的內插公式獲得瞬時基音周期和瞬時諧波幅度;為了避免這種過程得到的內插基音周期值可能和內插的諧波幅度維數不同的情況,將內插的諧波幅度維數截斷到和內插的基音周期長度一致;(3)基音加倍/減半情況下諧波幅度和基音周期的內插如果當前幀的諧波幅度維數比原來幀的諧波幅度維數長或短很多,則很可能發生了基音加倍/減半,這時本發明使用前后幀基音周期比值因子C作為基音加倍/減半判決準則;如果在幀間基音確實發生了加倍/減半(C>1),則將較短的諧波幅度和基音周期重復整數倍,使其最大可能地與較長的諧波幅度和基音周期匹配;這等價于在原來的詣波間插入零幅度諧波;插入零幅度諧波后,將諧波幅度和基音周期按不等維情況進行內插即可;另外,濁音度pv(n)的內插方法類似于等維情況下基音周期的內插公式,諧波數L(n)由內插的后的基音周期得到,即 ;為了增強相位軌跡的準確性,用于相位軌跡φ(n)計算的瞬時基音周期不再取為整數;由于φ(n)是一個不斷增大的函數,為防止φ(n)的溢出,當φ(n)值增大到比2π大時,就從φ(n)值中減去2π。
全文摘要
2.3kb/s諧波激勵線性預測語音編碼方法屬于語音信號處理技術領域。本發明由語音采集系統將所需的語音信號輸入計算機處理器中,完成對語音信號處理。該方法特征在于使用基音檢測方法和濁音度分析方法將LPC激勵信號分裂為兩個帶,低帶對應語音信號的濁音部分,而高帶對應語音信號的清音部分,用統一的諧波模型來表達線性預測殘差信號的諧波成分和類噪聲成分,在統一的諧波激勵模型中引入了一個來自男性講話者濁音區的固定相位譜,并使用諧波激勵模型參數內插方法,減少傳統LPC聲碼器中的噪聲后獲取合成語音,最后使用一個短時后濾波器增強合成語音的質量。本方法使得語音編碼方法對清/濁判決不敏感,使得合成的語音質量自然平滑,無變調現象發生。
文檔編號G10L19/00GK1424712SQ0215667
公開日2003年6月18日 申請日期2002年12月19日 優先權日2002年12月19日
發明者鮑長春 申請人:北京工業大學