網絡音頻丟包掩蔽方法和裝置制造方法
【專利摘要】本發明公開了一種網絡音頻丟包掩蔽方法和裝置,涉及音頻傳輸領域。本發明通過對丟包后的音頻流解碼,并將解碼得到的音頻信號進行反轉,然后對音頻信號和反轉音頻信號分別進行丟包補償,并將補償后的反轉音頻信號再次反轉,最后對兩路補償后的音頻信號進行幅度平均得到輸出信號,這種雙向預測差錯掩蔽技術可以進一步提高音頻質量,特別在丟包率比較高的網絡環境下,仍然可以獲得比較清晰的語音效果。
【專利說明】網絡音頻丟包掩蔽方法和裝置
【技術領域】
[0001] 本發明涉及音頻傳輸領域,特別涉及一種網絡音頻丟包掩蔽方法和裝置,從而減 低網絡音頻流由于丟包產生的不連續感,提高網絡音頻流的聽覺效果。
【背景技術】
[0002] 在VOIP (Voice over Internet Protocol,網絡電話)應用中,由于網絡質量等一 些原因,音頻流可能會發生丟包現象,嚴重的可能會影響語音質量,對通話造成干擾。
[0003] iLBC( internet Low Bit Rate Codec,因特網低比特率編碼)算法是一種基于CELP (Code Excited Linear Prediction,碼激勵線性預測編碼)的低比特率語音編碼算法,其優 異的語音質量、突出的長時預測方法及丟包掩蔽(Packet Loss Concealment,簡稱PLC)技 術,很好地解決了互聯網上傳輸語音的問題。iLBC主要針對包交換網絡設計,主要優勢是其 對于網絡丟包的處理。iLBC采用由初始狀態構造自適應碼本對激勵信號進行直接編碼,實 現了語音幀間的相互獨立編碼,丟幀的影響局限在本幀內。當數據丟失后,iLBC會根據之 前記錄的激勵信號和語音參數,進行相關處理、殘差增強、混合白噪聲等操作,生成模擬的 語音信號,從而替代丟失的語音。因此,iLBC在音頻流發生丟包的情況下,可以減低丟包產 生的不連續感。
[0004] 然而,在網絡環境較差的情況下可能會發生嚴重丟包現象,采用現有的iLBC丟包 掩蔽技術仍然無法獲得滿意的語音效果,因此,有必要提出一種丟包掩蔽技術在丟包率比 較高的網絡環境下,仍然可以獲得比較清晰的語音效果。
【發明內容】
[0005] 本發明實施例所要解決的一個技術問題是:解決在丟包率比較高的網絡環境下如 何獲得比較清晰的語音效果的問題。
[0006] 根據本發明實施例的一個方面,提出一種網絡音頻丟包掩蔽方法,包括:將丟包后 的音頻流解碼為脈沖編碼調制PCM信號,將丟包導致缺失的數據段的PCM數據值設為0,將 處理后的PCM信號作為音頻信號S ;對音頻信號S進行時間反轉得到音頻信號S';音頻信號 S經過因特網低比特率編碼iLBC丟包補償處理得到音頻信號Si,音頻信號S'經過iLBC丟 包補償處理得到音頻信號Si' ;對音頻信號Si'進行時間反轉得到音頻信號Sit ;對音頻信 號Si和音頻信號Sit按滑動窗口進行幅度譜平均得到輸出的音頻信號So。
[0007] 對音頻信號Si和音頻信號Sit按滑動窗口進行幅度譜平均得到輸出的音頻信號 So,具體包括:采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進行分幀,每幀的 長度2N,兩幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數據為矢量a i,音頻信號 Sit中的第i幀數據為矢量0 i,音頻信號So中的第i幀數據為矢量h,窗函數的矢量為w ; 根據窗函數對a ,進行加窗操作得到先,對咼進行快速傅里葉變換后計算其幅度譜化和相 位譜t ;根據窗函數對I進行加窗操作得到爲,對屬.進行快速傅里葉變換后計算其幅度 譜&和相位譜ei;對幅度譜化和幅度譜&進行平均得到2 ;對以2為幅度譜和以t為 相位譜的信號進行快速傅里葉逆變換,根據快速傅里葉逆變換的結果計算〇i。
[0008] iLBC丟包補償處理具體包括:對丟失幀重建線性預測系數,并且重建殘差信號。
[0009] 根據本發明實施例的再一個方面,提出一種網絡音頻丟包掩蔽裝置,包括:解碼模 塊,用于將丟包后的音頻流解碼為脈沖編碼調制PCM信號,將丟包導致缺失的數據段的PCM 數據值設為〇,將處理后的PCM信號作為音頻信號S ;反轉模塊,用于對音頻信號S進行時間 反轉得到音頻信號S' ;補償模塊,用于音頻信號S經過因特網低比特率編碼iLBC丟包補償 處理得到音頻信號Si,音頻信號S'經過iLBC丟包補償處理得到音頻信號Si' ;反轉模塊, 還用于對音頻信號Si'進行時間反轉得到音頻信號Sit ;幅度平均模塊,用于對音頻信號Si 和音頻信號Sit按滑動窗口進行幅度譜平均得到輸出的音頻信號So。
[0010] 幅度平均模塊,具體用于:米用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號 So進行分幀,每幀的長度2N,兩幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數據 為矢量a i,音頻信號Sit中的第i幀數據為矢量0 ,,音頻信號So中的第i幀數據為矢量 〇i,窗函數的矢量為w ;根據窗函數對a i進行加窗操作得到七,對毛進行快速傅里葉變換 后計算其幅度譜4和相位譜t ;根據窗函數對I進行加窗操作得到屬,對爲進行快速傅 里葉變換后計算其幅度譜&和相位譜0i;對幅度譜化和幅度譜&進行平均得到1 ;對以 Z為幅度譜和以叭為相位譜的信號進行快速傅里葉逆變換,根據快速傅里葉逆變換的結 果計算〇i。
[0011] 補償模塊的iLBC丟包補償處理具體用于:對丟失幀重建線性預測系數,并且重建 殘差號。
[0012] 本發明對丟包后的音頻流解碼,并將解碼得到的音頻信號進行反轉,然后對音頻 信號和反轉音頻信號分別進行丟包補償,并將補償后的反轉音頻信號再次反轉,最后對兩 路補償后的音頻信號進行幅度平均得到輸出信號,這種雙向預測差錯掩蔽技術可以進一步 提高音頻質量,特別在丟包率比較高的網絡環境下,仍然可以獲得比較清晰的語音效果。
[0013] 通過以下參照附圖對本發明的示例性實施例的詳細描述,本發明的其它特征及其 優點將會變得清楚。
【專利附圖】
【附圖說明】
[0014] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可 以根據這些附圖獲得其他的附圖。
[0015] 圖1為本發明網絡音頻丟包掩蔽方法一個實施例的流程示意圖。
[0016] 圖2為本發明采用的Hanning窗函數示意圖。
[0017] 圖3為本發明采用滑動窗口對語音信號疊加操作示意圖。
[0018] 圖4為本發明對錯誤掩蔽后的語音質量進行評估的結果示意圖。
[0019] 圖5為本發明網絡音頻丟包掩蔽裝置一個實施例的結構示意圖。
【具體實施方式】
[0020] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。以下 對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發明及其應用或使 用的任何限制。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提 下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0021] 為了在丟包率比較高的網絡環境下獲得比較清晰的語音效果,本發明采用雙向預 測差錯掩蔽技術可以進一步提高音頻質量,特別在丟包率比較高的網絡環境下,仍然可以 獲得比較清晰的語音效果。
[0022] 圖1為本發明網絡音頻丟包掩蔽方法一個實施例的流程示意圖。
[0023] 如圖1所示,本實施例的網絡音頻丟包掩蔽方法包括以下步驟:
[0024] S101,將丟包后的音頻流解碼為PCM (脈沖編碼調制)信號,將丟包導致缺失的數 據段的PCM數據值設為0,將處理后的PCM信號作為音頻信號S。
[0025] S102,對音頻信號S進行時間反轉得到音頻信號S'。
[0026] 本實施例可以將音頻信號S和音頻信號S'分別存入兩個緩沖區。
[0027] S103,音頻信號S經過iLBC丟包補償處理得到音頻信號Si,音頻信號S'經過iLBC 丟包補償處理得到音頻信號Si'。
[0028] 其中,iLBC丟包補償處理過程后續詳細說明。
[0029] S104,對音頻信號Si'進行時間反轉得到音頻信號Sit。
[0030] S105,對音頻信號Si和音頻信號Sit按滑動窗口進行幅度譜平均得到輸出的音頻 信號So。
[0031] 本發明提出一種示例性的幅度譜平均方法,可以參考步驟(1)?步驟(5),具體如 下:
[0032] (1)假設有兩段相同長度的音頻信號Si和音頻信號Sit,進行疊加得到輸出音頻 信號So的具體做法為:
[0033] 采用滑動窗口 b對音頻信號Si,音頻信號Sit,音頻信號So進行分幀,每幀的長度 2N,兩幀之間的滑動間隔為N,即每一幀與其前后兩幀間分別有50%的重疊。這樣做可以保 證疊加得到的語音的平滑性,并記音頻信號Si中的第i幀數據為矢量a i,音頻信號Sit中 的第i幀數據為矢量0 i,音頻信號So中的第i幀數據為矢量Op 2N點對應的Hanning (漢 明)窗函數的矢量為w。
[0034] 圖2為本發明采用的Hanning窗函數示意圖,如圖2所示,Hanning窗的長度為2N, N=80。
[0035] 圖3為本發明采用滑動窗口對語音信號疊加操作示意圖,如圖3所示,兩個滑動窗 口之間的間距為1/2幀。
[0036] (2)根據窗函數對a i進行加窗操作得到先?,對&進行快速傅里葉變換(簡稱FFT) 后計算其幅度譜A和相位譜小it)
[0037] 加窗操作可以參考如下公式:
[0038]
【權利要求】
1. 一種網絡音頻丟包掩蔽方法,包括: 將丟包后的音頻流解碼為脈沖編碼調制PCM信號,將丟包導致缺失的數據段的PCM數 據值設為〇,將處理后的PCM信號作為音頻信號S ; 對音頻信號S進行時間反轉得到音頻信號S' ; 音頻信號S經過因特網低比特率編碼iLBC丟包補償處理得到音頻信號Si,音頻信號 S'經過iLBC丟包補償處理得到音頻信號Si' ; 對音頻信號Si'進行時間反轉得到音頻信號Sit ; 對音頻信號Si和音頻信號Sit按滑動窗口進行幅度譜平均得到輸出的音頻信號So。
2. 根據權利要求1所述的方法,其特征在于,所述對音頻信號Si和音頻信號Sit按滑 動窗口進行幅度譜平均得到輸出的音頻信號So,具體包括: 采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進行分幀,每幀的長度2N,兩 幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數據為矢量a i,音頻信號Sit中的第 i幀數據為矢量0 i,音頻信號So中的第i幀數據為矢量h,窗函數的矢量為w ; 根據窗函數對a ,進行加窗操作得到A,對&進行快速傅里葉變換后計算其幅度譜& 和相位譜小i ; 根據窗函數對I進行加窗操作得到爲,對爲進行快速傅里葉變換后計算其幅度譜& 和相位譜0 i ; 對幅度譜4和幅度譜&進行平均得到:?; 對以Z為幅度譜和以小i為相位譜的信號進行快速傅里葉逆變換,根據快速傅里葉逆 變換的結果計算〇i。
3. 根據權利要求1所述的方法,其特征在于,所述iLBC丟包補償處理具體包括:對丟 失幀重建線性預測系數,并且重建殘差信號。
4. 根據權利要求3所述的方法,其特征在于,所述對丟失幀重建線性預測系數具體包 括:將過去幀的最后一個子幀的線性預測系數作為丟失幀的線性預測系數。
5. 根據權利要求3所述的方法,其特征在于,所述重建殘差信號具體包括:對前一幀進 行基音檢測,以基音同步方式重建丟失幀的語音部分,利用相關性得到類噪音的增益,將語 音部分與類噪音混合以重建殘差信號。
6. -種網絡音頻丟包掩蔽裝置,包括: 解碼模塊,用于將丟包后的音頻流解碼為脈沖編碼調制PCM信號,將丟包導致缺失的 數據段的PCM數據值設為0,將處理后的PCM信號作為音頻信號S ; 反轉模塊,用于對音頻信號S進行時間反轉得到音頻信號S' ; 補償模塊,用于音頻信號S經過因特網低比特率編碼iLBC丟包補償處理得到音頻信號 Si,音頻信號S'經過iLBC丟包補償處理得到音頻信號Si' ; 反轉模塊,還用于對音頻信號Si'進行時間反轉得到音頻信號Sit ; 幅度平均模塊,用于對音頻信號Si和音頻信號Sit按滑動窗口進行幅度譜平均得到輸 出的音頻信號So。
7. 根據權利要求6所述的裝置,其特征在于,所述幅度平均模塊,具體用于: 采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進行分幀,每幀的長度2N,兩 幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數據為矢量a i,音頻信號Sit中的第 i幀數據為矢量0 i,音頻信號So中的第i幀數據為矢量h,窗函數的矢量為w ; 根據窗函數對a ,進行加窗操作得到4,對進行快速傅里葉變換后計算其幅度譜Ai和相位譜小i ; 根據窗函數對I進行加窗操作得到,對爲進行快速傅里葉變換后計算其幅度譜& 和相位譜0 i ; 對幅度譜Ai和幅度譜&進行平均得到Z ; 對以I為幅度譜和以t為相位譜的信號進行快速傅里葉逆變換,根據快速傅里葉逆 變換的結果計算〇i。
8. 根據權利要求6所述的裝置,其特征在于,所述補償模塊的iLBC丟包補償處理具體 用于:對丟失幀重建線性預測系數,并且重建殘差信號。
9. 根據權利要求8所述的裝置,其特征在于,所述補償模塊在重建線性預測系數時具 體用于:將過去幀的最后一個子幀的線性預測系數作為丟失幀的線性預測系數。
10. 根據權利要求8所述的裝置,其特征在于,所述補償模塊在重建殘差信號時具體用 于:對前一幀進行基音檢測,以基音同步方式重建丟失幀的語音部分,利用相關性得到類噪 音的增益,將語音部分與類噪音混合以重建殘差信號。
【文檔編號】G10L19/005GK104347076SQ201310345063
【公開日】2015年2月11日 申請日期:2013年8月9日 優先權日:2013年8月9日
【發明者】屈振華, 江洪, 尹梅, 馬濤, 張海濤, 龍顯軍, 陳珣, 王剛, 王哲, 區洪輝, 黃梓南, 胡文勝, 許捷翰, 葉文超, 劉豪, 郭英 申請人:中國電信股份有限公司