專利名稱:一種基于張量分解的多聲道音頻信號壓縮方法
技術領域:
本發明涉及一種多聲道音頻信號壓縮方法,尤其是一種基于張量分解的多聲道信號壓縮方法,屬于音頻信號處理技術領域,尤其是空間音頻編解碼技術領域。
背景技術:
在數字音頻應用領域,多聲道音頻能夠提供臨場感的環繞聲音感受,這是傳統立體聲信號所不能提供的。隨著人們對數字音頻信號的高享受的需求,高效的音頻信號壓縮方法越來越被研究者重視。為了產生空間環繞的效果,多聲道信號編解碼技術例如DolbyAC-3,DTS以及MPEG Surround等相繼被提出,這些方法在編碼端大多需要傳輸由多聲道下混后的單聲道或立體聲信號,并提取空間音頻參數一并傳輸,以便在解碼端再上混為多聲道信號。隨著虛擬現實、3D游戲、高質量視頻會議等交互式音頻應用的發展,多聲道音頻信號需要以盡可能低的速率壓縮傳輸,而聲道數目的增多(甚至于幾百聲道)難以有較大程度的壓縮效果,如何利用聲道間和聲道內的相關性進行高效壓縮是多聲道音頻編碼領域的關鍵問題。多聲道信號相比傳統的單聲道和立體聲信號研究的影響因素增多,至少涉及聲道、時域、頻域三種因素,構成一種高階信號空間,適合用張量結構表示和分析,進而通過構建張量信號利用張量分解方法進行低秩近似達到壓縮的目的。張量分析方法近十年來在三維圖像處理、說話人識別、數據挖掘等信號處理領域已有廣泛應用,例如在語音信號的特征提取方面,Jeong等人提出了利用張量分析對語音信號的訓練模型狀態、特征維度、說話人、噪聲空間進行多線性奇異值分析的方法;Mesgarani等人提出了聲音信號從耳蝸到大腦皮層階段產生的多尺度暫態語譜圖特征,利用多線性降維技術進行處理,可以在低信噪比或者高回響的環境下或得較高的分辨率;我國公開號為CN102592593A (
公開日為2012年7月18日)的專利“一種考慮語音中多線性群組稀疏性的情緒特征提取方法”,考慮了語音信號中包括的時間、頻率、尺度、方向信息的多重因素,利用多線性群組稀疏分解的方法進行特征提取。而在多聲道音頻信號處理領域,尚未見有運用張量分解進行空間音頻表示和壓縮的應用。
發明內容
本發明的目的是為了充分表征和高效壓縮多聲道音頻信號,提出了一種基于張量分解的多聲道音頻信號壓縮方法,解決了傳統多聲道音頻編解碼只能用矢量或矩陣代數進行運算,不能同時考慮聲道和時頻的多因素影響的問題。為了實現上述目的,本發明方法的基本思路是對多聲道音頻信號,首先在編碼端,將每個聲道的音頻信號通過交疊分幀和時頻變換,對變換后的多聲道信號建立包含聲道、時域和頻域的三階張量信號,并利用張量分解進行低秩近似,得到低秩核張量和三個低秩投影矩陣,其中低秩核張量用于量化編碼壓縮,三個低秩投影矩陣用于訓練過程,在解碼端,將解量化和解碼后的低秩核張量結合事先訓練好的三個低秩投影矩陣,通過張量信號重構過程得到變換域的多聲道信號,最后對每個聲道信號進行反變換,并通過交疊相加恢復原來的每個聲道的音頻信號。本發明所述一種基于張量分解的多聲道音頻信號壓縮方法,包括以下步驟步驟一在編碼端,對待處理的聲道數目為R的多聲道音頻信號,首先將每個聲道的音頻信號采用漢明窗進行分幀,幀長為L,幀移為M,從而把每個聲道的音頻信號分成N幀,順序排列后得到每個聲道的幀序列;步驟二 對每個聲道,對分幀后的每幀音頻信號分別進行時頻變換,每幀音頻信號經過該時頻變換后得到長度為S的頻域系數;若每幀音頻信號補零后進行時頻變換,則S大于L ;
若每幀音頻信號直接進行時頻變換,則S等于L ;若每幀音頻信號直接進行時頻變換后只保留能量較大的頻域系數,則S小于L ;若每幀音頻信號補零后進行時頻變換后只保留能量較大的頻域系數,則S的大小視具體補零的長度以及保留頻域系數的個數而定;所述的時頻變換為正交變換;所述的時頻變換優選采用DCT離散余弦變換;步驟三對每個聲道,將每一幀所對應的長度為S的頻域系數作為矩陣的每一行,即將N幀音頻信號的頻域系數構成一個大小為NXS的系數矩陣;將所有R個聲道的系數矩陣進行依次排列,構成大小為RXNXS的三階張量信號X,所述的三階分別稱為聲道序列階、幀序列階、頻域系數階;步驟四對步驟三構造的三階張量信號X進行張量分解,即分解為GX1U(DX2W) X3U⑶ (I)其中U⑴、U⑵、U(3)彼此之間正交,分別代表張量信號在聲道序列階、幀序列階、頻域系數階上進行投影的主分量,即,U⑴為該張量信號分解時在聲道序列階進行秩為O的低秩投影矩陣,矩陣大小為RX0,其中參數O應滿足1<0<R;U 為該張量信號分解時在幀序列階進行秩為P的低秩投影矩陣,大小為NXP,其中參數P應滿足I< P < N ;U(3)為張量信號分解時在頻域系數階進行的秩為Q的低秩投影矩陣,大小為SXQ,其中參數Q應滿足KQSS;G為三階低秩核張量,在聲道序列階、幀序列階、頻域系數階上的維度分別是上述的O、P、Q,核張量G通過下式計算得到G =(2)符號T表示偽逆,Xp X2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下設有一個大小為I1X I2 X…X In的N階張量H,一個大小為JX In的矩陣Α,則張量的η階矩陣乘HXnA的結果是一個大小為I1X I2X…X IlriX JX Ιη+1 X…X In的N階張量,其中KnSN;作為優選,步驟四中,所述張量分解時求取低秩投影矩陣采用ALS交替最小二乘法,或者HOSVD高階奇異值分解的方法;
作為優選,在幀序列階上不進行低秩投影,即P=N,而在聲道序列階和頻域系數階上進行低秩投影,即I彡0<1 且1彡0<5。步驟五對步驟四得到的三階低秩核張量G進行降維獲得一維序列,然后對該一維序列進行量化編碼,獲得壓縮后的比特流數據,用于傳輸或存儲,而低秩投影矩陣U(1)、U⑵、u(3)不進行量化編碼處理;步驟六在解碼端,對壓縮后的比特流數據進行與步驟五中量化編碼方法相應的解碼和解量化,再進行與步驟五相應的升維處理,得到恢復后的低秩核張量G’ ;結合預先訓練得到的三個低秩投影矩陣U’(1)、U'⑵、U' (3),進行張量信號重構得到恢復后的三階張量信號Y,重構表示為、Y = G' X1U' (1)X 2U,⑵ X 3U,⑶ (4)其中張量信號Y在聲道序列階、幀序列階、頻域系數階上的維度分別是R、N、S ;其中所述所述預先訓練得到三個低秩投影矩陣U’ (1)、U, (2)、U, (3)的方法為選取V組多聲道音頻信號,每組的聲道數目均為R個,對每組多聲道音頻信號重復上述的步驟一、二、三、四,得到V組低秩投影矩陣Uv(1)、UV⑵、Uv(3),其中I彡V彡V,將V組低秩投影矩陣UV(1)、UV(2)、UV(3)分別進行平均,即得到訓練后的低秩投影矩陣U’(1)、u’ (2)、u’(3);作為優選,V ^ 10 ;步驟七步驟六得到的RXNX S的三階張量信號Y中包含R個聲道的N個幀,其中每幀長度為S,從Y中抽取每個聲道的NXS系數矩陣,對矩陣的每行的S個數據,分別進行與步驟二相應的時頻反變換,得到恢復的每幀音頻信號;作為優選,若步驟二所述的時頻變換采用離散余弦變換DCT,則步驟七所述的時頻反變換采用反離散余弦變換IDCT。步驟八將步驟七得到的每個聲道的每幀音頻信號通過交疊相加恢復每個聲道的音頻信號,幀長為L,幀間交疊長度為M。對比現有技術,本發明的有益效果在于本發明考慮了多聲道音頻信號同時受到聲道、時域、頻域三方面因素影響的特點,將多聲道音頻信號通過時頻變換和張量分解轉換為低秩核張量進行編解碼,從而更好的利用聲道間和聲道內的相關性去處冗余信息,達到高效壓縮的目的。本發明結合時頻變換和張量分解對多聲道音頻信號進行分析和壓縮,相比傳統的多聲道音頻編解碼方法增強了對聲道間冗余信息的壓縮能力,且不需要傳輸額外的空間參數信息,能夠提高多聲道音頻信號的壓縮效果。
圖1是利用張量分解對多聲道音頻信號進行編解碼的流程圖;圖2是張量/[目號構造不意圖;圖3是本發明具體實施例中5.1聲道音頻信號壓縮后的MUSHRA主觀質量測試結果圖。
具體實施例方式下面將結合附圖和實施例對本發明加以詳細說明,同時也敘述了本發明技術方案解決的技術問題及有益效果,需要指出的是,所描述的實施例僅旨在便于對本發明的理解,而對其不起任何限定作用。如圖1所示,本發明的基于張量分解的多聲道音頻信號壓縮方法的一個具體實施例包括以下步驟步驟一編碼端,對待處理的多聲道音頻信號(聲道數目為R),首先將每個聲道的音頻信號采用漢明窗進行分幀,幀長為L,幀移為M,從而把音頻信號分成N幀,順序排列后得到每個聲道的幀序列;以5.1聲道的空間音頻信號為例,則R的取值為6,這里取值幀長為L=960個樣點,幀移為M=480個樣點,音頻信號分幀為N=899幀;步驟二 對每個聲道,對分幀后的每幀音頻信號分別進行DCT離散余弦變換(也可以是其他的正交變換),每幀音頻信號經過DCT變換后得到S個DCT系數,即頻域系數;作為優選,S的取值與幀長相等,即S=960 ; 如果S < L則步驟七恢復每幀音頻信號的時候頻域補值,如果S>=L則變換時時域補值;步驟三對每個聲道,將每一幀所對應的長度為S的頻域系數作為矩陣的每一行,即將N幀音頻信號的頻域系數構成一個大小為NXS的系數矩陣;將所有R個聲道的系數矩陣進行依次排列,構成大小為RXNXS的三階張量信號X,所述的三階分別稱為聲道序列階、幀序列階、頻域系數階;該三階張量信號X如圖2所示;步驟四對步驟三構造的三階張量信號X進行張量分解,分解表示為G X !U(1) X 2U ⑵ X 3U ⑶ (I)其中U⑴、U⑵、U(3)彼此之間正交,分別代表張量信號在聲道序列階、幀序列階、頻域系數階上進行投影的主分量,即,U⑴為該張量信號分解時在聲道序列階進行秩為O的低秩投影矩陣,矩陣大小為RX0,其中參數O應滿足KOSR;U 為該張量信號分解時在幀序列階進行秩為P的低秩投影矩陣,大小為NXP,其中參數P應滿足I < P < N ;U(3)為張量信號分解時在頻域系數階進行的秩為Q的低秩投影矩陣,大小為SXQ,其中參數Q應滿足KQSS;由于受到信號平穩性的影響,幀序列階上的低秩投影過程對多聲道音頻信號的重建質量的影響相比其他兩個階上的低秩投影過程影響較大,所以在幀序列階上可以不進行低秩投影,亦即P=N=899 ;而其他兩個階上可以進行較大程度的低秩投影,從而得到較大程度的壓縮效果;即低秩投影的優選取值方式為I ^ O < R, P=N ;1 ^ Q < S ;G為三階低秩核張量,在聲道序列、幀序列、頻域系數對應各階上的維度分別是上述的O、P、Q,核張量G通過下式計算得到G =(2),符號T表示偽逆,XpX2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下設有一個大小為I1X I2X…XIn的N階張量H,一個大小為JXIn的矩陣Α,則張量的η階(I彡η彡N)矩陣乘為HXnA的結果是一個大小為I1X I2X…X Ilri X J X In+1 X …X In 的 N 階張量;作為優選,上述張量分解進行低秩近似的過程采用Evrim Acar等人在文獻《AnOptimization Approach for Fitting Canonical Tensor Decompositions))中 13-14 頁所提出的ALS交替最小二乘法獲得,但此處不限于采用交替最小二乘法;或者或者采用Lathauwera 等人在《a multilinear singular value decomposition》中所提至Ij的 HOSVD高階奇異值分解的方法。步驟五對步驟四得到的低秩核張量G進行降維獲得一維序列,然后對該一維序列進行量化編碼,獲得壓縮后的比特流數據,用于傳輸或存儲,而低秩投影矩陣u(1)、u(2)、u(3)不進行量化編碼處理;步驟六在解碼端,對壓縮后的比特流數據進行與步驟五中量化編碼方法相應的解碼和解量化,再進行與步驟五相應的升維處理,得到恢復后的低秩核張量G’ ;
結合預先訓練得到的三個低秩投影矩陣U’ (1)、U'⑵、U' (3),進行張量信號重構得到恢復后的三階張量信號Y,重構表示為Y = G' X1U' (1)X 2U,⑵ X 3U,⑶ (4)其中張量信號Y在聲道序列階、幀序列階、頻域系數階上的維度分別是R、N、S ;步驟六中所述預先訓練得到三個低秩投影矩陣U' (1)、U, (2)、U' (3)的方法為選取V組多聲道音頻信號,每組的聲道數目均為R個,對每組多聲道音頻信號重復所述的步驟一、二、三、四,得到V組低秩投影矩陣Uv(1)、UV⑵、Uv(3),其中I彡V彡V,將V組低秩投影矩陣UV(1)、UV(2)、UV(3)分別進行平均,即得到訓練后的低秩投影矩陣U' (1)、u, (2)、u,⑶。步驟七步驟六得到的張量信號Y中包含R個聲道的N個幀,其中每幀長度為S,從Y中抽取每個聲道的NXS系數矩陣,對矩陣的每行的S個數據,分別進行反離散余弦變換IDCT得到恢復的每幀音頻信號;步驟八將步驟七反變換得到的每個聲道的每幀的音頻信號通過交疊相加恢復每個聲道的音頻信號,幀長為L,幀間交疊長度為M,獲得所有R個聲道的音頻信號恢復后多聲道音頻信號。為了進一步說明步驟四一步驟六,具體說明各參數的關系三階張量信號X的大小為6X899X960 (聲道序列X幀序列X頻域系數),張量信號X分解時對聲道序列階進行秩0=1近似,幀序列階進行秩P=899近似,頻域系數階進行秩Q=200近似,張量信號X進行張量分解后得到1X899X200的低秩核張量G,該核張量中的每個元素進行量化編碼后傳給解碼端;在解碼端經過解碼和解量化恢復后的1X899X200的低秩核張量與事先訓練得到的低秩投影矩陣結合恢復原始張量信號,其中訓練過程是選取10條多聲道音頻樣本,對每條樣本通過時頻變換和張量分解得到一組低秩投影矩陣,最后將得到的10組低秩投影矩陣進行平均用于解碼端的張量信號重構過程。本發明方法當三階低秩核張量G的大小不同時所獲得的壓縮效率不同,這里用壓
( O V/)、
縮百分比X 100%來衡量不同O和Q取值時的壓縮效果,用MUSHRA主觀質量測試
VRx-S J
方法衡量不同O和Q取值時的解碼輸出音質表現,分數越高質量越好;選取6條測試用的5.1聲道音頻信號進行實驗,實驗結果見表I和圖3 ;實驗結果顯示當0=2,Q=400時壓縮百分比為86. 1%,而主觀質量可以達到78. 7的良好程度,大量實驗表明本發明利用張量分解進行多聲道音頻信號壓縮的方法能夠在可接受的音質情況下提供很高的壓縮效率。表15.1聲道音頻信號壓縮百分比的結果表格
權利要求
1.一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,包括以下步驟 步驟一在編碼端,對待處理的聲道數目為R的多聲道音頻信號,首先將每個聲道的音頻信號采用漢明窗進行分幀,幀長為L,幀移為M,從而把每個聲道的音頻信號分成N幀,順序排列后得到每個聲道的幀序列; 步驟二 對每個聲道,對分幀后的每幀音頻信號分別進行時頻變換,每幀音頻信號經過該時頻變換后得到長度為S的頻域系數; 步驟三對每個聲道,將每一幀所對應的長度為S的頻域系數作為矩陣的每一行,即將N幀音頻信號的頻域系數構成一個大小為NXS的系數矩陣; 將所有R個聲道的系數矩陣進行依次排列,構成大小為RXNXS的三階張量信號X,所述的三階分別稱為聲道序列階、幀序列階、頻域系數階; 步驟四對步驟三構造的三階張量信號X進行張量分解,即分解為 GXWDX^XW3) (I) 其中U⑴、U⑵、U(3)彼此之間正交,分別代表張量信號在聲道序列階、幀序列階、頻域系數階上進行投影的主分量,即, u(1)為該張量信號分解時在聲道序列階進行秩為O的低秩投影矩陣,矩陣大小為RXO,其中參數O應滿足1<0<R; u(2)為該張量信號分解時在幀序列階進行秩為P的低秩投影矩陣,大小為NXP,其中參數P應滿足I< P < N ; U(3)為張量信號分解時在頻域系數階進行的秩為Q的低秩投影矩陣,大小為SXQ,其中參數Q應滿足KQSS; G為三階低秩核張量,在聲道序列階、幀序列階、頻域系數階上的維度分別是上述的O、P、Q,核張量G通過下式計算得到 G = XX1UanX2UtenX3Uon (2) 符號T表示偽逆,Xp X2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下 設有一個大小為I1X I2X…X In的N階張量H,一個大小為JX In的矩陣A,則張量的n階矩陣乘HXnA的結果是一個大小為I1X I2X…X Ilri X JX In+1 X…X In的N階張量,其中I ^ n ^ N ; 步驟五對步驟四得到的三階低秩核張量G進行降維獲得一維序列,然后對該一維序列進行量化編碼,獲得壓縮后的比特流數據,用于傳輸或存儲,而低秩投影矩陣U(1)、U(2)、U(3)不進行量化編碼處理; 步驟六在解碼端,對壓縮后的比特流數據進行與步驟五中量化編碼方法相應的解碼和解量化,再進行與步驟五相應的升維處理,得到恢復后的低秩核張量G’ ; 結合預先訓練得到的三個低秩投影矩陣U’(1)、U' (2)、U, (3),進行張量信號重構得到恢復后的三階張量信號Y,重構表示為 Y = G' X1U,⑴ X2U,⑵ X3U,⑶ (4) 其中張量信號Y在聲道序列階、幀序列階、頻域系數階上的維度分別是R、N、S ; 步驟七步驟六得到的RXNX S的三階張量信號Y中包含R個聲道的N個幀,其中每幀長度為S,從Y中抽取每個聲道的NXS系數矩陣,對矩陣的每行的S個數據,分別進行與步驟二相應的時頻反變換,得到恢復的每幀音頻信號; 步驟八將步驟七得到的每個聲道的每幀音頻信號通過交疊相加恢復每個聲道的音頻信號,幀長為L,幀間交疊長度為M。
2.根據權利要求I所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟二所述的時頻變換為正交變換。
3.根據權利要求I或2所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,若步驟二所述的時頻變換采用離散余弦變換DCT,則步驟七所述的時頻反變換采用反離散余弦變換IDCT。
4.根據權利要求I所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟四中,所述張量分解時求取低秩投影矩陣采用ALS交替最小二乘法,或者采用HOSVD高階奇異值分解的方法。
5.根據權利要求I所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟六中所述預先訓練得到三個低秩投影矩陣U,(1)、U, (2)、U, (3)的方法為選取V組多聲道音頻信號,每組的聲道數目均為R個,對每組多聲道音頻信號重復所述的步驟一、二、三、四,得到V組低秩投影矩陣Uv(1)、Uv(2)、Uv(3),其中I彡v彡V,將V組低秩投影矩陣Uv(1)、Uv⑵、Uv⑶分別進行平均, 即得到訓練后的低秩投影矩陣U,⑴、U,⑵、U,⑶。
6.根據權利要求I或5所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟六中,V彡10。
7.根據權利要求I所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟二中, 若每幀音頻信號補零后進行時頻變換,則S大于L ; 若每幀音頻信號直接進行時頻變換,則S等于L ; 若每幀音頻信號直接進行時頻變換后只保留能量較大的頻域系數,則S小于L ; 若每幀音頻信號補零后進行時頻變換后只保留能量較大的頻域系數,則S的大小視具體補零的長度以及保留頻域系數的個數而定。
8.根據權利要求I所述一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,步驟四中,在幀序列階上不進行低秩投影,即P=N,而在聲道序列階和頻域系數階上進行低秩投影,即I彡0<1 且1彡0<5。
全文摘要
本發明公開了一種基于張量分解的多聲道音頻信號壓縮方法,屬于音頻信號處理技術領域,尤其是空間音頻編解碼技術領域。將每個聲道的音頻信號進行交疊分幀,并對每幀信號進行時頻變換得到頻域系數,將所有聲道和所有幀序列的頻域系數組合,建立三階張量信號,并對其進行張量分解得到低秩核張量用于編碼傳輸,解碼端結合恢復的低秩核張量和事先訓練的低秩投影矩陣進行張量信號重建,對重建后的張量信號再進行每個聲道上反變換和交疊相加恢復多聲道音頻信號。本方法結合時頻變換和張量分解對多聲道音頻信號進行分析和編解碼,利用聲道間和聲道內的相關性去處冗余信息,能較大程度提高多聲道音頻信號的壓縮效率。
文檔編號G10L19/008GK102982805SQ201210579570
公開日2013年3月20日 申請日期2012年12月27日 優先權日2012年12月27日
發明者王晶, 謝湘, 匡鏡明 申請人:北京理工大學