專利名稱:基于支撐向量機的基帶時域音頻信號分類方法
技術領域:
本發明屬于信號處理技術領域,具體涉及一種基于支撐向量機的基帶時域音頻信號分類方法。
背景技術:
本發明應用于無線電偵測系統中,所處理的信號是已經解調之后的基帶時域音頻信號,信號可能是被噪聲不同程度污染的語音信號,也可能是純噪聲信號,其中噪聲均以白噪聲為主且混有少量有色噪聲,利用SVM的原理構建一種分類器,對信號類型進行簡單有效的鑒別分類。
以下的文章和專利文獻,基本覆蓋了該領域主要的背景技術。為了交待出技術的發展過程,讓它們時間順序排列,并逐個介紹文獻的主要貢獻。I. S. Gokhun Tanyer, Hamza ozer, “Voice Activity Detection inNonstationary Gaussian Noise”,Proceedings of ICSP, 1620-1623,1998.語音端點檢測(Voice Activity Detection, VAD)是指從噪聲中K別出語音的過程,文章提出了能量門限方法、過零率方法、最小二乘周期估計器和自適應能量門限的方法,其中能量門限方法和過零率方法多適用于信號信噪比(signal to noise ratio, SNR)較高的情況下,在信噪比較低時虛警很高,而最小二乘周期估計器會由于噪聲非平穩包含周期性而導致檢測失敗。同時文章還提出將多種方法融合進行語音信號檢測的策略。2. C. J. C. Burges, “A Tutorial on Support Vector Machines for PatternRecognition,,,Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 121-167, 1998.詳細介紹了 SVM的基本原理以及結論推導,SVM的方法是從線性可分情況下的最優分類超平面提出來的,其基本思想可以概括為首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優先性分類超平面。“最大間隔”和“將數據投影至更高維空間”是其核心概念,SVM構成通常意義上的二類模式分類器。但是該文章多是對SVM基本原理進行公式推導的證明,并沒有給出在語音信號檢測方面應用的提示和指導。3. S. Gokhun Tanyer, Hamza ozer, “Voice Activity Detection inNonstationary Noise,,,IEEE Trans. Speech Audio Process. , vol. 8, no. 4, pp. 478-481, Jul. 2001提出自適應能量門限的語音端點檢測方法并給出實施策略,其中應用到幾何方法計算信號SNR,減少了對噪聲信號先驗信息的依賴。但是該SNR的估計方法受信號累積分布的影響,不能對噪聲信號信息進行充分學習,參數選取和調整較為困難,在噪聲非平穩的情況下SNR估計有偏差。4. Quanwei Cai, Ping Wei, Xianci Xiao, “A Digital Modulation RecognitionMethod”,Proceedings of ICASSP, 2004,pp 863 - 866提出了基于SVD的信號SNR估計原理和方法,簡單易行,沒有對該方法的性能進行探討,也沒有給出計算參數的選取方法。
5. Cheol-Sun Park, Won Jang, Sun-Phil Nah. and Dae Young Kim, “AutomaticModulation Recognition using Support Vector Machine in Software RadioApplications”,in Proc. 9th IEEE ICACT, Feb. 2007, pp. 9-12提出基于SVM的信號調制方式識別的方法,以信號的歸一化中心對稱瞬時幅度的功率譜密度最大值Ymax、信號強分量瞬時相位中的中心對稱非線性分量絕對值的標準差O ap、信號強分量瞬時相位中的中心對稱非線性分量的標準差0 dp、接收信號的歸一化中心對稱瞬時幅度絕對值的標準差O心以及信號強分量中歸一化瞬時頻率絕對值的標準差0af作為特征量輸入獲得結果,即使在信號低SNR的情況下也取得準確地分類結果。
發明內容
為了克服上述現有技術的不足,本發明的目的在于提供了一種基于支撐向量機的基帶時域音頻信號分類方法,對基帶時域音頻信號進行處理,提取特征量作為分類器的輸入以獲取對信號類型的鑒別分類結果,從而將語音信號和噪聲信號分類。 為了實現上述目的,本發明采用的技術方案是基于支撐向量機的基帶時域音頻信號分類方法,包括如下步驟步驟一將總長度為N的基帶時域音頻信號序列s = {s (I),s (2), ,s (N)}分為
S1 — (I), (2),..., (Z)}
1(段,每段長度為1,得到初始分段子序列?.2 _{'"2(1)’'"2(2)’‘‘_’'"2(1)},其中Si(m) =S ((i-1)
~ ( OX (2), j (I)}
L+m) (i = I,2,. . .,K,m = I,2,. . .,L),然后每個初始分段子序列分別減去各自的均值,可
X1 =(^(1),^(2),...,^(1)}
得零均值分段子序齊X2={X2(lXX2(2X…AM,其中p
,/Ji
X1 ' = X1W
,_T步驟二 對每個零均值分段子序列進行加窗處理,得到結果為 ,_X2W ,其中
XK ' =
W為漢寧窗;步驟三對加窗處理后的結果分別進行傅里葉變換處理,得到每個加窗后的零均
卞=| ^FTXx1') I= U(I),/⑵(M)}
f =| FFT(x2') I= {/2 (I), L (2), ...JAM)}
值分段子序列的頻譜幅度序列為山、 ,其中M是頻譜
fK =I FFT(xk ') I= {fK(I), fK(2),...Jk(M))
幅度序列的長度;步驟四分別求出每個頻譜幅度的標準差d= {d(l), d(2),...,d(K)},其中,然后求出所有標準差的平均值,得到i亥基帶時域音頻
\M-Iz^l Mtt
信號序列的一個特征量,即頻譜幅度標準差0 =錢#);
^ i=l步驟五將各個零均值分段子序列X1, X2,..., xK按照次序依次組合成為一個長序列X,即X = {x1; X2, ... , xK} = {x(l), x(2), . . . , x(N)},然后計算出該序列的歸一化自相
rO rI rQ
ff *IJ\[—i
關矩陣,結果為尺=' .° :,其中^是自相關矩陣的維
; y'r 1 tajy H
rQ rI r0」勻
數,取值范圍為[50,90];步驟六對自相關矩陣R進行奇異值分解,得到R = V A VH,其中A =CliagU1,入 2,…,入 Q)QXQ = diag( Y ^ o 2,…,yp+o 2, o 2,…,o 2)QXQ,且Y1S Y2彡…彡Yp,從而得到子空間的分界點P ;
P八步驟七根據A I e。A = IOlQg ^PXa計算出該基帶時域音頻
U =- > A ,&'
Q-P^gxa2
信號序列的另一個特征量,記為信噪比參量SNR'步驟八將該基帶時域音頻信號序列的兩個特征量,即頻譜幅度標準差D和信噪比參量S&R,構成輸入向量,送入已經訓練過的SVM分類器中,從而鑒別出該基帶時域音頻信號的種類,區分出語音信號和噪聲信號。上述的子空間分界點p可由如下方法得到由E1 =j^ D,其中
是對自相關矩陣維數處理結果的向下取整,計算出末T+1個特征值入Q_T,入Q_T+1,...,Aq的均值,然后所有大于1.5Ea的特征值中最大的下標為P,即p = Ul Ai > 1.5Ea,入i+1< I. 5EA}。上述將總長度為N的基帶時域音頻信號序列s = {s (I),s (2), ,s (N)}分為K段,每段所對應的時間應不大于20ms。與現有技術相比,本發明通過訓練的方式更多的獲取待分類信號的先驗信息,選取適當的輸入特征量能夠迅速有效的獲得分類結果。為了反映語音信號和噪聲信號的區另IJ,選擇信號SNR參量和信號頻譜幅度標準差作為分類器的輸入特征量,既方便計算又能夠很好的實現信號的鑒別和分類。本發明能夠有效地檢測鑒別語音信號和噪聲信號,選取的兩個輸入特征量信號信噪比參量和信號頻譜幅度標準差計算簡單又能有效的反映出兩種信號的區別,即使在信噪比較低的情況下也能夠保證較高的分類正確率。本發明適用于實時信號處理,易于實現,可很好地用于無線電應用中。
圖I是本發明流程圖。
圖2是輸入特征量為信號信噪比參量時的概率密度分布圖。圖3是輸入特征量為頻譜幅度標準差時的概率密度分布圖。圖4是SVM分類器工作結果示意圖。
具體實施例方式下面結合附圖和實施例對本發明做進一步詳細說明。本發明基于SVM原理設計分類器,通過對基帶時域音頻信號序列處理提取特征量,將其作為輸入送入訓練完畢的分類器,從而鑒別出音頻信號的類型,對語音信號和噪聲信號進行正確分類。
如圖I所示,實現步驟如下步驟一由于要處理的是已經經過解調的基帶時域音頻信號序列,首先應對信號進行預處理,以便于提取充分反映信號特征的特征量。將總長度為N的基帶時域音頻信號序列s = {s (I),s (2), ,s (N)}均勻分成K段,每段長度為L,每段所對應的時間應不大于20ms。
S1 — (I), (2),..., (Z)} S9 = (I), sn (2),..., (Z)}得到初始分段子序列..2.2W/,其中Si(m) = s((i-l)
~ ( OX (2), j (I)}
L+m) (i = 1,2, . . . , K, m = 1,2, . . . , L),然后每個初始分段子序列分別減去各自的
X1 =(^(1),^(2),...,^(1)}
均值以除去直流分量,從而可得零均值分段子序列^_{X2(1XX2(2)’…A⑹},其中
xK ={xk(1\xk(21...,xk(L)}
I 1
xt(m) = St(Jn)--YjSlU)。
L ;=i步驟二 為了降低對分段子序列進行頻域處理時旁瓣對結果的影響,選用漢寧窗
,/Ji
X1 ' = X1W
,_T
對每個零均值分段子序列進行加窗處理。加窗后的結果為,X W ,其中W為漢寧窗序
xK ' =列。步驟三對加窗處理后的結果分別進行傅里葉變換處理,得到每個加窗后的零均
卞=| ^FTXx1') I= U(I),/⑵(M)} f =| FFT(x2') I= {/2 (I), L (2), ...JAM)}
值分段子序列的頻譜幅度序列為八,其巾FFT的點
fK =I FFT(xk ') I= {fK (I), fK (2), ...JAM))
數應為大于子序列長度2 4倍的2的冪指數2% M是頻譜幅度序列的長度。
步驟四利用標準差的無偏估計形式邱)=J^rf;ac/+)-if;y;(/))2分別求
出每個分段子序列的頻譜幅度的標準差d = {d(l),d(2),. . .,d (K) },然后求出所有標準差
的平均值,就得到該時域音頻信號序列的一個特征量,即頻譜幅度標準差D =。
^ i=l信號信噪比參量如圖2所示,其中橫坐標是信號信噪比參量的取值范圍,縱坐標是概率密度;頻譜幅度標準差的概率密度函數如圖3所示,其中橫坐標是頻譜幅度標準差的取值范圍,縱坐標是概率密度。從圖中可以看出噪聲信號的特征量分布較為集中,因此單個特征量可以一定程度上反映語音信號和噪聲信號的區別,但是不能將兩類信號完全有效地區分開,所以需要聯合兩者作為分類器的輸入量才能實現正確的信號分類,因此繼續執行以下步驟。
步驟五接著對音頻信號序列進行處理已獲得另外一個特征量。首先將各個零均值分段子序列X1, X2,. . .,Xk按照次序依次組合成為一個信號長序列X,即得到X = {Xl,X2, ...,%} = {x(l), x(2), ...,x(N)},然后計算出該序列的歸一化自相關矩陣,結果為
~r0 rI rQ
ff *IJ\[—i
R= ' -° 、,其中^i>(/)x(/+/),且Q是自相關矩陣的維數,取值范圍
rQ rI r。」勻
為[50,90],本發明中取值為70。步驟六對自相關矩陣R進行SVD分解,得到R = VAVH。假設語音信號和噪聲信號是相互獨立的,R = Rx+Rn = V(Ax+An)VH = VAVH,其中Rx、Rn分別是語音信號和噪聲信號的自相關矩陣。由SVD 分解可知 Ax = diag( Y 1; Y2,, Yp,0,…,0)QXQ,Y 丄彡 Y 2 彡…彡 Yp,An = diag( O 2,O 2,...,o2)QXQ,A — diag(X1,入 2,…,入 q)qxq — diag( Y 1+ 0,*** Yp+ 0,o,...,o )qxq。通過其中^ =是對自相關矩陣維數處理結果的向下取
整,計算出末T+1個特征值XQ_T,A Q_T+1, . . . , Xq的均值,然后搜尋所有大于I. 5Ea的特征值中最大的下標為分界點P,即P= Ul Ai > 1.5E入,入i+1 < 1.5Ea}。
P八
V Ai - /7 X a2步驟七根據a2 I Sr SNR = IOXoq,--計算出該基帶時域音頻
(7 =- > Ai ,&'
Q-Piz^Qxct2
信號序列的另一個特征量,即信噪比參量SNR,能夠在一定程度上反映出信號的信噪比情況。步驟八將該基帶時域音頻信號序列的兩個特征量,即頻譜幅度標準差D和信噪比參量SNR,構成輸入向量,送入訓練完畢的SVM分類器中,就可以得到該基帶時域音頻信號的分類結果,區分出語音信號和噪聲信號。執行該步驟的分類器工作結果如圖4所示,其中“ + ”是語音信號特征量,是噪聲信號特征量,在空間中兩類特征量可 以被正確隔離,由此證實該基于SVM的基帶時域音頻信號分類器能夠有效地鑒別信號類型并且正確地分類。
權利要求
1.基于支撐向量機的基帶時域音頻信號分類方法,其特征在于,包括如下步驟 步驟一將總長度為N的基帶時域音頻信號序列
2.根據權利要求I所述信號分類方法,其特征在于,子空間分界點p可由如下方法得至IJ :由
3.根據權利要求I所述信號分類方法,其特征在于,所述步驟一中分為K段,每段對應的時間不大于20ms。
全文摘要
基于支撐向量機的基帶時域音頻信號分類方法,首先將基帶時域音頻信號序列分段,得到初始分段子序列,然后每個初始分段子序列分別減去各自的均值,得零均值分段子序列,接著對每個零均值分段子序列進行加窗處理,將結果分別進行傅里葉變換處理,得到分段子序列的頻譜幅度,分別求出每個頻譜幅度的標準差得到一個特征量,將各個零均值分段子序列按照次序依次組合成為一個長序列,然后計算出該序列的歸一化自相關矩陣,對自相關矩陣進行奇異值分解,得到子空間的分界點,再計算出該基帶時域音頻信號序列的另一個特征量信噪比參量;最后將兩個特征量構成輸入向量送入已經訓練過的SVM分類器中,從而鑒別出該基帶時域音頻信號的種類,區分出語音信號和噪聲信號。
文檔編號G10L19/00GK102760444SQ20121012508
公開日2012年10月31日 申請日期2012年4月25日 優先權日2012年4月25日
發明者劉一民, 孟華東, 李元新 申請人:清華大學