本發明涉及一種音頻事件模型合成信道自適應方法,屬于計算機與信息科學技術領域。
背景技術:
音頻事件模型可識別、分類具有特定語義或內容的音頻片段。為了解決不同音頻傳輸信道對音頻特征參數的差異性影響,而引發的模型識別能力下降問題,需要對產生了畸變的音頻特征參數進行自適應調整。因此,本發明將提供一種音頻事件模型合成信道自適應方法來提高系統在信道畸變環境下的事件識別能力。
音頻事件模型合成信道自適應方法需要解決的基本問題是:判定待識別音頻的信道類型并為其合成信道自適應后的音頻事件模型。綜觀現有的模型域信道自適應方法,通常使用方法可歸為三類:
1.潛在因子分析
潛在因子分析法(latentfactoranalysis,lfa)一般結合高斯混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel,gmm-ubm)對信道進行模型域自適應。該方法的基本原理是對音頻中的事件信息及信道信息進行分解,并對信道信息進行消除。假設音頻事件s通過信道c傳輸,高斯混合模型及通用背景模型的均值超向量分別表示為mgmm和mubm,則
mgmm-mubm=s+c(1)
其中,s代表事件信息,c代表信道信息。令m=mgmm-mubm,則潛在因子分析法將對m中的事件及信道信息進行分解,并試圖消除信道信息c。雖然該方法可同時考慮了事件內容、信道及噪音環境影響,并為每條音頻自適應合適的模型參數,但由于高斯混合模型中均值超向量維度過高,因此對模型訓練數據量要求大,且計算成本高、時間復雜度大,難以廣泛應用在各類事件識別任務中。
2.冗余屬性投影
冗余屬性投影法(nuisanceattributeprojection,nap)同樣是對gmm均值超向量進行分解分析,一般結合高斯混合模型-支持向量機模型(gaussianmixturemodel-supportvectormachine,gmm-svm)將待識別音頻進行超向量映射,并建立信道無關的svm事件判別模型。該方法相比lfa的計算量較小,支持多種事件類型輸入,但需要構建額外的svm事件分類器,且無法應用于gmm-ubm模型框架,模型構建成本高,普適性差。
3.說話人模型合成
說話人模型合成法(speakermodelsynthesis,sms)也是模型域信道自適應方法,由特征映射法(featuremapping,fm)改進而來,通過對待識別人聲音頻的信道判定,構建與其信道類型一致的說話人模型,規避信道信息對說話人識別的影響。該方法實現成本低,被廣泛應用于說話人識別領域,但對信道的先驗數據具有較強的依賴性,且應用范圍較窄,無法在音頻事件識別任務中直接使用。
綜上所述,現有模型域信道自適應方法難以對音頻事件識別任務中的信道進行模型域自適應,所以本發明提出一種針對音頻事件模型的合成信道自適應方法。
技術實現要素:
本發明的目的是為修正信道失配情況下模型的特征參數以提高音頻事件識別模型的綜合性能,提出一種音頻事件模型合成信道自適應方法。
本發明的設計原理為:首先對待識別音頻進行預處理和特征提取,包括對音頻的量化采樣、預加重和加窗,并對音頻的底層特征參數進行提取和特征幀序列切分,得到音頻特征段向量;然后進行音頻事件模型合成訓練,構建通用背景模型及音頻事件原始模型;最后進行音頻事件模型合成使用,選擇性的對音頻事件模型進行自適應,并完成事件判定和識別。
本發明的技術方案是通過如下步驟實現的:
步驟1,對音頻進行預處理及特征提取。
步驟1.1,對音頻量化、采樣、預加重和加窗。
步驟1.2,對音頻處理所需的音頻特征參數進行提取。
步驟1.3,然后對提取到的特征幀序列按照一定的段長和段移進行切分以獲得段特征向量。
步驟2,音頻事件模型合成訓練。
步驟2.1,利用包含各類信道類型的特征數據訓練通用背景模型。
步驟2.2,基于特定信道訓練音頻數據,自適應特定信道音頻模型。
步驟2.3,基于音頻事件訓練數據,構建音頻事件原始模型。
步驟3,音頻事件模型合成自適應。
步驟3.1,對待識別音頻的特征向量進行信道判別。
步驟3.2,基于信道比對結果,選擇性地將音頻事件原始模型轉換為與待識別音頻信道一致的自適應音頻事件模型,并對待識別音頻進行事件判別。
有益效果
相比于潛在因子分析法,本發明可以合理調整特征向量提取及生成的維度和數量,在保證識別準確率的情況下有效控制計算成本。
相比于冗余屬性投影法,本發明無需構建額外的svm事件分類器,可基于gmm-ubm框架實現模型域信道自適應方法,具備良好的普適性。
相比于說話人模型合成法,本發明對先驗數據依賴小,可適用于音頻事件識別領域。
附圖說明
圖1為本發明一種音頻事件模型合成信道自適應方法的原理圖。
圖2為具體實施方式中自適應測試效果對比圖。
具體實施方式
為了更好的說明本發明的目的和優點,下面結合實例對本發明方法的實施方式做進一步詳細說明。
具體流程為:
步驟1,對音頻進行預處理及特征提取。
步驟1.1,首先對音頻數據進行量化、采樣;然后對原始音頻數據進行預加重以使其高頻譜值與中頻譜值大小相當,以修正頻率對功率譜幅度的影響,所用數字濾波器傳遞函數為:h(z)=1-a×z-1,其中a為預加重系數;接著使用漢明窗進行加窗,減小語音幀的截斷效應,傳輸函數為
步驟1.2,使用mel頻率倒譜系數mfcc對音頻進行特征提取,首先對預處理后的音頻進行fft轉化,并計算其短時能量譜p(f),將該能量譜通過一組mel尺度的三角形濾波器組并計算每個濾波器組的輸出對數能量s(m),經離散余弦變換dct得到mfcc系數,最后采用其前12維mfcc系數及其一階差分及二階差分系數作為音頻特征。
步驟1.3,對音頻特征的連續n幀特征向量的每一維特征相加計算其均值,使音頻特征具有更好的代表性,提高過渡平滑性。
步驟2,音頻事件模型合成訓練。
步驟2.1,基于包含多種信道的信道自適應訓練音頻數據集構建信道無關的基礎
步驟2.2,基于特定信道訓練音頻數據,使用map方法自適應該信道下的ubm模型,針對n信道構建
步驟2.3,基于音頻事件訓練語音所屬信道ae的特定信道通用背景模型,應用map自適應構建音頻事件原始模型
步驟3,音頻事件模型合成自適應。
步驟3.1,對待識別音頻數據進行特征參數提取,基于對數似然度判定音頻所屬信道。
步驟3.2,若待識別音頻屬于ae信道,則直接使用音頻事件原始模型
最后使用信道自適應后的音頻事件合成模型對待識別音頻進行事件識別。
測試結果:實驗基于音頻事件模型合成信道自適應方法,對音頻進行事件識別,本發明在不同信道失配情況下,均可明顯提升音頻事件識別性能,自適應后的識別準確率和召回率接近信道匹配情況,效果如圖2所示,有效實現了模型域信道自適應。
以上所述的具體描述,對發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施例而已,并不用于限定本發明的保護范圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。