專利名稱:一種基于矩陣離線預計算的快速全空間因子處理方法
技術領域:
本發明涉及一種聲紋識別系統中語音信號處理的聲紋識別技術,特別是一種基于矩陣離線預計算的快速全空間因子處理方法。
背景技術:
在聲紋識別系統中,如果采用本征信道因子分析與全空間因子分析融合,可以提升聲紋識別系統效果。但是在全空間因子分析中,全空間因子求解算法復雜度較高,運算密集;相比于本征信道因子分析,全空間因子分析運算復雜度大了近兩個量級,從而制約了其在聲紋識別中的推廣。下面對名詞進行解釋: 聲紋識別:屬于生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特征的語音參數,自動識別說話人身份的技術。.GMM模型:高斯混淆模型(Gaussian Mixture Model)簡稱GMM模型是指多個高斯模型通過線性疊加而得到的新的模型,在聲紋 識別系統中通常采用高斯混淆模型來表示特征的分布。.UBM模型:通用背景模型(Universal Background Model)簡稱為UBM模型,混合高斯模型的核心是用一些高斯函數去擬合每個人說話時的特征,在訓練模型的時候,由于注冊時說話人的數據量不夠,因此只能由一個通用的背景模型把少量的說話人的數據自適應到目標說話人模型上;在測試時,用測試語音相對于目標說話人模型和UBM模型求對數似然度得分,根據統一的門限判決是否是目標說話人。 全空間因子分析:全空間因子分析(Total Factor Analysis)首先將信道信息和說話人信息利用一個因子來擬合,然后通過后端的LDA (線性區分性分析)等后端處理來區分出想要的說話人信息。 本征信道因子分析:本征信道因子分析(Eigen Channel Factor Analysis)是將信道信息利用一個因子來擬合,從而將語音信號中的信道信息去除,僅保留語音中說話人相關的信息。.PLP特征:由感知加權線性預測系數(Perceptual Linear Predictive)組成的特征向量,在聲紋識別中采用PLP特征對語音進行描述。暫未查找到針對采用全空間因子分析方法進行聲紋識別,而采取相關效率改進的發明和方法。從所見報道來看,都處在使用最基本的處理方法(可參看
圖1),采用這種傳統方法,全空間因子分析效率太低,嚴重制約該方法在實際聲紋系統中的使用。
發明內容
本發明技術解決問題:克服現有技術的不足,提供一種基于矩陣離線預計算的快速全空間因子處理方法,將全空間椅子求解模塊效率提升了幾十倍,使得全空間因子分析與本征信道因子分析算法復雜度相當,從而使得聲紋識別中可以采用兩者融合的系統。
本發明技術解決方案:一種基于矩陣離線預計算的快速全空間因子處理方法,其特征在于實現步驟如下:步驟1:資源加載,加載通用背景模型(UBM),全空間因子矩陣T,以及離線預計算之后的結果A (離線預計算資源);資源加載是全局性的,在整個引擎初始化時加載一次即可;全局加載的通用背景模型、全空間因子矩陣、離線預計算資源將在后續步驟陸續被使用。步驟2:獲取需要聲紋驗證或者注冊的語音數據,并提取聲紋識別所需PLP特征;此處輸入語音是全空間因子分析的對象;通過該步驟可以多次輸入語音。步驟3:使用步驟I中加載的通用背景模型(UBM),以及步驟2中提取的PLP特征,計算零階統計量N和一階統計量F ;零階統計量N在步驟4中用于計算L矩陣,一階統計量F在步驟7中計算全空間因子W。步驟4:采用步驟I中加載的離線預計算資源A,步驟3中得到的零階統計量N,計算得到L矩陣;L矩陣求解公式如下所示:L = I+A.N 公式(6)步驟5:生成L矩陣的逆矩陣,求解公式如下,其中|l|為l矩陣的行列式值,l*為L矩陣的伴隨矩陣:
權利要求
1.一種基于矩陣離線預計算的快速全空間因子處理方法,其特征在于實現步驟如下: 步驟1:資源加載,加載通用背景模型(UBM)、全空間因子矩陣T及離線預計算之后的離線預計算資源,即結果A ;資源加載是全局性的,在整個引擎初始化時加載一次即可;全局加載的通用背景模型、全空間因子矩陣、離線預計算資源將在后續步驟陸續被使用; 步驟2:獲取需要聲紋驗證或者注冊的輸入語音數據,并提取聲紋識別所需PLP特征;此處輸入語音數據是全空間因子分析的對象,通過該步驟能夠多次輸入語音數據; 步驟3:使用步驟I中加載的通用背景模型(UBM),以及步驟2中提取的PLP特征,計算零階統計量N和一階統計量F ;零階統計量N在步驟4中用于計算L矩陣,一階統計量F在步驟7中計算全空間因子W ; 步驟4:采用步驟I中加載的離線預計算資源A,步驟3中得到的零階統計量N,計算得到L矩陣;L矩陣求解公式如下所示: L = I+A.N 公式(I) 步驟5:生成L矩陣的逆矩陣,求解公式如下,其中IlI為l矩陣的行列式值,l*為l矩陣的伴隨矩陣;
2.根據要求I所述的基于矩陣離線預計算的快速全空間因子處理方法,其特征在于:所述步驟I所中離線預計算資源A的計算如下:
全文摘要
本發明涉及一種基于矩陣離線預計算的快速全空間因子處理方法,步驟為資源加載,首先都需要加載通用背景模型(UBM),全空間因子矩陣T;獲取需要做聲紋驗證或者注冊的語音數據,并提取聲紋識別所需PLP特征;提取零階統計量N和一階統計量F;計算并得到L矩陣;生成L矩陣的逆矩陣;利用一階統計量、L矩陣的逆矩陣、協方差擴展矩陣、全空間因子矩陣得到本次語音對應的全空間因子W;如果完成所有語音計算則結束。本發明將全空間因子求解模塊效率提升了幾十倍,使得全空間因子分析與本征信道因子分析算法復雜度相當,從而使得聲紋識別中可以采用兩者融合的系統。
文檔編號G10L17/06GK103077719SQ201210581078
公開日2013年5月1日 申請日期2012年12月27日 優先權日2012年12月27日
發明者雷琴輝, 趙彬, 趙敏志, 于超敏, 趙志偉, 盧小亭, 王丹, 吳曉如 申請人:安徽科大訊飛信息科技股份有限公司