麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于稀疏表示的信道魯棒說話人確認方法及其系統的制作方法

文檔序號:10490237閱讀:426來源:國知局
基于稀疏表示的信道魯棒說話人確認方法及其系統的制作方法
【專利摘要】本發明公開了一種基于稀疏表示的信道魯棒說話人確認方法,首先通過構件說話人的過完備字典;同時對測試語音進行身份認證矢量的提取,得到身份認證向量;然后將所述身份認證向量通過所述過完備字典的稀疏求解,得到稀疏表示向量的關聯關系;然后通過判斷稀疏表示向量的關聯關系是否高于一閾值,如果是,表示確認,則接收;否則,拒絕。本發明還對應公開了一種基于稀疏表示的信道魯棒說話人確認系統,包括構建模塊、提取模塊、稀疏求解模塊和判斷模塊。采用本發明,無需很大的空間及很多的時間,就具有識別率高的特點。
【專利說明】
基于稀疏表示的信道魯棒說話人確認方法及其系統
技術領域
[0001] 本發明屬于說話人識別技術領域,具體涉及一種基于稀疏表示的信道魯棒說話人 確認方法及其系統。
【背景技術】
[0002] 近年來,稀疏信號表示在數字信號處理方面的應用,已逐漸成為國內外學術界的 研究熱點。最近幾年稀疏表示開始出現了不同的應用,如信號分解、去噪、信號編碼、圖像修 復等等,實驗發現基于稀疏表示的分類比其他的分類器有著更優秀的分類結果。例如在人 臉識別中,John Wright將稀疏表示引入到人臉識別領域,通過信號重構的殘差實現分類, 在標準人臉識別數據庫上比SVM和近鄰法提高了0.4%和7 %的準確率。2010年,Naseem將稀 疏表示首次引用到了說話人辨認中,并且取得了不錯的結果。
[0003] 盡管這個結果很好,但是該實驗中所用的數據庫是??ΜΙΤ數據庫,TIMIT數據庫是 在理想環境下錄制的,不包含混響噪音、背景噪音等。Kua. J在說話人確認系統中用超矢量 和NAP開發了一個基于稀疏表不的分類器,作為對SVM的一個補充或者替代,并且在NIST SRE 2006數據庫上進行了實驗,發現稀疏表示在對抗遮擋以及噪聲問題時,表現強勁的實 力。后來又在NIST SRE 2004、2005、2006數據庫上進行了大量的實驗對比,將基于稀疏表示 的ivector說話人確認系統和各種基線系統進行了對比,成功的將稀疏表示引入,并且找到 了最優的構建字典的方式。
[0004] 各種實驗結果展示了基于稀疏表示的說話人確認系統,可以比其他的分類器達到 更優秀的結果,Naseem首先將高斯均值超矢量作為原子構建過完備字典,Kua J研究發現高 斯均值超矢量具有很高的維數,在訓練過完備字典時需要很大的空間及時間代價,限制了 訓練樣本的數量以及增加了系統識別的時間。

【發明內容】

[0005] 為了解決上述問題,本發明的第一目的提供一種基于稀疏表示的信息魯棒說話人 確認系統,無需很大的空間及很多的時間,就具有識別率高的特點。
[0006] 為實現上述目的,本發明按以下技術方案予以實現的:
[0007] 本發明所述的基于稀疏表示的信道魯棒說話人確認方法,包括如下步驟:
[0008] 構建說話人的過完備字典Dtar;
[0009] 對測試語音進行身份認證矢量i-vector的提取,得到身份認證向量cotest;
[0010] 所述身份認證向量c〇test通過所述過完備字典Dtar的稀疏求解,得到稀疏表示向量 Y test 的關聯關系r ( Y test);
[0011] 判斷所述關聯關系r(ytest)是否高于一閾值,如果是,表示確認,則接收;否則, 拒絕。
[0012] 進一步地,所述構建說話人的過完備字典Dtar,具體是:
[0013] 對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過完備字 典 Dbg;
[0014]對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過完備字 典Dmld ;
[0015] 將背景過完備字典Dbg與目標過完備字典Dmid合并為一個矩陣,得到過完備字典 Dtar 〇
[0016] 進一步地,所述身份認證向量Cote3st通過所述過完備字典Dtar的稀疏求解,利用的 公式為:
[0017] CO test - Dclm Y test
[0018] 胳;g:鮮ik成龍魅公忒為.
[0019]
[0020] 換算得到的稀疏表不向量y test的關聯關系
[0021 ]進一步地,所述背景說話人的訓練語音的數目1^>>所述目標說話人的訓練語音數 目 Itar 〇
[0022]進一步地,所述背景過完備字典Dbg與目標過完備字典Dmld合并為一個矩陣,得到所 述過完備字典Dtar= [Dbg,Dmld] 〇
[0023] 本發明的第二目的提供基于稀疏表示的信息魯棒說話人確認系統,無需很大的空 間及很多的時間,就具有識別率尚的特點。
[0024] 為實現上述目的,本發明按以下技術方案予以實現的:
[0025] 本發明所述的基于稀疏表示的信息魯棒說話人確認系統,包括:
[0026] 構建t吳塊,用于構建說話人的過完備字典Dtar ;
[0027] 提取模塊,用于對測試語音進行身份認證矢量i-vector的提?。?br>[0028] 稀疏求解模塊,用于對身份認證向量Cotest通過所述過完備字典Dtar進行稀疏求 解;
[0029]判斷模塊,用于判斷稀疏表示向量Ytest的關聯關系Γ ( Ytest)向量Γ ( Ytest)是否 高于閾值。
[0030] 進一步地,所述構建模塊在構件說話人的過完備字典Dtar,具體是:
[0031] 對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過完備字 典 Dbg;
[0032]對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過完備字 典Dmld ;
[0033]將背景過完備字典Dbg與目標過完備字典Dmid合并為一個矩陣,得到過完備字典 Dtar 〇
[0034] 進一步地,所述稀疏求解模塊中用于稀疏求解時利用如下公式:
[0035] CO test - Dclm Y test
[0036]將其轉化成求解公式為:
[0037]
[0038] 換算得到的稀疏表示向i
[0039] 進一步地,所述構建模塊在構建過完
備字典0_時,其中采用的背景說話人的訓練 語音的數目l bg>>目標說話人的訓練語音數目Itar。
[0040] 進一步地,所述背景過完備字典Dbg與目標過完備字典Dmld合并為一個矩陣,得到所 述過完備字典D tar= [Dbg,Dmld] 〇
[0041] 與現有技術相比,本發明的有益效果是:
[0042] 本發明所述的一種基于稀疏表示的信道魯棒說話人確認方法,首先通過構件說話 人的過完備字典Dtar;同時對測試語音進行身份認證矢量i-vector的提取,得到身份認證向 量ω test;然后將所述身份認證向量ω test通過所述過完備字典Dtar的稀疏求解,得到稀疏表 不向量y test的關聯關系Γ ( γ test);然后通過判斷稀疏表不向量γ test的關聯關系Γ (Ytest)是否高于一閾值,如果是,表示確認,則接收;否則,拒絕。
[0043] 同時,與其相對應的基于稀疏表示的信道魯棒說話人確認系統,是對應設置有構 建模塊、提取模塊、稀疏求解模塊和判斷模塊,通過構建模塊構建說話人的過完備字典D tar, 同時通過提取模塊對測試語音進行身份認證矢量i-vector的提取,然后通過稀疏求解模塊 對身份認證向量ω test稀疏求解,得到稀疏表示向量γ test的關聯關系Γ ( γ test)最后通過判 斷模塊判斷該關聯關系r ( yte3St)是否高于閾值,該閾值為一個衡量標準,用于衡量兩個說 話人模型之間的相似程度,如果高于,表示確認,則接受,否則,拒絕。
[0044] 本發明所述的基于稀疏表示的信道魯棒說話人確認方法,在訓練階段就構建好過 完備字典Dtar,因此無需花費很大的空間以及很多的時間,并且在后續通過提取身份認證矢 量通過稀疏求解,完全可以實現更高的識別率。
【附圖說明】
[0045] 下面結合附圖對本發明的【具體實施方式】作進一步詳細的說明,其中:
[0046] 圖1是本發明實施例所述的基于稀疏表示的信道魯棒說話人確認方法中的流程 圖;
[0047] 圖2是本發明實施例所述的基于稀疏表示的信道魯棒說話人確認方法中的結構示 意圖。
[0048] 圖中:
[0049] i :構建模塊2:提取模塊3:稀疏求解模塊4:判斷模塊
【具體實施方式】
[0050] 以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實 施例僅用于說明和解釋本發明,并不用于限定本發明。
[0051] 本發明所述的基于稀疏表示的信道魯棒說話人確認方法,在訓練階段就構建好過 完備字典Dtar,因此無需花費很大的空間以及很多的時間,并且在后續通過提取身份認證矢 量通過稀疏求解,完全可以實現更高的識別率。具體步驟如下,并且結合附圖1的流程圖: [0052] S01:構建說話人的過完備字典Dtar,具體如下:
[0053]首先,對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過 完備字典Dbg;
[0054]同時,對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過 完備字典EWd;
[0055]然后,將背景過完備字典Dbg與目標過完備字典Dmid合并為一個矩陣,得到過完備字 典 Dtaro
[0056] S02:提取身份認證矢量;
[0057] 對測試語音進行身份認證矢量i-vector的提取,得到身份認證向量c〇test。
[0058] S03:稀疏求解:
[0059] 所述身份認證向量Cotest通過所述過完備字典Dtar的稀疏求解,得到稀疏表示向量 Y test 的關聯關系r ( Y test);
[0060] 在以上求解時,首先利用如下公式:
[0061] ω test = Dclm γ test (公式一)
[0062] 然后,將公式一轉化成求解公式為:
[0063]
[0064] 最終,將公式二換算得到的稀疏表示向量γ test的關聯關系
[0065] S04:判斷是否高于閾值;
[0066] 判斷所述關聯關系Γ (Yte3st)是否高于一閾值,如果是,表示確認,則接收;否則, 拒絕。
[0067] 所述閾值是根據具體情況調試,是經驗值。其作為一個衡量標準,用于衡量兩個說 話人模型之間的相似程度,當兩個說話人模型之間的相似度達到某個臨界點的時候,我們 就認為這兩個模型是同一個說話人,這個臨界點就是閾值。
[0068] 與之對應的基于稀疏表示的信道魯棒說話人確認系統,包括如圖2所示的組成結 構,具體包括構建模塊1、提取模塊2、稀疏求解模塊3和判斷模塊4。
[0069] 其中,所述構建模塊1用于構建說話人的過完備字典Dtar,具體構建的方式如下:
[0070] 對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過完備字 典 Dbg;
[0071]對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過完備字 典Dmld ;
[0072]將背景過完備字典Dbg與目標過完備字典Dmid合并為一個矩陣,得到過完備字典 Dtar 〇
[0073]所述提取模塊2對測試語音進行身份認證矢量i-vector的提取。
[0074] 所述稀疏求解模塊3,用于對身份認證向量ω test通過所述過完備字典Dtar進行稀 疏求解;具體利用如下公式:
[0075] ω test = Dclm γ test (公式一)
[0076] 然后,將公式一轉化成求解公式為:
[0077]
[0078] 最終,將公式二換算得到的稀疏表示向量γ test的關聯關系
[0079] 所述判斷模塊4,用于判斷稀疏表示向量γ te3St的關聯關系Γ ( γ test)向量Γ (Yte3st)是否高于閾值。所述閾值是根據具體情況調試,是經驗值。其作為一個衡量標準,用 于衡量兩個說話人模型之間的相似程度,當兩個說話人模型之間的相似度達到某個臨界點 的時候,我們就認為這兩個模型是同一個說話人,這個臨界點就是閾值。
[0080] 在實際實驗過程中,首先選用實驗數據庫:
[0081] RSR2015數據庫是由新加坡Institute for Infocomm Research(I2R)研究所下 the Human Language Technology(HLT)部門開發的發布的一個可用來做文本相關的魯棒 的說話人識別的數據庫。RSR2015包含300個說話人(157男,143女),對于每個說話人來說有 9個不同的集合,共657句話,其中3個注冊的集合每個集合73句話,6個測試的集合每個集合 73句話。該數據庫的錄音環境是辦公室,錄音設備為6個移動設備(4個智能手機和2個平 板),每個說話人的錄音至少包含其中的三個移動設備。具體統計數據如下表一:
[0083] 表一 RSR2015數據庫中語音來源
[0084]然后設置實驗參數,具體如下表二所示:
[0086] 本發明利用了MSR-toolbox工具包搭建了基于i vector的文本無關的說話人確認 系統作為基線系統,本次實驗中使用的語音數據庫為RSR數據庫。Ivector的維數取400。使 用過零率端點檢測,預加重系數為0.97 JFCC維數為20維,其中第一維為對數能量,對20維 的魯棒性參數MFCC求一階差分和二階差分,最后特征維數為60維。對60維的特征進行特征 彎折和倒譜均值歸一化處理。訓練通用背景模型UBM的數據來自NIST SRE 2004數據庫下 8sides和16個sides中的792句話,每句話約為3min~5π?η,??ΜΙΤ數據庫中的4620句話,每 句話約為3s~5s,Noise-92中的15中噪聲語音,訓練的通用背景模型UBM是一個2028維的性 別相關(gender-dependent)的高斯混合GMM模型,訓練T的數據和訓練通用背景模型UBM的 數據一樣,訓練類內協方差規整WCCN和現行判別分析LDA的數據來自于RSR2015中的男157 人,20句話,3個序列,共9420句話,女143人,20句話,2個序列,共8580句話。
[0087]最終的實驗結果與分析:
[0088]取RSR 2015中女133人,3個序列,每人每個序列13句話作為測試,對女性的測試共 9630次測試,取RSR 2015中男147人,3個序列,每人每個序列13句話作為測試,對男性的測 試共21609次測試,在無信道失配條件下和有信道失配條件下對男女均進行了測試,測試結 果分別如表三和表四所示。
[0090]表三RSR2015中女性在不同的信道魯棒說話人系統下有信道失配和無信道失配中 的實驗結果
L〇〇92」表四RSR2015中男性在不同的信道魯棒說話人糸統下有信道失配和無信道失配中 的實驗結果
[0093]在表三和表四中,首先我們可以發現,對于同一個系統來說,在男性上的性能比在 女性上的性能更優秀一些,即錯誤率EER和最小決策代價minDCF更小,這也在一定程度上證 明了女性的識別比男性的識別任務更艱難一些,所以以下的實驗將只在女性上進行測試。 同時還可以很明顯的發現,在有信道失配條件下,說話人確認系統的性能要差于無信道失 配,證明了信道失配會對說話人確認系統產生很大的影響。
[0094]另外,我們可以發現基于高斯概率線性判別的說話人確認系統i-GPLDA-SV相比 Ivector系統和稀疏表示的信道魯棒說話人系統在有信道失配的情況下更優秀,在女性上 能將EER降低3.2%,在男性上能將錯誤率EER降低約4.8%,并且最小檢測代價minDCF也保 持較低,并沒有特別的提高,尤其是在男性中,保持了最低的minDCF,證明了高斯概率線性 判別分析GPLDA可以在一定程度上實現信道魯棒。但是在無信道失配的情況下,i-SR-SV系 統比其他兩個系統更為優秀,在女性上比稀疏表示的信道魯棒說話人統的錯誤率EER降低 了 4.2%,在男性上比i-SV系統的EER降低了 6.2%,說明了稀疏表示的信道魯棒說話人系統 在無信道失配時分類效果要好于其他系統。
[0095]以上所述,僅是本發明的較佳實施例而已,并非對本發明作任何形式上的限制,故 凡是未脫離本發明技術方案內容,依據本發明的技術實質對以上實施例所作的任何修改、 等同變化與修飾,均仍屬于本發明技術方案的范圍內。
【主權項】
1. 一種基于稀疏表示的信道魯棒說話人確認方法,其特征在于,包括如下步驟: 構建說話人的過完備字典Dtar; 對測試語音進行身份認證矢量i-vector的提取,得到身份認證向量《test; 所述身份認證向量ω test通過所述過完備字典Dtar的稀疏求解,得到稀疏表示向量丫 test 的關聯關系Γ (丫 test); 判斷所述關聯關系Γ (丫 test)是否高于一闊值,如果是,表示確認,則接收;否則,拒絕。2. 根據權利要求1所述的基于稀疏表示的信息魯棒說話人確認方法,其特征在于: 所述構建說話人的過完備字典Dtar,具體是: 對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過完備字典 Dbg; 對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過完備字典 Dmld; 將背景過完備字典化g與目標過完備字典Dmld合并為一個矩陣,得到過完備字典Dtar。3. 根據權利要求1所述的基于稀疏表示的信息魯棒說話人確認方法,其特征在于: 所述身份認證向量《test通過所述過完備字典Dtar的稀疏求解,利用的公式為: W test - Dclm Υ test 將其轉化成求解公式為:換算得到的稀疏表示向量γ test的關聯關系4 .根據權利要求2所述的基于稀疏表示的信息魯棒說話人確認方法,其特征在于: 所述背景說話人的訓練語音的數目lbg> >所述目標說話人的訓練語音數目Itar。5. 根據權利要求1所述的基于稀疏表示的信息魯棒說話人確認方法,其特征在于: 所述背景過完備字典化g與目標過完備字典Dmld合并為一個矩陣,得到所述過完備字典 Dtar 二[Dbg , Dmld ]。6. -種基于稀疏表示的信息魯棒說話人確認系統,其特征在于,包括: 構建模塊,用于構建說話人的過完備字典Dtar ; 提取模塊,用于對測試語音進行身份認證矢量i-vector的提取; 稀疏求解模塊,用于對身份認證向量ω test通過所述過完備字典Dtar進行稀疏求解; 判斷模塊,用于判斷稀疏表示向量丫 test的關聯關系Γ (丫 test)向量Γ (丫 test)是否高于 闊值。7. 根據權利要求6所述的基于稀疏表示的信息魯棒說話人確認系統,其特征在于: 所述構建模塊在構件說話人的過完備字典Dtar,具體是: 對背景說話人的訓練語音進行身份認證矢量i-vector的提取,構建背景過完備字典 Dbg; 對目標說話人的訓練語音進行身份認證矢量i-vector的提取,構建目標過完備字典 Dmld ; 將背景過完備字典化g與目標過完備字典Dmld合并為一個矩陣,得到過完備字典Dtar。8. 根據權利要求6所述的基于稀疏表示的信息魯棒說話人確認系統,其特征在于: 所述稀疏求解模塊中用于稀疏求解時利用如下公式: W test 二 Dclm 丫 test 將其轉化成求解公式為:換算得到的稀疏表示向量。9. 根據權利要求6所述的基于稀疏表示的信息魯棒說話人確認系統,其特征在于: 所述構建模塊在構建過完備字典Dtar時,其中采用的背景說話人的訓練語音的數目Ibg > >目標說話人的訓練語音數目Itar。 10 .根據權利要求6所述的基于稀疏表示的信息魯棒說話人確認系統,其特征在于: 所述背景過完備字典化g與目標過完備字典Dmld合并為一個矩陣,得到所述過完備字典 Dtar=[Dbg,Dmld]〇
【文檔編號】G10L17/20GK105845142SQ201610172955
【公開日】2016年8月10日
【申請日】2016年3月23日
【發明人】陳昊亮
【申請人】廣州勢必可贏網絡科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 洪湖市| 武威市| 蓝山县| 陇南市| 罗甸县| 景泰县| 灵台县| 安溪县| 宾阳县| 大竹县| 剑阁县| 谷城县| 邳州市| 涪陵区| 松阳县| 越西县| 湖州市| 白河县| 三河市| 德保县| 五常市| 铁力市| 冷水江市| 北京市| 凭祥市| 康保县| 澄迈县| 广平县| 余江县| 五指山市| 兴山县| 衡阳县| 石屏县| 长阳| 玉屏| 磐石市| 兰考县| 平昌县| 阿荣旗| 平阳县| 汉川市|