基于說話人識別技術的口語測評身份認證方法與流程

文檔序號：12128391閱讀：497來源：國知局

本發明屬于信息處理領域，具體涉及基于說話人識別技術的口語測評身份認證方法。

背景技術：

英語作為一門外語，學習起來比較不易，需要在日常生活、教學中營造充分的語言環境，來輔助學員學習，因此口語測評便成為了廣泛使用的手段之一。老師在課堂上會盡力營造語言環境，幫助學員學習英語，但這不能夠讓老師完全掌握每個學員的真實情況以及學習過程中需要糾正的發音等其它問題。口語測評就可以解決這個問題，口語測評用于課下學員自行完成口語測試，并將測試結果上傳給老師，老師能夠了解每個學員的真實情況，并糾正不同學員的發音等。這就要求口語測評系統中增加身份識別的功能，對測評人的身份進行判斷。

常用的身份識別技術包括指紋、虹膜、人臉、手寫簽名、以及語音的身份認證技術。語音是身份信息的重要載體，與人臉、指紋等其他生物特征相比，語音的獲取成本低廉，使用簡單，便于遠程數據采集，且基于語音的人機交流界面更為友好，因此說話人識別技術成為重要的自動身份認證技術。

為此亟需提供一種基于說話人識別技術的口語測評身份認證方法，能夠準確高效地對口語測評過程中測評人的身份進行識別。

技術實現要素：

針對現有技術中的缺陷，本發明提供一種基于說話人識別技術的口語測評身份認證方法，能夠準確高效地對口語測評過程中測評人的身份進行識別。

基于說話人識別技術的口語測評身份認證方法，包括以下步驟：

S1：用戶注冊時，獲取并分析用戶的語音信息，得到標準語音模板，初始化身份認證分數；

S2：當用戶啟動口語測評功能時，根據測評的總時長T、身份認證分數S計算得到認證次數和認證時間；

S3：當認證時間到達時，獲取用戶的語音信息，并與標準語音模板進行對比，如果匹配，本次認證成功；否則返回步驟S3對下一次認證時間進行監測；

S4：根據本次口語測評的認證結果更新身份認證分數。

優選地，所述步驟S1還包括：實時檢測是否接收到老師反饋的身份認證分數，如果是，更新身份認證分數。

優選地，所述步驟S1中，所述語音信息為多條，通過麥克風直接獲取或是從用戶的測試數據庫中調取。

優選地，所述步驟S2具體為：

S2a：計算認證次數A，A＝5T/S；

S2b：計算認證時間：P_i＝P_i-1+B；其中，P_i-1＝0，B為0～12S之間的隨機數。

優選地，所述步驟S3具體為：

S3a：當認證時間P_i到達時，設定認證錯誤次數為0；

S3b：判斷在預設的延長時間內是否接收到用戶的語音信息，如果是，執行步驟S3c；否則，認證失敗次數累積1，返回步驟S2；

S3c：認證錯誤次數是否達到預設的認證錯誤上限值，如果是，認證失敗次數累積1，返回步驟S2；否則，執行步驟S3d；

S3d：將接收的語音信息與標準語音模板進行對比，如果匹配，返回步驟S3a對下一次認證時間進行監測；如果不匹配，認證錯誤次數累加1，返回步驟S3b。

優選地，所述步驟S4中，身份認證分數為認證失敗次數的倒數。

優選地，該方法分析用戶的語音信息時，首先構建若干個分類器，然后將分類器進行融合，得到標準語音模板。

優選地，所述分類器的構建方法如下：

首先，提取語音信息相應的JFA話者超向量，從JFA超向量中的均值向量中選取一個新的維度較低的子空間；然后，采用主成分分析方法對該子空間中的特征向量進行最優降維，將其投影到維度為J的低維子空間中；其次，在該低維子空間中，應用隨機采樣技術得到若干個隨機子空間；最后，對于每個隨機子空間，分別進行類內協方差規整以及非參數線性區分分析，從而得到每個隨機子空間對應的投影矩陣，即分類器。

優選地，采用動態融合方法對分類器的輸出進行融合。

優選地，所述動態融合方法具體為：

首先，對來自大量說話人的開發集語音數據集X進行分析，根據一定的準則將其劃分為K個子集S_K；然后，用每個分類器對各個子集中的語音數據進行測試，統計相應的得分輸出；最后，將得分平均值作為確定分類器在各個集合上的權重。

由上述技術方案可知，本發明提供的基于說話人識別技術的口語測評身份認證方法，能夠根據學員以往的身份識別結果更新身份認證次數，從而得到下次口語測評中的認證次數，根據學員以往口語測評的誠信度確定下次認證次數，誠信度差，增加下次口語測評過程中的認證次數，從而實現準確高效地對口語測評過程中測評人的身份進行識別。

附圖說明

為了更清楚地說明本發明具體實施方式或現有技術中的技術方案，下面將對具體實施方式或現有技術描述中所需要使用的附圖作簡單地介紹。在所有附圖中，類似的元件或部分一般由類似的附圖標記標識。附圖中，各元件或部分并不一定按照實際的比例繪制。

圖1為基于說話人識別技術的口語測評身份認證方法的流程圖。

圖2為基于聯合因子分析超向量的多分類器構建示意圖。

圖3為基礎分類器局部分類置信度的確定方法示意圖。

具體實施方式

下面將結合附圖對本發明技術方案的實施例進行詳細的描述。以下實施例僅用于更加清楚地說明本發明的技術方案，因此只作為示例，而不能以此來限制本發明的保護范圍。需要注意的是，除非另有說明，本申請使用的技術術語或者科學術語應當為本發明所屬領域技術人員所理解的通常意義。

基于說話人識別技術的口語測評身份認證方法，如圖1所示，包括以下步驟：

S1：用戶注冊時，獲取并分析用戶的語音信息，得到標準語音模板，初始化身份認證分數；

S2：當用戶啟動口語測評功能時，根據測評的總時長T、身份認證分數S計算得到認證次數和認證時間；

S3：當認證時間到達時，獲取用戶的語音信息，并與標準語音模板進行對比，如果匹配，本次認證成功；否則返回步驟S3對下一次認證時間進行監測；

S4：根據本次口語測評的認證結果更新身份認證分數。

采用該方法實現口語測評過程的身份認證時，避免了每答一道題就需要進行一次身份認證，認證次數過多，降低了口語測評的效率。同時也避免了身份認證次數太少，起不到監督的作用。該方法通過上次口語測評的誠信度(即身份認證分數)來決定下次口語測評過程中的身份認證次數，即身份認證分數越低，誠信度越差，說明學員存在作弊行為的可能性越高，針對這種學員，增加下次口語測評過程中身份認證次數。反之，針對身份認證分數越高，誠信度越好的學員，減小下次口語測評過程中身份認證次數。具體實施時，身份認證分數的取值范圍為0～10。用戶注冊時，默認身份認證分數為1，處于最低等級。該方法能夠根據學員以往的身份識別結果更新身份認證次數，從而得到下次口語測評中的認證次數，根據學員以往口語測評的誠信度確定下次認證次數，誠信度差，增加下次口語測評過程中的認證次數，從而實現準確高效地對口語測評過程中測評人的身份進行識別。

所述步驟S1還包括：實時檢測是否接收到老師反饋的身份認證分數，如果是，更新身份認證分數。該方法還可以接收老師反饋的身份認證分數，如果老師在聽測評結果的過程中，發現學員有作弊或找人代讀的現象時，可以根據作弊程度評分，作弊程度嚴重，分數越低。通過老師反饋身份認證分數和以往統計的學員的誠信度兩方面來監控學員的口語測評，能夠更好地實現對學員的監督，能夠高效完成口語測評。

所述步驟S1中，所述語音信息為多條，通過麥克風直接獲取或是從用戶的測試數據庫中調取。該方法在啟動口語測評之前，還可以設有試用模板，試用模板用于模擬正式口語測評的場景，在用戶進入試用模板使用時，將用戶的語音信息存入測試數據庫，作為后期標準語音模板調用的基礎。

所述步驟S2具體為：

S2a：計算認證次數A，A＝5T/S；

S2b：計算認證時間：P_i＝P_i-1+B；其中，P_i-1＝0，B為0～12S之間的隨機數。

認證次數A與測評的總時長T成正比，與身份認證分數S成反比，即總時長T越長，認證次數越多，身份認證分數S越高，認證次數越少。A采用四舍五入法取整。認證時間的選取是隨機的，隨機的認證時間能夠更準確的了解到學員的真實情況。當認證時間P_i大于總時長T時，設定P_i等于總時長T，T和B單位為秒，S的單位為次。

所述步驟S3具體為：

S3a：當認證時間P_i到達時，設定認證錯誤次數為0；

S3b：判斷在預設的延長時間內是否接收到用戶的語音信息，如果是，執行步驟S3c；否則，認證失敗次數累積1，返回步驟S2；

S3c：認證錯誤次數是否達到預設的認證錯誤上限值，如果是，認證失敗次數累積1，返回步驟S2；否則，執行步驟S3d；

S3d：將接收的語音信息與標準語音模板進行對比，如果匹配，返回步驟S3a對下一次認證時間進行監測；如果不匹配，認證錯誤次數累加1，返回步驟S3b。

認證錯誤上限值用于衡量在一次身份認證過程中最多錯誤次數，優選為3。認證錯誤原因可能為找別人代讀、語音信號收到干擾、周圍環境復雜等引起的。延長時間主要用于衡量語音信號的有效性。由于認證時間是隨機的，所以如果是本人在做口語測評時，當隨機彈出需要進行認證時，則能夠快速接收到用戶的語音信息，并進行認證。如果是找別人代讀，則可能就需要代讀人找到用戶進行認證，自然接收到用戶的語音信息的時間就要長些。所以延長時間不宜設置太長，優選為5-10秒。如果延長時間到達時，依然沒有接收到用戶的語音信息，則認為此次身份認證失敗。如果在延長時間內接收到語音信息，如果匹配此次身份認證成功。如果不匹配，認證錯誤，當認證錯誤次數到達認證錯誤上限值時，判定為此次身份認證失敗。

所述步驟S4中，身份認證分數為認證失敗次數的倒數。即認證失敗次數越多，身份認證分數越少，則下次口語測評過程中認證次數就越多。反之，認證失敗次數越少，身份認證分數越大，則下次口語測評過程中認證次數就越少。

本實施例針對說話人識別方法，提出一種動態自適應的多分類器融合方法。在此方法中，充分考慮了各個基礎分類器的局部分類性能，避免線性融合方法中權重較高的分類器將權重較低的分類器的局部分類能力淹沒，進而提高對測試語音的識別結果可靠度。該方法分析用戶的語音信息時，首先構建若干個分類器，然后將分類器進行融合，得到標準語音模板。

1、分類器的構建。

如圖2所示，本發明中以聯合因子分析話者超向量(JFA)作為說話人的特征表達，采用雙層子空間采樣方法來構建多個基礎分類器，該算法中的第一層子空間采樣是針對組成聯合因子分析話者超向量的各個高斯成分的均值來進行的，目的是去除一部分冗余信息，確定一個合適維度的子空間；第二層則是在第一層子空間經過PCA最優降維后所得到的更低維度的子空間中進行隨機采樣，形成若干個新的子空間。

聯合因子分析話者超向量與傳統的GMM-UBM均值超向量在組成結構上是一樣的，都可以看成是由GMM模型中各個高斯成分的均值向量按順序拼接而成。所以本發明提出的子空間采樣算法中的第一層子空間的采樣是以聯合因子分析超向量中的均值向量為基本單元的來進行的。具體來講，給定第i個說話人的第h條語音的情況下，假設UBM模型的高斯成分數目為N，則該條語音數據相應的JFA超向量M_ih可以表示為N個高斯均值向量的組合：M_ih＝[m_ih1,m_ih2,...,m_ihN]。主要步驟包括：

1)提取開發集中每條語音相應的JFA話者超向量M_ih。

2)為了在高維原始特征空間中初步去除一部分冗余信息，從組成JFA超向量中的均值向量中選取一部分形成一個新的維度較低的子空間，該子空間包含了JFA超向量中的大部分有用信息，設該子空間中的低維度特征向量S_ih表示為：S_ih＝[m'_ih1,m'_ih2,...,m'_ihk]。

3)由于特征向量S_ih仍然具有較高的維度，且各個維度的數值分布比較稀疏，所以仍包含著大量的冗余信息。接下來采用主成分分析方法對特征向量S_ih進行最優降維，將其投影到維度為J的低維子空間中。

4)在經過PCA降維后所得到的子空間中，應用隨機采樣技術得到若干個隨機子空間。

5)對于每個隨機子空間，分別進行類內協方差規整以及非參數線性區分分析，從而得到一個投影矩陣，相應于每個隨機子空間的投影矩陣可以表示為兩個投影矩陣的乘積，即類內協方差規整投影矩陣與非參數線性區分分析投影矩陣的乘積。

根據以上步驟中的子空間分析結果，對于每個子空間可以得到一個子空間分類器。

2、自適應多分類器融合。

如圖3所示，本發明采用在PCA空間進行隨機采樣的方法來構建基礎分類器，該方法基于不同的特征子集進行，所以各個基礎分類器之間既有差異性又有一定的互補性。采用動態融合方法將多個基礎分類器的輸出進行有效融合，則可以大幅提高說話人確認系統的性能。

在訓練階段，為了對基礎分類器的局部分類能力進行評價，首先對來自大量說話人的開發集語音數據集X進行分析，根據一定的準則將其劃分為K個子集S₁,S₂,...,S_K，劃分到同一集合中的語音數據之間在某種程度上具有一定的相似性，再用每個基礎分類器對各個集合中的語音數據進行測試，統計相應的得分輸出，最后將得分平均值作為確定分類器在各個集合上的測試結果置信度的依據。通過這種方式，可以獲得基礎分類器在各個集合上的分類能力，最終確定融合算法中每個基礎分類器在各個集合上的置信度向量w₁,w₂,...,w_Q。每個置信度向量包含K個值，代表該分類器對某一集合上的分類置信度。

結合本文要解決的問題，動態多分類器融合過程可以概括為以下幾個步驟：

1)選定合適的開發集語料庫，設該語料庫包含N個不同的說話人，每個說話人有兩條語音數據。在開發集語料中，從每個說話人語音中取出一條組成訓練集X₁，剩余的作為參照集X₂。

2)根據聯合因子分析理論，提取開發集語料中所有語音的說話人因子，假設來自訓練集的說話人因子序列表示為

3)以Y₁作為輸入，訓練出一個混合成分數目較小的高斯混合模型，表示為λ＝{w_i,μ_i,Σ_i},i＝1,...,K。其中參數w_i、μ_i和Σ_i分別代表高斯混合模型中各個高斯成分的權重、均值和協方差。設說話人因子對GMM模型中第i個高斯成分的占有率為當時，將劃分到第k個子集S_k中去，通過這種方式，將訓練集中的所有說話人因子劃分到K個不同的集合中。

4)按照上一步驟中對說話人因子的劃分結果，將相應的訓練語音也分成K個集合。

5)對于某一集合S_k，將其中的訓練語音及其對應的來自于同一說話人的參照集中的語音數據投影到第q個隨機子空間中，分別得到訓練語音和參照語音的參考向量。

6)計算出訓練語音和參照語音參考向量之間的余弦距離，以此作為第q個NLDA分類器的測試得分輸出。

7)計算第q個NLDA分類器在集合S_k上的所有測試得分的平均值作為該分類器在集合S_k上的分類置信度。相應的，該基礎分類器的局部分類置信度向量可以表示為

8)在多分類器融合階段，對于某一待測語音，首先按照聯合因子分析理論提取其相應的說話人因子，然后再根據訓練過程中對開發集數據的劃分準則將待測語音數據劃分到某一集合S_k中去，最后以各個基礎分類器在集合S_k上的分類置信度值作為權重對所有基礎分類器的輸出進行線性融合。

基礎分類器局部分類置信度的確定過程中，假設某些說話人的個性特征之間具有一定的相似性，且這些具有相似性的說話人的語音特征在分布規律上也有一定的相似性，在特征空間中處于某一個局部區域中。本發明中，將不同長度的說話人語音特征向量序列通過聯合因子分析技術轉換成具有固定長度且去除了部分信道影響的JFA話者超向量。JFA話者超向量在高維特征空間中的分布情況反應了不同說話人個性特征的分布。而本章中采用說話人因子的分布來近似模擬JFA話者超向量的分布情況，這是由于：

1)JFA話者超向量往往具有很高的維度，采用常用的統計數學模型很難對高維向量的分布規律進行準確建模。

2)為了保證不丟失大部分有用信息，將JFA話者超向量投影到非參數線性區分子空間后仍然具有較高的維度。

3)說話人因子相對于上一步驟中的投影后的JFA話者向量來說維度較低，且說話人因子的提取過程也是基于聯合因子分析算法的，所以也包含了必要的說話人個性信息，可以反映JFA話者超向量的分布。

從以上內容可以看出，在本發明提出的多分類器融合方法中，根據待測語音數據在說話人因子空間中所處的區域來確定各個基礎分類器在得分融合過程中的權重。由于每條待測語音的說話人因子具有不同的分布情況，所以各個基礎分類器的權重是隨著待測語音的不同而動態變化的。值得說明的是，本發明的多分類器融合算法中，各個基礎分類器的融合權重可以在測試之前確定，這種方式大大提高了融合系統的實時性。

3、評測系統性能。

實驗數據取自NIST 2008說話人評測數據庫，其中訓練和測試語音仍選用核心評測任務中的男性電話訓練對電話測試部分作為評測數據集來衡量說話人確認系統的性能。UBM的訓練數據來自Switchboard II phase 2，Switchboard II phase 3，Switchboard Cellular Part 2以及NIST SRE 2004，2005，2006中的電話語音數據，共有2048個高斯成分。

用以訓練非參數子空間區分分析投影矩陣的開發集數據均取自NIST SRE 2004、2005、2006數據庫中的電話語音，共包含563個說話人，每個說話人有8條語音數據。

聯合因子分析系統中UBM與以上所述相同，說話人空間載荷矩陣的秩為300，本征信道空間載荷矩陣的秩為100，殘差載荷矩陣由UBM模型中的各個高斯成分的對角協方差矩陣中的對角線元素拼接而成。

本發明中所采用的主成分分析、類內協方差規整以及非參數線性區分分析投影矩陣的維度分別為：(51×k)×J，(E₁+E₂)×799，799×550。隨機子空間的數目即基礎分類器的數目Q設定為10。非參數線性區分分析中，近鄰樣本的數目設定為4。

經過原始特征空間中的子空間采樣后，我們獲得了新的特征向量S_ih。假設在第一層子空間采樣中，我們最終選取了排序后的JFA話者超向量中的前1280個高斯均值向量。但是該特征向量的維度相對于開發集中的訓練樣本來說仍然很高。所以為了訓練出穩定可靠的子空間分類器，需要將新的特征向量進一步投影到低維的PCA子空間，這里設經過PCA降維后的特征向量的維度是J。在進行隨機采樣之前，為了保證各個基礎子空間分類器的性能，首先將含有較多信息量的前E₁個主元分量固定下來，隨機采樣算法僅應用于剩下的J-E₁個主元分量，從中隨機選取E₂個主元分量構成維度為E₁+E₂的隨機子空間。

在第二層采樣空間實驗中，J的值固定為1200或者1300，該值是通過交叉驗證確定的較優值。E₁+E₂的值固定為800。對于每個組合(E₁，E₂)，我們隨機創建了10個子空間，即10個基礎分類器。

第一組實驗考察了動態自適應融合算法的性能隨著聚類數目K而變化的情況。由于聚類方法采用的是GMM算法，且訓練數據有限，故K的取值分別設置為8、16、及32。實驗結果列出與表1中。

表1動態自適應融合方法實驗結果

表1中，當K為8，16，32時，動態自適應融合結果對E₁和E₂所有組合條件下的EER與minDCF的均值分別為：4.02，2.20；3.89，2.14；4.02，2.20。由此可見當K的取值為12時，融合后的系統性能最佳。原因在于，當聚類數目K的值較小時，不能有效地將相似說話人的特征向量聚集在一起，基礎分類器的局部分類能力不能被有效地反映出來，造成其局部分類置信度的估計不夠準確；反之，當K的值相對于訓練數據的規模來說較大時，用于聚類的GMM模型的復雜度增加，模型參數在估計過程中容易出現過擬合現象，造成基礎分類器的局部分類置信度不能被有效估計。第一組實驗結果充分表明當K的值為16時，可以使得基礎分類器的局部分類置信度的估計更為準確。

第二組實驗則對比分析了本發明所提出的動態自適應融合方法(DY)與線性融合算法(LR)，以及經典的應用于說話人確認領域中基于Logistic回歸算法(LG)的融合效果，其中動態自適應融合方法中聚類數目K＝16。

表2不同融合方法的比較

表2中列出了E₁和E₂在不同組合情況下的三種融合算法的結果，對于每種組合構建出10個基礎分類器。從中可以看出，對于每組實驗，本發明所提出的動態自適應融合方法均能獲得最低的EER值，其次是基于Logistic回歸的融合算法，線性融合系統具有最高的EER，性能最差。在minDCF方面，動態自適應融合算法在除第三組實驗以外的每組實驗中基本都能獲得最低的檢測代價。特別是在第五組實驗中，動態自適應融合的EER為3.76，minDCF為2.08，系統性能達到最好，比基于Logistic回歸融合算法的最小EER值相對降低了3.7％，比線性融合相應的最小EER值相對降低了6.6％。這充分表明本文提出的基于隨機子空間采樣的動態多分類器融合算法的有效性，而且該融合算法適用于任何子空間分類器，具有很好的推廣性。

最后應說明的是：以上各實施例僅用以說明本發明的技術方案，而非對其限制；盡管參照前述各實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分或者全部技術特征進行等同替換；而這些修改或者替換，并不使相應技術方案的本質脫離本發明各實施例技術方案的范圍，其均應涵蓋在本發明的權利要求和說明書的范圍當中。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：姜衛武;李娜;李坤;孫立發;鐘靜華;
技術所有人：姜衛武;
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

身份認證識別系統相關技術

人臉識別身份認證系統相關技術

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于說話人識別技術的口語測評身份認證方法與流程