本發(fā)明涉及認證技術,特別涉及人臉識別及聲紋識別的認證技術。
背景技術:
隨著互聯(lián)網(wǎng)+時代的來臨,網(wǎng)絡化管理、無紙化辦公及電子交易等已經(jīng)滲透于日常生活的各個部位。虛擬生活和虛擬市場等逐漸成為上班族購物休閑的主要渠道,但互聯(lián)網(wǎng)在方便人們生活的同時,它也是一把雙刃劍,因為一切活動或者交易都在虛擬的網(wǎng)絡中進行,沒有人與人之間直接的接觸,甚至都無須有文字的交流,彼此的信任和憑證都依靠口令、密鑰或者短信驗證碼去實現(xiàn),而互聯(lián)網(wǎng)是一個開放網(wǎng)絡、一個平等的平臺,同時它也是一個不受控制的孩子。凡事在網(wǎng)絡中傳輸?shù)臇|西都有可能被人竊取,網(wǎng)民平時為了便于記憶方便使用,通常是一個密鑰,處處使用,可使用的平臺的好壞與安全性卻是千差萬別,可謂是一處被泄漏,處處被攻破,目前逐漸提出用手機隨機驗證碼來取代傳統(tǒng)的固定密鑰,然后據(jù)統(tǒng)計手機卻是最易遺失的個人財產之一。
硬件技術的發(fā)展,智能手機、個人電腦的普及,近來生物特征識別技術成為人們日益關注的焦點,生物特征識別技術通過人體的生理特征或行為特征來進行合法身份的認證,比如說指紋、虹膜、面部圖像識別及脫氧核糖核酸(DNA)排序匹配識別等。
其中,指紋識別,因為容易被偽造,只需要簡單的從被偽造者日常生活用品中獲取對方的指紋,就可以進行指紋的偽造,所以指紋識別適用領域也只是安全程度要求不高的日常考勤記錄中。
而虹膜識別技術是通過攝像器材采集識別者位于黑色瞳孔和白色鞏膜之間的圓環(huán)狀部分,其包含有很多相互交錯的斑點、細絲、冠狀、條紋及隱窩等細節(jié)特征,所以對攝像硬件設備要求比較高,不易于大規(guī)模商用或者向普通用戶推廣。
單一的圖像識別驗證(人臉識別驗證),也容易用靜態(tài)圖像(照片)來冒名頂替,而脫氧核糖核酸(DNA)排序匹配識別的門檻較高,需要人體的直接接觸所以并不適合“短、平、快”的互聯(lián)網(wǎng)平臺。
人的聲音富含了多個維度的信息,如說話內容、說話語氣及聲音特征等,聲紋識別是一種通過人的聲音特征來辨別不同說話人的技術,不同的聲道結構決定了聲紋的唯一性。
技術實現(xiàn)要素:
本發(fā)明的目的是要解決目前人臉識別認證其檢測結果易被冒名頂替的問題,提供了一種基于人臉識別和聲紋識別的交互式認證系統(tǒng)及方法。
本發(fā)明解決其技術問題,采用的技術方案是,基于人臉識別和聲紋識別的交互式認證系統(tǒng),包括終端及服務器,終端與服務器通過網(wǎng)絡連接,其特征在于,
所述終端用于獲取被檢測用戶的面部視頻及采集用戶輸入的語音音頻數(shù)據(jù)將其發(fā)送至服務器,且顯示服務器發(fā)送來的顯示提示信息;
所述服務器用于進行用戶面部特征參數(shù)進行匹配和用戶聲紋特征向量進行匹配,并將聲紋識別結果與人臉識別結果進行集合取交集,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息。
進一步的,所述進行用戶面部特征參數(shù)進行匹配和用戶聲紋特征向量進行匹配是指:服務器從接收到的被檢測用戶的面部視頻獲取用戶面部特征參數(shù),將獲取的用戶面部特征參數(shù)與服務器預先存儲的所有用戶面部特征參數(shù)進行匹配,匹配成功則得到人臉識別結果,然后向終端發(fā)送預設聲音口令文本,在接收到終端的語音采集模塊發(fā)送來的語音音頻數(shù)據(jù)后,將其轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,匹配成功則提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與服務器預先存儲的所有用戶聲紋特征向量進行匹配,匹配成功則得到聲紋識別結果。
具體的,所述終端包括顯示模塊、人臉視頻采集模塊、語音采集模塊及第一通訊模塊,服務器包括人臉識別模塊、語音識別模塊、驗證模塊、數(shù)據(jù)庫及第二通訊模塊,所述顯示模塊、人臉視頻采集模塊、語音采集模塊分別與第一通訊模塊連接,人臉識別模塊、語音識別模塊、驗證模塊分別與第二通訊模塊連接,人臉識別模塊、語音識別模塊分別與驗證模塊連接,數(shù)據(jù)庫模塊分別與人臉識別模塊、語音識別模塊及驗證模塊連接,第一通訊模塊與第二通訊模塊通過網(wǎng)絡連接,
所述人臉視頻采集模塊用于獲取被檢測用戶的面部視頻將其通過第一通訊模塊及第二通訊模塊發(fā)送至人臉識別模塊;
所述語音采集模塊用于采集用戶輸入的語音音頻數(shù)據(jù)將其通過第一通訊模塊及第二通訊模塊發(fā)送至語音識別模塊;
所述顯示模塊用于顯示服務器發(fā)送來的顯示提示信息,包括人臉識別失敗信息、聲音口令輸入不正確信息、驗證失敗信息、聲音口令文本及驗證成功信息;
所述第一通訊模塊及第二通訊模塊用于終端與服務器之間的信息交互;
所述人臉識別模塊用于接收到被檢測用戶的面部視頻后對其進行過濾及去噪,并提取關鍵幀,根據(jù)關鍵幀獲取用戶面部特征參數(shù),選取其中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的所有用戶面部特征參數(shù)進行匹配,若匹配成功則將匹配成功結果發(fā)送給驗證模塊,該匹配成功結果即為人臉識別結果,若匹配失敗則將返回終端人臉識別失敗信息;
所述語音識別模塊用于在接收到驗證模塊發(fā)送來的語音識別請求后,向終端發(fā)送預設聲音口令文本,令終端通過顯示模塊顯示聲音口令文本,在接收到終端的語音采集模塊發(fā)送來的語音音頻數(shù)據(jù)后,將其轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,若匹配失敗則認為識別失敗,返回終端聲音口令輸入不正確信息,若匹配成功則提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配,若匹配失敗則認為識別失敗,返回終端語音識別失敗信息,若匹配成功則將匹配成功結果發(fā)送給驗證模塊,該匹配成功結果即為聲紋識別結果;
所述驗證模塊用于接收到人臉識別模塊發(fā)送來的匹配成功結果后,向語音識別模塊發(fā)送語音識別請求,在接收到語音識別模塊發(fā)送來的匹配成功結果后,將其與人臉識別模塊發(fā)送來的匹配成功結果進行集合取交集,若交集為空,則認為本次用戶驗證失敗,返回終端驗證失敗信息,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息,若交集中有不止一個結果,則認為聲紋特征不明顯,向語音識別模塊重新發(fā)送語音識別請求,若此時已發(fā)送過預設數(shù)量的語音識別請求則認為本次用戶驗證失敗,返回終端驗證失敗信息。
再進一步的,所述人臉視頻采集模塊為攝像模塊,所述語音采集模塊為拾音器。
具體的,所述人臉識別模塊中設置有圖像相似度預設值,在選取用戶面部特征參數(shù)中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的用戶面部特征參數(shù)進行匹配時,若匹配出的結果中各用戶面部特征參數(shù)相似度閾值小于圖像相似度預設值時,判定為匹配成功,否則判定為匹配失敗。
再進一步的,所述人臉識別模塊的匹配成功結果中包括用戶信息,所述用戶信息中包括用戶年齡信息。
具體的,所述驗證模塊向語音識別模塊發(fā)送的語音識別請求中,包含用戶年齡信息或請求發(fā)送注冊時的聲音口令文本。
再進一步的,所述驗證模塊向語音識別模塊發(fā)送的語音識別請求中,若此次是第預設數(shù)量次向語音識別模塊發(fā)送語音識別請求,則該語音識別請求中包括請求發(fā)送注冊時的聲音口令文本。
具體的,所述語音識別模塊中,預設聲音口令文本為一段易讀文字或一段數(shù)字或一段新聞類文字或與用戶信息對應的注冊時的聲音口令文本。
再進一步的,所述語音識別模塊中,在向終端發(fā)送預設聲音口令文本前還根據(jù)語音識別請求進行判斷,若語音識別請求中有請求發(fā)送注冊時的聲音口令文本則語音識別模塊選擇的預設聲音口令文本為與用戶信息對應的注冊時的聲音口令文本,若語音識別請求中有用戶年齡信息,則根據(jù)用戶年齡信息判斷用戶年齡,若用戶為老年人或未成年人則選擇的預設聲音口令文本為一段易讀文字或一段數(shù)字,否則選擇的預設聲音口令文本為一段新聞類文字。
具體的,所述語音識別模塊中,在向終端發(fā)送預設聲音口令文本后,還開始計時,判斷是否在預設時間內接收到終端發(fā)送來的語音音頻數(shù)據(jù),若計時時間達到預設時間仍未收到終端發(fā)送來的語音音頻數(shù)據(jù),則更換預設聲音口令文本并重新向終端發(fā)送更換后的預設聲音口令文本,且重新開始計時,回到判斷是否在預設時間內接收到終端發(fā)送來的語音音頻數(shù)據(jù)那一步。
基于人臉識別和聲紋識別的交互式認證方法,應用于上述基于人臉識別和聲紋識別的交互式認證系統(tǒng),其特征在于,包括以下步驟;
步驟1、用戶采用終端向服務器進行用戶注冊,服務器在數(shù)據(jù)庫中存儲用戶信息、該用戶面部特征參數(shù)及該用戶聲紋特征向量;
步驟2、認證時,終端獲取被檢測用戶的面部視頻并發(fā)送至服務器;
步驟3、服務器對接收到被檢測用戶的面部視頻進行過濾及去噪,并提取關鍵幀,根據(jù)關鍵幀獲取用戶面部特征參數(shù),選取其中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的所有用戶面部特征參數(shù)進行匹配,若匹配成功則得到人臉識別結果并進入步驟5,若匹配失敗則進入步驟4;
步驟4、服務器返回終端人臉識別失敗信息,終端顯示人臉識別失敗并提示用戶,回到步驟2;
步驟5、服務器生成并向終端發(fā)送預設聲音口令文本;
步驟6、終端顯示聲音口令文本,并采集用戶輸入的語音音頻數(shù)據(jù)上傳至服務器;
步驟7、服務器將接收到的語音音頻數(shù)據(jù)后轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,若匹配失敗則認為識別失敗,返回終端聲音口令輸入不正確信息,進入步驟8,若匹配成功則進入步驟9;
步驟8、終端顯示聲音口令輸入不正確信息,回到步驟2;
步驟9、服務器提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配,若匹配失敗則認為識別失敗,返回終端語音識別失敗信息,進入步驟10,若匹配成功則得到語音識別結果并進入步驟11;
步驟10、終端顯示語音識別失敗信息,回到步驟2;
步驟11、服務器將人臉識別結果與語音識別結果進行集合取交集,若交集為空,則認為本次用戶驗證失敗,返回終端驗證失敗信息,進入步驟12,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息,若交集中有不止一個結果,則認為聲紋特征不明顯,判斷本次認證是否已發(fā)送預設數(shù)量的聲音口令文本,若是則認為本次用戶驗證失敗,返回終端驗證失敗信息,進入步驟12,否則重新生成并向終端發(fā)送預設聲音口令文本,回到步驟6;
步驟12,終端顯示驗證失敗信息,回到步驟2。
具體的,步驟1包括以下步驟:
步驟101、用戶向終端輸入用戶信息,并通過終端采集人臉視頻或多張人臉圖像,終端將用戶信息及人臉視頻或多張人臉圖像上傳至服務器;
步驟102、服務器從人臉視頻中截取多張人臉圖像或將接收到的多張圖像作為人臉樣本,得到該用戶面部特征參數(shù),并進行人臉建模,并將其與用戶信息關聯(lián)后存儲于數(shù)據(jù)庫中,并隨機生成聲音口令文本發(fā)送給終端;
步驟103、終端顯示聲音口令文本,并采集用戶的語音音頻數(shù)據(jù),將所采集的語音音頻數(shù)據(jù)上傳給服務器;
步驟104、服務器對語音音頻數(shù)據(jù)進行聲紋特征向量提取,將提取的聲紋特征向量、語音音頻數(shù)據(jù)及對應的聲音口令文本與用戶信息關聯(lián)后存儲于數(shù)據(jù)庫中。
進一步的,步驟102中,所述隨機生成聲音口令文本發(fā)送給終端中,隨機生成至少一段聲音口令文本,并按順序發(fā)送給終端;
步驟103中,所述終端顯示聲音口令文本,并采集用戶的語音音頻數(shù)據(jù),將所采集的語音音頻數(shù)據(jù)上傳給服務器中,終端按順序顯示聲音口令文本,當一個聲音口令文本采集了三次對應的用戶的語音音頻數(shù)據(jù)后,再顯示下一個聲音口令文本,得到所有聲音口令文本對應的各三個語音音頻數(shù)據(jù)后,發(fā)送給服務器。
具體的,步驟104中,服務器接收到所有語音音頻數(shù)據(jù)后,分別對其進行聲紋特征向量提取,針對每一個聲音口令文本,選擇出其中聲紋特征向量最明顯的一個語音音頻數(shù)據(jù),將聲音口令文本、所選擇的語音音頻數(shù)據(jù)及其聲紋特征向量與用信息系關聯(lián)后存儲于數(shù)據(jù)庫中。
再進一步的,步驟11中,所述重新生成并向終端發(fā)送預設聲音口令文本中,所重新生成的預設聲音口令文本為與用戶信息對應的注冊時的聲音口令文本中的一個
具體的,步驟3中,服務器中設置有圖像相似度預設值,在選取用戶面部特征參數(shù)中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的用戶面部特征參數(shù)進行匹配時,若匹配出的結果中各用戶面部特征參數(shù)相似度閾值小于圖像相似度預設值時,判定為匹配成功,否則判定為匹配失敗。
再進一步的,步驟5中,所述預設聲音口令文本為隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字或與用戶信息對應的注冊時的聲音口令文本。
具體的,步驟1中,所述用戶信息包括用戶年齡信息;
步驟3中,所述人臉識別結果中包括用戶信息;
步驟5中,所述服務器生成并向終端發(fā)送預設聲音口令文本時,若人臉識別結果中的用戶信息顯示為老年人或未成年人則選擇的預設聲音口令文本為一段易讀文字或一段數(shù)字,否則選擇的預設聲音口令文本為一段新聞類文字。
再進一步的,步驟9中,若匹配失敗時,還判斷是否已生成過預設數(shù)量減一個聲音口令文本,若是則認為識別失敗,返回終端語音識別失敗信息,進入步驟10,否則重新生成并向終端發(fā)送預設聲音口令文本,回到步驟6,該重新生成并向終端發(fā)送的預設聲音口令文本為隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字,其長度大于上一次生成的預設聲音口令文本。
再進一步的,步驟9中,服務器中設置有聲紋相似度預設值,在服務器將提取的語音音頻數(shù)據(jù)中的聲紋特征向量與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配時,若匹配出的結果中各用戶用戶聲紋特征向量相似度閾值小于聲紋相似度預設值時,判定為匹配成功,否則判定為匹配失敗。
具體的,步驟5中,在服務器生成并向終端發(fā)送預設聲音口令文本后,還開始計時;
和/或,步驟9中,在服務器重新生成并向終端發(fā)送預設聲音口令文本后,還開始計時;
和/或,步驟11中,在服務器重新生成并向終端發(fā)送預設聲音口令文本后,還開始計時;
步驟5與步驟7之間,還包括以下步驟:
步驟A、服務器判斷是否在預設時間內接收到終端發(fā)送來的語音音頻數(shù)據(jù),若計時時間達到預設時間仍未收到終端發(fā)送來的語音音頻數(shù)據(jù),則進入步驟A,否則進入步驟7;
步驟B、服務器更換預設聲音口令文本并重新向終端發(fā)送更換后的預設聲音口令文本,且重新開始計時,回到步驟A,所述更換后的預設聲音口令文本為重新隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字。
再進一步的,步驟9中,若匹配失敗,返回終端語音識別失敗信息后,服務器還進入步驟13;
步驟11中,若認為驗證成功,返回終端驗證成功信息后,服務器還進入步驟13,若認為本次用戶驗證失敗,返回終端驗證失敗信息后,服務器還進入步驟13;
步驟13、服務器利用本次認證中接收到的人臉圖像對人臉識別結果中的用戶信息對應的人臉建模進行優(yōu)化。
本發(fā)明的有益效果是,在本發(fā)明方案中,通過上述基于人臉識別和聲紋識別的交互式認證系統(tǒng)及方法,利用人臉識別及聲紋識別,達到安全性更高的認證,提升安全性。
附圖說明
圖1為本發(fā)明實施例中基于人臉識別和聲紋識別的交互式認證系統(tǒng)的系統(tǒng)框圖。
具體實施方式
下面結合附圖及實施例,詳細描述本發(fā)明的技術方案。
本發(fā)明所述基于人臉識別和聲紋識別的交互式認證系統(tǒng),其系統(tǒng)框圖參見圖1,包括終端及服務器,終端與服務器通過網(wǎng)絡連接,其中,終端用于獲取被檢測用戶的面部視頻及采集用戶輸入的語音音頻數(shù)據(jù)將其發(fā)送至服務器,且顯示服務器發(fā)送來的顯示提示信息;服務器用于進行用戶面部特征參數(shù)進行匹配和用戶聲紋特征向量進行匹配,并將聲紋識別結果與人臉識別結果進行集合取交集,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息。
本發(fā)明所述的基于人臉識別和聲紋識別的交互式認證方法,應用于上述基于人臉識別和聲紋識別的交互式認證系統(tǒng)中,首先用戶采用終端向服務器進行用戶注冊,服務器在數(shù)據(jù)庫中存儲用戶信息、該用戶面部特征參數(shù)及該用戶聲紋特征向量,在認證時,終端獲取被檢測用戶的面部視頻并發(fā)送至服務器,服務器對接收到被檢測用戶的面部視頻進行過濾及去噪,并提取關鍵幀,根據(jù)關鍵幀獲取用戶面部特征參數(shù),選取其中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的所有用戶面部特征參數(shù)進行匹配,若匹配失敗則服務器返回終端人臉識別失敗信息,終端顯示人臉識別失敗并提示用戶,回到認證時那一步重新認證,若匹配成功則得到人臉識別結果,生成并向終端發(fā)送預設聲音口令文本,然后終端顯示聲音口令文本,并采集用戶輸入的語音音頻數(shù)據(jù)上傳至服務器,服務器再將接收到的語音音頻數(shù)據(jù)后轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,若匹配失敗則認為識別失敗,返回終端聲音口令輸入不正確信息,終端顯示聲音口令輸入不正確信息,回到認證時那一步重新認證,若匹配成功則服務器提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配,若匹配失敗則認為識別失敗,返回終端語音識別失敗信息,終端顯示語音識別失敗信息,回到認證時那一步重新認證,若匹配成功則得到語音識別結果,服務器將人臉識別結果與語音識別結果進行集合取交集,若交集為空,則認為本次用戶驗證失敗,返回終端驗證失敗信息,終端顯示驗證失敗信息,回到認證時那一步重新認證,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息,若交集中有不止一個結果,則認為聲紋特征不明顯,判斷本次認證是否已發(fā)送預設數(shù)量的聲音口令文本,若是則認為本次用戶驗證失敗,返回終端驗證失敗信息,終端顯示驗證失敗信息,回到認證時那一步重新認證,否則重新生成并向終端發(fā)送預設聲音口令文本,回到終端顯示聲音口令文本那一步。
實施例
本發(fā)明實施例的基于人臉識別和聲紋識別的交互式認證系統(tǒng),其系統(tǒng)框圖參見圖1,包括終端及服務器,終端與服務器通過網(wǎng)絡連接,終端可包括顯示模塊、人臉視頻采集模塊、語音采集模塊及第一通訊模塊,服務器可包括人臉識別模塊、語音識別模塊、驗證模塊、數(shù)據(jù)庫及第二通訊模塊,顯示模塊、人臉視頻采集模塊、語音采集模塊分別與第一通訊模塊連接,人臉識別模塊、語音識別模塊、驗證模塊分別與第二通訊模塊連接,人臉識別模塊、語音識別模塊分別與驗證模塊連接,數(shù)據(jù)庫模塊分別與人臉識別模塊、語音識別模塊及驗證模塊連接,第一通訊模塊與第二通訊模塊通過網(wǎng)絡連接。
其中,終端用于獲取被檢測用戶的面部視頻及采集用戶輸入的語音音頻數(shù)據(jù)將其發(fā)送至服務器,且顯示服務器發(fā)送來的顯示提示信息。
終端可包括顯示模塊、人臉視頻采集模塊、語音采集模塊及第一通訊模塊。
人臉視頻采集模塊用于獲取被檢測用戶的面部視頻將其通過第一通訊模塊及第二通訊模塊發(fā)送至人臉識別模塊;其可以為攝像頭等攝像模塊。
語音采集模塊用于采集用戶輸入的語音音頻數(shù)據(jù)將其通過第一通訊模塊及第二通訊模塊發(fā)送至語音識別模塊;其可以為麥克風等拾音器。
顯示模塊用于顯示服務器發(fā)送來的顯示提示信息,包括人臉識別失敗信息、聲音口令輸入不正確信息、驗證失敗信息、聲音口令文本及驗證成功信息等。
第一通訊模塊用于終端與服務器之間的信息交互。
服務器用于進行用戶面部特征參數(shù)進行匹配和用戶聲紋特征向量進行匹配,并將聲紋識別結果與人臉識別結果進行集合取交集,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息。這里,進行用戶面部特征參數(shù)進行匹配和用戶聲紋特征向量進行匹配優(yōu)選為:服務器從接收到的被檢測用戶的面部視頻獲取用戶面部特征參數(shù),將獲取的用戶面部特征參數(shù)與服務器預先存儲的所有用戶面部特征參數(shù)進行匹配,匹配成功則得到人臉識別結果,然后向終端發(fā)送預設聲音口令文本,在接收到終端的語音采集模塊發(fā)送來的語音音頻數(shù)據(jù)后,將其轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,匹配成功則提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與服務器預先存儲的所有用戶聲紋特征向量進行匹配,匹配成功則得到聲紋識別結果。
服務器可包括人臉識別模塊、語音識別模塊、驗證模塊、數(shù)據(jù)庫及第二通訊模塊。
第二通訊模塊用于終端與服務器之間的信息交互。
人臉識別模塊用于接收到被檢測用戶的面部視頻后對其進行過濾及去噪,并提取關鍵幀,根據(jù)關鍵幀獲取用戶面部特征參數(shù),選取其中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的所有用戶面部特征參數(shù)進行匹配,若匹配成功則將匹配成功結果發(fā)送給驗證模塊,該匹配成功結果即為人臉識別結果,若匹配失敗則將返回終端人臉識別失敗信息。人臉識別模塊中可以設置圖像相似度預設值,在選取用戶面部特征參數(shù)中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的用戶面部特征參數(shù)進行匹配時,若匹配出的結果中各用戶面部特征參數(shù)相似度閾值小于圖像相似度預設值時,判定為匹配成功,否則判定為匹配失敗。人臉識別模塊的匹配成功結果中可以包括用戶信息,而用戶信息中包括用戶年齡信息。
語音識別模塊用于在接收到驗證模塊發(fā)送來的語音識別請求后,向終端發(fā)送預設聲音口令文本,令終端通過顯示模塊顯示聲音口令文本,在接收到終端的語音采集模塊發(fā)送來的語音音頻數(shù)據(jù)后,將其轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,若匹配失敗則認為識別失敗,返回終端聲音口令輸入不正確信息,若匹配成功則提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配,若匹配失敗則認為識別失敗,返回終端語音識別失敗信息,若匹配成功則將匹配成功結果發(fā)送給驗證模塊,該匹配成功結果即為聲紋識別結果。語音識別模塊中,預設聲音口令文本為一段易讀文字或一段數(shù)字或一段新聞類文字或與用戶信息對應的注冊時的聲音口令文本等;語音識別模塊中,在向終端發(fā)送預設聲音口令文本前還可以根據(jù)語音識別請求進行判斷,若語音識別請求中有請求發(fā)送注冊時的聲音口令文本則語音識別模塊選擇的預設聲音口令文本為與用戶信息對應的注冊時的聲音口令文本,若語音識別請求中有用戶年齡信息,則根據(jù)用戶年齡信息判斷用戶年齡,若用戶為老年人或未成年人則選擇的預設聲音口令文本為一段易讀文字或一段數(shù)字,否則選擇的預設聲音口令文本為一段新聞類文字;另外,在語音識別模塊中,還可以在向終端發(fā)送預設聲音口令文本后,還開始計時,判斷是否在預設時間(如10秒)內接收到終端發(fā)送來的語音音頻數(shù)據(jù),若計時時間達到預設時間仍未收到終端發(fā)送來的語音音頻數(shù)據(jù),則更換預設聲音口令文本并重新向終端發(fā)送更換后的預設聲音口令文本,且重新開始計時,回到判斷是否在預設時間內接收到終端發(fā)送來的語音音頻數(shù)據(jù)那一步。
驗證模塊用于接收到人臉識別模塊發(fā)送來的匹配成功結果后,向語音識別模塊發(fā)送語音識別請求,在接收到語音識別模塊發(fā)送來的匹配成功結果后,將其與人臉識別模塊發(fā)送來的匹配成功結果進行集合取交集,若交集為空,則認為本次用戶驗證失敗,返回終端驗證失敗信息,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息,若交集中有不止一個結果,則認為聲紋特征不明顯,向語音識別模塊重新發(fā)送語音識別請求,若此時已發(fā)送過預設數(shù)量的語音識別請求則認為本次用戶驗證失敗,返回終端驗證失敗信息。驗證模塊向語音識別模塊發(fā)送的語音識別請求中,包含用戶年齡信息或請求發(fā)送注冊時的聲音口令文本等,且還可以在驗證模塊向語音識別模塊發(fā)送的語音識別請求中,若此次是第預設數(shù)量次(如預設數(shù)量為3,此時為第3次時)向語音識別模塊發(fā)送語音識別請求,則該語音識別請求中包括請求發(fā)送注冊時的聲音口令文本。
使用時,其處理方法如下:
步驟1、用戶采用終端向服務器進行用戶注冊,服務器在數(shù)據(jù)庫中存儲用戶信息、該用戶面部特征參數(shù)及該用戶聲紋特征向量。
本步驟中,用戶信息優(yōu)選包括用戶年齡信息,本步驟具體可包括以下步驟:
步驟101、用戶向終端輸入用戶信息,并通過終端采集人臉視頻或多張人臉圖像,終端將用戶信息及人臉視頻或多張人臉圖像上傳至服務器。
步驟102、服務器從人臉視頻中截取多張人臉圖像或將接收到的多張圖像作為人臉樣本,得到該用戶面部特征參數(shù),并進行人臉建模,并將其與用戶信息關聯(lián)后存儲于數(shù)據(jù)庫中,并隨機生成聲音口令文本發(fā)送給終端。
這里,隨機生成聲音口令文本發(fā)送給終端中,可隨機生成至少一段聲音口令文本,并按順序發(fā)送給終端,例如隨機生成三段聲音口令文本,隨機對其排序后按順序發(fā)送給終端。其中,隨機生成多少段聲音口令文本根據(jù)業(yè)務認證的安全度來確定,一般來說,安全度需求越高的業(yè)務認證,在注冊時,隨機生成的聲音口令文本的數(shù)量越多。
步驟103、終端顯示聲音口令文本,并采集用戶的語音音頻數(shù)據(jù),將所采集的語音音頻數(shù)據(jù)上傳給服務器。
這里,終端顯示聲音口令文本,并采集用戶的語音音頻數(shù)據(jù),將所采集的語音音頻數(shù)據(jù)上傳給服務器中,若終端是按順序接收到多段聲音口令文本時,按順序顯示聲音口令文本,當一個聲音口令文本采集了三次對應的用戶的語音音頻數(shù)據(jù)后,再顯示下一個聲音口令文本,得到所有聲音口令文本對應的各三個語音音頻數(shù)據(jù)后,發(fā)送給服務器。例如終端按順序接收到兩段聲音口令文本時,則先顯示第一段聲音口令文本,采集三次用戶按照第一段聲音口令文本輸入的用戶語音音頻數(shù)據(jù)后,再顯示第二段聲音口令文本,再次采集三次用戶按照第二段聲音口令文本輸入的用戶語音音頻數(shù)據(jù),然后將對應第一段聲音口令文本的三個用戶語音音頻數(shù)據(jù)及對應第二段聲音口令文本的三個用戶語音音頻數(shù)據(jù)一起發(fā)送給服務器,總共六個用戶語音音頻數(shù)據(jù)。
步驟104、服務器對語音音頻數(shù)據(jù)進行聲紋特征向量提取,將提取的聲紋特征向量、語音音頻數(shù)據(jù)及對應的聲音口令文本與用戶信息關聯(lián)后存儲于數(shù)據(jù)庫中。
這里,若服務器接收到多個語音音頻數(shù)據(jù),則服務器在接收到所有語音音頻數(shù)據(jù)后,分別對其進行聲紋特征向量提取,針對每一個聲音口令文本,選擇出其中聲紋特征向量最明顯的一個語音音頻數(shù)據(jù),將聲音口令文本、所選擇的語音音頻數(shù)據(jù)及其聲紋特征向量與用信息系關聯(lián)后存儲于數(shù)據(jù)庫中。即一個聲音口令文本對應一個語音音頻數(shù)據(jù),可刪除另兩個語音音頻數(shù)據(jù)。
步驟2、認證時,終端獲取被檢測用戶的面部視頻并發(fā)送至服務器。
步驟3、服務器對接收到被檢測用戶的面部視頻進行過濾及去噪,并提取關鍵幀,根據(jù)關鍵幀獲取用戶面部特征參數(shù),選取其中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的所有用戶面部特征參數(shù)進行匹配,若匹配成功則得到人臉識別結果并進入步驟5,若匹配失敗則進入步驟4。
本步驟中,服務器中可以設置圖像相似度預設值,在選取用戶面部特征參數(shù)中的關鍵特征參數(shù)與數(shù)據(jù)庫中所存儲的用戶面部特征參數(shù)進行匹配時,若匹配出的結果中各用戶面部特征參數(shù)相似度閾值小于圖像相似度預設值時,判定為匹配成功,否則判定為匹配失敗。這里,人臉識別結果優(yōu)選包括用戶信息,而用戶信息由步驟1可見,其優(yōu)選包括用戶年齡信息。
步驟4、服務器返回終端人臉識別失敗信息,終端顯示人臉識別失敗并提示用戶,回到步驟2。
步驟5、服務器生成并向終端發(fā)送預設聲音口令文本。
本步驟中,預設聲音口令文本可以為隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字或與用戶信息對應的注冊時的聲音口令文本等。
這里,服務器生成并向終端發(fā)送預設聲音口令文本時,若人臉識別結果中的用戶信息(可根據(jù)用戶年齡信息判斷)顯示為老年人或未成年人則選擇的預設聲音口令文本為一段易讀文字或一段數(shù)字,其目的就在于保證用戶能夠看懂且讀出聲音口令文本,否則選擇的預設聲音口令文本為一段新聞類文字,此處否則即是指用戶信息顯示用戶為成年人,而成年人一般都能夠看懂且讀出聲音口令文本,因此選擇一段新聞類文字,以增加識別精準度。
步驟6、終端顯示聲音口令文本,并采集用戶輸入的語音音頻數(shù)據(jù)上傳至服務器。
步驟7、服務器將接收到的語音音頻數(shù)據(jù)后轉換為文本內容,并將該文本內容與之前所發(fā)送的聲音口令文本進行匹配,若匹配失敗則認為識別失敗,返回終端聲音口令輸入不正確信息,進入步驟8,若匹配成功則進入步驟9。
步驟8、終端顯示聲音口令輸入不正確信息,回到步驟2。
步驟9、服務器提取該語音音頻數(shù)據(jù)中的聲紋特征向量,將其與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配,若匹配失敗則認為識別失敗,返回終端語音識別失敗信息,進入步驟10,若匹配成功則得到語音識別結果并進入步驟11。
本步驟中,若匹配失敗時,還可以判斷是否已生成過預設數(shù)量減一個(例如預設數(shù)量為3,則此時即是判斷是否已生成過2個聲音口令文本)聲音口令文本,若是則認為識別失敗,返回終端語音識別失敗信息,進入步驟10,否則重新生成并向終端發(fā)送預設聲音口令文本,回到步驟6,該重新生成并向終端發(fā)送的預設聲音口令文本為隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字,其長度大于上一次生成的預設聲音口令文本,可見,其可與步驟5中的生成方法相對應。
本步驟中,服務器中還可以設置聲紋相似度預設值,在服務器將提取的語音音頻數(shù)據(jù)中的聲紋特征向量與數(shù)據(jù)庫中所存儲的所有用戶聲紋特征向量進行匹配時,若匹配出的結果中各用戶用戶聲紋特征向量相似度閾值小于聲紋相似度預設值時,判定為匹配成功,否則判定為匹配失敗。
步驟10、終端顯示語音識別失敗信息,回到步驟2。
步驟11、服務器將人臉識別結果與語音識別結果進行集合取交集,若交集為空,則認為本次用戶驗證失敗,返回終端驗證失敗信息,進入步驟12,若交集中只有一個結果,則認為驗證成功,返回終端驗證成功信息,若交集中有不止一個結果,則認為聲紋特征不明顯,判斷本次認證是否已發(fā)送預設數(shù)量的聲音口令文本,若是則認為本次用戶驗證失敗,返回終端驗證失敗信息,進入步驟12,否則重新生成并向終端發(fā)送預設聲音口令文本,回到步驟6。
本步驟中,重新生成并向終端發(fā)送預設聲音口令文本中,所重新生成的預設聲音口令文本為與用戶信息對應的注冊時的聲音口令文本中的一個,即本例中步驟102中隨機生成的聲音口令文本中的一個,當其只有一個時,則就直接選擇該聲音口令文本,若之前未如步驟102那樣生成了隨機聲音口令文本,而是直接采集的用戶語音音頻數(shù)據(jù),再通過用戶語音音頻數(shù)據(jù)獲取到用戶的聲紋特征向量,則此時可選擇該用戶語音音頻數(shù)據(jù)對應的聲音口令文本(可通過轉換用戶語音音頻數(shù)據(jù)為文本數(shù)據(jù)的方法得到)。
步驟12,終端顯示驗證失敗信息,回到步驟2。
本例中,在服務器生成并向終端發(fā)送預設聲音口令文本后,還開始計時,這里,服務器可以是本次認證時首次生成并向終端發(fā)送預設聲音口令文本,也可以是服務器在本次認證時重新生成并向終端發(fā)送預設聲音口令文本,即是指只要服務器生成并向終端發(fā)送預設聲音口令文本后,就開始計時。
則步驟5與步驟7之間,還可以包括以下步驟:
步驟A、服務器判斷是否在預設時間內接收到終端發(fā)送來的語音音頻數(shù)據(jù),若計時時間達到預設時間仍未收到終端發(fā)送來的語音音頻數(shù)據(jù),則進入步驟A,否則進入步驟7;
步驟B、服務器更換預設聲音口令文本并重新向終端發(fā)送更換后的預設聲音口令文本,且重新開始計時,回到步驟A,所述更換后的預設聲音口令文本為重新隨機生成的一段易讀文字或隨機生成的一段數(shù)字或隨機生成的一段新聞類文字。
本例中,步驟9中,若匹配失敗,返回終端語音識別失敗信息后,服務器還可以進入步驟13,此時終端仍然進入步驟10;
步驟11中,若認為驗證成功,返回終端驗證成功信息后,服務器還可以進入步驟13,若認為本次用戶驗證失敗,返回終端驗證失敗信息后,服務器還可以進入步驟13,此時終端仍然進入步驟12。
則步驟13可以為:服務器利用本次認證中接收到的人臉圖像對人臉識別結果中的用戶信息對應的人臉建模進行優(yōu)化。其目的在于:由于人臉識別成功,則說明所用于識別的人臉圖像或所采集的人臉視頻是正確的,則可利用這些正確的人臉圖像信息對人臉建模進行優(yōu)化,提高人臉識別時的精確度,刪除其中無效的用戶面部特征參數(shù)等,以提高運算效率。
同理,在步驟11中,若認為驗證成功,返回終端驗證成功信息后,服務器還可利用本次認證中接收到的語音音頻數(shù)據(jù)對人臉識別結果中的用戶信息對應的聲紋特征數(shù)據(jù)進行優(yōu)化。
本例中,參見上述處理可知,優(yōu)選為人臉識別步驟在前,而聲紋識別在后,其原因是:首先,人臉識別經(jīng)過目前幾十年的發(fā)展,其技術較為成熟,算法效率高、處理速度快,且聲紋識別與其他生理特征識別不同,聲紋識別的特征必須是“個性化”特征,而說話人(即需要聲紋識別的用戶)需要識別的特征針對該說話人必須是有“共性特征”的。雖然目前大部分聲紋識別系統(tǒng)采用的都是聲學層面的特征,但是表征一個人特點的特征應該是多層面的,包括:1)與人類的發(fā)音機制的解剖學結構有關的聲學特征(如頻譜、倒頻譜、共振峰、基音、反射系數(shù)等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;2)受社會經(jīng)濟狀況、受教育水平、出生地等影響的語義、修辭、發(fā)音、言語習慣等;3)個人特點或受父母影響的韻律、節(jié)奏、速度、語調、音量等特征。從利用數(shù)學方法可以建模的角度出發(fā),聲紋自動識別模型目前可以使用的特征包括:1)聲學特征(倒頻譜);2)詞法特征(說話人相關的詞n-gram,音素n-gram);3)韻律特征(利用n-gram描述的基音和能量“姿勢”);4)語種、方言和口音信息;5)通道信息(使用何種通道)等。因此,在本發(fā)明方案中,其預設聲音口令文本可以是基于用戶信息來隨機生成的。而又由于本發(fā)明中提到的人臉識別及聲紋識別的具體方式為現(xiàn)有較為成熟的技術,因此本案不再詳述。