本發(fā)明涉及一種手機(jī)來源識別技術(shù),尤其是涉及一種基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識別方法。
背景技術(shù):
如今,隨著移動互聯(lián)網(wǎng)和微芯片產(chǎn)業(yè)的快速發(fā)展,移動終端不再僅僅是一種通信設(shè)備,而是人們生活中不可或缺的部分。越來越多的人開始用智能手機(jī)、PAD等便攜設(shè)備捕捉和采集他們看到或聽到的情景,而不是用相機(jī)、錄音筆、DV(Digital Video,數(shù)字視頻)等專業(yè)設(shè)備。然而,大量的數(shù)字采集設(shè)備和采集數(shù)據(jù)的可用性帶來了新的問題和挑戰(zhàn)——多媒體的安全問題。作為一種檢測多媒體數(shù)據(jù)獨(dú)創(chuàng)性、真實(shí)性、完整性的技術(shù),多媒體取證技術(shù)是信息安全領(lǐng)域的熱點(diǎn)研究問題。
手機(jī)來源識別是與多媒體取證最相關(guān)的應(yīng)用,其用來檢測數(shù)字錄音文件來源真實(shí)性和可靠性的。這一研究方向引起了大量取證研究者的關(guān)注,并在近年來獲得了重大進(jìn)展。如:Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brand and models of Cell-Phones from recorded speech signals.IEEE Trans.Inf.Forensics Security.7(2),625-634(2012)(基于錄音信號的手機(jī)品牌和型號的識別,電氣和電子工程師協(xié)會,多媒體取證和安全學(xué)報)中提出的一種通過提取錄音文件的MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征信息用于手機(jī)品牌和型號的識別的方法,其在14個不同型號的手機(jī)設(shè)備的閉集識別實(shí)驗(yàn)中,識別率可以達(dá)到96.42%。又如:Kotropoulos,C.Source phone identification using sketches of features.IET Biometrics.3(2):75–83(2014)(基于特征稀疏表示的手機(jī)來源識別,英國工程技術(shù)學(xué)會,生物學(xué)報),其通過對不同手機(jī)得到的錄音文件的語音信號頻譜取對數(shù),然后沿時間軸取平均或者通過堆疊每一幀的特征參數(shù)并基于高斯混合模型建模得到大尺寸的特征向量,接著通過映射到低維空間進(jìn)行降維,其在7個品牌21個型號的手機(jī)來源識別實(shí)驗(yàn)中,識別率可達(dá)到94%。
然而,現(xiàn)有的大多數(shù)手機(jī)來源識別的研究是基于語音本身提取的分類特征,如:MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征、LFCC(Linear Frequency Cepstrum Coefficients,線性頻率倒譜系數(shù))特征、短時特征等。雖然這些相關(guān)特征在手機(jī)來源識別中取得了令人滿意的效果,但是基于語音本身提取的分類特征的手機(jī)來源識別的效果可能會受到許多不確定條件的干擾,如說話人的性別、情感變化、語音內(nèi)容等,從而會影響識別率和穩(wěn)定性,且基于語音本身提取的分類特征的手機(jī)來源識別的識別率和穩(wěn)定性還有待進(jìn)一步提高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是提供一種基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識別方法,其識別準(zhǔn)確率高、穩(wěn)定性好,且計(jì)算復(fù)雜度低。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為:一種基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識別方法,其特征在于包括以下步驟:
①選取M個不同主流品牌不同主流型號的手機(jī),并選取N個不同年齡不同性別的參與者;然后利用M個手機(jī)同時采集每個參與者用正常的語速朗讀固定內(nèi)容的語音,每個手機(jī)共采集到N個語音,M個手機(jī)共采集到M×N個語音,要求每個語音的時長至少為3分鐘;接著將每個手機(jī)采集到的每個語音轉(zhuǎn)換成wav格式語音;之后將每個手機(jī)對應(yīng)的每個wav格式語音分割成3~10秒的語音片段,并取10個語音片段作為語音樣本;再將每個手機(jī)對應(yīng)的共10N個語音樣本構(gòu)成一個語音子庫;其中,M>1,N≥1;
②利用自適應(yīng)端點(diǎn)檢測算法對每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本進(jìn)行近靜音段估計(jì)提取;然后對從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段進(jìn)行后處理,以消除近靜音段中不必要的語音部分,得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段;再將每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段拼接起來整合成一個最終近靜音段;
③保留每個手機(jī)對應(yīng)的所有最終近靜音段中時長大于或等于1.5秒的最終近靜音段,并將保留的所有最終近靜音段構(gòu)成該手機(jī)對應(yīng)的用于求取本底噪聲的頻譜分布特征的測試語音子庫;
④利用改進(jìn)的譜減法抑制每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段的背景噪聲,得到每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段的背景噪聲模型;然后獲得所有手機(jī)對應(yīng)的通用背景噪聲模型,將第k個頻率點(diǎn)處所有手機(jī)對應(yīng)的通用背景噪聲模型描述為BNmean(k),其中,符號“||”為取絕對值符號,BNm(k,n)表示第m個手機(jī)對應(yīng)的測試語音子庫中的所有近靜音段的背景噪聲模型的語譜圖中的第k個頻率點(diǎn)、第n幀在短時傅里葉變換域的頻譜系數(shù),1≤k≤K,K表示每個近靜音段的頻率點(diǎn)的總個數(shù),Kfft表示短時傅里葉變換的點(diǎn)數(shù);
⑤將每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段與所有手機(jī)對應(yīng)的通用背景噪聲模型的差值作為該手機(jī)的一個本底噪聲;然后對每個手機(jī)的每個本底噪聲進(jìn)行中值濾波處理以去除每個手機(jī)的每個本底噪聲中殘余的背景噪聲,得到每個手機(jī)的每個最終本底噪聲;接著對每個手機(jī)的每個最終本底噪聲進(jìn)行傅里葉變換,得到每個手機(jī)的每個最終本底噪聲的頻譜系數(shù);再對每個手機(jī)的每個最終本底噪聲的頻譜系數(shù)取10的對數(shù),得到每個手機(jī)的每個最終本底噪聲的取對數(shù)后的頻譜系數(shù);最后沿時間軸對每個手機(jī)的每個最終本底噪聲的取對數(shù)后的頻譜系數(shù)前T幀取平均,將該平均值作為每個手機(jī)的每個最終本底噪聲的頻譜分布特征;其中,傅里葉變換的點(diǎn)數(shù)為Kfft,T幀的時長小于或等于1.5秒,且T≥3,每個手機(jī)的每個最終本底噪聲的頻譜分布特征的維數(shù)為K;
⑥統(tǒng)計(jì)每個手機(jī)對應(yīng)的測試語音子庫中的近靜音段的總個數(shù),以最小的總個數(shù)為基準(zhǔn)數(shù),從每個手機(jī)對應(yīng)的測試語音子庫中的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子訓(xùn)練集,從每個手機(jī)對應(yīng)的測試語音子庫中的剩余的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子測試集;然后將所有手機(jī)對應(yīng)的子訓(xùn)練集構(gòu)成一個總訓(xùn)練集,并將所有手機(jī)對應(yīng)的子測試集構(gòu)成一個總測試集;接著將由總訓(xùn)練集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個訓(xùn)練特征空間,并將由總測試集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個測試特征空間;之后利用主成分分析方法對訓(xùn)練特征空間進(jìn)行降維操作,再對降維后的訓(xùn)練特征空間中的所有值進(jìn)行歸一化處理;并根據(jù)對訓(xùn)練特征空間進(jìn)行降維操作所采用的映射矩陣對測試特征空間進(jìn)行降維操作,再對降維后的測試特征空間中的所有值進(jìn)行歸一化處理;最后利用Matlab自帶的SVM分類函數(shù)先對歸一化處理后的訓(xùn)練特征空間進(jìn)行模型訓(xùn)練,得到一個訓(xùn)練好的多分類模型,再利用訓(xùn)練好的多分類模型對總測試集中的每個近靜音段進(jìn)行分類判別。
所述的步驟②中對從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段進(jìn)行后處理的具體過程為:找出每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段上的所有采樣點(diǎn)的采樣值中小于5×Thr的所有采樣點(diǎn),每連續(xù)的多個采樣點(diǎn)形成一段后處理后的近靜音段,得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段;其中,Thr表示利用自適應(yīng)端點(diǎn)檢測算法從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段上的所有采樣點(diǎn)的采樣值的絕對值升序排列后前30~50%的所有采樣值的平均值。
所述的步驟⑥中Matlab自帶的SVM分類函數(shù)使用的是RBF核函數(shù),Matlab自帶的SVM分類函數(shù)中對懲罰系數(shù)和伽馬系數(shù)采用交叉驗(yàn)證方式得到最優(yōu)值。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
1)本發(fā)明方法利用每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段與所有手機(jī)對應(yīng)的通用背景噪聲模型來估計(jì)每個手機(jī)的本底噪聲,再對每個手機(jī)的每個本底噪聲進(jìn)行中值濾波處理,使得得到的每個手機(jī)的每個最終本底噪聲中不含有殘余的背景噪聲,從而使得在此基礎(chǔ)上獲取的頻譜分布特征能更好的進(jìn)行手機(jī)的分類,通過大量實(shí)驗(yàn)驗(yàn)證本發(fā)明方法的識別率可以達(dá)到99.24%。
2)以往的手機(jī)來源識別方法大都都是基于語音樣本信息的,易受語音樣本中的文本信息、說話人的情感等因素影響,導(dǎo)致識別穩(wěn)定性較差,而本發(fā)明方法是基于近靜音段進(jìn)行頻譜分布特征提取和手機(jī)來源識別的,穩(wěn)定性更好。
3)本發(fā)明方法中提取頻譜分布特征的過程簡單,且對訓(xùn)練特征空間和測試特征空間降維后,數(shù)據(jù)計(jì)算量大大減小,計(jì)算效率高,計(jì)算復(fù)雜度低。
附圖說明
圖1為本發(fā)明方法的總體實(shí)現(xiàn)框圖;
圖2a為一個語音樣本的波形圖;
圖2b為現(xiàn)有的自適應(yīng)端點(diǎn)檢測算法在圖2a所示的語音樣本的波形圖上的檢測示意圖;
圖2c為圖2a所示的語音樣本中提取出的近靜音段的波形圖;
圖2d為圖2c所示的近靜音段經(jīng)后處理和拼接后得到的最終近靜音段;
圖3a為HTC D820t手機(jī)的最終本底噪聲的語譜圖;
圖3b為華為榮耀7手機(jī)的最終本底噪聲的語譜圖;
圖3c為一臺蘋果5手機(jī)的最終本底噪聲的語譜圖;
圖3d為另一臺蘋果5手機(jī)的最終本底噪聲的語譜圖;
圖3e為魅族MX4手機(jī)的最終本底噪聲的語譜圖;
圖3f為小米3手機(jī)的最終本底噪聲的語譜圖;
圖3g為OPPO一加手機(jī)的最終本底噪聲的語譜圖;
圖3h為三星蓋樂世S5手機(jī)的最終本底噪聲的語譜圖;
圖4a為iphone6手機(jī)的實(shí)際本底噪聲的語譜圖;
圖4b為利用本發(fā)明方法得到的iphone6手機(jī)的最終本底噪聲的語譜圖;
圖4c為iphone6手機(jī)的實(shí)際本底噪聲與利用本發(fā)明方法得到的iphone6手機(jī)的最終本底噪聲的頻譜比較示意圖。
具體實(shí)施方式
以下結(jié)合附圖實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)描述。
本發(fā)明提出的一種基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識別方法,其總體實(shí)現(xiàn)框圖如圖1所示,其包括以下步驟:
①選取M個不同主流品牌不同主流型號的手機(jī),并選取N個不同年齡不同性別的參與者;然后利用M個手機(jī)同時采集每個參與者用正常的語速朗讀固定內(nèi)容的語音,每個手機(jī)共采集到N個語音,M個手機(jī)共采集到M×N個語音,要求每個語音的時長至少為3分鐘;接著將每個手機(jī)采集到的每個語音轉(zhuǎn)換成wav格式語音;之后將每個手機(jī)對應(yīng)的每個wav格式語音分割成3~10秒的語音片段,并取10個語音片段作為語音樣本;再將每個手機(jī)對應(yīng)的共10N個語音樣本構(gòu)成一個語音子庫;其中,M>1,在本實(shí)施例中取M=24,N≥1,在本實(shí)施例中取N=12,如包括6個不同年齡的男性參與者,6個不同年齡的女性參與者,每個語音的采集環(huán)境安靜,在本實(shí)施例中選擇一間安靜的辦公室。
②利用現(xiàn)有的自適應(yīng)端點(diǎn)檢測算法對每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本進(jìn)行近靜音段估計(jì)提取;然后對從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段進(jìn)行后處理,以消除近靜音段中不必要的語音部分,得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段;再將每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段拼接起來整合成一個最終近靜音段,得到的最終近靜音段的時長肯定小于對應(yīng)的語音樣本的時長。
在此,先對每個語音樣本進(jìn)行近靜音段估計(jì)的原因是語音的近靜音段主要是由本底噪聲和背景噪聲構(gòu)成的,它不會被語音部分的綜合噪聲中占主導(dǎo)地位的聲電響應(yīng)不一致噪聲所污染,因此在此利用自適應(yīng)端點(diǎn)檢測算法進(jìn)行近靜音段估計(jì),自適應(yīng)端點(diǎn)檢測算法可以很好地識別近靜音段;但是識別的近靜音段中還含有少量語音信息,為了進(jìn)一步消除語音部分,對近靜音段進(jìn)行后處理,并整合得到最終近靜音段。
圖2a給出了一個語音樣本的波形圖,圖2b給出了現(xiàn)有的自適應(yīng)端點(diǎn)檢測算法在圖2a所示的語音樣本的波形圖上檢測的示意圖,圖2c給出了從圖2a所示的語音樣本中提取出的近靜音段的波形圖,圖2d給出了圖2c所示的近靜音段經(jīng)后處理和拼接后得到的最終近靜音段。從圖2a和圖2b中可以看出,本發(fā)明方法能夠很好的識別近靜音段;從圖2c中可以看出,提取出的近靜音段還含有少量語音信息,而從圖2d中可以看出,經(jīng)本發(fā)明方法中的近靜音段后處理后,得到的最終近靜音段不含有語音信息。
在此具體實(shí)施例中,步驟②中對從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段進(jìn)行后處理的具體過程為:找出每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段上的所有采樣點(diǎn)的采樣值中小于5×Thr的所有采樣點(diǎn),每連續(xù)的多個采樣點(diǎn)形成一段后處理后的近靜音段,得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本對應(yīng)的多段后處理后的近靜音段;其中,Thr表示利用現(xiàn)有的自適應(yīng)端點(diǎn)檢測算法從每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中提取出的近靜音段上的所有采樣點(diǎn)的采樣值的絕對值升序排列后前30~50%的所有采樣值的平均值,在本實(shí)施例中取Thr等于每個語音子庫中的每個語音樣本中提取出的近靜音段上的所有采樣點(diǎn)的采樣值的絕對值升序排列后前40%的所有采樣值的平均值。
③由于每個語音子庫中的所有語音樣本各自對應(yīng)的最終近靜音段的長度不一致,因此為了保證在構(gòu)建特征空間時特征矩陣長度保持一致,保留時長大于或等于1.5秒的最終近靜音段,而去掉時長小于1.5秒的最終近靜音段。保留每個手機(jī)對應(yīng)的所有最終近靜音段(每個語音子庫對應(yīng)的10N個最終近靜音段)中時長大于或等于1.5秒的最終近靜音段,并將保留的所有最終近靜音段構(gòu)成該手機(jī)對應(yīng)的用于求取本底噪聲的頻譜分布特征的測試語音子庫。
④為了從最終近靜音段中得到實(shí)際的本底噪聲,要盡可能的抑制背景噪聲。因此利用現(xiàn)有的改進(jìn)的譜減法抑制每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段的背景噪聲,得到每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段的背景噪聲模型;然后獲得所有手機(jī)對應(yīng)的通用背景噪聲模型,將第k個頻率點(diǎn)處所有手機(jī)對應(yīng)的通用背景噪聲模型描述為BNmean(k),其中,符號“||”為取絕對值符號,BNm(k,n)表示第m個手機(jī)對應(yīng)的測試語音子庫中的所有近靜音段的背景噪聲模型的語譜圖中的第k個頻率點(diǎn)、第n幀在短時傅里葉變換(STFT)域的頻譜系數(shù),1≤k≤K,K表示每個近靜音段的頻率點(diǎn)的總個數(shù),Kfft表示短時傅里葉變換的點(diǎn)數(shù),在本實(shí)施例中將短時傅里葉變換的點(diǎn)數(shù)設(shè)為4096,取
⑤將每個手機(jī)對應(yīng)的測試語音子庫中的每個近靜音段與所有手機(jī)對應(yīng)的通用背景噪聲模型的差值作為該手機(jī)的一個本底噪聲;然后對每個手機(jī)的每個本底噪聲進(jìn)行中值濾波處理以去除每個手機(jī)的每個本底噪聲中殘余的背景噪聲,得到每個手機(jī)的每個最終本底噪聲;接著對每個手機(jī)的每個最終本底噪聲進(jìn)行傅里葉變換,得到每個手機(jī)的每個最終本底噪聲的頻譜系數(shù);再對每個手機(jī)的每個最終本底噪聲的頻譜系數(shù)取10的對數(shù),得到每個手機(jī)的每個最終本底噪聲的取對數(shù)后的頻譜系數(shù);最后沿時間軸對每個手機(jī)的每個最終本底噪聲的取對數(shù)后的頻譜系數(shù)前T幀取平均,將該平均值作為每個手機(jī)的每個最終本底噪聲的頻譜分布特征;其中,傅里葉變換的點(diǎn)數(shù)為Kfft,T幀的時長小于或等于1.5秒,且T≥3,每個手機(jī)的每個最終本底噪聲的頻譜分布特征的維數(shù)為K。
圖3a給出了HTC D820t手機(jī)的最終本底噪聲的語譜圖,圖3b給出了華為榮耀7手機(jī)的最終本底噪聲的語譜圖,圖3c給出了一臺蘋果5手機(jī)的最終本底噪聲的語譜圖,圖3d給出了另一臺蘋果5手機(jī)的最終本底噪聲的語譜圖,圖3e給出了魅族MX4手機(jī)的最終本底噪聲的語譜圖,圖3f給出了小米3手機(jī)的最終本底噪聲的語譜圖,圖3g給出了OPPO一加手機(jī)的最終本底噪聲的語譜圖,圖3h給出了三星蓋樂世S5手機(jī)的最終本底噪聲的語譜圖。從圖3a至圖3h中可以看出,不同品牌手機(jī)的本底噪聲的語譜圖存在很大差異,例如,小米3手機(jī)的本底噪聲的能量在所有的頻率點(diǎn)間隔(0-16KHZ)都是最強(qiáng)的,魅族MX4手機(jī)的本底噪聲的語譜圖的振幅曲線是隨頻率呈波動變化趨勢,HTC D820t手機(jī)的本底噪聲的語譜圖在頻率為4000Hz附近,有大幅度的下降。
圖4a給出了iphone6手機(jī)的實(shí)際本底噪聲的語譜圖,圖4b給出了利用本發(fā)明方法得到的iphone6手機(jī)的最終本底噪聲的語譜圖,圖4c給出了iphone6手機(jī)的實(shí)際本底噪聲與利用本發(fā)明方法得到的iphone6手機(jī)的最終本底噪聲的頻譜比較。從圖4c中可以看出,iphone6手機(jī)的實(shí)際本底噪聲與利用本發(fā)明方法得到的iphone6手機(jī)的最終本底噪聲的頻譜是很相似的,充分說明本發(fā)明方法中獲取手機(jī)的最終本底噪聲的方法是可行且有效的。
⑥統(tǒng)計(jì)每個手機(jī)對應(yīng)的測試語音子庫中的近靜音段的總個數(shù),以最小的總個數(shù)為基準(zhǔn)數(shù),從每個手機(jī)對應(yīng)的測試語音子庫中的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子訓(xùn)練集,從每個手機(jī)對應(yīng)的測試語音子庫中的剩余的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子測試集;然后將所有手機(jī)對應(yīng)的子訓(xùn)練集構(gòu)成一個總訓(xùn)練集,并將所有手機(jī)對應(yīng)的子測試集構(gòu)成一個總測試集;接著將由總訓(xùn)練集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個訓(xùn)練特征空間,并將由總測試集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個測試特征空間;之后利用主成分分析(PCA)方法對訓(xùn)練特征空間進(jìn)行降維操作,再對降維后的訓(xùn)練特征空間中的所有值進(jìn)行歸一化處理;并根據(jù)對訓(xùn)練特征空間進(jìn)行降維操作所采用的映射矩陣對測試特征空間進(jìn)行降維操作,再對降維后的測試特征空間中的所有值進(jìn)行歸一化處理;最后利用Matlab自帶的SVM分類函數(shù)先對歸一化處理后的訓(xùn)練特征空間進(jìn)行模型訓(xùn)練,得到一個訓(xùn)練好的多分類模型,再利用訓(xùn)練好的多分類模型對總測試集中的每個近靜音段進(jìn)行分類判別。
在此具體實(shí)施例中,步驟⑥中Matlab自帶的SVM分類函數(shù)使用的是RBF核函數(shù),Matlab自帶的SVM分類函數(shù)中對懲罰系數(shù)和伽馬系數(shù)采用交叉驗(yàn)證方式得到最優(yōu)值。
為了進(jìn)一步說明本發(fā)明方法的可行性和有效性,對本發(fā)明方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
在實(shí)驗(yàn)中,建立每個手機(jī)對應(yīng)的一個語音子庫,來有效的評估本發(fā)明方法的可行性和有效性。表1列出了實(shí)驗(yàn)所采用的24個手機(jī)的品牌和型號,利用該24個手機(jī)采集語音。邀請12個參與者(6男6女)參與語音采集。每個參與者需要用正常的語速朗讀固定內(nèi)容,時長保證3分鐘以上。錄音環(huán)境是一間相對安靜的辦公室,24個手機(jī)同時打開和關(guān)閉錄音機(jī)。每個手機(jī)采集了12個參與者的語音,將每個語音分割成5秒的語音片段,每個手機(jī)得到400個語音樣本,構(gòu)成該手機(jī)對應(yīng)的語音子庫。對每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本進(jìn)行近靜音段估計(jì)提取,得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中的近靜音段,再經(jīng)后處理及拼接后得到每個手機(jī)對應(yīng)的語音子庫中的每個語音樣本中的最終近靜音段。由于近靜音段的長度不一致,因此為了保證在構(gòu)建特征空間時特征矩陣長度保持一致,選取每個型號手機(jī)240個語音幀數(shù)大于40幀的近靜音段,組成求取本底噪聲的頻譜分布特征的測試語音子庫。構(gòu)造特征空間時,取每個近靜音段的前40幀的本底噪聲的頻譜分布特征的平均值,此處幀長為30毫秒,幀移為15毫秒。
表1實(shí)驗(yàn)中所采用的手機(jī)的品牌和型號以及類名
結(jié)合主成分分析(PCA)和Matlab自帶的SVM分類函數(shù),從每個手機(jī)對應(yīng)的測試語音子庫中的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子訓(xùn)練集,從每個手機(jī)對應(yīng)的測試語音子庫中的剩余的所有近靜音段中隨機(jī)選擇基準(zhǔn)數(shù)的一半近靜音段構(gòu)成每個手機(jī)對應(yīng)的子測試集;然后將所有手機(jī)對應(yīng)的子訓(xùn)練集構(gòu)成一個總訓(xùn)練集,并將所有手機(jī)對應(yīng)的子測試集構(gòu)成一個總測試集。將由總訓(xùn)練集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個訓(xùn)練特征空間,并將由總測試集得到的所有手機(jī)的最終本底噪聲的頻譜分布特征構(gòu)成一個測試特征空間。先利用PCA對訓(xùn)練特征空間進(jìn)行降維,然后將降維后的訓(xùn)練特征空間中的所有值歸一化處理,測試特征空間根據(jù)訓(xùn)練特征空間降維所采用的映射矩陣進(jìn)行降維,然后對降維后的測試特征空間中的所有值進(jìn)行歸一化處理。最后利用Matlab自帶的SVM分類函數(shù)先對歸一化處理后的訓(xùn)練特征空間進(jìn)行模型訓(xùn)練,再利用訓(xùn)練好的多分類模型對總測試集中的每個近靜音段進(jìn)行分類判別。
上述,短時傅里葉變換的點(diǎn)數(shù)為4096,得到的每個手機(jī)的每個最終本底噪聲的頻譜分布特征的維數(shù)為2049,頻譜分布特征的維數(shù)太大,可能會導(dǎo)致頻譜分布特征不能完全獨(dú)立不相關(guān)。由于冗余的頻譜分布特征不能提升識別的準(zhǔn)確率,甚至?xí)绊懶阅埽虼死肞CA進(jìn)行降維,形成最好的訓(xùn)練特征空間和測試特征空間,經(jīng)實(shí)驗(yàn)測試,降維后的頻譜分布特征的維度為28維時,識別率最高,此時Matlab自帶的SVM分類函數(shù)中對懲罰系數(shù)和伽馬系數(shù)的值對應(yīng)為112和0.01。
表2列出了24個手機(jī)的識別率,從表2所列的數(shù)據(jù)可計(jì)算得到平均識別準(zhǔn)確率為99.24%。本發(fā)明方法可以較好的完成24個手機(jī)的分類識別,蘋果6的識別率為91.67%,其主要誤判來自品牌類內(nèi)區(qū)分,將之誤判為蘋果4s和蘋果5s。除蘋果6以外,其他手機(jī)都有較高的識別準(zhǔn)確率,其中有18個手機(jī)到達(dá)100%的識別率,三星、OPPO、魅族等品牌可以做到無差錯分類。從上述實(shí)驗(yàn)結(jié)果來看,手機(jī)的本底噪聲可以作為手機(jī)的“指紋”很好的進(jìn)行手機(jī)來源識別。在手機(jī)來源識別的音頻取證領(lǐng)域,手機(jī)的本底噪聲是一個很有區(qū)分性的特征。
表2 24個手機(jī)的識別率(%)