本發(fā)明涉及聲音分析,具體為一種基于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的任意采樣率聲音分析方法。
背景技術(shù):
1、現(xiàn)實(shí)世界中存在大量不同采樣率的聲音信號(hào),如互聯(lián)網(wǎng)音視頻中由于帶寬限制、工業(yè)場(chǎng)景或民用場(chǎng)景中采集設(shè)備差異都會(huì)導(dǎo)致獲得的聲音信號(hào)采樣率千差萬(wàn)別。語(yǔ)音通信中常采用8k-16khz采樣,8khz采樣率常用于電話通信的窄帶語(yǔ)音,適合帶寬受限的場(chǎng)景,16khz常用于寬帶語(yǔ)音通信和商用語(yǔ)音識(shí)別系統(tǒng);20khz-48khz常用于高質(zhì)量音樂(lè)制作,如22.05khz用于低質(zhì)量音樂(lè)或語(yǔ)音錄制,是一些早期如老式mp3格式采樣率,32khz用于fm廣播、早期電視音頻,44.1khz用于cd音頻數(shù)字音樂(lè)等,48khz是專(zhuān)業(yè)音頻和視頻行業(yè)標(biāo)準(zhǔn)采樣率。高于48khz采樣率如88.2khz用于高分辨率音頻,96khz是專(zhuān)業(yè)錄音、電影音頻和高分辨音頻采樣率,192khz是高端錄音和實(shí)驗(yàn)性音頻采樣率,更高的384khz以上極為少見(jiàn),只用于特定的高端音頻設(shè)備或?qū)嶒?yàn)。雖然人耳可聽(tīng)聲范圍在20hz-20khz,超過(guò)可聽(tīng)聲段為超聲頻段,但超聲頻段在工業(yè)領(lǐng)域時(shí)比較常見(jiàn)的處理信號(hào),在檢測(cè)放電、氣體泄漏中有廣泛應(yīng)用。
2、現(xiàn)有的聲音采集分析方法主要有以下兩種:1.在頻域上對(duì)8khz采樣率的高頻部分進(jìn)行填充以達(dá)到16khz同樣的處理帶寬,從而使兩種采樣率音頻在頻域上輸入特征維度一致,16khz和8khz兩種采樣率信號(hào)共享同一個(gè)神經(jīng)網(wǎng)絡(luò)模型,可以實(shí)現(xiàn)同時(shí)處理16khz和8khz采樣率音頻;2.重采樣方法選定一個(gè)固定采樣率,將所有信號(hào)重采樣到該頻率,最后使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型處理該特定采樣率的輸入信號(hào),方法的優(yōu)勢(shì)在于處理流程簡(jiǎn)單,但是低采樣率上采樣到高采樣率,準(zhǔn)確的信息不會(huì)增加,計(jì)算量會(huì)增長(zhǎng);高采樣率下采樣到低采樣率,會(huì)造成高采樣率高頻段部分信息丟失,浪費(fèi)信息,此外,該方法適用于頻率范圍變化相對(duì)較小的場(chǎng)景,如8k-48khz,無(wú)法實(shí)現(xiàn)8khz-192khz采樣率跨度過(guò)大且任意頻率信號(hào)的采集,因此適用于高頻振動(dòng)及其他高頻數(shù)字信號(hào)處理方法是本領(lǐng)域技術(shù)人員需要解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的任意采樣率聲音分析方法,解決了上述背景技術(shù)中提出的問(wèn)題。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種基于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的任意采樣率聲音分析方法,包括以下步驟:
3、步驟1:獲取多維度音頻信號(hào),多維度音頻信號(hào)包括一對(duì)多信號(hào)、多對(duì)一信號(hào)和多對(duì)多信號(hào),將多維度信號(hào)進(jìn)行預(yù)處理得到輸入音頻,通過(guò)對(duì)采樣信號(hào)的預(yù)處理,可以在多個(gè)采樣端和多個(gè)音源的采樣環(huán)境下提取出有效信息作為輸入音頻,可以減少噪聲干擾,有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
4、步驟2:轉(zhuǎn)化語(yǔ)譜圖,由于音頻是時(shí)域上的高頻一維時(shí)間序列,每秒鐘高達(dá)數(shù)萬(wàn)乃至數(shù)十萬(wàn)采樣點(diǎn),因此,音頻分析的常規(guī)做法是將輸入音頻進(jìn)行短時(shí)傅里葉變換得到語(yǔ)譜圖,語(yǔ)譜圖橫軸為時(shí)間,縱軸為分析頻率,設(shè)定若干分析窗,定義窗長(zhǎng)和窗移,通常短時(shí)傅里葉變換窗長(zhǎng)25ms,窗移10ms,以16khz采樣率聲音為例,每次傅里葉變換分析窗長(zhǎng)為400采樣點(diǎn),相鄰分析窗之間間隔160點(diǎn);
5、輸入音頻經(jīng)過(guò)短時(shí)傅里葉變換后,將高頻時(shí)序信號(hào)從時(shí)域變換到了時(shí)頻域,得到語(yǔ)譜圖,對(duì)不同采樣率的聲音而言,時(shí)間軸是相同的,但是頻率軸差異較大,將語(yǔ)譜圖作為每個(gè)輸入音頻的表征,輸入神經(jīng)網(wǎng)絡(luò)時(shí)每個(gè)語(yǔ)譜圖縱軸高度完全不相同,高度信息代表頻率范圍,對(duì)于神經(jīng)網(wǎng)絡(luò)而言,輸入語(yǔ)譜圖的尺寸差異較大,輸入矩陣形狀是隨時(shí)發(fā)生變化的,所以很難使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模,不同采樣率信號(hào)的數(shù)量不一致,高于192khz的信號(hào)非常少見(jiàn),對(duì)于神經(jīng)網(wǎng)絡(luò)這種數(shù)據(jù)驅(qū)動(dòng)的方法而言,樣本過(guò)少,建模效果相對(duì)較差;
6、步驟3:由于短時(shí)傅里葉變換得到的語(yǔ)譜圖在縱軸上的差異較大,為了實(shí)現(xiàn)統(tǒng)一建模,將建模粒度由整張語(yǔ)譜圖改為對(duì)語(yǔ)譜圖子帶進(jìn)行建模,將語(yǔ)譜圖進(jìn)行子帶劃分,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個(gè)子帶的深層次信息,為保證同一個(gè)模型能處理所有采樣率數(shù)據(jù),將子帶寬度設(shè)定為固定寬度,為實(shí)現(xiàn)任意采樣率信號(hào)處理能力,在訓(xùn)練過(guò)程中,從整個(gè)語(yǔ)譜圖中隨機(jī)選取固定寬度的子帶輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練;
7、由于輸入音頻的數(shù)據(jù)標(biāo)注難度大和標(biāo)注成本高,因此現(xiàn)有的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的音頻模型主流架構(gòu)也以無(wú)監(jiān)督或自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)為主;
8、相比對(duì)單一采樣率采用全部語(yǔ)譜圖作為輸入的方法,為應(yīng)對(duì)任意采樣率的建模,實(shí)際上,本發(fā)明可以采用任意一種預(yù)訓(xùn)練方法,最大的改變是神經(jīng)網(wǎng)絡(luò)訓(xùn)練中隨機(jī)選取整個(gè)語(yǔ)譜圖中的隨機(jī)選取子帶作為輸入;
9、步驟4:自監(jiān)督預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用的是encoder-decoder結(jié)構(gòu),encoder輸出建模了原始子帶語(yǔ)譜圖的絕大部分信息,因此,在推理階段,將任意采樣率為sr的聲音進(jìn)行短時(shí)傅里葉變換后,語(yǔ)譜圖頻率區(qū)間為<mstyle displaystyle="true" mathcolor="#000000"><mo>(</mo><mrow><mrow><mn>0</mn><mi>,</mi><mfrac><mi>sr</mi><mn>2</mn></mfrac></mrow><mo>]</mo></mrow></mstyle>,將該頻率區(qū)間劃分為的子帶組合,不足一個(gè)子帶的截取<mstyle displaystyle="true" mathcolor="#000000"><mo>(</mo><mrow><mrow><mfrac><mi>sr</mi><mn>2</mn></mfrac><mi>?</mi><msub><mi>sr</mi><mi>band</mi></msub><mi>,</mi><mfrac><mi>sr</mi><mn>2</mn></mfrac></mrow><mo>]</mo></mrow></mstyle>取整為一個(gè)子帶,每個(gè)子帶取中間隱層表征,中間隱層表征是神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型在處理數(shù)據(jù)過(guò)程中,中間層所輸出的特征表示;
10、步驟5:將每個(gè)子帶進(jìn)行向量拼接,可提取任意采樣率聲音的高維表征,再基于高維表征進(jìn)行判斷驗(yàn)證,高維表征為子帶向量拼接而成的數(shù)據(jù)集合,為聲音采樣中提取的特征信息,該高維表征最典型的應(yīng)用是語(yǔ)音中的聲紋驗(yàn)證,如語(yǔ)音聲紋驗(yàn)證過(guò)程中,每段語(yǔ)音提取一個(gè)固定維度的聲紋向量,在該向量維度計(jì)算不同說(shuō)話人之間聲紋向量的距離,即可判斷是否是同一說(shuō)話人,將傳感器采集的正常聲音提取為聲紋向量后,運(yùn)行態(tài)聲紋向量與正常聲音向量實(shí)時(shí)對(duì)比,通過(guò)聲紋距離判斷是否出現(xiàn)異常,常用的向量距離為預(yù)先相似度,計(jì)算公式如下:
11、;
12、對(duì)任意采樣率信號(hào)的兩段信號(hào)分別計(jì)算高維表征向量后,通過(guò)計(jì)算高維表征向量余弦距離即可以判斷兩段音頻是否相似,從而可以完成類(lèi)似說(shuō)話人驗(yàn)證、工業(yè)異音檢測(cè)等任務(wù)。
13、進(jìn)一步地,一對(duì)多信號(hào)具體為一個(gè)采樣端獲取多個(gè)音源的采樣信號(hào),一對(duì)多信號(hào)的預(yù)處理具體包括以下步驟:
14、步驟101:頻率濾波,設(shè)定濾波器和濾波范圍,人聲主要頻率范圍在80hz-10khz,采樣率聲音的高維表征主要應(yīng)用于聲紋的驗(yàn)證分析,因此使用濾波器將一對(duì)多信號(hào)按照濾波范圍進(jìn)行過(guò)濾得到第一信號(hào),這里的h(f)為第一信號(hào),f為采樣信號(hào)的頻率,濾波器的傳輸函數(shù)為:
15、;
16、其中,為下截止頻率,為上截止頻率;
17、步驟102:諧波分析,將第一信號(hào)進(jìn)行諧波分析得到第二信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>;
18、步驟103:響度分析,將第二信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>進(jìn)行響度分析分離成若干輸入音頻。
19、進(jìn)一步地,多對(duì)一信號(hào)具體為多個(gè)采樣端獲取一個(gè)音源的采樣信號(hào),多對(duì)一信號(hào)的預(yù)處理具體包括以下步驟:
20、步驟104:獲取采樣端數(shù)量,采樣端數(shù)量等于2時(shí),兩個(gè)采樣端不足以通過(guò)計(jì)算相位差得到音源的具體位置,因此需要計(jì)算聲音強(qiáng)度來(lái)輔助配合,才能確定音源的具體位置,跳轉(zhuǎn)至步驟106,反之,采樣端數(shù)量大于2時(shí),進(jìn)行下一步驟105;
21、步驟105:將每個(gè)采樣端倆倆對(duì)比計(jì)算相位差,相位差的計(jì)算公式為:
22、;
23、其中,為采樣端a和采樣端b之間的間距,λ為波長(zhǎng),波長(zhǎng)λ通過(guò)聲速除以采樣端a或采樣端b采樣信號(hào)的頻率獲得,通過(guò)對(duì)比采樣端之間的相位差,得到音源的位置信息,將音源的位置信息轉(zhuǎn)化為每個(gè)采樣信號(hào)的相對(duì)位置,相對(duì)位置包括音源距離采樣端的距離和角度,將相對(duì)位置與對(duì)應(yīng)采樣端的采樣信號(hào)綁定得到輸入音頻。
24、進(jìn)一步地,多對(duì)多信號(hào)具體為多個(gè)采樣端獲取多個(gè)音源的采樣信號(hào),多對(duì)多信號(hào)的預(yù)處理具體包括以下步驟:
25、步驟110:將采樣端的采樣信號(hào)與另一個(gè)距離最遠(yuǎn)的采樣端的采樣信號(hào)進(jìn)行相位相減得到第三信號(hào),第三信號(hào)可以突出靠近距離最遠(yuǎn)的采樣端附近的音源;
26、步驟111:重復(fù)步驟110得到每個(gè)采樣端對(duì)應(yīng)的第三信號(hào),將第三信號(hào)輸入波束形成計(jì)算公式得到每個(gè)采樣端的第四信號(hào),波束形成的計(jì)算公式如下:
27、;
28、其中,m為采樣端的數(shù)量,為第m個(gè)采樣端的權(quán)重系數(shù),為第m個(gè)采樣端在時(shí)間t接收到的采樣信號(hào),這里的采樣信號(hào)為最初采集的原始信號(hào),為第m個(gè)采樣端的相位相減獲得的第三信號(hào),計(jì)算獲得的第四信號(hào)即為靠近距離最遠(yuǎn)的采樣端附近的音源的預(yù)處理信號(hào);
29、步驟112:計(jì)算第四信號(hào)與每個(gè)采樣端的采樣信號(hào)的相位差,相位差的計(jì)算公式與步驟105一致,獲取采樣端與另一個(gè)距離最遠(yuǎn)采樣端的間距標(biāo)記為標(biāo)準(zhǔn)間距,將相位差乘以標(biāo)準(zhǔn)間距得到第四信號(hào)對(duì)應(yīng)音源的第三分量;
30、步驟113:計(jì)算兩個(gè)相鄰采樣端的第四信號(hào)的比值,將比值乘以相鄰采樣端之間的間距得到第四分量;
31、步驟114:將第三分量與第四分量相加得到對(duì)應(yīng)的音源位置信息,將音源的位置信息轉(zhuǎn)化為與每個(gè)采樣端的相對(duì)位置,相對(duì)位置包括音源距離采樣端的距離和角度,將相對(duì)位置與對(duì)應(yīng)采樣端的采樣信號(hào)綁定得到輸入音頻。
32、進(jìn)一步地,第二分量的計(jì)算步驟如下:
33、將采樣信號(hào)轉(zhuǎn)換為頻響圖,計(jì)算頻響圖的平均響度數(shù)值標(biāo)記為p,p可以作為采樣端獲取的音源功率數(shù)值,因?qū)嶋H的音源的功率數(shù)值與響度數(shù)值成正比關(guān)系,故在此以平均響度數(shù)值替代音源功率數(shù)值,分別計(jì)算兩個(gè)采樣端的聲音強(qiáng)度i1和i2,計(jì)算公式為:
34、;
35、其中,r1和r2分別為兩個(gè)采樣端與音源之間的第一分量距離,將聲音強(qiáng)度i1和i2分別標(biāo)記為兩個(gè)采樣端的第二分量。
36、進(jìn)一步地,自監(jiān)督預(yù)訓(xùn)練中,隨機(jī)掩蔽具體包括以下步驟:
37、步驟401:將子帶分割成若干面積相等的矩形圖塊,矩形圖塊的邊長(zhǎng)分別為g1和g2,g1為頻率維度,g2為時(shí)間維度;
38、步驟402:設(shè)定掩蔽矩陣,掩蔽矩陣遵循如下條件:
39、條件一,同一時(shí)間維度中,掩蔽后的矩形圖塊至少保留2個(gè)且矩形圖像不相鄰;
40、條件二,掩蔽范圍大于70%,即最少掩蔽子帶中70%以上的矩形圖塊;
41、步驟403:記錄子帶中每個(gè)矩形圖塊的掩蔽位置,設(shè)定掩蔽權(quán)重系數(shù)與掩蔽位置綁定,每次訓(xùn)練后重構(gòu)效果越好,對(duì)掩蔽位置對(duì)應(yīng)的掩蔽權(quán)重系數(shù)增加數(shù)值,增加幅度為0.1%。
42、進(jìn)一步地,對(duì)第一信號(hào)進(jìn)行諧波分析具體包括以下步驟:
43、將過(guò)濾后的第一信號(hào)拆分成長(zhǎng)度n的離散信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow></mstyle>,其中n=0,1,……,n-1,基于離散的傅里葉變換將第一信號(hào)進(jìn)行諧波計(jì)算得到第二信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>,諧波計(jì)算公式為:
44、<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow><mi>=</mi><mstyle displaystyle="true"><munderover><mo>∑</mo><mrow><mi>n</mi><mi>=</mi><mn>0</mn></mrow><mrow><mi>n</mi><mi>?</mi><mn>1</mn></mrow></munderover><mrow><mi>x</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow></mrow></mstyle><msup><mi>e</mi><mrow><mi>?</mi><mi>j</mi><mfrac><mrow><mn>2</mn><mi>π</mi></mrow><mi>n</mi></mfrac><mi>kn</mi></mrow></msup></mstyle>;
45、其中,k=0,1,……,n-1,<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>就是離散信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow></mstyle>經(jīng)過(guò)諧波計(jì)算后得到的第二信號(hào),表示了離散信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow></mstyle>在不同頻率點(diǎn)k上的復(fù)數(shù)值,e為自然常數(shù),j為虛數(shù)單位,避免諧波計(jì)算公式在實(shí)數(shù)范圍內(nèi)無(wú)解,從物理意義上講,<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>的幅度<mstyle displaystyle="true" mathcolor="#000000"><mi>|</mi><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow><mi>|</mi></mstyle>表示信號(hào)中頻率為的諧波成分的相對(duì)強(qiáng)度,為采樣頻率,<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>的相位<mstyle displaystyle="true" mathcolor="#000000"><mi>∠</mi><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>為該頻率諧波成分的相位信息。
46、進(jìn)一步地,響度分析具體包括以下步驟:
47、將第二信號(hào)轉(zhuǎn)換為頻響圖,記錄頻響圖中波形每個(gè)頂點(diǎn)和每個(gè)底點(diǎn)的響度值,統(tǒng)計(jì)每個(gè)頂點(diǎn)響度值和每個(gè)底點(diǎn)響度值,將出現(xiàn)次數(shù)最多的底點(diǎn)響度值對(duì)應(yīng)的頻率標(biāo)記為第一參照頻率k1,將出現(xiàn)次數(shù)最多的頂點(diǎn)響度值對(duì)應(yīng)的頻率標(biāo)記為第二參照頻率k2,將第二信號(hào)<mstyle displaystyle="true" mathcolor="#000000"><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mstyle>轉(zhuǎn)化為功率譜<mstyle displaystyle="true" mathcolor="#000000"><mi>p</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow><mi>=</mi><mi>|</mi><mi>x</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow><msup><mi>|</mi><mn>2</mn></msup></mstyle>,第一參照頻率k1和第二參照頻率k2定義了頻率范圍計(jì)算頻率范圍內(nèi)的均方根響度lrms,計(jì)算公式為:
48、<mstyle displaystyle="true" mathcolor="#000000"><msub><mi>l</mi><mi>rms</mi></msub><mi>=</mi><msqrt><mfrac><mn>1</mn><mi>k</mi></mfrac><mstyle displaystyle="true"><munderover><mo>∑</mo><mrow><mi>k</mi><mi>=</mi><msub><mi>k</mi><mn>1</mn></msub></mrow><msub><mi>k</mi><mn>2</mn></msub></munderover><mrow><mi>p</mi><mrow><mo>[</mo><mi>k</mi><mo>]</mo></mrow></mrow></mstyle></msqrt></mstyle>;
49、其中,k為該頻率范圍內(nèi)的頻率點(diǎn)數(shù),k滿足條件k=k2-k1+1,根據(jù)人耳的等響度曲線以及均方根響度lrms將第二信號(hào)分離成若干輸入音頻。
50、進(jìn)一步地,采樣端數(shù)量等于2時(shí),包括以下步驟:
51、步驟106:計(jì)算兩個(gè)采樣端之間的相位差,計(jì)算公式與步驟105一致,兩個(gè)采樣端的相位差比值乘以間距得到采樣端對(duì)應(yīng)的第一分量;
52、步驟107:分析采樣信號(hào)的聲音強(qiáng)度,將聲音強(qiáng)度轉(zhuǎn)換為第二分量;
53、步驟108:將采樣端的第一分量與第二分量相加得到對(duì)應(yīng)的音源位置信息;
54、步驟109:將音源的位置信息轉(zhuǎn)化為每個(gè)采樣信號(hào)的相對(duì)位置,相對(duì)位置包括音源距離采樣端的距離和角度,將相對(duì)位置與對(duì)應(yīng)采樣端的采樣信號(hào)綁定得到輸入音頻。
55、進(jìn)一步地,子帶進(jìn)行向量拼接時(shí),需要驗(yàn)證每個(gè)子帶中間隱層表征處于同一個(gè)維度,若出現(xiàn)維度不一致,則統(tǒng)計(jì)子帶中每個(gè)維度的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最多的維度標(biāo)記為子帶的基準(zhǔn)維度,根據(jù)基準(zhǔn)維度調(diào)整中間隱層表征維度不一致的子帶,使其保持維度一致;
56、使用numpy庫(kù)來(lái)表示中間隱層表征,使用np.concatenate函數(shù)進(jìn)行子帶的向量拼接。
57、本發(fā)明具有以下有益效果:
58、1、本發(fā)明提出一種基于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的任意采樣率聲音分析方法,主要解決對(duì)采樣率跨度差異較大的各種聲音信號(hào)(如8khz-192khz)統(tǒng)一建模困難的問(wèn)題,不同于傳統(tǒng)的基于重采樣的方法,本發(fā)明提出在時(shí)頻域的語(yǔ)譜圖上進(jìn)行固定頻段的子帶切分,對(duì)子帶進(jìn)行建模,可以將任意采樣率的語(yǔ)譜圖分解為子帶圖的組合,對(duì)子帶圖提取高維表征后進(jìn)行向量拼接,得到最終信號(hào)表征,在高維表征層面進(jìn)行向量距離計(jì)算判斷聲音片段之間的相似度,該方法不僅適用于聲音,對(duì)高頻振動(dòng)等數(shù)字信號(hào)同樣適用;
59、2、本發(fā)明除了解決了任意采樣率聲音統(tǒng)一建模的問(wèn)題,對(duì)于緩解并最終克服某一采樣率數(shù)據(jù)稀缺問(wèn)題也非常有益,由于建模的是任意頻率子帶語(yǔ)譜圖的表達(dá),所以對(duì)于樣本較少的采樣率信號(hào),可以復(fù)用其他采樣率不同頻段語(yǔ)譜圖數(shù)據(jù),增加了模型的泛化遷移能力;
60、3、通過(guò)對(duì)采樣信號(hào)的預(yù)處理,可以在多個(gè)采樣端和多個(gè)音源的采樣環(huán)境下提取出有效信息作為輸入音頻,可以減少噪聲干擾,有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
61、當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。