1.一種基于預訓練神經網絡的任意采樣率聲音分析方法,其特征在于:包括以下步驟:步驟1:獲取輸入音頻;步驟2:轉化語譜圖,將輸入音頻進行短時傅里葉變換得到語譜圖,語譜圖橫軸為時間,縱軸為分析頻率,設定若干分析窗,定義窗長和窗移,短時傅里葉變換窗長25ms,窗移10ms;
2.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法,其特征在于,步驟2中,輸入音頻經過短時傅里葉變換后,將高頻時序信號從時域變換到了時頻域,得到語譜圖。
3.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法,其特征在于,步驟3中,神經網絡學習的音頻模型主流架構以無監督或自監督預訓練學習為主,具體為:audiomae無監督預訓練模型,輸入語譜圖后,對語譜圖進行隨機掩蔽,未掩蔽部分作為encoder輸入進行編碼,將掩蔽部分以msk符號替代后輸入decoder,重建出原始語譜圖圖塊,建模目標為語譜圖mse,計算公式如下:
4.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法,其特征在于,步驟5中,高維表征的應用是語音中的聲紋驗證,語音聲紋驗證過程中,每段語音提取一個固定維度的聲紋向量,在該向量維度計算不同說話人之間聲紋向量的距離,即判斷是否是同一說話人,工業應用中,將傳感器采集的正常聲音提取為聲紋向量后,運行態聲紋向量與正常聲音向量實時對比,通過聲紋距離判斷是否出現異常,常用的向量距離為預先相似度,計算公式如下: