一種基于預訓練神經網絡的任意采樣率聲音分析方法與流程

文檔序號：41763976發布日期：2025-04-29 18:33閱讀：來源：國知局

技術特征：

1.一種基于預訓練神經網絡的任意采樣率聲音分析方法，其特征在于：包括以下步驟：步驟1：獲取輸入音頻；步驟2：轉化語譜圖，將輸入音頻進行短時傅里葉變換得到語譜圖，語譜圖橫軸為時間，縱軸為分析頻率，設定若干分析窗，定義窗長和窗移，短時傅里葉變換窗長25ms，窗移10ms；

2.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法，其特征在于，步驟2中，輸入音頻經過短時傅里葉變換后，將高頻時序信號從時域變換到了時頻域，得到語譜圖。

3.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法，其特征在于，步驟3中，神經網絡學習的音頻模型主流架構以無監督或自監督預訓練學習為主，具體為：audiomae無監督預訓練模型，輸入語譜圖后，對語譜圖進行隨機掩蔽，未掩蔽部分作為encoder輸入進行編碼，將掩蔽部分以msk符號替代后輸入decoder，重建出原始語譜圖圖塊，建模目標為語譜圖mse，計算公式如下：

4.根據權利要求1所述的一種基于預訓練神經網絡的任意采樣率聲音分析方法，其特征在于，步驟5中，高維表征的應用是語音中的聲紋驗證，語音聲紋驗證過程中，每段語音提取一個固定維度的聲紋向量，在該向量維度計算不同說話人之間聲紋向量的距離，即判斷是否是同一說話人，工業應用中，將傳感器采集的正常聲音提取為聲紋向量后，運行態聲紋向量與正常聲音向量實時對比，通過聲紋距離判斷是否出現異常，常用的向量距離為預先相似度，計算公式如下：

技術總結
本發明公開了一種基于預訓練神經網絡的任意采樣率聲音分析方法，涉及聲音分析技術領域。包括以下步驟，獲取輸入音頻，轉化語譜圖，將輸入音頻進行短時傅里葉變換得到語譜圖。本發明解決對采樣率跨度差異較大的各種聲音信號（如8KHz?192KHz）統一建模困難的問題。不同于傳統的基于重采樣的方法，本發明提出在時頻域的語譜圖上進行固定頻段的子帶切分，對子帶進行建模，可以將任意采樣率的語譜圖分解為子帶圖的組合，對子帶圖提取高維表征后進行向量拼接，得到最終信號表征。在高維表征層面進行向量距離計算判斷聲音片段之間的相似度。該方法不僅適用于聲音，對高頻振動等數字信號同樣適用。

技術研發人員：呂志強,姜安柏,曹宏,劉德廣,劉加
受保護的技術使用者：北京華控智加科技有限公司
技術研發日：
技術公布日：2025/4/28

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于預訓練神經網絡的任意采樣率聲音分析方法與流程