本申請實施例涉及音頻處理,尤其涉及一種音頻編碼方法、裝置、設備、存儲介質及產品。
背景技術:
1、音頻編碼一般用于對數字音頻信號的編碼和解碼,隨著數字音頻技術的發展,音頻編碼在各種應用中變得越來越重要,例如音頻編碼在移動設備、計算機、多媒體播放器和通信設備中的應用越來越廣泛。音頻編碼是指將原始的音頻信號轉換為壓縮格式,以減少數據量,便于音頻數據的保存和傳輸,通常涉及去除冗余信息和不可感知的音頻成分,從而實現更高的壓縮效率。
2、目前音頻編碼一般是通過傳統編碼或人工智能編碼(aicodec)進行。傳統音頻編碼器適用于實時通信的音頻編碼器,被廣泛應用于voip、視頻會議和在線游戲中,但是傳統編碼器存在壓縮率不高、低碼率場景下無法工作的缺點。人工智能編碼則利用深度學習和機器學習算法,能夠在保證音質的前提下,實現更高效的音頻壓縮和解碼,但是人工智能編碼的方式存在語音保真度較低的缺點,音頻編碼質量較差。
技術實現思路
1、本申請實施例提供一種音頻編碼方法、裝置、設備、存儲介質及產品,以解決相關技術中音頻編碼語音保真度較低,音頻編碼質量較差的技術問題,可在提高對音頻的壓縮率的同時,提高語音保真度,提高音頻編碼質量。
2、在第一方面,本申請實施例提供了一種音頻編碼方法,包括:
3、從待編碼語音中提取預設時間長度的檢測語音特征;
4、根據所述檢測語音特征在語音特征庫中進行語音特征匹配,并根據匹配結果確定目標語音特征,所述語音特征庫記錄有一個或多個歷史語音特征,所述目標語音特征為所述檢測語音特征或所述歷史語音特征;
5、將所述目標語音特征加入到訓練完成的編碼網絡,通過所述編碼網絡根據所述待編碼語音和所述目標語音特征進行語音編碼處理,得到目標音頻特征;
6、對所述目標音頻特征進行殘差矢量量化處理得到目標編碼結果。
7、在第二方面,本申請實施例提供了一種音頻編碼裝置,包括語音檢測模塊、特征確定模塊、特征編碼模塊和矢量處理模塊,其中:
8、所述語音檢測模塊,配置為從待編碼語音中提取預設時間長度的檢測語音特征;
9、所述特征確定模塊,配置為根據所述檢測語音特征在語音特征庫中進行語音特征匹配,并根據匹配結果確定目標語音特征,所述語音特征庫記錄有一個或多個歷史語音特征,所述目標語音特征為所述檢測語音特征或所述歷史語音特征;
10、所述特征編碼模塊,配置為將所述目標語音特征加入到訓練完成的編碼網絡,通過所述編碼網絡根據所述待編碼語音和所述目標語音特征進行語音編碼處理,得到目標音頻特征;
11、所述矢量處理模塊,配置為對所述目標音頻特征進行殘差矢量量化處理得到目標編碼結果。
12、在第三方面,本申請實施例提供了一種音頻編碼設備,包括:存儲器以及一個或多個處理器;
13、所述存儲器,用于存儲一個或多個程序;
14、當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如第一方面所述的音頻編碼方法。
15、在第四方面,本申請實施例提供了一種存儲計算機可執行指令的非易失性存儲介質,所述計算機可執行指令在由計算機處理器執行時用于執行如第一方面所述的音頻編碼方法。
16、在第五方面,本申請實施例提供了一種計算機程序產品,該計算機程序產品包括計算機程序,該計算機程序存儲在計算機可讀存儲介質中,設備的至少一個處理器從計算機可讀存儲介質讀取并執行計算機程序,使得設備執行如第一方面所述的音頻編碼方法。
17、本申請實施例通過從待編碼語音中提取預設時間長度的檢測語音特征,根據檢測語音特征在語音特征庫中進行語音特征匹配,并根據匹配結果確定目標語音特征,將目標語音特征加入到訓練完成的編碼網絡,通過編碼網絡根據待編碼語音和目標語音特征進行語音編碼處理,得到目標音頻特征,對目標音頻特征進行殘差矢量量化處理得到目標編碼結果,通過將檢測語音特征或歷史語音特征作為目標語音特征與待編碼語音進行語音編碼處理,結合與待編碼語音相關的語音特征進行音頻編碼,可在提高對音頻的壓縮率的同時,提高語音保真度,提高音頻編碼質量。
1.一種音頻編碼方法,其特征在于,包括:
2.根據權利要求1所述的音頻編碼方法,其特征在于,在所述從待編碼語音中提取預設時間長度的檢測語音特征之前,還包括:
3.根據權利要求1所述的音頻編碼方法,其特征在于,所述根據所述檢測語音特征在語音特征庫中進行語音特征匹配,并根據匹配結果確定目標語音特征,包括:
4.根據權利要求1所述的音頻編碼方法,其特征在于,所述編碼網絡根據所述待編碼語音和所述目標語音特征進行語音編碼處理,得到目標音頻特征,包括:
5.根據權利要求4所述的音頻編碼方法,其特征在于,所述將所述待編碼語音特征和所述目標語音特征進行融合得到融合音頻特征,包括:
6.根據權利要求4所述的音頻編碼方法,其特征在于,在所述對所述融合音頻特征進行特征壓縮和卷積處理得到目標音頻特征之前,還包括:
7.根據權利要求1所述的音頻編碼方法,其特征在于,在所述從待編碼語音中提取預設時間長度的檢測語音特征之后,還包括:
8.一種音頻編碼裝置,其特征在于,包括語音檢測模塊、特征確定模塊、特征編碼模塊和矢量處理模塊,其中:
9.一種音頻編碼設備,其特征在于,包括:存儲器以及一個或多個處理器;
10.一種存儲計算機可執行指令的非易失性存儲介質,其特征在于,所述計算機可執行指令在由計算機處理器執行時用于執行如權利要求1-7任一項所述的音頻編碼方法。
11.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-7任一項所述的音頻編碼方法。