麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于人工智能的音頻編解碼的制作方法

文檔序號:41743396發布日期:2025-04-25 17:25閱讀:6來源:國知局
基于人工智能的音頻編解碼的制作方法

該申請與語音編解碼有關。例如,描述了用于執行基于人工智能的語音編解碼的系統和方法。


背景技術:

1、語音編解碼(也稱為音頻編解碼和/或話音編解碼)是一種用于使用盡可能少的比特來表示數字化音頻信號(從而壓縮語音數據),同時試圖保持一定水平的音頻質量的技術。語音編碼器用于將數字化音頻(例如,語音、音樂等)信號編碼(或壓縮)為較低比特率的數據流。較低比特率的數據流可以被輸入到語音解碼器,語音解碼器解碼數據流并構造原始信號的近似或重構。語音編碼器-解碼器結構可稱為語音編解碼器(或語音編解碼器或音頻編解碼器)或語音/話音/音頻編碼器-解碼器(codec)。

2、語音編解碼器利用語音信號是高度相關的波形這一事實。一些語音編解碼技術是基于話音產生的源-濾波器模型,該模型假定聲帶是頻譜平坦的聲音(激勵信號)的源,而聲道充當濾波器,對話音的各種聲音進行頻譜整形。不同的音素(如元音、摩擦音和語音摩擦音)可以通過它們的激發(源)和頻譜形狀(濾波器)來區分。


技術實現思路

1、本文描述了用于提供基于人工智能的音頻編解碼器(例如,語音編解碼器、音樂編解碼器或其他類型的音頻編解碼器)的技術和系統。在一些示例中,音頻解碼器可以利用神經網絡模型來解碼音頻信號的某些部分。音頻信號的示例包括話音或語音信號、音樂信號和/或其他聲音信號。雖然本文描述的一些示例使用話音或聲音信號作為示例,但是本文描述的技術可以用于任何類型的音頻信號。

2、在一些實施方式中,語音編解碼器可以包括碼激勵線性預測(celp)編解碼器或代數-celp(acelp)編解碼器。celp模型基于語音產生的源濾波器模型,其使用線性預測(lp)模型對聲道建模,并將固定碼本(fcb)的條目作為lp模型的輸入。例如,可以使用長期線性預測來對語音信號的音調(pitch)進行建模,并且可以使用短期線性預測來對語音信號的頻譜形狀(音素)進行建模。fcb中的條目基于在執行長期和短期線性預測建模之后剩余的殘差信號的編解碼。基于celp的編解碼器中最需要比特的階段是fcb,它基于殘差信號的強力編解碼,而不試圖對該信號建模。

3、本文描述的技術和系統包括用人工智能模型(例如神經網絡模型)替換傳統語音解碼器的fcb。例如,可以訓練神經網絡模型以充當殘差信號的模型,該殘差信號包括長期和短期線性預測模型未捕獲的話音分量。在這樣的示例中,神經網絡模型的輸出包括可用于激勵長期線性預測模型或短期線性預測模型的殘差信號。使用殘差信號,可以通過長期和短期線性預測模型重構語音信號。

4、在某些情況下,通過利用語音解碼器中的神經網絡對殘差信號建模,提供了適用于具有低比特率、復雜度和/或存儲器限制的應用和/或設備的語音編解碼器。例如,與傳統語音編解碼中的fcb相比,神經網絡模型需要的殘差編解碼比特數要少得多。

5、本文還提供了用于改進語音編解碼的其他技術。

6、根據至少一個示例,提供了一種用于重構一個或多個音頻信號的裝置,包括:存儲器,被配置為存儲音頻數據;以及一個或多個處理器,在電路中實施并耦合到所述存儲器,所述一個或多個處理器被配置為:使用神經網絡生成(902)音頻信號的至少一個樣本的第一殘差信號,所述殘差信號被配置成激勵至少第一濾波器;使用所述第一濾波器,并基于使用所述神經網絡為所述音頻信號的至少一個樣本生成的所述第一殘差信號,確定用于輸入到第二濾波器的第二殘差信號,其中所述第一濾波器是長期預測濾波器,所述第二濾波器是短期預測濾波器,或者其中所述第一濾波器是短期預測濾波器,所述第二濾波器是長期預測濾波器;和使用所述長期預測濾波器和所述短期預測濾波器確定(904)重構的音頻信號的至少一個樣本,所述重構的音頻信號的至少一個樣本是基于所述第二殘差信號確定的。

7、根據至少一個示例,提供了一種重構一個或多個音頻信號的方法,所述方法包括:使用神經網絡生成(902)音頻信號的至少一個樣本的第一殘留信號,所述殘留信號被配置為激勵至少第一濾波器;使用所述第一濾波器,并且基于使用所述神經網絡為所述音頻信號的至少一個樣本生成的第一殘差信號,確定用于輸入到第二濾波器的第二殘差信號,其中所述第一濾波器是長期預測濾波器,并且所述第二濾波器是短期預測濾波器,或者其中所述第一濾波器是短期預測濾波器,并且所述第二濾波器是長期預測濾波器;和使用所述長期預測濾波器和所述短期預測濾波器確定(904)重構的音頻信號的至少一個樣本,所述重構的音頻信號的至少一個樣本是基于所述第二殘差信號確定的。

8、根據至少一個示例,提供了一種重構一個或多個音頻信號的方法。該方法包括使用神經網絡,基于對神經網絡的一個或多個輸入,生成音頻信號的至少一個樣本的殘差信號。殘差信號被配置為激勵長期預測濾波器和短期預測濾波器中的至少一個。該方法還包括使用長期預測濾波器和短期預測濾波器中的至少一個來確定重構音頻信號的至少一個樣本。基于使用神經網絡為音頻信號的至少一個樣本生成的殘差信號來確定重構音頻信號的至少一個樣本。

9、在另一示例中,提供了一種用于重構一個或多個音頻信號的裝置,該裝置包括被配置為存儲音頻數據的存儲器,以及在電路中實施并耦合到存儲器的一個或多個處理器。在一些示例中,該一個或多個處理器被配置為使用神經網絡,基于對神經網絡的一個或多個輸入,生成音頻信號的至少一個樣本的殘差信號。殘差信號被配置為激勵長期預測濾波器和短期預測濾波器中的至少一個。該一個或多個處理器還被配置為使用長期預測濾波器和短期預測濾波器中的至少一個來確定重構音頻信號的至少一個樣本。基于使用神經網絡為音頻信號的至少一個樣本生成的殘差信號來確定重構音頻信號的至少一個樣本。

10、在另一示例中,一種存儲指令的計算機可讀存儲介質,當執行這些指令時,使得用于重構一個或多個音頻信號的設備的一個或多個處理器:使用神經網絡,基于對神經網絡的一個或多個輸入,生成音頻信號的至少一個樣本的殘差信號,該殘差信號被配置為激勵長期預測濾波器和短期預測濾波器中的至少一個;以及使用長期預測濾波器和短期預測濾波器中的至少一個來確定重構音頻信號的至少一個樣本,該重構音頻信號的至少一個樣本是基于使用神經網絡為音頻信號的至少一個樣本生成的殘差信號來確定的。

11、在另一示例中,提供了一種用于重構一個或多個音頻信號的裝置。該裝置包括用于使用神經網絡,基于對神經網絡的一個或多個輸入,生成音頻信號的至少一個樣本的殘差信號的部件。殘差信號被配置為激勵長期預測濾波器和短期預測濾波器中的至少一個。該裝置還包括用于使用長期預測濾波器和短期預測濾波器中的至少一個來確定重構音頻信號的至少一個樣本的部件。基于使用神經網絡為音頻信號的至少一個樣本生成的殘差信號來確定重構音頻信號的至少一個樣本。

12、在某些方面,長期預測濾波器是長期線性預測(ltp)濾波器。在一些情況下,殘差信號包括被配置為激勵ltp濾波器的長期線性預測(ltp)殘差。

13、在一些示例中,上述方法、裝置和計算機可讀介質可以包括:使用ltp濾波器確定音頻信號的至少一個樣本的線性預測(lp)殘差,該音頻信號的至少一個樣本的lp殘差是基于使用神經網絡為音頻信號的至少一個樣本生成的ltp殘差和使用增益和音頻信號的至少一個先前樣本的lp殘差確定的音頻信號的至少一個樣本的ltp預測來確定的。在一些方面,增益被應用于音頻信號的至少一個先前樣本的lp殘差。

14、在一些方面,短期預測濾波器是短期線性預測(lp)濾波器。在一些示例中,上述方法、裝置和計算機可讀介質可以包括:使用短期lp濾波器確定重構音頻信號的至少一個樣本,重構音頻信號的至少一個樣本是基于為音頻信號的至少一個樣本確定的lp預測和lp殘差來確定的。在一些示例中,神經網絡的一個或多個輸入包括針對音頻信號的至少一個樣本的ltp預測、針對音頻信號的至少一個樣本的lp預測、由神經網絡為音頻信號的至少一個先前樣本確定的先前ltp殘差和重構音頻信號的至少一個先前樣本中的至少一個。

15、在一些示例中,使用神經網絡為音頻信號的至少一個樣本生成的ltp殘差與音頻信號的至少一個樣本的ltp預測組合以生成音頻信號的至少一個樣本的lp殘差。

16、在一些示例中,為音頻信號的至少一個樣本確定的lp殘差與音頻信號的至少一個樣本的lp預測組合以確定重構音頻信號的至少一個樣本。

17、在某些方面,短期預測濾波器是短期線性預測(lp)濾波器。在一些示例中,殘差信號包括被配置為激勵短期lp濾波器的線性預測(lp)殘差。在一些示例中,上述方法、裝置和計算機可讀介質可以包括:使用短期lp濾波器確定音頻信號的至少一個樣本的長期線性預測(ltp)殘差,至少一個樣本的ltp殘差是基于音頻信號的至少一個樣本的lp預測和使用神經網絡生成的lp殘差來確定的。

18、在一些示例中,長期預測濾波器是長期線性預測(ltp)濾波器。在一些示例中,上述方法、裝置和計算機可讀介質可以包括:使用ltp濾波器確定重構音頻信號的至少一個樣本,重構音頻信號的至少一個樣本是基于音頻信號的至少一個樣本的ltp殘差和使用增益和重構音頻信號的至少一個先前樣本確定的音頻信號的至少一個樣本的ltp預測來確定的。

19、在一些方面,音頻信號的至少一個樣本包括單個樣本。

20、在一些方面,音頻信號的至少一個樣本包括多個樣本。在一些示例中,多個樣本被包括在音頻信號的幀中。

21、在一些方面,音頻信號包括話音信號,并且重構音頻信號包括重構話音信號。在一些示例中,音頻信號包括音樂信號,并且重構音頻信號包括重構音樂信號。

22、與任何方法、裝置和計算機可讀介質有關的上述方面可以單獨使用或以任何適當的組合使用。

23、本概要不旨在識別所要求保護的主題的關鍵或基本特征,也不旨在單獨用于確定所要求保護的主題的范圍。應通過參考本專利的整個說明書的適當部分、任何或所有附圖和每項權利要求來理解主題。

24、在參考以下說明書、權利要求書和附圖時,上述以及其他特征和實施例將變得更加明顯。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 桂林市| 额敏县| 南宁市| 余干县| 太湖县| 休宁县| 历史| 桂平市| 广安市| 桂东县| 平潭县| 航空| 通渭县| 无极县| 花莲市| 水富县| 多伦县| 南川市| 慈利县| 云阳县| 天长市| 正宁县| 绍兴市| 平果县| 万安县| 秀山| 濮阳县| 密山市| 甘泉县| 延庆县| 白玉县| 若尔盖县| 镇原县| 娱乐| 金溪县| 临朐县| 博野县| 北安市| 吉林省| 阜新| 邛崃市|