本公開涉及音頻處理,尤其涉及音頻的機器感知。
背景技術:
1、除非本文另有說明,否則本節中描述的方法不是本技術中的權利要求的現有技術,并且不因為包含在本節中而被承認為現有技術。
2、音頻處理的一個重要用途是以改善(或者至少以人類收聽者可接受的方式影響)人類感知的方式處理音頻。例如,回聲的存在會極大地分散人的注意力,因此音頻處理系統可以包括激進的回聲消除,以改善音頻處理系統的(感知)性能。該性能改善可以定性地(例如,通過收聽者調查)、定量地(例如,通過各種感知度量)測量,等等。
3、人類并不是音頻通信的唯一目標聽眾。機器也可以感知音頻。音頻的機器感知通常可以被稱為自動語音識別(asr)。asr包括諸如喚醒詞檢測、語音到文本處理、語音識別、說話者識別、情感識別、語言識別等活動。
技術實現思路
1、雖然人類感知和機器感知相似,但人類感知和機器感知之間有許多差異。如下面詳細闡述的,這些差異導致用于機器感知的音頻處理參數不同于用于人類感知的音頻處理參數。事實上,這些不同的參數往往會導致根據人類感知,處理后的音頻變差,而機器感知的性能卻得到改進。
2、本文描述的實施例涉及針對機器感知預調節音頻。
3、根據實施例,一種方法針對機器感知處理音頻。該方法包括接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。該方法還包括根據機器感知參數對音頻信號進行預調節,以生成經預調節的音頻信號,其中機器感知參數與人類感知參數不同。該方法還包括對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。
4、人類感知參數可以對應于具有100至200?ms的收斂性(convergence)的第一回聲消除參數,并且機器感知參數可以對應于具有小于50?ms的收斂性的第二回聲消除參數。人類感知參數可以對應于比語音水平低不止20?db的第一噪聲抑制目標,并且機器感知參數可以對應于比語音水平低10至15?db的第二噪聲抑制目標。人類感知參數可以對應于舒適噪聲,并且機器感知參數可以對應于比舒適噪聲大20至25?db的掩蔽噪聲。
5、根據一個方面,提出了一種針對機器感知處理音頻的方法。該方法可以包括接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。該方法可以包括通過將噪聲添加到音頻信號來對音頻信號進行預調節,以生成經預調節的音頻信號。該方法可以包括對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。
6、所添加的噪聲可以具有粉色或白色噪聲的特性。在本文檔內,所添加的噪聲還可以被表示為掩蔽噪聲。在圍繞語音的存在性和檢測沒有任何檢測或選通(gating)的情況下,該掩蔽噪聲可以被連續地添加到語音。掩蔽噪聲可以具有粉紅色或(譜形)白噪聲的特性,其頻譜形狀與hoth噪聲的輪廓相似,只是比hoth噪聲高10?db以上的水平。收聽測試中的這種噪聲水平可以被認為是侵入性的、人為的,對人類收聽體驗來說總體上是降級。然而,錄音中可能存在的其他較低水平噪聲的添加和模糊,或者可能由噪聲抑制引起的偽影,可能對自動語音識別的性能具有凈積極影響。
7、與音頻信號的噪聲場的均勻性(uniformity)相比,經預調節的音頻信號的噪聲場的均勻性可以增加。以此方式,所添加的噪聲可以向經預調節的音頻信號添加歧義性。
8、根據另一方面,提出了一種針對人類感知和針對機器感知處理音頻的方法。該方法可以包括接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。該方法可以包括通過減少回聲殘余,針對人類感知對音頻信號進行預處理,以生成經預處理的音頻信號。該方法可以包括通過減少回聲殘余,針對機器感知對音頻信號進行預調節,以生成經預調節的音頻信號。經預調節的音頻信號的回聲殘余量高于經預處理的音頻信號的回聲殘余量。該方法可以包括對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。換言之,當生成針對機器感知的經預調節的音頻信號時,降低了回聲減少的程度。
9、在該方法中,針對人類感知對音頻信號進行預處理可以包括根據第一回聲消除參數進行預處理。此外,針對機器感知對音頻信號進行預調節可以包括根據第二回聲消除參數對音頻信號進行預處理。第二回聲消除參數可以具有比第一回聲消除參數的收斂性更小的收斂性。更具體地,第一回聲消除參數可以具有100至200?ms的收斂性,并且第二回聲消除參數可以具有小于50?ms的收斂性。例如,第一回聲消除參數可以對應于小于-60?db的第一回聲量,并且第二回聲消除參數可以對應于-40至-20?db的第二回聲量。
10、根據另一實施例,一種非瞬態計算機可讀介質存儲計算機程序,所述計算機程序在由處理器執行時控制裝置執行包括一個或多個上述方法的處理。
11、根據另一實施例,一種裝置針對機器感知處理音頻。該裝置包括處理器以及存儲器。處理器被配置為控制所述裝置接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。處理器被配置為控制所述裝置根據機器感知參數對音頻信號進行預調節,以生成經預調節的音頻信號,其中機器感知參數與人類感知參數不同。處理器被配置為控制所述裝置對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。
12、該裝置可以包括與本文關于方法討論的細節類似的細節。
13、下面的詳細描述和附圖提供了對各種實現方式的性質和優點的進一步理解。
14、根據又一個方面,描述了一種用于針對機器感知處理音頻的裝置。該裝置可以包括處理器以及存儲器。處理器可以被配置為控制所述裝置接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。處理器可以被配置為控制所述裝置通過將噪聲添加到音頻信號來對音頻信號進行預調節,以生成經預調節的音頻信號。處理器可以被配置為控制所述裝置對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。
15、所述添加的噪聲可以具有粉色或白色噪聲的特性。與音頻信號的噪聲場的均勻性相比,經預調節的音頻信號的噪聲場的均勻性可以增加。
16、根據另一方面,提出了一種用于針對人類感知和針對機器感知處理音頻的裝置。同樣,該裝置可以包括處理器和存儲器。處理器可以被配置為控制所述裝置接收音頻信號,其中音頻信號對應于已經由設備捕獲的音頻。處理器可以被配置為控制所述裝置通過減少回聲殘余,針對人類感知對音頻信號進行預處理,以生成經預處理的音頻信號。處理器可以被配置為控制所述裝置通過減少回聲殘余,針對機器感知對音頻信號進行預調節,以生成經預調節的音頻信號,其中經預調節的音頻信號的回聲殘余量高于經預處理的音頻信號的回聲殘余量。處理器可以被配置為控制所述裝置對經預調節的音頻信號執行機器感知,包括自動語音識別,以生成機器感知輸出。
17、處理器可以被配置為控制所述裝置通過根據第一回聲消除參數進行預處理來針對人類感知對音頻信號進行預處理。處理器可以被配置為控制所述裝置通過根據第二回聲消除參數進行預調節來針對機器感知對音頻信號進行預調節。第二回聲消除參數可以具有比第一回聲消除參數的收斂性更小的收斂性。第一回聲消除參數可以具有100至200?ms的收斂性,并且第二回聲消除參數可以具有小于50?ms的收斂性。此處,第一回聲消除參數可以對應于小于-60db的第一回聲量,并且第二回聲消除參數可以對應于-40至-20?db的第二回聲量。