本技術涉及音頻處理裝置、音頻處理方法及程序。更具體地,本技術涉及可以通過適當地消除噪聲來提取期望提取的音頻的音頻處理裝置、音頻處理方法及程序。
背景技術:
近來,使用音頻的用戶界面已經普及。當打電話或搜索信息時,使用音頻的用戶界面被用在例如移動電話(稱為智能手機等的設備)中。
然而,如果它在具有許多噪聲的環境下使用,那么不能正確地分析由用戶產生的音頻,并且可能錯誤地執行處理。因此,專利文獻1提出了通過減小噪聲的影響來提取期望音頻。
引文列表
專利文獻
專利文獻1:日本專利申請特許公開號2009-49998
技術實現要素:
本發明所要解決的問題
在專利文獻1中,設置后置濾波器構件,且該后置濾波器構件被構造為以便執行最大后驗(MAP)優化,且反饋回路為了使噪聲為零而操作。利用這種構造,如果有例如多點聲源噪聲(非點聲源噪聲)或擴散性噪聲,那么在輸出信號中可以產生音樂噪聲。
當產生音樂噪聲時,引起聽覺上的陌生感,此外,音頻識別性能劣化。無論噪聲類型,諸如點聲源噪聲、多點聲源噪聲和擴散性噪聲,都期望適當地消除噪聲,使得不產生音樂噪聲等。
本技術鑒于這種情況而提出,且能夠適當地消除噪聲并提取期望音頻。
解決問題的方法
在本技術的一個方面中的一種音頻處理裝置包括:集聲器,該集聲器收集音頻;音頻增強器,該音頻增強器使用由集聲器收集到的音頻信號來增強待提取音頻;音頻衰減器,該音頻衰減器使用由集聲器收集到的音頻信號來衰減待提取音頻;噪聲環境估計器,該噪聲環境估計器估計周圍噪聲環境;和后置濾波單元,該后置濾波單元使用來自音頻增強器的音頻增強信號和來自音頻衰減器的音頻衰減信號來執行后置濾波處理,其中該后置濾波單元根據由噪聲環境估計器估計的噪聲環境來設定消噪處理強度。
噪聲環境估計器可使用由集聲器收集到的音頻來估計噪聲環境。
集聲器包括多個麥克風,且噪聲環境估計器可計算由所述多個麥克風收集到的信號之間的相關性并將該相關性的值設定為噪聲環境的估計結果。
噪聲環境估計器可使用音頻增強信號和音頻衰減信號來估計噪聲環境。
噪聲環境估計器可計算音頻增強信號的振幅頻譜和音頻衰減信號的振幅頻譜之間的相關性,并將該相關性的值設定為噪聲環境的估計結果。
噪聲環境估計器可根據從外部輸入的信息來估計噪聲環境。
從外部輸入的信息可為由用戶提供的關于周圍噪聲環境的信息、位置信息或時間信息中的至少一條信息。
該音頻處理裝置還包括發聲區間估計器,該發聲區間估計器使用音頻增強信號和音頻衰減信號來估計發聲區間,其中噪聲環境估計器可估計在由發聲區間估計器估計為非發聲區間的區間中的噪聲環境。
音頻增強器可使用加法型波束成形、延遲-求和波束成形或自適應波束成形來產生音頻增強信號。
音頻衰減器可使用減法型波束成形、NULL波束成形或自適應NULL波束成形來產生音頻衰減信號。
集聲器中所包括的麥克風數量以及音頻增強器和音頻衰減器的輸入數量可根據由噪聲環境估計器提供的估計結果而改變。
所述改變可在啟動時或操作期間執行。
在本技術的一個方面中的一種音頻處理方法包括以下步驟:通過集聲器來收集音頻;產生音頻增強信號,其中使用由集聲器收集到的音頻信號來增強待提取音頻;產生音頻衰減信號,其中使用由集聲器收集到的音頻信號來衰減待提取音頻;估計周圍噪聲環境;以及使用音頻增強信號和音頻衰減信號來執行后置濾波處理,其中后置濾波處理包括根據估計噪聲環境來設定消噪處理強度的步驟。
在本技術的一個方面中的一種程序使計算機執行包括以下步驟的處理:通過集聲器來收集音頻;產生音頻增強信號,其中使用由集聲器收集到的音頻信號來增強待提取音頻;產生音頻衰減信號,其中使用由集聲器收集到的音頻信號來衰減待提取音頻;估計周圍噪聲環境;以及使用音頻增強信號和音頻衰減信號來執行后置濾波處理,其中后置濾波處理包括根據估計噪聲環境來設定消噪處理強度的步驟。
在本技術的一個方面中的音頻處理裝置、音頻處理方法及程序中,收集音頻,產生音頻增強信號,其中使用收集到的音頻信號來增強待提取音頻,產生音頻衰減信號,其中使用收集到的音頻信號來衰減待提取音頻,估計周圍噪聲環境,以及使用音頻增強信號和音頻衰減信號來執行后置濾波處理。在后置濾波處理中,根據估計噪聲環境來設定消噪處理強度。
本發明的有益效果如下:
根據本技術的一個方面,可以適當地消除噪聲并提取期望音頻。
請注意,效果并不一定限于這里所述的效果,且可為本公開中所述的任何一個效果。
附圖說明
圖1為示意圖,示出了應用本技術的音頻處理裝置的實施例的構造。
圖2為示意圖,說明了聲源。
圖3為示意圖,示出了第一(a)音頻處理裝置的內部構造。
圖4為流程圖,說明了第一(a)音頻處理裝置的操作。
圖5為流程圖,說明了第一(a)音頻處理裝置的操作。
圖6為示意圖,說明了在時間/頻率轉換器中的處理。
圖7為示意圖,說明了在音頻增強器中的處理。
圖8為示意圖,說明了在音頻衰減器中的處理。
圖9為示意圖,說明了在發聲區間檢測器中的處理。
圖10為示意圖,說明了在噪聲環境估計器中的處理。
圖11為示意圖,說明了在后置濾波單元處的校正。
圖12為示意圖,說明了在后置濾波單元處的校正。
圖13為示意圖,說明了在后置濾波單元處的校正。
圖14為示意圖,說明了音頻識別率的提高。
圖15為示意圖,示出了第一(b)音頻處理裝置的內部構造。
圖16為示意圖,說明了噪聲環境估計器的構造。
圖17為流程圖,說明了第一(b)音頻處理裝置的操作。
圖18為流程圖,說明了第一(b)音頻處理裝置的操作。
圖19為示意圖,示出了第一(c)音頻處理裝置的內部構造。
圖20為流程圖,說明了第一(c)音頻處理裝置的操作。
圖21為流程圖,說明了第一(c)音頻處理裝置的操作。
圖22為示意圖,示出了第二(a)音頻處理裝置的內部構造。
圖23為示意圖,說明了后置濾波單元的構造。
圖24為流程圖,說明了第二(a)音頻處理裝置的操作。
圖25為流程圖,說明了第二(a)音頻處理裝置的操作。
圖26為流程圖,說明了第二(a)音頻處理裝置的另一個操作。
圖27為流程圖,說明了第二(a)音頻處理裝置的另一個操作。
圖28為示意圖,示出了第二(b)音頻處理裝置的內部構造。
圖29為流程圖,說明了第二(b)音頻處理裝置的操作。
圖30為流程圖,說明了第二(b)音頻處理裝置的操作。
圖31為流程圖,說明了第二(b)音頻處理裝置的另一個操作。
圖32為流程圖,說明了第二(b)音頻處理裝置的另一個操作。
圖33為示意圖,示出了第二(c)音頻處理裝置的內部構造。
圖34為流程圖,說明了第二(c)音頻處理裝置的操作。
圖35為流程圖,說明了第二(c)音頻處理裝置的操作。
圖36為流程圖,說明了第二(c)音頻處理裝置的另一個操作。
圖37為流程圖,說明了第二(c)音頻處理裝置的另一個操作。
圖38為示意圖,示出了第三(a)音頻處理裝置的內部構造。
圖39為流程圖,說明了第三(a)音頻處理裝置的操作。
圖40為流程圖,說明了第三(a)音頻處理裝置的操作。
圖41為流程圖,說明了第三(a)音頻處理裝置的另一個操作。
圖42為流程圖,說明了第三(a)音頻處理裝置的另一個操作。
圖43為示意圖,示出了第三(b)音頻處理裝置的內部構造。
圖44為流程圖,說明了第三(b)音頻處理裝置的操作。
圖45為流程圖,說明了第三(b)音頻處理裝置的操作。
圖46為流程圖,說明了第三(b)音頻處理裝置的另一個操作。
圖47為流程圖,說明了第三(b)音頻處理裝置的另一個操作。
圖48為示意圖,示出了第三(c)音頻處理裝置的內部構造。
圖49為流程圖,說明了第三(c)音頻處理裝置的操作。
圖50為流程圖,說明了第三(c)音頻處理裝置的操作。
圖51為流程圖,說明了第三(c)音頻處理裝置的另一個操作。
圖52為流程圖,說明了第三(c)音頻處理裝置的另一個操作。
圖53為示意圖,說明了記錄介質。
具體實施方式
下文中,對具體實施方式(下文中,稱為實施例)進行說明。請注意,按下列順序進行說明。
1.音頻處理裝置的外觀構造
2.關于聲源
3.第一音頻處理裝置(第一(a)音頻處理裝置至第一(c)音頻處理裝置)的內部構造和操作
4.第二音頻處理裝置(第二(a)音頻處理裝置至第二(c)音頻處理裝置)的內部構造和操作
5.第三音頻處理裝置(第三(a)音頻處理裝置至第三(c)音頻處理裝置)的內部構造和操作
6.關于記錄介質
<音頻處理裝置的外觀構造>
圖1為示意圖,示出了應用本技術的音頻處理裝置的外觀構造。本技術可應用于處理音頻信號的裝置。例如,本技術可應用于移動電話(包括稱為智能手機等的設備)、處理來自游戲機的麥克風的信號的單元、消噪耳機、耳機等。此外,本技術可應用于配備有實現免提通話、音頻交互系統、音頻命令輸入、語音聊天等的應用程序的裝置。
應用本技術的音頻處理裝置可為移動終端或通過安裝在預定位置處而使用的裝置。此外,本技術可應用于稱為可穿戴設備等的設備,該設備為眼鏡式終端或安裝在臂等上的終端。
這里,以移動電話(智能手機)為例進行說明。圖1為示意圖,示出了移動電話10的外觀構造。揚聲器21、顯示器22和麥克風23設置在移動電話10的一側上。
當進行音頻通話時,使用揚聲器21和麥克風23。顯示器22顯示各種類型的信息。顯示器22可為觸控面板。
麥克風23具有收集由用戶發出聲音的音頻的功能且為單元,待進行處理(下面將要說明)的音頻被輸入給該單元。麥克風23為駐極體電容式麥克風、MEMS麥克風等。麥克風23的采樣為例如16000Hz。
請注意,雖然圖1中示出了一個麥克風23,但是如下所述可設置兩個或更多個麥克風23。在圖3及后面附圖中,多個麥克風23被示出為集聲器。該集聲器包括兩個或更多個麥克風23。
在移動電話10上的麥克風23的安裝位置僅僅作為示例,且這并不意味著安裝位置限于圖1所示的中下部。例如,雖然未示出,但是麥克風23可設置在移動電話10的左下部和右下部中的各部處或在與顯示器22不同的面上,諸如移動電話10的側面。
麥克風23的安裝位置和數量不同于設置麥克風23且麥克風23只需安裝在每個設備的適當安裝位置處的單獨設備。
<關于聲源>
參照圖2,對以下說明中使用的術語“聲源”進行說明。圖2A為示意圖,說明了點聲源。麥克風51位于中部。假設聲源61產生將由麥克風51收集的聲音。
點聲源為空間聲源,且為可以近似為點的聲源。例如,一個用戶正在說話的音頻或從電視接收器或音頻設備的揚聲器產生的聲音為來自點聲源的聲音。
圖2B為示意圖,說明了非點聲源(多點聲源)。類似于圖2A,麥克風51位于中部,且聲源62正在產生聲音,但是聲源62為不能近似為點的聲源。非點聲源為例如車輛的行進聲音,且車輛的行進聲音都從車輛的四個輪胎產生。該聲源不能近似為點,且為從具有一定大小的區域產生聲音的聲源。
非點聲源為空間聲源,且為不能近似為點的聲源。例如,除了以上車輛的行進聲音等,非點聲源還包括空調、風扇噪聲等。
圖2中的C為示意圖,說明了擴散性聲源。類似于圖2中的A,麥克風51位于中部,但是多個聲源63圍著它。擴散性聲源為有無數聲源的情況或由于反射或混響而變得與有無數聲源的情況相同的情況,且為當聲音波陣面向四面八方散開時的聲源。
如果從點聲源產生的聲音為噪聲,那么從點聲源中去除噪聲并提取期望音頻就相對容易。然而,如果從非點聲源或擴散性聲源產生的聲音為噪聲,那么相比于從點聲源中去除噪聲的情況,從非點聲源或擴散性聲源中去除所有噪聲并提取期望音頻就很難。
然而,例如,通過音頻的用戶界面需要處理當來自點聲源的噪聲與期望提取的音頻混合時、當混合來自非點聲源的噪聲時、當混合來自擴散性聲源的噪聲時等的各種情況。
換言之,如果消噪處理限定于點聲源、非點聲源或擴散性聲源中的任何一個聲源,那么對未限定消噪處理的聲源的消噪性能劣化,且消噪處理需要適當地處理各種噪聲。因此,下文對能夠適當地處理各種噪聲的音頻處理裝置進行說明。
<第一音頻處理裝置的內部構造和操作>
<第一(a)音頻處理裝置的內部構造和操作>
圖3為示意圖,示出了第一(a)音頻處理裝置100的構造。音頻處理裝置100設置在移動電話10的內部并構成移動電話10的一部分。圖3所示的音頻處理裝置100包括集聲器101、噪聲環境估計器102、時間/頻率轉換器103、音頻方位估計器104、音頻增強器105、音頻衰減器106、發聲區間檢測器107、后置濾波單元108和時間/頻率逆變器109。
請注意,雖然移動電話10包括通信單元,該通信單元具有電話機的功能以及用于與網絡連接的功能,但是這里示出了與音頻處理有關的音頻處理裝置100的構造,并省略對其他功能的示出和說明。
集聲器101包括多個麥克風23,且在圖3所示的實例中包括麥克風23-1和麥克風23-2。請注意,雖然這里假設集聲器101包括兩個麥克風23,但是集聲器101可包括兩個或更多個麥克風23。
例如,下面將要說明的第二音頻處理裝置和第三音頻處理裝置各包括兩個或更多個麥克風23。此外,通過設置兩個或更多個麥克風23,可以提高通過下面將要說明的處理(諸如波束成形)而獲得的結果的精確度。
由集聲器101收集到的音頻信號被提供給時間/頻率轉換器103和噪聲環境估計器102。來自發聲區間檢測器107的信息還被提供給噪聲環境估計器102。時間/頻率轉換器103將所提供的時域信號轉換為頻域信號,并將轉換的信號提供給音頻方位估計器104、音頻增強器105和音頻衰減器106。
音頻方位估計器104估計聲源的方向。音頻方位估計器104估計相對于集聲器101從哪一個方向產生由用戶發出聲音的音頻。關于由音頻方位估計器104估計的方位的信息被提供給音頻增強器105和音頻衰減器106。
音頻增強器105使用從時間/頻率轉換器103提供的麥克風23-1的音頻信號和麥克風23-2的音頻信號以及關于由音頻方位估計器104估計的方位的信息來執行處理以增強估計為由用戶發出聲音的音頻。
音頻衰減器106使用從時間/頻率轉換器103提供的麥克風23-1的音頻信號和麥克風23-2的音頻信號以及關于由音頻方位估計器104估計的方位的信息來執行處理以衰減估計為由用戶發出聲音的音頻。
從音頻增強器105和音頻衰減器106輸出的音頻數據被提供給發聲區間檢測器107和后置濾波單元108。發聲區間檢測器107根據所提供的音頻數據來檢測估計為由用戶發出聲音的區間。
估計為由用戶發出聲音的區間被稱為發聲區間,以及其他區間被稱為非發聲區間。發聲區間為具有音頻信號和噪聲信號的區間,以及非發聲區間為具有噪聲信號的區間。
來自發聲區間檢測器107的信息被提供給后置濾波單元108和噪聲環境估計器102。噪聲環境估計器102使用來自集聲器101在非發聲區間中的音頻信號來估計噪聲環境。噪聲環境為環境是否具有許多噪聲或環境是否只具有易消除噪聲,且可為例如關于參照圖2所述的聲源的信息。
具體地,噪聲環境為從點聲源產生噪聲的環境、不是從點聲源產生噪聲(即,從非點聲源或擴散性聲源產生噪聲)的環境等。如下所述,噪聲環境估計器102不是具體地估計聲源數量,而是計算表示環境具有多少噪聲的值,并將該值提供給后置濾波單元108。
后置濾波單元108接收從音頻增強器105提供的音頻增強信號、從音頻衰減器106提供的音頻衰減信號、從發聲區間檢測器107提供關于發聲區間的信息以及從噪聲環境估計器102提供關于噪聲環境的信息,并使用這些信號和信息來執行后置濾波處理。
如下所述,后置濾波單元108可根據噪聲環境使用這些信號和信息來執行后置濾波處理。由后置濾波單元108處理的信號被提供給時間/頻率逆變器109。時間/頻率逆變器109將所提供的頻域信號轉換為時域信號,并將轉換的信號輸出給后級處理單元(未示出)。
參照圖4和圖5的流程圖,對圖3所示的第一(a)音頻處理裝置100的操作進行說明。
在步驟S101中,集聲器101的麥克風23-1和麥克風23-2各收集音頻信號。請注意,這里收集到的音頻為由用戶產生的聲音、噪聲或與噪聲混合的聲音。
在步驟S102中,輸入信號被分割成每個幀。當分割時,以例如16000Hz執行采樣。這里,假設來自麥克風23-1分割成幀的信號為信號x1(n),以及來自麥克風23-2分割成幀的信號為信號x2(n)。
分割信號x1(n)和信號x2(n)被提供給噪聲環境估計器102和時間/頻率轉換器103。
在步驟S103中,噪聲環境估計器102將所提供的信號x1(n)和信號x2(n)存儲在緩沖器中。因為發聲區間檢測器107估計在檢測為非發聲區間的區間中的噪聲環境,所以噪聲環境估計器102接收由發聲區間檢測器107提供的檢測結果,但是直到判定檢測結果為非發聲區間才可開始對所提供的信號進行處理。因此,提供給噪聲環境估計器102的信號x1(n)和信號x2(n)暫時地存儲在緩沖器中。
雖然圖2中未示出緩沖器,但是緩沖器可包括在噪聲環境估計器102中或緩沖器可與噪聲環境估計器102分開設置并與其他單元共享。此外,如果由發聲區間檢測器107提供的檢測結果為發聲區間,那么通過丟棄存儲在緩沖器中的信號x1(n)和信號x2(n),可以減小緩沖器尺寸。
在步驟S104中,時間/頻率轉換器103將所提供的信號x1(n)和信號x2(n)轉換為時間/頻率信號。通過參照圖6A,時域信號x1(n)和信號x2(n)被輸入給時間/頻率轉換器103。信號x1(n)和信號x2(n)分別被轉換為在不同頻域中的信號。
這里,假設時域信號x1(n)被轉換為頻域信號x1(f,t),以及時域信號x2(n)被轉換為頻域信號x2(f,t)。請注意,(f,t)中的f為表示頻帶的指數,以及(f,t)中的t為幀指數。
如圖6中的B所示,時間/頻率轉換器103將輸入時域信號x1(n)或信號x2(n)(下文中,以信號x1(n)為例進行說明)分割成每個樣本為幀大小N的幀,將分割信號與窗口函數相乘,并利用快速傅立葉變換(FFT)將相乘的信號轉換為頻域信號。在幀分割中,用來提取樣本的區間各偏移了N/2。
圖6中的B示出了幀大小N設定為512且偏移大小設定為256的實例。在這種情況下,輸入信號x1(n)被分割成幀大小N為512的幀,與窗口函數相乘,并通過執行FFT計算被轉換為頻域信號。
回到圖4中流程圖的說明,在步驟S104中,通過時間/頻率轉換器103轉換為頻域信號的信號x1(f,t)和信號x2(f,t)被提供給音頻方位估計器104、音頻增強器105和音頻衰減器106。
在步驟S105中,音頻方位估計器104使用時間/頻率信號來執行聲源方位估計。聲源方位估計可根據例如多重信號分類(MUSIC)方法來執行。關于MUSIC方法,可以應用以下文獻中所述的方法。
R.O.Schmidt,“Multiple emitter location and signal parameter estimation,”IEEE Trans.Antennas Propagation,vol.AP-34,no.3,pp.276~280,Mqrch 1986.
假設由音頻方位估計器104提供的估計結果為M(f,t)。估計結果M(f,t)被提供給音頻增強器105和音頻衰減器106。
在步驟S106中,音頻增強器105執行音頻增強處理。此外,在步驟S107中,音頻衰減器106執行音頻衰減處理。這里,參照圖7和圖8,對由音頻增強器105執行的音頻增強處理和由音頻衰減器106執行的音頻衰減處理進行說明。音頻增強處理和音頻衰減處理可利用使用波束成形的處理來執行。
波束成形為通過多個麥克風(麥克風陣列)來收集聲音并通過調整輸入到每個麥克風的相位來執行加法或減法的處理。利用波束成形,可以增強或衰減在特定方向上的聲音。
音頻增強處理可利用加法型波束成形來執行。延遲-求和(下文中,稱為DS)為加法型波束成形,且為用來增強期望聲音方位的增益的波束成形。
音頻衰減處理可利用衰減型波束成形來執行。NULL波束成形(下文中,稱為NBF)為衰減型波束成形,且為用來衰減期望聲音方位的增益的波束成形。
首先,參照圖7,對由音頻增強器105執行的音頻增強處理進行說明。這里,以使用DS波束成形的情況為例進行說明,DS波束成形為加法型波束成形。如圖7中的A所示,音頻增強器105輸入來自時間/頻率轉換器103的信號x1(f,t)和信號x2(f,t),并輸入來自音頻方位估計器104的估計結果M(f,t)。然后,作為處理結果,信號D(f,t)被輸出給發聲區間檢測器107和后置濾波單元108。
當音頻增強器105根據DS波束成形來執行音頻增強處理時,音頻增強器105具有圖7中的B所示的構造。音頻增強器105包括延遲單元131和加法器132。在圖7中的B中,未示出時間/頻率轉換器103。
來自麥克風23-1的音頻信號被提供給加法器132,以及來自麥克風23-2的音頻信號通過延遲單元131延遲了預定時間,然后被提供給加法器132。因為麥克風23-1和麥克風23-2被安裝成隔開了預定距離,所以音頻信號被作為由于路線差而具有不同傳播延遲時間的信號而接收。
在波束成形中,來自一個麥克風23的信號被延遲以補償與在預定方向上到達的信號相關的傳播延遲。延遲單元131執行延遲。在圖7中的B所示的DS波束成形中,延遲單元131設置在麥克風23-2側。
在圖7中的B中,假設麥克風23-1側為-90°,麥克風23-2側為90°,以及麥克風23的前側為0°,該前側為相對于穿過麥克風23-1和麥克風23-2的軸的垂直方向。此外,在圖7中的B中,朝向麥克風23的箭頭表示從預定聲源產生的聲音的聲波。
當聲波來自圖7中的B所示的方向時,這意味著聲波來自相對于麥克風23位于0°和90°之間的聲源。利用DS波束成形,可以獲得圖7中的C所示的方向特性。方向特性為為每個方位繪制的波束成形的輸出增益。
在執行DS波束成形且如圖7中的B所示在音頻增強器105中的加法器132的輸入中,當從預定方向到達的信號的相位(即,0°和90°之間的方向)匹配時,從該方向到達的信號得到增強。另一方面,因為相位未匹配,所以從除了預定方向以外的方向到達的信號未和從預定方向到達的信號增強得一樣多。
從以上原因可以看出,如圖7中的C所示,增益在有聲源的方位處變高。從音頻增強器105輸出的信號D(f,t)具有圖7中的C所示的方向特性。此外,從音頻增強器105輸出的信號D(f,t)為由用戶產生的音頻,且為期望提取的音頻(下文中,適當地稱為期望音頻)與期望抑制的噪聲混合的信號。
在從音頻增強器105輸出的信號D(f,t)中的期望音頻比包括在輸入給音頻增強器105的信號x1(f,t)和信號x2(f,t)中的期望音頻增強得更多。此外,在從音頻增強器105輸出的信號D(f,t)中的噪聲比包括在輸入給音頻增強器105的信號x1(f,t)和信號x2(f,t)中的噪聲減少得更多。
還對音頻增強處理進行說明。如上所述,音頻增強器105輸入信號x1(f,t)和信號x2(f,t)并輸出期望音頻得到增強的信號D(f,t)。當利用DS波束成形來執行音頻增強處理時,輸入信號和輸出信號之間的關系利用以下表達式(1)來表示。
【表達式1】
D(f,t)=WT(f,t)X(f,t)···(1)
在表達式(1)中,X(f)表示L個數量的麥克風23的輸入信號向量,W(f)為DS波束成形的濾波器系數向量,以及上標“T”表示轉置。此外,表達式(1)中的X(f,t)和W(f,t)分別被表示為以下表達式(2)。此外,DS波束成形的濾波器系數從以下表達式(3)獲得。
【表達式2】
X(f,t)=[X1(f,t),X2(f,t)]T
W(f,t)=[W1(f,t),W2(f,t)]T····(2)
【表達式3】
在表達式(3)中,L為表示麥克風數量的常數,fs為表示采樣頻率的常數,N為表示DFT點的常數,d為表示麥克風間隔的常數,以及c為表示聲速的常數。
音頻增強器105通過將值代入表達式(1)至表達式(3)來執行音頻增強處理。請注意,雖然這里已經以DS波束成形為例進行說明,但是其他波束成形(諸如自適應波束成形)或通過除了該波束成形以外的方法的音頻增強處理可適用于本技術。
接著,參照圖8,對由音頻衰減器106執行的音頻衰減處理進行說明。這里,以使用NULL波束成形(NBF)的情況為例進行說明,NULL波束成形為減法型波束成形。
如圖8中的A所示,音頻衰減器106輸入來自時間/頻率轉換器103的信號x1(f,t)和信號x2(f,t),并輸入來自音頻方位估計器104的估計結果M(f,t)。然后,作為處理結果,信號D(f,t)被輸出給發聲區間檢測器107和后置濾波單元108。
當音頻衰減器106根據NULL波束成形來執行音頻衰減處理時,音頻衰減器106具有圖8中的B所示的構造。音頻衰減器106包括延遲單元141和減法器142。在圖8中的B中,未示出時間/頻率轉換器103。
來自麥克風23-1的音頻信號被提供給減法器142,以及來自麥克風23-2的音頻信號通過延遲單元141延遲了預定時間,然后被提供給減法器142。用來執行NULL波束成形的構造和參照圖7已經說明用來執行DS波束成形的構造基本相同,且差異在于由加法器132執行加法或由減法器142執行減法。因此,這里省略關于構造的詳細說明。此外,適當地省略關于與圖7中的單元相同的單元的說明。
當聲波來自由圖8中的B中的箭頭表示的方向時,這意味著聲波來自相對于麥克風23位于0°和90°之間的聲源。利用NULL波束成形,可以獲得圖8中的C所示的方向特性。
在執行NULL波束成形且如圖8中的B所示在音頻衰減器106中的減法器142的輸入中,當從預定方向到達的信號的相位(即,0°和90°之間的方向)匹配時,從該方向到達的信號得到衰減。理論上,作為衰減結果,期望音頻變為零。另一方面,因為相位未匹配,所以從除了預定方向以外的方向到達的信號未和從預定方向到達的信號衰減得一樣多。
從以上原因可以看出,如圖8中的C所示,增益在有聲源的方位處變低。從音頻衰減器106輸出的信號N(f,t)具有圖8中的C所示的方向特性。此外,從音頻衰減器106輸出的信號N(f,t)為期望音頻被消除且噪聲仍然存在的信號。
在從音頻衰減器106輸出的信號N(f,t)中的期望音頻比包括在輸入給音頻衰減器106的信號x1(f,t)和信號x2(f,t)中的期望音頻衰減得更多。此外,包括在輸入給音頻衰減器106的信號x1(f,t)和信號x2(f,t)中的噪聲與在從音頻衰減器106輸出的信號N(f,t)中的噪聲大致相同。
還對音頻衰減處理進行說明。如上所述,音頻衰減器106輸入信號x1(f,t)和信號x2(f,t)并輸出期望音頻得到衰減的信號N(f,t)。當利用NULL波束成形來執行音頻衰減處理時,輸入信號和輸出信號之間的關系利用以下表達式(4)來表示。
【表達式4】
N(f,t)=FT(f,t)X(f,t)····(4)
在表達式(4)中,X(f)表示L個數量的麥克風23的輸入信號向量,F(f)為NULL波束成形的濾波器系數向量,以及上標“T”表示轉置。此外,表達式(4)中的X(f,t)和F(f,t)分別被表示為以下表達式(5)。此外,NULL波束成形的濾波器系數從以下表達式(6)獲得。
【表達式5】
X(f,t)=[X1(f,t),X2(f,t)]T
F(f,t)=[F1(f,t),-F2(f,t)]T···(5)
【表達式6】
在表達式(6)中,L為表示麥克風數量的常數,fs為表示采樣頻率的常數,N為表示DFT點的常數,d為表示麥克風間隔的常數,以及c為表示聲速的常數。
音頻衰減器106通過將值代入表達式(4)至表達式(6)來執行音頻衰減處理。請注意,雖然這里已經以NULL波束成形為例進行說明,但是其他波束成形(諸如自適應NULL波束成形)或通過除了波束成形以外的方法的音頻衰減處理可適用于本技術。
回到圖4中流程圖的說明。在步驟S106中,音頻增強器105執行音頻增強處理,在步驟S107中,音頻衰減器106執行音頻衰減處理,并且這些結果被提供給發聲區間檢測器107和后置濾波單元108。
在步驟S108中,發聲區間檢測器107執行發聲區間檢測(語音活動檢測:VAD)。參照圖9對該檢測進行說明。如圖9中的A所示,來自音頻增強器105的音頻增強信號D(f,t)和來自音頻衰減器106的音頻衰減信號N(f,t)被輸入給發聲區間檢測器107。發聲區間檢測器107輸出檢測結果V(t)。
圖9中的B的上面一行表示輸入信號的波形實例,中間一行表示音頻增強信號D(f,t)的波形實例,以及下面一行表示音頻衰減信號N(f,t)的波形實例。請注意,雖然圖9中的B所示的波形表示時域波形,但是因為音頻處理裝置100在將信號轉換為頻域信號之后執行處理,如上所述,所以實際處理在頻域中執行。這里,為了說明,示出了時域波形。
假設圖9中的B的上面一行所示的輸入信號的波形為例如由麥克風23-1收集到的音頻的波形。波形在中心部分處變大的部分為發聲區間,以及它前后的部分為非發聲區間。發聲區間為用戶發出聲音的區間,以及非發聲區間為用戶未發出聲音的區間。
在圖9中的B的中間一行所示的音頻增強信號中,相比于輸入信號,在發聲區間處的信號變得更大,以及在非發聲區間處的信號變得更小。在圖9B的下面一行所示的音頻衰減信號中,相比于輸入信號,在發聲區間處的信號變得更小,以及在非發聲區間處的信號變得基本相同。
圖9中的B的中間一行所示的音頻增強信號與下面一行所示的音頻衰減信號在圖中用矩形圍住的區間171和區間172中進行比較。區間171為在非發聲區間中的區間,且當音頻增強信號與音頻衰減信號在非發聲區間中進行比較時,例如,當選取該差時,該差小。相反,區間172為在發聲區間中的區間,且當音頻增強信號與音頻衰減信號在發聲區間中進行比較時,例如,當選取該差時,該差大。
為此,可以根據音頻增強信號和音頻衰減信號之差來識別發聲區間或非發聲區間。具體地,通過使用在基于以下表達式(7)的計算中計算出的值,發聲區間和非發聲區間的檢測結果通過基于以下表達式(8)的判定而產生并輸出。
【表達式7】
【表達式8】
在表達式(7)中,fa和fb分別為在發聲區間檢測計算中使用的頻帶的下限和上限。通過將包括許多音頻分量的頻帶設定為該頻帶,可以獲得更好性能。例如,下限設定為200Hz,以及上限設定為2000Hz。
在表達式(8)中,Thr表示閾值并設定為例如約10db。如表達式(8)所示,當用表達式(7)計算出的值vad的值小于閾值Thr時,輸出0作為檢測結果V(t),以及當值vad的值大于閾值Thr時,輸出1作為檢測結果V(t)。
假設當檢測結果V(t)為0時,這表示判定為非發聲區間(只有噪聲信號),以及當檢測結果V(t)為1時,這表示判定為發聲區間(有音頻信號和噪聲信號)。
請注意,雖然這里基于以上設定進行說明,但是這并不意味著當輸出0或1作為檢測結果V(t)時,本技術的應用范圍受到限制。
回到圖4中的流程圖,當在步驟S108中由發聲區間檢測器107執行發聲區間檢測時,處理進入步驟S109(圖5)。在步驟S109中,噪聲環境估計器102判定當前幀是否為發聲區間。
該判定通過參照從發聲區間檢測器107提供的檢測結果V(t)來執行。具體地,當檢測結果V(t)為“0”時,在步驟S109中判定當前幀不是發聲區間,以及當檢測結果V(t)為“1”時,在步驟S109中判定為發聲區間。
當在步驟S109中判定當前幀不是發聲區間時,換言之,當判定為非發聲區間時,處理進入步驟S110。在步驟S110中,噪聲環境估計器102使用分割成幀的輸入信號來估計噪聲環境。
參照圖10,對通過噪聲環境估計器102的噪聲環境估計進行說明。如圖10中的A所示,由集聲器101的麥克風23-1收集到的聲音的信號x1(n)和由麥克風23-2收集到的聲音的信號x2(n)被輸入給噪聲環境估計器102。此外,來自發聲區間檢測器107的檢測結果V(t)被輸入給噪聲環境估計器102。
當參照所提供的檢測結果V(t)被判定為非發聲區間時,噪聲環境估計器102使用信號x1(n)和信號x2(n)來估計噪聲環境。估計結果被作為相關性系數C(t)提供給后置濾波單元108。利用以下表達式(9)來計算相關性系數C(t)。
【表達式9】
在表達式(9)中,N表示幀大小。利用基于表達式(9)的計算,計算收集到的信號的相關性。利用表達式(9)計算出的相關性系數C(t)為從-1.0到1.0的值。
相關性系數C(t)與麥克風23(集聲器101)周圍的聲源數量有關。參照圖10中的B對此進行說明。在圖10中的B所示的曲線圖中,橫坐標表示聲源數量,縱坐標表示相關性系數。
當聲源數量為1時,相關性系數為接近1的值。當聲源數量為5時,相關性系數為接近0.8的值。當聲源數量為20時,相關性系數為接近0.6的值。然后,當聲源數量無窮大時,換言之,當聲源數量為無數噪聲或擴散性噪聲時,相關性系數為接近0的值。
如上所述,麥克風周圍的聲源數量和從多個麥克風獲得的信號之間的相關性值有關系。具體地,如圖10中的B所示,有以下關系:隨著聲源數量增大,相關性系數變小。通過使用這種關系,對噪聲環境進行估計。
這里,因為在非發聲區間中計算相關性系數,所以將要計算的相關性系數與產生噪聲的聲源數量有關。因此,可以根據相關性系數來估計環境是否具有許多產生噪聲的聲源或環境是否具有少許產生噪聲的聲源。
然后,在環境具有許多產生噪聲的聲源的情況下,如果強烈地執行抑制噪聲的處理,那么產生稱為音樂噪聲等的噪聲的可能性變高。因此,當判定環境具有許多產生噪聲的聲源時,輕微地執行抑制噪聲的處理以執行控制,使得不產生音樂噪聲。
另一方面,在環境具有少許產生噪聲的聲源的情況下,如果強烈地執行抑制噪聲的處理,那么產生稱為音樂噪聲等的噪聲的可能性低。因此,當判定環境具有少許產生噪聲的聲源時,強烈地執行抑制噪聲的處理以執行控制,使得抑制噪聲并提取期望音頻。
為了根據噪聲環境來控制抑制噪聲的處理強度,在步驟S111中計算將在后置濾波中使用的噪聲校正系數。這里,對噪聲校正系數進行說明。
圖11中的A為曲線圖,示出了在非音頻區間(只有噪聲的區間)中的音頻衰減信號的頻譜和音頻增強信號的頻譜。圖11中的B為曲線圖,示出了在音頻區間(有音頻和噪聲的區間)中的音頻衰減信號的頻譜和音頻增強信號的頻譜。在圖11中的A和圖11中的B所示的曲線圖中,橫坐標表示頻率,縱坐標表示增益。
在圖11中的B中,在由橢圓形虛線(頻帶)圍住的部分中有期望獲得的音頻分量。在圖11中的A所示的非音頻區間中的曲線圖用頻率示出了音頻衰減信號和音頻增強信號之差。通過參照圖11中的B,示出了音頻增強信號的增益在有期望獲得的音頻分量的部分中高。
基于以上原因,通過從音頻增強信號中減去音頻衰減信號,可以留有期望獲得的音頻分量。此外,如果簡單地從音頻增強信號中減去音頻衰減信號,那么如圖11中的A所示在只有噪聲的區間中有音頻增強信號和音頻衰減信號之差,且需要考慮該差。
如將參照圖12進行說明,需要考慮噪聲的聲源數量,換言之,噪聲環境。圖12中的A為曲線圖,其中當噪聲為一個點聲源時的音頻衰減信號和音頻增強信號的方向特性重疊。圖12中的B為曲線圖,其中當噪聲為擴散性聲源(在擴散性噪聲環境下)時的音頻衰減信號和音頻增強信號的方向特性重疊。
圖12中的A和圖12中的B都示出了在麥克風23的右前方(0°)有期望提取的聲源的情況。此外,圖12中的A和圖12中的B示出了產生噪聲的聲源的位置。
通過參照圖12中的A,在包括在音頻衰減信號和音頻增強信號中的噪聲的增益中產生差a。通過噪聲校正系數(下面進行說明)對差a進行校正。如圖12中的A所示,當噪聲為一個點聲源時,待校正點為有噪聲的部分,且可以唯一地設定噪聲校正系數。
通過參照圖12中的B,在擴散性噪聲環境下或在非點聲源噪聲環境下有許多待校正點,且所述點可以暫時地改變。在圖12中的B所示的實例中,雖然噪聲有四個聲源,并需要用來在聲源處校正差b、差c、差d和差e的校正系數,但是很難唯一地判定校正系數。此外,因為這些差b至e可以暫時地改變,所以更難唯一地判定校正系數。
在本技術中,因為估計噪聲環境并根據噪聲環境對噪聲校正系數本身進行校正,所以可以執行適合噪聲環境的校正。換言之,后置濾波單元108執行校正(噪聲抑制),下文進行說明。
通過參照圖13中的A,來自音頻增強器105的音頻增強信號D(f,t)和來自音頻衰減器106的音頻衰減信號N(f,t)被提供給后置濾波單元108。此外,來自發聲區間檢測器107的發聲區間檢測結果V(t)和來自噪聲環境估計器102的噪聲環境的估計結果C(t)(相關性系數C(t))被提供給后置濾波單元108。
后置濾波單元108使用所提供的這些信號和信息來執行后置濾波處理,并輸出估計音頻頻譜Y(f,t)作為其結果。估計音頻頻譜Y(f,t)為消除噪聲的音頻。
例如,頻譜相減法、MMSE-STSA方法等可應用于由后置濾波單元108執行的后置濾波處理。在以下文獻中公開了頻譜相減法,且頻譜相減法可適用于本技術。
S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction,”IEEE Trans.Acoustics,Speech,and Signal Processing,vol.27.no,2,pp.113-120,1979.
此外,在以下文獻中公開了MMSE-STSA方法,且MMSE-STSA方法可適用于本技術。
Y.Ephraim and D.Malah,“Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator.”IEEE Trans.Acoustics,Speech.,end Signal Processing,vol.32,no.6,pp.1109-1121,1984.
這里,以應用基于頻譜相減法的后置濾波處理的情況為例進行說明。在簡單頻譜相減法中,從音頻增強信號D(f,t)的振幅頻譜中減去音頻衰減信號N(f,t)的振幅頻譜。然而,如參照圖11和圖12所述,因為音頻增強信號D(f,t)的振幅頻譜和音頻衰減信號N(f,t)的振幅頻譜之間有誤差,所以需要對噪聲頻譜進行校正。
在由發聲區間檢測器107判定為非發聲區間(v(t)=0)的區間中根據以下表達式(10)和(11)來執行噪聲頻譜校正。
【表達式10】
H(f,t)=G(f,t)N(f,t)···(10)
【表達式11】
在表達式(10)和表達式(11)中,G(f,t)為用來獲得校正頻譜的校正系數,且為通過對過去k個幀的數據進行平滑化而計算出的值。H(f,t)為通過將校正系數G(f,t)與音頻衰減信號N(f,t)相乘而獲得的噪聲校正系數。
接著,根據以下表達式(12),從音頻增強信號D(f,t)和估計噪聲校正系數H(f,t)獲得估計音頻頻譜Y(f,t)。
【表達式12】
在表達式(12)中,a為減法系數且設定為約1.0至2.0的值。c為向下取整系數且為設定為約0.01至0.5的值。b為根據噪聲環境的估計結果而改變的值并執行如下。
C(t)的絕對值大的情況:噪聲為少量點聲源的可能性高,并強烈地執行消噪。
C(t)的絕對值小的情況:噪聲為非點聲源或擴散性聲源的可能性高,并微弱地執行消噪。
因為消噪強度根據噪聲環境而設定,并以此方式執行與消噪有關的處理,所以可以對噪聲變化精確地執行消噪。
在表達式(12)中,可利用例如以下表達式(13)來計算系數b的值。
【表達式13】
b=|C(t)| …(13)
根據表達式(13),系數b的值為相關性系數C(t)的絕對值。以此方式,可直接使用相關性系數C(t)。可選擇地,可通過使用圖13中的B所示的曲線圖或基于曲線圖的表來計算系數b的值。此外,可從外部(從記錄介質)加載系數b,或可在需要時計算系數b。
在圖13中的B所示的曲線圖中,橫坐標為相關性系數C(t),縱坐標為系數b。系數b可以設定為使用相關性系數C(t)計算出的預定函數。
此外,系數b的值不需要在等于或小于1.0的范圍內,且可以根據應用本技術的音頻處理裝置的用途(諸如免提通話或音頻識別)而設定為適當值。
根據本技術,因為消噪強度根據噪聲環境而設定,并以此方式執行與消噪有關的處理,所以可以對各種噪聲環境精確地執行消噪。
回到圖5中的流程圖,當在步驟S111中計算將在由后置濾波單元108執行的后置濾波處理中使用的噪聲校正系數時,處理進入步驟S112。當在步驟S109中判定當前幀為發聲區間時,處理還進入步驟S112。
在步驟S112中,后置濾波單元108根據噪聲環境來執行后置濾波處理。
請注意,當沒有非發聲區間并不計算噪聲校正系數時,在步驟S112中使用設定為初始值的噪聲校正系數來執行后置濾波處理。
由后置濾波單元108計算出的估計音頻頻譜Y(f,t)被提供給時間/頻率逆變器109。在步驟S113中,時間/頻率逆變器109將時間/頻率信號轉換為時間信號。待轉換為時域信號的估計音頻頻譜Y(f,t)為如上所述根據噪聲環境而進行消噪的頻域信號。
在步驟S114中,時間/頻率逆變器109通過將幀移位來對樣本進行相加并產生輸出信號y(n)。如參照圖6所述,當時間/頻率轉換器103執行處理時,時間/頻率逆變器109為每個幀執行反向FFT,因此,通過將樣本移位256,通過疊加輸出的512個樣本,產生輸出信號y(n)。
在步驟S115中,從時間/頻率逆變器109產生的輸出信號y(n)被輸出給后級處理單元(未示出)。
以此方式,在應用本技術的音頻處理裝置100中,因為估計噪聲環境并根據估計噪聲環境來設定消噪強度,所以可以根據噪聲環境來執行適當的消噪處理。因此,可以防止產生音樂噪聲等。
參照圖14,圖14示出了音頻識別率在應用本技術的音頻處理裝置和未應用本技術的音頻處理裝置之間如何變化的實驗結果。圖14中的A示出了假設噪聲為點聲源的情況,產生期望提取的音頻的聲源安裝在麥克風陣列前面,且產生噪聲的一個聲源安裝在對角左前側。
圖14中的B示出了假設噪聲為擴散性噪聲的情況,產生期望提取的音頻的聲源安裝在麥克風陣列前面,且產生噪聲的多個聲源被安裝成以便圍繞麥克風陣列。
圖14中的C和圖14中的D為示意圖,示出了當在圖14中的A所示的情況下和在圖14中的B所示的情況下測量音頻識別率時的測量結果。音頻識別率為正確識別發出聲音的預定短語的概率。
在圖14中的C和圖14中的D中,1mic表示當利用一個麥克風來執行測量時的結果,DS表示當只用延遲-求和波束成形來執行測量時的結果,Conventional表示當在不考慮噪聲環境的情況下執行后置濾波處理時的測量結果,以及Proposed表示當在利用圖3所示的音頻處理裝置100并考慮噪聲環境的情況下執行后置濾波處理時的測量結果。
通過參照圖14中的C和圖14中的D,示出了應用本技術的音頻處理裝置100的音頻識別率既在點聲源噪聲中又在擴散性噪聲中為最高。為此,如上所述,示出了通過估計噪聲環境并根據估計噪聲環境執行消噪處理來提高音頻識別率。
<第一(b)音頻處理裝置的內部構造和操作>
接著,對第一(b)音頻處理裝置的構造和操作進行說明。雖然上述第一(a)音頻處理裝置100(圖3)使用從集聲器101獲得的音頻信號來估計噪聲環境,但是第一(b)音頻處理裝置200(圖15)的不同之處在于它使用從音頻增強器105獲得的音頻增強信號和從音頻衰減器106獲得的音頻衰減信號來估計噪聲環境。
圖15為示意圖,示出了第一(b)音頻處理裝置200的構造。在圖15所示的音頻處理裝置200中,相同附圖標記被附到具有與圖3所示的第一(a)音頻處理裝置100相同的功能的單元,并省略其說明。
圖15所示的音頻處理裝置200具有來自音頻增強器105的音頻增強信號D(f,t)和來自音頻衰減器106的音頻衰減信號N(f,t)還被提供給噪聲環境估計器201的構造,且與圖3所示的音頻處理裝置100的不同構造之處在于來自集聲器101的信號未被提供給噪聲環境估計器201。
如圖16所示,噪聲環境估計器201被構造為使得提供來自音頻增強器105的音頻增強信號D(f,t)和來自音頻衰減器106的音頻衰減信號N(f,t)并還提供來自發聲區間檢測器107的發聲區間檢測結果V(t)。
類似于上述噪聲環境估計器102(圖3),噪聲環境估計器201使用所提供的信號和信息來提供從-1.0到1.0的值C(t)給后置濾波單元108。此外,噪聲環境估計器201計算在由發聲區間檢測器107檢測到的非發聲區間中從-1.0到1.0的值C(t)并將該值提供給后置濾波單元108。
當噪聲為點聲源時,從音頻增強器105輸出的音頻增強信號D(f,t)的振幅頻譜和從音頻衰減器106輸出的音頻衰減信號N(f,t)的振幅頻譜的形狀趨向彼此基本匹配。此外,當噪聲為擴散性時,音頻增強信號D(f,t)的振幅頻譜和音頻衰減信號N(f,t)的振幅頻譜的形狀趨向彼此不匹配。
通過使用這種趨向,可以根據音頻增強信號D(f,t)的振幅頻譜和音頻衰減信號N(f,t)的振幅頻譜的匹配率(相似性)來估計周圍噪聲環境。例如,它可具有計算每個幀中的振幅頻譜之間的相關性并輸出相關性值作為由噪聲環境估計器201提供的估計結果C(t)的構造。
當它被構造為以便以此方式估計噪聲環境時,存儲器等可以省略。在圖3所示的音頻處理裝置100(圖3)中,噪聲環境估計需要緩沖區(存儲器)以暫時地保存分割成幀的時域信號。然而,音頻處理裝置200(圖15)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
參照圖17和圖18中的流程圖對具有這種構造的音頻處理裝置200的操作進行說明。基本操作類似于圖3所示的音頻處理裝置100的操作,并省略類似操作的說明。
與圖4中的步驟S101、S102、S104至S108中的處理類似地執行步驟S201至S207(圖17)中的處理。換言之,雖然在第一(a)音頻處理裝置100中,在步驟S103中執行將分割信號存儲在噪聲環境估計器102的緩沖器中的處理,但是在第一(b)音頻處理裝置200中不需要該處理并在處理過程中省略該處理。
除了步驟S209(對應于步驟S110的處理)不同,基本上與圖5所示的步驟S109至S115中的處理類似地執行步驟S208至S214(圖18)中的處理。
當在步驟S208中判定當前幀不是發聲區間時,在步驟S209中,噪聲環境估計器201使用音頻增強信號和音頻衰減信號來估計噪聲環境。如上所述,使用音頻增強信號和音頻衰減信號來執行該估計。
因為類似于第一(a)音頻處理裝置100的噪聲環境估計器102,從-1.0到1.0的值C(t)的估計結果被提供給后置濾波單元108,所以可以與第一(a)音頻處理裝置100類似地執行后置濾波單元108等中的處理。
在第一(b)音頻處理裝置200中,可以以此方式根據從音頻增強器105獲得的信號和從音頻衰減器106獲得的信號來估計噪聲環境。類似于第一(a)音頻處理裝置100,第一(b)音頻處理裝置200還可估計噪聲環境并根據估計的噪聲環境來執行消噪處理,并可以提高音頻處理的精確度,諸如音頻識別率。
<第一(c)音頻處理裝置的內部構造和操作>
接著,對第一(c)音頻處理裝置的構造和操作進行說明。雖然上述第一(a)音頻處理裝置100(圖3)使用從集聲器101獲得的音頻信號來估計噪聲環境,但是第一(c)音頻處理裝置300(圖19)的不同之處在于它使用從外部輸入的信息來估計噪聲環境。
圖19為示意圖,示出了第一(c)音頻處理裝置300的構造。在圖19所示的音頻處理裝置300中,相同附圖標記被附到具有與圖3所示的第一(a)音頻處理裝置100相同的功能的單元,并省略其說明。
圖19所示的音頻處理裝置300具有噪聲環境估計所需的信息從外部提供給噪聲環境估計器301的構造,且與圖3所示的音頻處理裝置100的不同構造之處在于來自集聲器101的信號未被提供給噪聲環境估計器301。
例如,由用戶輸入的信息被用作待提供給噪聲環境估計器301的噪聲環境估計所需的信息。例如,它可具有用戶在開始發出聲音之前選擇環境是否具有許多噪聲的構造,并輸入選定信息。
此外,根據外部傳感器(諸如全球定位系統(GPS))的信息來判定用戶的位置,并可判定該位置是否為具有許多噪聲的環境。例如,它被構造為當根據GPS信息判定該位置為室內時,判定環境具有少許噪聲,或當判定該位置為室外時,判定環境具有許多噪聲,且它可被構造為使得輸入基于該判定的信息。
此外,可使用時間信息以及位置信息(諸如GPS信息)或時間信息。例如,因為夜間等與日間相比不太可能具有許多噪聲,所以當根據時間信息判定它為夜間時,可判定環境具有少許噪聲,或當判定它為日間時,可判定環境具有許多噪聲。
此外,它可被構造為使得通過組合信息來估計噪聲環境。此外,學習估計結果和用戶反饋,獲得從學習獲得的信息,例如,當環境為安靜時的時間信息,且學習結果可被用于噪聲環境估計。
參照圖20和圖21中的流程圖對具有這種構造的音頻處理裝置300的操作進行說明。基本操作類似于圖3所示的音頻處理裝置100的操作,并省略類似操作的說明。
與圖4中的步驟S101、S102、S104至S108中的處理類似地執行步驟S301至S307(圖20)中的處理。
換言之,雖然在第一(a)音頻處理裝置100中,在步驟S103中執行將分割信號存儲在噪聲環境估計器102的緩沖器中的處理,但是在第一(c)音頻處理裝置300中不需要該處理并在處理過程中省略該處理。處理過程與圖17所示的流程圖的過程相同,圖17所示的流程圖為第一(b)音頻處理裝置200(圖15)的操作。
除了步驟S309(對應于步驟S110的處理)不同,基本上與圖5所示的步驟S109至S115中的處理類似地執行步驟S308至S314(圖21)中的處理。
當在步驟S308中判定當前幀不是發聲區間時,在步驟S309中,噪聲環境估計器201使用從外部輸入的信息來估計噪聲環境。
類似于第一(a)音頻處理裝置100的噪聲環境估計器102,從-1.0到1.0的值C(t)的估計結果被提供給后置濾波單元108。可以與第一(a)音頻處理裝置100類似地執行后置濾波單元108等中的處理。
在第一(c)音頻處理裝置300中,可以以此方式根據從外部輸入的信號來估計噪聲環境。類似于第一(a)音頻處理裝置100,第一(c)音頻處理裝置300還可估計噪聲環境并根據估計噪聲環境來執行消噪處理,并可以提高音頻處理的精確度,諸如音頻識別率。
此外,在圖3所示的音頻處理裝置100(圖3)中,噪聲環境估計需要緩沖區(存儲器)以暫時地保存分割成幀的時域信號。然而,音頻處理裝置300(圖19)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
此外,因為第一(c)音頻處理裝置300具有未執行第一(a)音頻處理裝置100或第一(b)音頻處理裝置200所需的相關性計算的構造,所以可以降低計算成本。
<第二音頻處理裝置的內部構造和操作>
<第二(a)音頻處理裝置的內部構造>
圖22為示意圖,示出了第二(a)音頻處理裝置400的構造。音頻處理裝置400設置在移動電話10的內部并構成移動電話10的一部分。圖22所示的音頻處理裝置400包括集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405、音頻衰減器406、發聲區間檢測器407、后置濾波單元408和時間/頻率逆變器409。
雖然這種構造類似于第一音頻處理裝置的構造,但是第二音頻處理裝置與第一音頻處理裝置的不同構造之處在于處理部件改變指令單元410包括集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406。
上述第一音頻處理裝置具有估計噪聲環境并根據估計噪聲環境來控制后置濾波單元108中的消噪強度的構造和操作。第二音頻處理裝置具有估計噪聲環境并在保持消噪性能的同時根據估計噪聲環境通過改變處理部件改變指令單元410中的構造來降低功耗的構造和操作。
集聲器401包括多個麥克風23-1至23-N。在第二音頻處理裝置中,如下面將要說明,為了改變根據噪聲環境而使用的麥克風23的數量,在集聲器401中包括兩個或更多個麥克風23。
雖然未示出,但是當它被構造為以便包括多個麥克風23時,后級時間/頻率轉換器403等用導線連接到來自麥克風23的輸入信號以及處理信號。此外,時間/頻率轉換器403等被構造為以便處理來自麥克風23的信號以及處理信號。
集聲器401包括多個麥克風23,且例如,當估計有擴散性噪聲時,使用麥克風23(兩個或更多個麥克風23)來執行處理,或當估計有來自點聲源的噪聲時,使用兩個麥克風23來執行處理。
集聲器401包括麥克風23,且除了麥克風23,集聲器401還包括AD轉換器、采樣率轉換器等(它們均未示出)。利用根據噪聲環境來減少麥克風23的數量的構造,可以切斷對AD轉換器、采樣率轉換器等的供電并抑制功耗。
此外,因為時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406中的所有單元被構造為以便處理通過麥克風23獲得的音頻,所以麥克風23的數量為兩個,且輸入數量減為兩個。因為在波束成形中引起大量積-和計算,所以減少估計音頻方位和輸入數量的處理,并可以減少計算量。從這一點來說,可以降低功耗。
雖然音頻處理裝置400的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405、音頻衰減器406、發聲區間檢測器407和時間/頻率逆變器409的不同之處在于處理多條音頻,但是基本上與音頻處理裝置100(圖3)的集聲器101、噪聲環境估計器102、時間/頻率轉換器103、音頻方位估計器104、音頻增強器105、音頻衰減器106、發聲區間檢測器107、后置濾波單元108和時間/頻率逆變器109類似地執行處理,并省略其詳細說明。
后置濾波單元408不同于第一音頻處理裝置的后置濾波單元108,并具有圖23所示的構造,這是因為未輸入來自噪聲環境估計器402的估計結果C(t)。
后置濾波單元408輸入來自音頻增強器405的音頻增強信號D(f,t)和來自音頻衰減器406的音頻衰減信號N(f,t)。此外,后置濾波單元408輸入來自發聲區間檢測器407的發聲區間檢測結果V(t)。
后置濾波單元408根據以下表達式(14)使用輸入信號和信息來輸出估計音頻頻譜Y(f,t)。估計音頻頻譜Y(f,t)為消除噪聲的音頻。
【表達式14】
在表達式(14)中,a為減法系數并設定為約1.0至2.0的值。此外,c為向下取整系數并設定為約0.01至0.5的值。
<第二(a)音頻處理裝置的第一操作>
參照圖24和圖25中的流程圖對具有這種構造的音頻處理裝置400的操作進行說明。基本操作類似于圖4所示的第一(a)音頻處理裝置100的操作,并省略類似操作的說明。
與圖4所示的步驟S101至S108中的處理類似地執行步驟S401至S408(圖24)中的處理。
換言之,第二(a)音頻處理裝置400的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405、音頻衰減器406和發聲區間檢測器407與第一(a)音頻處理裝置100的集聲器101、噪聲環境估計器102、時間/頻率轉換器103、音頻方位估計器104、音頻增強器105、音頻衰減器106和發聲區間檢測器107類似地執行處理。
然而,因為從在音頻處理裝置400中執行處理時將使用的設定數量的麥克風23獲得信號,所以可以處理兩個或更多個音頻信號。
在步驟S409(圖25)中,當判定當前幀不是發聲區間時,在步驟S410中,噪聲環境估計器402使用分割成幀的輸入信號來估計噪聲環境。
如參照圖10所述,噪聲環境估計器102使用從麥克風23獲得的音頻信號來估計噪聲環境。與在步驟S110(圖5)中由圖3所示的音頻處理裝置100執行的估計類似地執行這種估計并省略其說明。
當在步驟S410中估計噪聲環境時,在步驟S411中判定環境是否具有少量噪聲。例如,通過基于上述表達式(9)的計算來計算收集到的信號之間的相關性作為噪聲環境的估計結果,且所計算的相關性系數C(t)為從-1.0到1.0的值。
例如,預先設定閾值,并在相關性系數C(t)大于或小于預定閾值的情況下,可判定環境是否具有大量噪聲。當閾值設定為例如0.8且相關性系數C(t)的絕對值等于或大于0.8時,可以估計在麥克風23周圍有少量噪聲且它為點聲源噪聲。
當在步驟S411中判定環境具有少量噪聲時,處理進入步驟S412。在步驟S412中,處理部件改變指令單元410的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406改變為減少輸入數量的設定。
換言之,因為判定環境具有少量噪聲且在雖然待使用麥克風23的數量減少但是不會降低消噪處理的精確度的情況下可以執行處理,所以指示處理部件改變指令單元410以改變減少待處理信號的設定。
通過執行處理,在環境具有少量噪聲的情況下可以降低功耗,而不會降低消除噪聲的精確度。
請注意,雖然這里以處理部件改變指令單元410的所有單元改變為降低功耗的設定的情況為例進行說明,但是設定可以與它相反。換言之,正常設定為降低功耗的設定,并且當判定環境具有大量噪聲時,所述單元可以改變為提高精確度的設定。
例如,在步驟S510中判定環境是否具有大量噪聲,并且當判定環境具有大量噪聲時,處理部件改變指令單元410的所有單元可以改變為提高精確度而不是降低功耗的設定,即,增大輸入數量的設定,以使用兩個或更多個麥克風23來執行處理。
可選擇地,待使用麥克風23的數量可根據估計噪聲環境而設定。例如,在包括配備有四個麥克風23的集聲器401的音頻處理裝置400中,環境被分為具有大量噪聲、中量噪聲和少量噪聲的三個環境,并且當判定環境具有大量噪聲時,所述單元改變為使用四個麥克風23的設定,當判定環境具有中量噪聲時,所述單元改變為使用三個麥克風23的設定,以及當判定環境具有少量噪聲時,所述單元改變為使用兩個麥克風23的設定。
此外,通過設置多個閾值,比較由噪聲環境估計器402提供的估計結果與閾值,并使用比較結果,可對具有大量噪聲、中量噪聲或少量噪聲的環境的判定進行分類。待使用麥克風23的數量可以以此方式根據噪聲數量而設定。
當在步驟S412中改變處理部件改變指令單元410中的設定時,處理進入步驟S413,并計算將由后置濾波單元408使用的噪聲校正系數。因為與步驟S112(圖5)中的處理類似地執行步驟S413中的處理,所以省略其說明,但在步驟S413中,根據在計算噪聲校正系數時使用麥克風23的數量來執行計算。
另一方面,當在步驟S411中判定環境具有大量噪聲時,處理進入步驟S413。在這種情況下,使用麥克風23的數量不變,并利用此時已經設定的設定來計算將由后置濾波單元408使用的噪聲校正系數。
當在步驟S413中計算噪聲校正系數時,或當在步驟S409中判定當前幀為發聲區間時,處理進入步驟S414。
在步驟S414中,后置濾波單元408執行后置濾波處理。在這種情況下,如參照圖23所述,當使用來自音頻增強器405的音頻增強信號D(f,t)和來自音頻衰減器406的音頻衰減信號N(f,t)的檢測結果示出來自發聲區間檢測器407的發聲區間檢測結果V(t)為發聲區間時,估計音頻頻譜Y(f,t)根據表達式(14)而計算并輸出給后級時間/頻率逆變器409。估計音頻頻譜Y(f,t)為消除噪聲的音頻。
與在圖5中的步驟S113至S115中由時間/頻率逆變器109(圖3)執行的處理類似地執行在步驟S415至S417中由時間/頻率逆變器409執行的處理,并省略其說明。
在第二(a)音頻處理裝置400中,音頻處理裝置400中的構造可以以此方式根據噪聲環境而改變,并可以改變能夠執行適合噪聲環境的消噪處理的構造。因此,在具有少許噪聲的環境下可以降低功耗。
當根據圖24和圖25所示的流程圖來執行處理時,在音頻處理裝置400操作期間重復步驟S410至S413中的處理。因此,可以處理噪聲環境變化。例如,當在音頻處理裝置400操作期間(例如,在通話期間)通過從嘈雜環境移動到安靜環境來改變噪聲環境時,適當地改變設定,并可以降低功耗等。
<第二(a)音頻處理裝置的第二操作>
參照圖26和圖27所示的流程圖對圖22所示的音頻處理裝置400的另一個操作進行說明。在基于圖26和圖27所示的流程圖的操作中,在系統啟動時執行根據噪聲環境來改變處理部件改變指令單元410的構造的處理。
系統啟用時為例如用戶指示由音頻處理裝置400執行的處理將要開始時等。例如,當預定音頻識別應用程序啟動時,或當打電話時,開始由音頻處理裝置400執行的處理。
在步驟S451中,判定系統是否啟動并且是否需要執行初始化。當在步驟S451中判定系統啟動并且需要執行初始化時,處理進入步驟S452。
在步驟S452中,通過具有麥克風23的集聲器401來獲得音頻信號。在步驟S453中,輸入信號被分割成每個幀。可以與例如圖24中的步驟S401和S402中的處理類似地執行步驟S452中的處理和步驟S453中的處理。
在步驟S454中,噪聲環境估計器402使用分割成幀的輸入信號來估計噪聲環境,并在步驟S455中使用估計結果來判定環境是否具有少量噪聲。當在步驟S455中判定環境具有少量噪聲時,處理進入步驟S456。在步驟S456中,改變處理部件改變指令單元410的所有單元中的設定。
與步驟S410至S412(圖25)中的處理類似地執行步驟S454至S456中的處理。換言之,如上所述,當在系統啟動時估計噪聲環境并判定為安靜環境時,處理部件改變指令單元410的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406改變為減少輸入數量的設定。
當在步驟S456中執行處理部件改變指令單元410中的改變和設定時,處理進入步驟S457。在這種情況下,設定適合于噪聲環境。
另一方面,當在步驟S455中判定環境具有大量噪聲時,處理進入步驟S457。在這種情況下,設定為初始值的設定應用于處理部件改變指令單元410的所有單元,并開始處理。
此外,當在步驟S451中判定系統未啟動時,處理進入步驟S457。當音頻處理裝置400操作時,判定系統未啟動,并且處理進入步驟S457。
與圖24中的步驟S401至S408中的處理類似地執行步驟S457至S464(圖27)中的處理。換言之,在系統啟動時執行初始化處理,隨后利用通過初始化設定的設定來執行音頻處理。
在步驟S465(圖27)中,判定當前幀是否為發聲區間,并且當判定當前幀不是發聲區間時,處理進入步驟S466。在步驟S466中,計算將在通過后置濾波單元408的后置濾波處理中使用的噪聲校正系數。
當在步驟S466中計算噪聲校正系數時,或當在步驟S465中判定當前幀為發聲區間時,處理進入步驟S467,并且后置濾波單元408執行后置濾波處理。
步驟S465至S467中的處理為從圖25所示的流程圖的步驟S409至S414中的處理中刪去步驟S410至S412中的處理的處理。因為步驟S410至S412中的處理在步驟S452至S456中作為初始化處理而執行,所以省略該處理。
由噪聲環境估計器402執行的噪聲環境估計在系統啟動時執行,并且在啟動后在系統操作期間未執行。因此,在系統啟動時執行噪聲環境估計之后,通過噪聲環境估計器402來估計噪聲環境的處理停止,且對噪聲環境估計器402的供電等也可停止。通過以此方式操作,可以降低功耗。
與步驟S415至S417(圖25)中的處理類似地執行步驟S468至S470中的處理。
在第二(a)音頻處理裝置400中,音頻處理裝置400的構造可以以此方式根據噪聲環境而改變,并且可以改變能夠執行適合噪聲環境的消噪處理的構造。因此,在具有少許噪聲的環境下可以降低功耗。
<第二(b)音頻處理裝置的內部構造>
接著,對第二(b)音頻處理裝置的構造和操作進行說明。雖然上述第二(a)音頻處理裝置400(圖22)使用從集聲器401獲得的音頻信號來估計噪聲環境,但是第二(b)音頻處理裝置500(圖28)的不同之處在于它使用從音頻增強器405獲得的音頻增強信號和從音頻衰減器406獲得的音頻衰減信號來估計噪聲環境。這種構造類似于圖15所示的音頻處理裝置200的構造。
圖28為示意圖,示出了第二(b)音頻處理裝置500的構造。在圖28所示的音頻處理裝置500中,相同附圖標記被附到具有與圖22所示的第二(a)音頻處理裝置400相同的功能的單元,并省略其說明。
圖28所示的音頻處理裝置500具有來自音頻增強器405的音頻增強信號D(f,t)和來自音頻衰減器406的音頻衰減信號N(f,t)還被提供給噪聲環境估計器501的構造,且與圖22所示的音頻處理裝置400的不同構造之處在于來自集聲器401的信號未被提供給噪聲環境估計器501。
噪聲環境估計器501被構造為使得提供來自音頻增強器405的音頻增強信號D(f,t)和來自音頻衰減器406的音頻衰減信號N(f,t)并還提供來自發聲區間檢測器407的發聲區間檢測結果V(t)。
類似于上述噪聲環境估計器402(圖22),噪聲環境估計器501使用所提供的信號和信息來提供從-1.0到1.0的值C(t)給后置濾波單元408。與由圖15所示的第一(b)音頻處理裝置200的噪聲環境估計器201執行的噪聲環境估計類似地執行由噪聲環境估計器501執行的噪聲環境估計。
當它被構造為以便以此方式估計噪聲環境時,存儲器等可以省略。在圖22所示的音頻處理裝置400中,噪聲環境估計需要緩沖區(存儲器)以暫時地保存分割成幀的時域信號。然而,音頻處理裝置500(圖28)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
<第二(b)音頻處理裝置的第一操作>
參照圖29和圖30中的流程圖對具有這種構造的音頻處理裝置500的操作進行說明。基本操作類似于圖15所示的音頻處理裝置200或圖22所示的音頻處理裝置400的操作,并省略類似操作的說明。
與圖17中的步驟S201至S207中的處理類似地執行步驟S501至S507(圖29)中的處理。
除了步驟S509(對應于步驟S410的處理)不同,基本上與圖25所示的步驟S409至S417中的處理類似地執行步驟S508至S516(圖30)中的處理。
當在步驟S508中判定當前幀不是發聲區間時,在步驟S509中,噪聲環境估計器501使用音頻增強信號和音頻衰減信號來估計噪聲環境。類似于第二(a)音頻處理裝置400的噪聲環境估計器402的估計結果,估計結果被計算為從-1.0到1.0的值C(t),并通過比較值C(t)與預定閾值來判定環境是否具有少量噪聲(步驟S510)。
因為由噪聲環境估計器501執行以上處理,所以可以與在步驟S412(圖25)之后的處理類似地執行在步驟S510之后的處理,并且可以與通過第二(a)音頻處理裝置400的處理類似地執行通過處理部件改變指令單元410等的處理。
在第二(b)音頻處理裝置500中,可以以此方式根據從音頻增強器405獲得的信號和從音頻衰減器406獲得的信號來估計噪聲環境。類似于第二(a)音頻處理裝置400,第二(b)音頻處理裝置500還可估計噪聲環境并利用根據估計噪聲環境的設定來執行消噪處理,并且可以降低功耗。
<第二(b)音頻處理裝置的第二操作>
參照圖31和圖32所示的流程圖對圖28所示的音頻處理裝置500的另一個操作進行說明。在基于圖31和圖32所示的流程圖的操作中,在系統啟動時執行根據噪聲環境來改變處理部件改變指令單元410的構造的處理。
在步驟S551中,判定系統是否啟動并且是否需要執行初始化。當在步驟S551中判定系統啟動并且需要執行初始化時,處理進入步驟S552。
在步驟S552中,通過具有麥克風23的集聲器401來獲得音頻信號。在步驟S553中,輸入信號被分割成每個幀。在步驟S554中,時間/頻率轉換器403將分割信號轉換為時間/頻率信號。
在步驟S555中,音頻方位估計器404使用時間/頻率信號來執行聲源方位估計。在步驟S556中,音頻增強器505執行音頻增強處理,在步驟S557中,音頻衰減器506執行音頻衰減處理。然后,在步驟S558中,噪聲環境估計器501使用音頻增強信號和音頻衰減信號來估計噪聲環境。
在步驟S558中參照估計結果之后,在步驟S559中判定環境是否具有少量噪聲,并且當判定環境具有少量噪聲時,處理進入步驟S560。在步驟S560中,處理部件改變指令單元410的所有單元的設定改變為降低功耗的設定。
可以與步驟S501至S506(圖29)中和步驟S509至S511(圖30)中的處理類似地執行步驟S552至S560中的處理。在步驟S551至S560中,當執行初始化時,處理進入步驟S561。
如上所述,當在系統啟動時估計噪聲環境并判定為安靜環境時,處理部件改變指令單元410的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406改變為減少輸入數量的設定。
另一方面,當在步驟S559中判定環境具有大量噪聲時,處理進入步驟S561。在這種情況下,設定為初始值的設定應用于處理部件改變指令單元410的所有單元,并開始處理。
此外,當在步驟S551中判定系統未啟動時,處理進入步驟S561。與圖29中的步驟S501至S507中的處理類似地執行步驟S561至S567(圖32)中的處理。換言之,在系統啟動時執行初始化處理,隨后利用通過初始化設定的設定來執行音頻處理。
與在步驟S465至S470中由圖27所示的第二(a)音頻處理裝置400執行的處理類似地執行步驟S568至S573(圖32)中的處理。
在第二(b)音頻處理裝置500中,可以以此方式根據從音頻增強器405獲得的信號和從音頻衰減器406獲得的信號來估計噪聲環境。類似于第二(a)音頻處理裝置400,第二(b)音頻處理裝置500還可估計噪聲環境并利用根據估計噪聲環境的設定來執行消噪處理,并且可以降低功耗。
<第二(c)音頻處理裝置的內部構造>
接著,對第二(c)音頻處理裝置的構造和操作進行說明。雖然上述第二(a)音頻處理裝置400(圖22)使用從集聲器401獲得的音頻信號來估計噪聲環境,但是第二(c)音頻處理裝置600(圖33)的不同之處在于它使用從外部輸入的信息來估計噪聲環境。這種構造類似于圖19所示的音頻處理裝置300的構造。
圖33為示意圖,示出了第二(c)音頻處理裝置600的構造。在圖33所示的音頻處理裝置600中,相同附圖標記被附到具有與圖22所示的第二(a)音頻處理裝置400相同的功能的單元,并省略其說明。
圖33所示的音頻處理裝置600具有噪聲環境估計所需的信息從外部提供給噪聲環境估計器601的構造,且與圖22所示的音頻處理裝置400的不同構造之處在于來自集聲器401的信號未被提供給噪聲環境估計器601。
此外,例如,類似于第一(c)音頻處理裝置300的噪聲環境估計器301,由用戶輸入的信息、位置信息(諸如GPS)或時間信息被用作待提供給噪聲環境估計器601的噪聲環境估計所需的信息。
<第二(c)音頻處理裝置的第一操作>
參照圖34和圖35中的流程圖對具有這種構造的音頻處理裝置600的操作進行說明。基本操作類似于圖22所示的音頻處理裝置400或圖28所示的音頻處理裝置500的操作,并省略類似操作的說明。
與圖29所示的步驟S501至S507中的處理類似地執行步驟S601至S607(圖34)中的處理。換言之,處理部件改變指令單元410的所有單元以及發聲區間檢測器407具有與圖28所示的音頻處理裝置500的處理部件改變指令單元410的所有單元以及發聲區間檢測器407類似的構造,并類似地執行處理。
除了步驟S609(對應于步驟S509的處理)不同,基本上與圖30所示的步驟S508至S516中的處理類似地執行步驟S608至S616(圖35)中的處理。
當在步驟S608中判定當前幀不是發聲區間時,在步驟S609中,噪聲環境估計器601使用從外部輸入的信息來估計噪聲環境。
類似于第二(a)音頻處理裝置400的噪聲環境估計器402或第二(b)音頻處理裝置500的噪聲環境估計器501的估計結果,估計結果被計算為從-1.0到1.0的值C(t),并通過比較值C(t)與預定閾值來判定環境是否具有少量噪聲(步驟S610)。
因為由噪聲環境估計器601執行以上處理,所以可以與步驟S510(圖30)之后的處理類似地執行步驟S610之后的處理,并且可以與通過第二(b)音頻處理裝置500(或第二(a)音頻處理裝置400)的處理類似地執行通過處理部件改變指令單元410等的處理。
在第二(c)音頻處理裝置600中,可以以此方式根據從外部輸入的信號來估計噪聲環境。類似于第二(a)音頻處理裝置400,第二(c)音頻處理裝置600還可估計噪聲環境并利用根據估計噪聲環境的設定來執行消噪處理,并且可以降低功耗。
<第二(c)音頻處理裝置的第二操作>
參照圖36和圖37所示的流程圖對圖33所示的音頻處理裝置600的另一個操作進行說明。在基于圖36和圖37所示的流程圖的操作中,在系統啟動時執行根據噪聲環境來改變處理部件改變指令單元410的構造的處理。
在步驟S651中,判定系統是否啟動并且是否需要執行初始化。當在步驟S651中判定系統啟動并且需要執行初始化時,處理進入步驟S652。
在步驟S652中,噪聲環境估計器501使用從外部輸入的信息來估計噪聲環境。
在步驟S652中參照估計結果之后,在步驟S653中判定環境是否具有少量噪聲,并且當判定環境具有少量噪聲時,處理進入步驟S654。在步驟S654中,處理部件改變指令單元410的所有單元的設定改變為降低功耗的設定。
可以與圖35中的步驟S609至S611中的處理類似地執行步驟S652至S654中的處理。在步驟S652至S654中,當執行初始化時,處理進入步驟S655。
如上所述,當在系統啟動時估計噪聲環境并判定為安靜環境時,處理部件改變指令單元410的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405和音頻衰減器406改變為減少輸入數量的設定。
另一方面,當在步驟S653中判定環境具有大量噪聲時,處理進入步驟S655。在這種情況下,設定為初始值的設定應用于處理部件改變指令單元410的所有單元,并開始處理。
此外,當在步驟S651中判定系統未啟動時,處理進入步驟S655。與步驟S561(圖31)至步驟S573(圖32)中的處理(由第二(b)音頻處理裝置500執行的處理)類似地執行步驟S655(圖36)至S667(圖37)中的處理。換言之,在系統啟動時執行初始化處理,隨后利用通過初始化設定的設定來執行音頻處理。
在第二(c)音頻處理裝置600中,可以以此方式根據從外部輸入的信息來估計噪聲環境。類似于第二(a)音頻處理裝置400,第二(c)音頻處理裝置600還可估計噪聲環境并利用根據估計噪聲環境的設定來執行消噪處理,并且可以降低功耗。
此外,在圖22所示的音頻處理裝置400中,噪聲環境估計需要緩沖區(存儲器)以暫時地保存分割成幀的時域信號。然而,音頻處理裝置600(圖33)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
此外,因為第二(c)音頻處理裝置600具有未執行第二(a)音頻處理裝置400或第二(b)音頻處理裝置500所需的相關性計算的構造,所以可以降低計算成本。
<第三音頻處理裝置的內部構造和操作>
<第三(a)音頻處理裝置的內部構造>
對音頻處理裝置的另一個構造進行說明。第三音頻處理裝置通過組合上述第一音頻處理裝置和第二音頻處理裝置而構造。
圖38為示意圖,示出了第三(a)音頻處理裝置700的構造。第三(a)音頻處理裝置700通過組合上述第一(a)音頻處理裝置100(圖3)和第二(a)音頻處理裝置400(圖22)而構造。
音頻處理裝置700設置在移動電話10的內部并構成移動電話10的一部分。圖38所示的音頻處理裝置700包括集聲器701、噪聲環境估計器702、時間/頻率轉換器703、音頻方位估計器704、音頻增強器705、音頻衰減器706、發聲區間檢測器707、后置濾波單元708和時間/頻率逆變器709。
雖然這種構造類似于第一音頻處理裝置或第二音頻處理裝置的構造,但是第三音頻處理裝置與第一音頻處理裝置不同但與第二音頻處理裝置類似的構造之處在于處理部件改變指令單元710包括集聲器701、噪聲環境估計器702、時間/頻率轉換器703、音頻方位估計器704、音頻增強器705和音頻衰減器706。
處理部件改變指令單元710的內部構造根據由噪聲環境估計器702提供的噪聲環境的估計結果而改變。這種構造類似于第二(a)音頻處理裝置400(圖22)的構造。
由噪聲環境估計器702提供的估計結果還被提供給后置濾波單元708,且后置濾波單元708被構造為以便根據估計噪聲環境來控制消噪強度。這種構造類似于第一(a)音頻處理裝置100(圖3)的構造。
第三(a)音頻處理裝置700的集聲器701、噪聲環境估計器702、時間/頻率轉換器703、音頻方位估計器704、音頻增強器705、音頻衰減器706、發聲區間檢測器707和時間/頻率逆變器709與第二(a)音頻處理裝置400(圖22)的集聲器401、噪聲環境估計器402、時間/頻率轉換器403、音頻方位估計器404、音頻增強器405、音頻衰減器406、發聲區間檢測器407、后置濾波單元408和時間/頻率逆變器409類似地執行處理,并省略其詳細說明。
類似于第一音頻處理裝置的后置濾波單元108,來自噪聲環境估計器702的估計結果C(t)被輸入給后置濾波單元708,且后置濾波單元708使用估計結果C(t)來執行后置濾波處理。
<第三(a)音頻處理裝置的第一操作>
參照圖39和圖40所示的流程圖對圖38所示的音頻處理裝置700的操作進行說明。音頻處理裝置700通過組合如上所述的第一(a)音頻處理裝置100和第二(a)音頻處理裝置400而構造,且其操作為組合第一(a)音頻處理裝置100的操作(基于圖4和圖5所示的流程圖的操作)和第二(a)音頻處理裝置400的操作(基于圖24和圖25所示的流程圖的操作)的操作。
基本上與由圖24和圖25所示的第二(a)音頻處理裝置400執行的步驟S401至S417類似地執行步驟S701至S717。
類似于第二(a)音頻處理裝置400,在第三(a)音頻處理裝置700中,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(a)音頻處理裝置400,在第三(a)音頻處理裝置700中,可以降低功耗。
此外,在第三(a)音頻處理裝置700中,在步驟S714中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S112(圖5)中由第一(a)音頻處理裝置100執行的處理類似地執行這種處理。
類似于第一(a)音頻處理裝置100,在第三(a)音頻處理裝置700中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(a)音頻處理裝置100,在第三(a)音頻處理裝置700中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
<第三(a)音頻處理裝置的第二操作>
參照圖41和圖42所示的流程圖對圖38所示的音頻處理裝置700的另一個操作進行說明。第三(a)音頻處理裝置700的第二操作為通過組合第一(a)音頻處理裝置100的操作(基于圖4和圖5所示的流程圖的操作)和第二(a)音頻處理裝置400的第二操作(基于圖26和圖27所示的流程圖的操作)的操作。
基本上與由圖26和圖27所示的第二(a)音頻處理裝置400執行的步驟S451至S470類似地執行步驟S751至S770。
類似于第二(a)音頻處理裝置400,在第三(a)音頻處理裝置700中,在系統啟動時,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(a)音頻處理裝置400,在第三(a)音頻處理裝置700中,可以降低功耗。
此外,在第三(a)音頻處理裝置700中,在步驟S767中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S112(圖5)中由第一(a)音頻處理裝置100執行的處理類似地執行這種處理。
類似于第一(a)音頻處理裝置100,在第三(a)音頻處理裝置700中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(a)音頻處理裝置100,在第三(a)音頻處理裝置700中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
<第三(b)音頻處理裝置的內部構造>
圖43為示意圖,示出了第三(b)音頻處理裝置800的構造。音頻處理裝置800設置在移動電話10的內部并構成移動電話10的一部分。圖43所示的第三(b)音頻處理裝置800通過組合上述第一(b)音頻處理裝置200(圖15)和第二(b)音頻處理裝置500(圖28)而構造。
此外,類似于上述第三(a)音頻處理裝置700,在第三(b)音頻處理裝置800中,處理部件改變指令單元710的內部構造根據由噪聲環境估計器801提供的噪聲環境的估計結果而改變。
此外,由噪聲環境估計器801提供的估計結果還被提供給后置濾波單元708,且后置濾波單元708被構造為以便根據估計噪聲環境來控制消噪強度。
<第三(b)音頻處理裝置的第一操作>
參照圖44和圖45所示的流程圖對圖43所示的音頻處理裝置800的另一個操作進行說明。
音頻處理裝置800通過組合如上所述的第一(b)音頻處理裝置200和第二(b)音頻處理裝置500而構造,且其操作為組合第一(b)音頻處理裝置200的操作(基于圖17和圖18所示的流程圖的操作)和第二(b)音頻處理裝置500的操作(基于圖29和圖30所示的流程圖的操作)的操作。
基本上與由圖29和圖30所示的第二(b)音頻處理裝置500執行的步驟S501至S516類似地執行步驟S801至S816。
類似于第二(b)音頻處理裝置500,在第三(b)音頻處理裝置800中,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(b)音頻處理裝置500,在第三(b)音頻處理裝置800中,可以降低功耗。
在第三(b)音頻處理裝置800中,在步驟S813中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S211(圖18)中由第一(b)音頻處理裝置200執行的處理類似地執行這種處理。
類似于第一(b)音頻處理裝置200,在第三(b)音頻處理裝置800中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(b)音頻處理裝置200,在第三(b)音頻處理裝置800中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
此外,音頻處理裝置800(圖43)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
<第三(b)音頻處理裝置的第二操作>
參照圖46和圖47所示的流程圖對圖43所示的音頻處理裝置800的另一個操作進行說明。
第三(b)音頻處理裝置800的第二操作為通過組合第一(b)音頻處理裝置200的操作(基于圖17和圖18所示的流程圖的操作)和第二(b)音頻處理裝置500的第二操作(基于圖31和圖32所示的流程圖的操作)的操作。
基本上與由圖31和圖32所示的第二(b)音頻處理裝置500執行的步驟S551至S573類似地執行步驟S851至S873。
類似于第二(b)音頻處理裝置500,在第三(b)音頻處理裝置800中,在系統啟動時,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(b)音頻處理裝置500,在第三(b)音頻處理裝置800中,可以降低功耗。
此外,在第三(b)音頻處理裝置800中,在步驟S870中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S211(圖18)中由第一(b)音頻處理裝置200執行的處理類似地執行這種處理。
類似于第一(b)音頻處理裝置200,在第三(b)音頻處理裝置800中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(b)音頻處理裝置200,在第三(b)音頻處理裝置800中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
此外,音頻處理裝置800(圖43)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
<第三(c)音頻處理裝置的內部構造>
圖48為示意圖,示出了第三(c)音頻處理裝置900的構造。音頻處理裝置900設置在移動電話10的內部并構成移動電話10的一部分。圖48所示的第三(c)音頻處理裝置900通過組合上述第一(c)音頻處理裝置300(圖19)和第二(c)音頻處理裝置600(圖33)而構造。
此外,類似于上述第三(a)音頻處理裝置700,在第三(c)音頻處理裝置900中,處理部件改變指令單元710的內部構造根據由噪聲環境估計器901提供的噪聲環境的估計結果而改變。
此外,由噪聲環境估計器901提供的估計結果還被提供給后置濾波單元708,且后置濾波單元708被構造為以便根據估計噪聲環境來控制消噪強度。
噪聲環境估計器901根據從外部輸入的信息來估計噪聲環境。
<第三(c)音頻處理裝置的第一操作>
參照圖49和圖50所示的流程圖對圖48所示的音頻處理裝置900的操作進行說明。
音頻處理裝置900通過組合如上所述的第一(c)音頻處理裝置300和第二(c)音頻處理裝置600而構造,且其操作為組合第一(c)音頻處理裝置300的操作(基于圖20和圖21所示的流程圖的操作)和第二(c)音頻處理裝置600的操作(基于圖34和圖35所示的流程圖的操作)的操作。
基本上與由圖34和圖35所示的第二(c)音頻處理裝置600執行的步驟S601至S616類似地執行步驟S901至S916。
類似于第二(c)音頻處理裝置600,在第三(c)音頻處理裝置900中,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(c)音頻處理裝置600,在第三(c)音頻處理裝置900中,可以降低功耗。
在第三(c)音頻處理裝置900中,在步驟S913中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S311(圖21)中由第一(c)音頻處理裝置300執行的處理類似地執行這種處理。
類似于第一(c)音頻處理裝置300,在第三(c)音頻處理裝置900中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(c)音頻處理裝置300,在第三(c)音頻處理裝置900中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
此外,音頻處理裝置900(圖48)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
<第三(c)音頻處理裝置的第二操作>
參照圖51和圖52所示的流程圖對圖48所示的音頻處理裝置900的另一個操作進行說明。第三(c)音頻處理裝置900的第二操作為通過組合第一(c)音頻處理裝置300的操作(基于圖20和圖21所示的流程圖的操作)和第二(c)音頻處理裝置600的第二操作(基于圖36和圖37所示的流程圖的操作)的操作。
基本上與由圖36和圖37所示的第二(c)音頻處理裝置600執行的步驟S651至S667類似地執行步驟S951至S967。
類似于第二(c)音頻處理裝置600,在第三(c)音頻處理裝置900中,在系統啟動時,處理部件改變指令單元710中的設定根據噪聲環境而改變。因此,類似于第二(c)音頻處理裝置600,在第三(c)音頻處理裝置900中,可以降低功耗。
此外,在第三(c)音頻處理裝置900中,在步驟S964中,后置濾波單元708根據噪聲環境來執行后置濾波處理。與在步驟S311(圖21)中由第一(c)音頻處理裝置300執行的處理類似地執行這種處理。
類似于第一(c)音頻處理裝置300,在第三(c)音頻處理裝置900中,后置濾波單元708根據噪聲環境來執行后置濾波處理。因此,類似于第一(c)音頻處理裝置300,在第三(c)音頻處理裝置900中,可以根據噪聲環境適當地執行消噪處理并防止產生音樂噪聲等。
此外,音頻處理裝置900(圖48)可具有省略緩沖區(存儲器)的構造,這是因為噪聲環境估計不需要暫時地保存分割成幀的時域信號。
在上述音頻處理裝置100至900中,音頻方位估計器104、404和704以及估計音頻方位的操作可以省略。例如,對應用本技術的音頻處理裝置應用于眼鏡式終端的情況進行說明。
當眼鏡式終端中的麥克風位置為固定時,用戶的嘴(聲源)和麥克風之間的位置關系不變,且在用戶安裝眼鏡式終端期間基本恒定。在這種情況下,因為在不估計方位的情況下,音頻的方位基本上相同,所以移除音頻方位估計器,且音頻處理裝置可能不估計音頻的方位。
雖然上述音頻處理裝置100至900被構造為使得所有單元中的處理在音頻信號通過時間/頻率轉換器103、403和703轉換為時間/頻率信號之后執行,但是可直接使用由麥克風23收集到的音頻信號,而無需轉換為時間/頻率信號,并可執行所有單元中的處理。換言之,時間/頻率轉換器103、403和703可以省略,且在這種情況下,時間/頻率逆變器109、409和709也可以省略。
根據本技術,因為估計噪聲并根據估計結果來改變消噪處理,所以可以獲得以下效果。
通過應用本技術,不僅可以在有一個點聲源噪聲的情況下適當地執行消噪,而且可以在多個聲源或擴散性噪聲環境下執行最佳消噪處理。
此外,可以傳播為信號處理所特有的失真得到抑制的自然音頻,并實現高質量免提通話。
可以防止因噪聲或處理失真的影響所致的音頻識別系統的性能劣化,并實現使用高質量音頻的用戶界面。
此外,可以防止因在音頻識別中由用戶不想要的錯誤識別引起的事件,例如,突然打電話、發郵件等。
可以只用小型非定向麥克風和信號處理而不使用具有大殼體的定向麥克風(槍式麥克風)來獲得期望提取的音頻,并有助于產品小型化和輕量化。
可以根據噪聲環境來停止對聲音提取不需要的信號處理模塊和麥克風的供電,并有助于降低功耗。
<關于記錄介質>
上述一系列處理可由硬件或軟件執行。當一系列處理由軟件執行時,構成軟件的程序安裝在計算機中。這里,計算機包括嵌入在專用硬件中的計算機和通過安裝各種程序能夠執行各種功能的個人計算機。
圖53為方塊圖,示出了通過程序執行上述一系列處理的計算機的硬件構造實例。在計算機中,中央處理單元(CPU)2001、只讀存儲器(ROM)2002和隨機存取存儲器(RAM)2003通過總線2004相互連接。總線2004還連接到輸入/輸出接口2005。輸入/輸出接口2005與輸入單元2006、輸出單元2007、存儲單元2008、通信單元2009和驅動器2010連接。
輸入單元2006包括鍵盤、鼠標和麥克風。輸出單元2007包括顯示器和揚聲器。存儲單元2008包括硬盤和非易失性存儲器。通信單元2009包括網絡接口。驅動器2010驅動可移除介質2011,諸如磁盤、光盤、磁光盤或半導體存儲器。
在具有以上構造的計算機中,CPU 2001通過輸入/輸出接口2005和總線2004將存儲在例如存儲單元2008中的程序加載到RAM 2003中并執行該程序,從而執行上述一系列處理。
由計算機(CPU 2001)執行的程序可通過在可移除介質2011中存儲為例如封裝介質等而提供。此外,該程序可通過有線或無線傳輸介質而提供,諸如局域網、因特網、數字衛星廣播。
在計算機中,通過將可移除介質2011附接到驅動器2010,程序可通過輸入/輸出接口2005安裝在存儲單元2008中。此外,程序可通過有線或無線傳輸介質由通信單元2009接收并安裝在存儲單元2008中。除了以上所述,程序可預先安裝在ROM 2002或存儲單元2008中。
請注意,由計算機執行的程序可為按本說明書中所述的順序依次地執行處理的程序或并行地或需要時(例如,當調用時)執行處理的程序。
此外,本說明書中的系統是指包括多個裝置的整個裝置。
請注意,本說明書中所述的效果僅僅作為示例而不是限制,且可能有其他效果。
請注意,本技術的實施例并不限于上述實施例,且在不脫離本技術的范圍的情況下可以進行各種修改。
請注意,本技術可具有以下構造:
(1)一種音頻處理裝置,包括:
集聲器,該集聲器收集音頻;
音頻增強器,該音頻增強器使用由所述集聲器收集到的音頻信號來增強待提取音頻;
音頻衰減器,該音頻增強器使用由所述集聲器收集到的音頻信號來衰減待提取音頻;
噪聲環境估計器,該噪聲環境估計器估計周圍噪聲環境;和
后置濾波單元,該后置濾波單元使用來自所述音頻增強器的音頻增強信號和來自所述音頻衰減器的音頻衰減信號來執行后置濾波處理,其中
所述后置濾波單元根據由所述噪聲環境估計器估計的噪聲環境來設定消噪處理強度。
(2)根據(1)所述的音頻處理裝置,其中所述噪聲環境估計器使用由所述集聲器收集到的音頻來估計噪聲環境。
(3)根據(1)所述的音頻處理裝置,其中
所述集聲器包括多個麥克風,并且
所述噪聲環境估計器計算由所述多個麥克風收集到的信號之間的相關性并將所述相關性的值設定為噪聲環境的估計結果。
(4)根據(1)所述的音頻處理裝置,其中所述噪聲環境估計器使用所述音頻增強信號和所述音頻衰減信號來估計噪聲環境。
(5)根據(1)所述的音頻處理裝置,其中計算所述音頻增強信號的振幅頻譜和所述音頻衰減信號的振幅頻譜之間的相關性,并將所述相關性的值設定為噪聲環境的估計結果。
(6)根據(1)所述的音頻處理裝置,其中所述噪聲環境估計器根據從外部輸入的信息來估計噪聲環境。
(7)根據(6)所述的音頻處理裝置,其中從外部輸入的信息為由用戶提供的關于周圍噪聲環境的信息、位置信息或時間信息中的至少一條信息。
(8)根據(1)至(7)中任一項所述的音頻處理裝置,還包括:
發聲區間估計器,該發聲區間估計器使用所述音頻增強信號和所述音頻衰減信號來估計發聲區間,其中
所述噪聲環境估計器在由所述發聲區間估計器估計為非發聲區間的區間中估計所述噪聲環境。
(9)根據(1)至(8)中任一項所述的音頻處理裝置,其中所述音頻增強器使用加法型波束成形、延遲-求和波束成形或自適應波束成形來產生所述音頻增強信號。
(10)根據(1)至(9)中任一項所述的音頻處理裝置,其中所述音頻衰減器使用減法型波束成形、NULL波束成形或自適應NULL波束成形來產生所述音頻衰減信號。
(11)根據(1)至(10)中任一項所述的音頻處理裝置,其中所述集聲器中所包括的麥克風數量以及所述音頻增強器和所述音頻衰減器的輸入數量根據由所述噪聲環境估計器提供的估計結果而改變。
(12)根據(11)所述的音頻處理裝置,其中所述改變在啟動或操作期間執行。
(13)一種音頻處理方法,包括以下步驟:
通過集聲器來收集音頻;
產生音頻增強信號,其中使用由所述集聲器收集到的音頻信號來增強待提取音頻;
產生音頻衰減信號,其中使用由所述集聲器收集到的音頻信號來衰減待提取音頻;
估計周圍噪聲環境;以及
使用所述音頻增強信號和所述音頻衰減信號來執行后置濾波處理,其中
所述后置濾波處理包括根據所述估計噪聲環境來設定消噪處理強度的步驟。
(14)一種程序,使計算機執行包括以下步驟的處理:
通過集聲器來收集音頻;
產生音頻增強信號,其中使用由所述集聲器收集到的音頻信號來增強待提取音頻;
產生音頻衰減信號,其中使用由所述集聲器收集到的音頻信號來衰減待提取音頻;
估計周圍噪聲環境;以及
使用所述音頻增強信號和所述音頻衰減信號來執行后置濾波處理,其中
所述后置濾波處理包括根據所述估計噪聲環境來設定消噪處理強度的步驟。
附圖標記列表
100 音頻處理裝置
101 集聲器
102 噪聲環境估計器
103 時間/頻率轉換器
104 音頻方位估計器
105 音頻增強器
106 音頻衰減器
107 發聲區間檢測器
108 后置濾波單元
109 時間/頻率逆變器
200 音頻處理裝置
201 噪聲環境估計器
300 音頻處理裝置
301 噪聲環境估計器
400 音頻處理裝置
402 噪聲環境估計器
410 處理部件改變指令單元
500 音頻處理裝置
501 噪聲環境估計器
600 音頻處理裝置
601 噪聲環境估計器
700 音頻處理裝置
702 噪聲環境估計器
800 音頻處理裝置
801 噪聲環境估計器
900 音頻處理裝置
901 噪聲環境估計器。