一種燈光或電機與聲音同步的自適應檢測方法

文檔序號：2833752閱讀：269來源：國知局

專利名稱：一種燈光或電機與聲音同步的自適應檢測方法
技術領域：
本發明涉及一種燈光或電機與聲音同步的自適應檢測方法，屬于數字信號處理技術領域。
背景技術：
目前，傳統玩具上的口型動作與聲音的適配、燈光效果與聲音的適配是通過人工標注的方式來實現的，這樣做有很大的局限性每一個音頻都需要進行人工標注，最終的效果和標注人員的熟練程度息息相關；對于用戶自己拷貝的內容時無法實現口自動檢測以及同步；只能對固定音頻進行同步，無法對外界的音源發出的聲音進行檢測和同步。

發明內容
本發明技術解決問題克服現有技術的不足，提供一種聲光、聲電同步檢測方法，實現自動聲光、聲電的檢測，避免了人工標注的麻煩，而且還可以通過傾聽用戶的聲音，模仿用戶的口型，實現跟兒童更好的互動。本發明采用了以下技術方案一種燈光或電機與聲音同步的自適應檢測方法，其特點在于通過音源的語音通過帶AGC控制的ADC (I)檢測到后輸出帶AGC信息的語音信號(2)，使用能量歸一化算法(3)對帶AGC信息的語音信號(2)進行處理后生成寬動態范圍的語音信號(4)，以實現了對距離的自適應；采用寬動態范圍的語音信號(4)計算實時能量和帶反饋的實時門限(6)，然后把生成的結果進行比較，通過實時能量和門限的比較，得到實時的電機開合狀態或燈光亮滅狀態(7)，電機開合狀態或燈光亮滅狀態(7) —方面用于配合音頻進行輸出，另一方面為帶反饋的實時門限(6)提供反饋信息，實現了檢測自動化過程。所述帶AGC控制的ADC (I)對硬件和軟件均有要求，其中硬件部分帶AGC控制的ADC必須具備3個條件(1)要有可編程增益放大器PGA，即能夠通過軟件的方式對增益進行控制；(2)可編程增益放大器PGA每一級的增益在0. 5(IdB,否則出現音頻能量跳變明顯而出現錄音噪聲，影響效果；(3)所用的ADC至少要有12bit精度，不一定要16bit精度，可以降低ADC的制造成本。軟件部分對音頻設置一個上門限，當錄音樣本的值大于這個上門限的時候，把錄音增益降低一級；對每一幀的音頻能量設置一個下門限，當這一幀的能量低于這個下門限的時候，系統的放大增益需要調高，需要把錄音增益提高一級。所述能量歸一化算法(3)實現過程如下(I)確定每一個AGC的值所對應的可編程增益放大器PGA的增益放大倍數，作成表格，使用查表的方式來快速檢索；(2)確定歸一化系數，歸一化系數為整段音頻中最大的AGC值A ;(3)根據每一個樣本對應AGC值計算出能量歸一化到指定增益所需要的放大倍數X；
(4)根據X計算出能量歸一化后的樣本值。所述帶反饋的實時門限(6)的計算過程如下(I)設定一個能量的基線值Baseline ;(2) Baseline的初值設定為語音起始3幀能量的均值；(3)實際檢測中，每一個實時幀都會對Baseline的值進行更新；(4)把實際幀能量高于門限和低于門限分為2種狀態，兩種狀態下對Baseline的更新系數是不一樣的；(5)根據人體工學原理確定兩種狀態下的更新系數，能量高于門限時的更新系數應該符合人所能發的單音的最長時長，更新系數較小；能量低于門限時更新系數應該符合人在說話時換氣的時長，更新系數較大。所述實時能量(5)的計算過程如下(I)為了滿足實時性要求，設定每次檢測的時長寬度為I幀IOms ；(2)使用求平方和的方式進行能量計算；(3)針對部分語音類玩具內部有簡化版DSP并支持MAC指令的特性，把能量的精度控制在40bit，保持較高的精度并取得較好的檢出效果。本發明原理語音的聲壓信號在被帶AGC控制的ADC(模擬信號到數字信號轉換裝置)檢測到后，變為帶AGC信息的窄動態范圍語音信號，使用能量歸一化算法把帶AGC信息的窄動態范圍語音信號還原為寬動態范圍語音信號，然后用還原后的語音信號進行語音的實時能量計算和門限計算，通過實時能量和門限的比較，計算出當前語音幀對應的電機的開合狀態或燈光的亮滅狀態。本發明與現有技術相比的優點在于(I)本發明由于使用了能量歸一化算法，可以使用帶AGC的低精度ADC代替高精度ADC，但同時又保持基本相同效果的動態范圍；同時，由于對門限進行實時計算、通過對電機開合狀態或燈光亮滅狀態的監控可以對門限進行反饋，使得本方法對帶有背景音樂的語音可以實現較好的電機開合、燈光亮滅信息檢出效果。(2)本發明通過AGC信息的引入，可以讓電機開合狀態或燈光亮滅狀態信息檢測在低采樣深度的ADC上獲得很高的動態范圍，使用12bit的采樣深度ADC就可以在5cm(300cm的距離上對用戶說話時的電機開合狀態或燈光亮滅狀態進行檢測，大大降低了系統的整體成本。

圖1為本發明實現的框圖；圖2為本發明中帶AGC控制的ADC的結構圖；圖3為本發明中能量歸一化算法的實現流程圖。
具體實施例方式如圖1所示，本發明中，聲音經過AGC功能的ADC1，會生成帶AGC信息的窄動態范圍語音信號2，采用能量歸一化算法3對帶AGC信息的窄動態語音信號2進行處理后會生成寬動態語音信號4，然后再進行處理，計算每一幀語音的實時能量5，并根據實時能量結合之前的電機開合狀態或燈光亮滅狀態對門限進行估計后，生成當前語音幀的電機開合狀態或燈光亮滅狀態帶反饋的實時門限6，然后將實時能量5和帶反饋的實時門限6進行比較，得到本語音幀的電機開合狀態或燈光亮滅狀態信息。如圖2所示，本發明中的帶AGC功能的ADCl必須具備兩個條件(I)要有PGA (可編程增益放大器)，即可以通過軟件的方式對增益進行控制；(2) PGA每一級的增益在0. 5(IdB,不能太高，否則出現音頻能量跳變明顯而出現錄音噪聲，最終影響效果。由麥克風檢測到的模擬聲音信號在經過PGA放大后，進入SRA架構的ADC進行模數轉換，變為數字信號，后面的自動增益控制(AGC)算法就是針對音頻的數字信號進行分析判斷后對PGA進行控制來實現的。軟件AGC的設計上要遵循“快降慢升”的原則，主要設計思想如下(I)為了避免音頻出現飽和失真，保證近距離的效果好，需要對音頻設置一個上門限，當錄音樣本的值大于這個上門限的時候，就需要把錄音增益降低一級，這個檢測和調節建議針對每一個樣本進行，檢測速度較快；(2)為了能夠有足夠的檢測距離，保證遠距離的檢測效果，需要對每一幀的音頻能量設置一個下門限，當這一幀的能量低于這個下門限的時候，就認為當前說話人距離麥克風較遠，系統的放大增益需要調高，就需要把錄音增益提高一級，這一步的檢測和調節要針對每一幀語音來進行，檢測速度較慢。經過這樣的設計后采集到語音信號基本上可以保證“近距離不會出現削頂失真，遠距離也會保證足夠的信噪比”。具體的實現過程主要分為如下幾步(I)預估一幀語音數據的平均能量，這個需要采集足夠的樣本進行分析，一般來說，一個人在IM的距離上用正常語速和音量說話，調節PGA的值，直到不會出現截幅失真為止，記錄下當前的PGA值；在此PGA值的基礎上錄一段背景噪聲，取背景噪聲的平均幀能量;(2)去平均幀的80%作為幀能量的下限，幀能量低于此值則AGC需要上調I級；(3)取ADC所能表示的最大范圍的80%作為單個樣本的能量上限，單個樣本能量高于此值則AGC需要下調I級；(4) AGC下調的優先級高于AGC上調的優先級；由于AGC的作用，此時出來的語音信號的每一個樣本基于的能量基準都有差別，如果用這樣的數據進行電機開合狀態或燈光亮滅狀態的檢測的話，效果會比較糟糕。此時，需要把語音信號的每一個樣本的能量基準進行統一，能量歸一化算法就可以實現這樣的功能。ADC輸出語音信號的時候也同步輸出了當前錄音樣本所對應的PGA的值，我們事先會設定一個基準值A，然后計算不同的樣本所對應的PGA的值對A的差值B，通過差值B再計算出每一個樣本映射到統一的能量值上的放大系數C，最后用樣本值和C相乘，得到能量歸一化后的樣本值。這樣就從帶AGC信息的窄動態范圍語音信號得到了寬動態范圍語音信號。能量歸一化算法的實現過程如下(I)從ADC中獲取到帶AGC信息的窄動態范圍語音信號后現把信號分離為錄音樣本和對應的AGC信息；(2)確定每一個AGC的值所對應的PGA的增益放大倍速，可以做成表格，使用查表的方式來快速檢索；(3)確定歸一化系數，一般為整段音頻中最大的AGC值A ;
(4)根據每一個樣本對應AGC值計算出如果這個樣本設定的AGC值為A那么所得到的樣本值應該在現有基礎上的放大倍數X ;( 5 )計算出化后的樣本值。帶反饋的實時門限(6)的計算過程如下(I)設定實時門限為Baseline ;(2) Baseline的初值設定為語音起始3幀能量的均值；(3)實際檢測中，每一個實時幀都會對Baseline的值進行更新；(4)把實際幀能量高于門限和低于門限分為2種狀態，兩種狀態下對Baseline的更新系數是不一樣的；(5)根據人體工學原理確定兩種狀態下的更新系數，一般的原則為能量高于門限時的更新系數應該符合人所能發的單音比如“啊”的最長時長，更新系數較小；能量低于門限時更新系數應該符合人在說話時換氣的時長，更新系數較大；在實時能量(5)的計算過程中，為了保證較好的效果，主要做了如下改進如下(I)為了滿足實時性要求，設定每次檢測的時長寬度為I幀IOms ；(2)使用求平方和的方式進行能量計算；(3)針對部分語音類玩具內部有簡化版DSP并可以支持MAC指令的特性，把能量的精度控制在40bit，可以保持較高的精度并取得較好的檢出效果；帶AGC控制的ADC (I)為低采樣精度的ADC，可以使用制造成本較低的逐次逼近型(SRA)ADC，12bit的精度即可，沒有必要使用成本較高的2-A架構ADC。傳統的玩具中，大部分的內容都是純人聲的，音質較差，但是隨著人們生活水平越來越高，對玩具的品質要求也越來越高，目前的故事類、娃娃類玩具的內容大部分都會配有精美的背景音樂。背景音樂的出現對電機開合狀態或燈光亮滅狀態檢測又提出了新的要求，如果按照傳統方法使用固定門限的話就有很大的可能出現嘴巴一直張著的尷尬局面。此時，動態門限的引入可以較好的解決這個問題。本發明中口型狀態的門限是根據當前的音頻信號而實時計算出來的，它會根據語音的特點進行自適應。背景音樂和普通語音有比較明顯的區別，普通語音的能量變化速度更快，背景音樂的能量變化相對要慢很多并且更有規律，本發明在對電機開合狀態或燈光亮滅狀態門限的計算中會根據上次電機開合狀態或燈光亮滅狀態信息采用不同的能量更新系數，經過實際的檢測，這樣的策略可以較好的適應各種不同內容的口型檢測。綜上所述，本發明可以對無背景音樂、有背景音樂的聲音進行自動檢測和同步；可以對近距離、遠距離的聲音(包括人說話的聲音)都有較好的電機開合狀態或燈光亮滅狀態檢出效果。本發明未詳細闡述部分屬于本領域公知技術。以上所述，僅為本發明部分具體實施方式
，但本發明的保護范圍并不局限于此，任何熟悉本領域的人員在本發明揭露的技術范圍內，可輕易想到的變化或替換，都應涵蓋在本發明的保護范圍之內。
權利要求
1.ー種燈光或電機與聲音同步的自適應檢測方法，其特征在于通過音源的語音通過帶AGC控制的ADC (I)檢測到后輸出帶AGC信息的語音信號(2)，使用能量歸ー化算法(3)對帶AGC信息的語音信號(2)進行處理后生成寬動態范圍的語音信號(4)，以實現了對距離的自適應；采用寬動態范圍的語音信號(4)計算實時能量(5)和帶反饋的實時門限(6)，然后把生成的結果進行比較，通過實時能量和門限的比較，得到實時的電機開合狀態或燈光亮滅狀態(7)，電機開合狀態或燈光亮滅狀態(7) —方面用于配合音頻進行輸出，另ー方面為帶反饋的實時門限(6)提供反饋信息，實現了檢測自動化過程。
2.根據權利要求1所述的ー種燈光或電機與聲音同步的自適應檢測方法，其特征在于所述帶AGC控制的ADC (I)對硬件和軟件均有要求，其中硬件部分帶AGC控制的ADC必須具備3個條件(I)要有可編程增益放大器PGA，即能夠通過軟件的方式對增益進行控制；(2)可編程增益放大器PGA每ー級的増益在0. 5 (IdB,否則出現音頻能量跳變明顯而出現錄音噪聲，影響效果；(3)所用的ADC至少要有12bit精度，不一定要16bit精度,可以降低ADC的制造成本。
軟件部分對音頻設置ー個上門限，當錄音樣本的值大于這個上門限的時候，把錄音增益降低ー級；對每ー幀的音頻能量設置ー個下門限，當這ー幀的能量低于這個下門限的時候，系統的放大增益需要調高，需要把錄音增益提高ー級。
3.根據權利要求1所述的ー種燈光或電機與聲音同步的自適應檢測方法，其特征在于所述能量歸ー化算法(3)實現過程如下 (1)確定每ー個AGC的值所對應的可編程增益放大器PGA的増益放大倍數，作成表格，使用查表的方式來快速檢索； (2)確定歸一化系數，歸ー化系數為整段音頻中最大的AGC值A; (3)根據每ー個樣本對應AGC值計算出能量歸ー化到指定増益所需要的放大倍數X; (4)根據X計算出能量歸ー化后的樣本值。
4.根據權利要求1所述的ー種燈光或電機與聲音同步的自適應檢測方法，其特征在于所述帶反饋的實時門限(6)的計算過程如下 (1)設定ー個能量的基線值Baseline； (2)Baseline的初值設定為語音起始3幀能量的均值； (3)實際檢測中，每ー個實時幀都會對Baseline的值進行更新； (4)把實際幀能量高于門限和低于門限分為2種狀態，兩種狀態下對Baseline的更新系數是不一樣的； (5)根據人體工學原理確定兩種狀態下的更新系數，能量高于門限時的更新系數應該符合人所能發的單音的最長時長，更新系數較小；能量低于門限時更新系數應該符合人在說話時換氣的時長，更新系數較大。
5.根據權利要求1所述的ー種燈光或電機與聲音同步的自適應檢測方法，其特征在于所述實時能量(5)的計算過程如下 (1)為了滿足實時性要求，設定每次檢測的時長寬度為I幀IOms； (2)使用求平方和的方式進行能量計算； (3)針對部分語音類玩具內部有簡化版DSP并支持MAC指令的特性，把能量的精度控制在40bit，保持較高的精度并取得較好的檢出效果。
全文摘要
本發明涉及一種燈光或電機與聲音同步的自適應檢測方法，包括語音的聲壓信號在被帶AGC控制的ADC檢測到后輸出帶AGC信息的窄動態范圍語音信號，使用能量歸一化算法把帶AGC信息的窄動態范圍語音信號還原為寬動態范圍語音信號，然后用還原后的語音信號進行語音的實時能量計算和門限計算，通過實時能量和門限的比較，計算出當前語音幀對應的電機開合狀態或燈光亮滅狀態。本發明通過AGC信息的引入，可以讓電機開合狀態或燈光亮滅狀態信息檢測在低采樣深度的ADC上獲得很高的動態范圍，使用12bit的采樣深度ADC就可以在5cm(300cm的距離上對用戶說話時的電機開合狀態或燈光亮滅狀態進行檢測，大大降低了系統的整體成本。
文檔編號G10L19/00GK103050119SQ20121058546
公開日2013年4月17日申請日期2012年12月30日優先權日2012年12月30日
發明者王曉斐, 孫秀明, 謝信珍, 黃海兵申請人:安徽科大訊飛信息科技股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王曉斐;孫秀明;謝信珍;黃海兵
技術所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發明人

上一篇：一種在音頻中嵌入和解出水印的方法和裝置的制作方法
上一篇：語音識別方法和系統的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種燈光或電機與聲音同步的自適應檢測方法