專利名稱:低頻聲音分量的感覺增強的制作方法
技術領域:
本發明涉及聲音信號的處理。尤其是,本發明涉及聲音信號的修改,以至于即使在修改的聲音中缺少低頻部分(即低音部分)時,聽眾在聽到修改的聲音時,在心理上仍能感覺該低頻部分的存在。
背景技術:
音樂是可以在劇場的舞臺前現場欣賞。但是,更普遍的是,人們通過收音機,電視,DVD家庭影院,MP3播放器,多媒體個人計算機等欣賞音樂。在這些娛樂設備中,將電信號變換為物理聲波的傳感器,例如揚聲器,用于再生音樂。但是,音樂再生品的品質在低頻部分通常很差,以至于在低音改進上一直存在需求。品質問題是由于電聲傳感器在空間和結構上的物理限制引起的。例如,管風琴(Werkprinzip)需要利用長度為32英尺(大約10米) 的開口管以在 16. 35Hz 產生 CO 音,這在 Eargel, J. M.,Music, Sound, and Technology,第 2版,Van Nostrand Reinhold,1995中報道過,其公開文本并入這里作為參考。因此,在小教堂或一般的應用中很難滿足好的低頻再生的要求。在現有技術中存在一些技術,用以改進音樂再生設備的低頻響應。在一個示例中,通過利用較粗,較硬并且被拉得稍松的琴弦來克服具有較短琴弦的小型鋼琴再生CO音和其他低頻音的困難。但是,這導致了一定程度的非諧波失真。在另一示例中,動圈式揚聲器可以利用較強的磁場和低音反射管,以將其低頻范圍延伸至距其低頻截止頻率約1/3個八度音階。該方法在商業產品中已經使用,例如TOA公司生產的型號為SW-46S-UL2的產品,其能夠利用18英寸的低音揚聲器和用低音反射設計來提供30Hz的低頻響應。考慮到對于小教堂的管風琴來說,實現低音的費用和空間,使用了一種早在1700年代就已獲知的稱為“聽覺低音”的技術。管風琴的制造商制造兩個一起發音的管子,以獲得更低的音符。例如,C4和G4管一起使用以獲得C3音符。類似的方法也用于具有縮短琴弦的鋼琴。注意在上述方法中,具有預計頻率的聲音是不存在的,但是聽眾仍可以感覺該頻率的存在。這種現象稱為殘留音調效應,也被稱為基音缺失現象。Moor,B. C. J. , AnIntroduction to the Psychology of Hearing,第 5 章,第 4 版,Academic Press,1997,提供了該現象的背景信息,其公開文本并入這里作為參考。基本上,殘留音調效應是心理聲學效應,其中即使是在基頻缺失或者被其他噪音掩蓋的情況下,聽眾仍可以如基頻存在那樣感覺音的殘留音調(諧波)。殘留音調效應已經用于US專利No. 5,930,373和US專利No. 6,285,767以增強低音,以致揚聲器的低頻截止頻率的延長了 I至I. 5個八度音階。在US專利No. 5,930,373中,公開了一種將低頻信號分量的殘留諧波引入聲音信號的方法。在該方法中,聲音信號被分為高頻信號和低頻信號。低頻信號進一步被分為多個不同頻帶的信號分量。對于這些信號分量中的每一個,產生殘留諧波。殘留諧波被加權并增加至原始聲音信號中。在產生殘留諧波時,該參考文獻建議使用非線性變換。在US專利No. 6,285,767中,公開了一種聲音增強系統,用于增強對于聲音信號中低頻信號分量的感覺。在該專利中,確認了下述事實,即低頻信號分量可以引起由人耳的非線性產生的諧波。為了強調這些諧波的存在,使得原始的低頻信號分量更容易被感覺,公開的聲音增強系統通過有意降低中頻的功率水平,從而降低在原始聲音中的中頻分量的重要性。在US專利No. 6,410, 838中,公開了一種音樂信號合成器,用于合成諧波中豐富的復合音樂聲波。通過反饋環的方法產生波形,并且利用簡單的非線性將諧波引入信號中。但是,現有用于增強低音技術中仍需要考慮到人體生理學的改進方法。一方面,需要一種改進的方法,基于人耳的非線性響應來增強對低音頻率的感覺。通過該改進的方法獲得的具有低音增強的音樂所具有的優點是人類聽起來更自然。相反,通過非基于人耳的方法增強的音樂感覺上顯示更多人工化,更不自然。在另一方面,需要一種改進的方法,即允許在聲音中移除低頻信號分量,但聽眾仍能在心理上感覺到該低頻信號分量的存在。低頻信號分量的缺失暗示著由聲音生成器實現的低音品質與再生的聲音或音樂的品質無關。因此,可以使用更便宜的聲音生成器,替代更昂貴的,增強低音的聲音生成器,由此降低材料成本。并且,移除該信號分量可以避免人耳重復產生相同或類似的殘留諧波,使得其能延 長聽眾的重低音音樂的收聽時間,而對耳朵的要求更少。最后,移除低頻部分也是在收聽低音內容時不損壞任何聲音品質的同時,可對付通過對設備的模擬輸出進行竊聽原作聲音信號的未授權副本。通過對設備的模擬輸出進行竊聽得到的聲音信號的未授權副本的問題被稱為模擬漏洞問題。
發明內容
本發明公開了一種方法,其借助于仿真人類中耳響應的非線性函數,增強聲音信號的低頻部分的可感覺性。合成的聲音信號并入了原始聲音信號的低頻信號分量的殘留諧波。在將合成的聲音信號再生成物理聲波形式的時候,甚至當低頻信號分量從合成的聲音信號移除時,聽眾也可以感覺到低頻部分。 本發明進一步公開了多個壓縮振幅失真單元,每個壓縮振幅失真單元通過聲音信號的低頻部分的非線性失真,產生殘留諧波,其中非線性失真的輸入-輸出關系基于人類的中耳響應。甚至當通過濾波移除低頻部分時,由于產生的殘留諧波,聽再生聲音的聽眾還可以感覺到原始的低頻部分。另外,本發明公開了兩種反侵權的方法,它們利用了在經過前述處理后,聲音信號中缺少低頻信號分量,一種方法用于方便檢測處理過的聲音信號為未授權副本,另一種方法用于阻止人們制造該未授權的副本。這些反侵權的方法用于對付模擬漏洞問題。
圖I不出了與聲首頻率相關的等響線。圖2示出了由中耳產生的壓縮振幅失真。圖3說明了向聽眾的耳朵提供并入殘留諧波的聲音的情況。圖4描述了根據本發明的壓縮振幅失真單元的結構圖。圖5描述了根據本發明另一方面的壓縮振幅失真單元的結構圖。圖6示出了壓縮振幅失真單元的應用。
圖7示出了壓縮振幅失真單元的另外的應用。圖8示出了壓縮振幅失真單元的另一應用。圖9示出了壓縮振幅失真單元的進一步的應用。
具體實施例方式人耳可以辨認輸入聲壓水平(SPL)的振幅。圖I是示出了與頻率相關的等響線的圖形。每條等響線指示相等的可感覺的響度與參考響度水平在IkHz的對比。圖I顯示了在可聽覺的頻帶的兩端存在非線性響應。從IkHz至15kHz的高頻帶顯示了隨著壓力水平的增加,壓力水平移動中的一致性較高。該移動獨立于高頻范圍中的壓力水平,并且除了在IlOdB和120dB的情況下,等響線僅在+/-IOdB區域內變化。但是,對于從20Hz至300Hz的低頻帶來說,圖I指示因為所需的SPL在IkHz時是10dB,但在20Hz增加至78dB(68dB的差異),人耳響應低頻十分無效。然而,在很高聲響水平下,該情況會較好。例如,在IkHz處的IOOdB聲音對于20Hz的128dB聲音來說具有相同的聲響(28dB的差異)。因此,那個范圍 內可感覺的反應取決于頻率和振幅,感覺的效率或靈敏度與輸入振幅的水平成比例。在生理學中,人類聽覺系統的結構由三個主要部分組成。外耳包括耳廓,外耳殼和外耳道。在外耳的端部是耳膜,其根據接收的聲音振動,從而在中耳產生壓力變化。中耳是從耳膜至卵圓窗由三個小骨頭(錘骨,砧骨,鐙骨)組成,用于將氣壓轉換成內耳的流體運動。在內耳中,蝸牛殼型的耳蝸包括基膜,長度大約為35mm,其一端附著至卵圓窗,平衡兩端的流體壓力,并且連接大約30,000個神經元。外耳具有簡單的結構,包括耳廓,外耳殼和外耳道。外耳道直徑僅有2. 5mm,類似于調諧的端口,以從空氣中收集聲音能量。其頻率響應類似于帶通濾波器,其中通帶是從大約IkHz至6kHz。在外耳道的端部是耳膜。整個外耳的響應與聲音的不同強度水平無關。中耳(從耳膜至卵圓窗)的骨頭將氣壓變換為內耳的流體運動。相對于耳膜的表面氣壓來說,卵圓窗的氣壓增加大約20至30倍,其中耳膜的表面面積比卵圓窗的表面面積大。在氣壓傳送中,骨頭不會放大氣壓或移動。相反,當很強低頻范圍聲音進入(大約75dBSPL以上)時,錘骨和鐙骨中的肌肉本能地收縮,用于衰減進入內耳的聲音水平,該現象稱為聽覺反射。基膜是內耳的關鍵部分。其稱為基點的一端緊挨著卵圓窗附著,被稱為頂點的另一端在流體中自由懸浮。沿著基膜的神經傳感器專門用于檢測從基點的高頻率至頂點的低頻率中不同頻率的聲音能量。輸入聲音以和行波類似的方式從基點傳播至頂點。基膜的每個位置僅響應于具有最大波幅的一個特有頻率;該現象支持部位學說。在Plack,C. J. ,TheSense of Hearing, Lawrence Erlbaum Associations, Inc. , 2005 中描述了部位學說,其公開文本并入這里作為參考。雖然對于不同的輸入水平和不同的頻率來說感測十分非線性和復雜,但是至今沒有證據表明檢測強低頻聲音,用于支持我們對響度的感覺更有效。在存在非常強的低頻聲音時,部位學說不能解釋基膜的每個位置的振動與特有頻率無關,如Plack所述。在下面的描述中,將示出當強低頻聲音大約低于半響度頻率時,中耳的失真將有助于增強低頻聲音感覺。這里使用的半響度頻率是指聽覺頻率,在該頻率處,人們感覺到,該聽覺頻率的響度水平是參考頻率(例如IkHz)的響度水平的一半。半響度頻率取決于個體。個體間差異的主要原因可能是心理而不是生理,正如de Barbenza7C. M. ,Bryan7M. E.和Tempest, W. , “ Individual loudness functions,,,Journal of Sound and Vibration, 11卷,399-419頁,1970年4月所報道的,其公開文本并入這里作為參考。雖然,半響度頻率可以是任意頻率,但是經驗法則是其通常在150Hz至300Hz。源自進入中耳的強低頻聲音的失真類型被稱為“壓縮振幅失真”,這是由于根據中耳的機制,其限制了強輸入聲音的動態范圍。該失真產生了基頻的泛音(overtone)或殘留諧波。人類聽覺系統可以使用殘留諧波序列的任意兩個連續的諧波,以感覺基頻的存在。因此,該失真所產生基頻的附加信息,在更大的響應帶寬(300Hz至5kHz之間)中,以允許聽眾感覺更響的低頻聲音。圖2說明了由中耳產生的壓縮振幅失真。在外耳提供超過75dB SPL,且單頻低于半響度頻率的強低頻聲音。該未失真的聲音傳遞至中耳。肌肉收縮以產生壓縮振幅失真。該失真的聲音傳遞至內耳,用于頻率解釋。基于中耳使用的相同的機制,即壓縮振幅失真,不管聲音的低頻部分強還是不強,都可以仿真低頻信號分量中殘留諧波的產生。該用途如圖3所示。如果產生的殘留諧波不 是有意在其提供至聽眾的外耳前增加至聲音信號,那么合成的聲音將使得聽眾增加對于聲音的低頻部分的感覺。通過上述的基頻缺失現象,即使從聲音中移除基頻,聽眾也可以感覺該低頻分量的存在。在下文公開的實施例中使用了該感覺增強方法。本發明的第一實施例是用于增強聲音信號的低頻部分的可感覺性的方法。可選擇地,聲音信號可包括直流(DC)分量。取決于應用,聲音信號可以表不為適合于該應用的恰當的形式。代表該聲音信號的恰當的形式包括,但不限于模擬電信號;數字信號;以及在介質,例如空氣中傳播的物理聲波。在公開的方法中,聲音信號的低頻信號分量首先被提取。然后通過非線性函數處理包含該提取的信號分量的信號,其中該非線性函數的輸入-輸出關系仿真人類中耳的響應。作為結果產生殘留諧波,并且并入非線性函數的輸出信號。該輸出信號也包含提取的低頻信號分量。調整該輸出信號的振幅,使得調整后的信號的功率和提供至非線性函數的信號的功率在相同的范圍中。然后將調整振幅的信號加入至原始聲音信號,隨后濾除所有低頻信號分量。對于合成的信號的低頻部分,獲得感覺性的增強。即使從合成的信號中移除該部分,聽眾仍能在再生的聲音中感覺該低頻部分的存在。非線性函數仿真中耳響應。w (u)表示非線性函數對于輸入u的輸出,以及f(x)表示對于振幅為X的輸入聲音的中耳響應的振幅。如上所述,不管聲音的低頻部分強還是不強,目的都是產生非線性函數的殘留諧波。因此,W(U)設定為w(u) = A · f (u/B) (方程 I)其中A是確定非線性函數的輸出范圍的因數,B是確定輸入值u的另一個因數,其中非線性失真是顯著的,并產生殘留諧波。A的值為非線性函數提供增益,因此不影響u的范圍,其中出現顯著的非線性失真。根據,例如連接至該非線性函數的后處理函數可接受的輸出值的范圍,來確定。通過下述示例說明B的確定。假設對于75dB SPL(對應于X =IO75720 X閾值聲壓)的輸入聲壓來說,在中耳中產生殘留諧波。現在目的是在參考條件U =I的情況下,由非線性函數產生殘留諧波,該參考條件對應于輸入聲壓是30dB SPL的條件。然后B設定為B = 10_75/2°。用于形成非線性函數輸入-輸出關系的中耳響應可以通過實驗方法來確定,例如由 Aerts,J. R. M和Dirckx,J. J. J.,“Nonlinearity in eardrum vibration as a functionof frequency and sound pressure, bearing Research, 263 卷,26-32 頁,2010 給出的方法來確定,其公開文本并入這里作為參考。作為替換,中耳響應可以通過理論方法由數學公式確定。從方程I中可以看出非線性函數與中耳響應的區別僅在于因數和輸入的縮放比例。接下來,除物理的中耳響應之夕卜,非線性函數也可以從原型的中耳響應獲得,其嵌入了物理響應的實質特征,即壓縮振幅失真,但是在某些參考情況下,例如X= 1,展示了該失真。首先觀察到聲音的振幅可以為正值或負值,這取決于作用在中耳上的聲波力的方向。因此,為原型的中耳響應建立模型的函數是具有對稱屬性的雙邊函數。因此,f(x)設定為
權利要求
1.一種壓縮振幅失真單兀,用于處理輸入聲音信號以增強輸入聲音信號中低頻信號分量的聽覺,由此輸出聲音信號包含低頻信號分量的殘留諧波,并且輸出聲音信號中缺少低頻信號分量,但是由于存在殘留諧波,收聽再生聲音的聽眾仍能在心理上感覺該分量的存在,壓縮振幅失真單元包括 低通濾波器,用于提取輸入聲音信號中的低頻信號分量,低頻信號分量包括基本從OHz至半響度頻率的信號分量,所述低通濾波器產生低通信號; 壓縮振幅函數處理器,用以基于低通信號作為輸入,產生包含諧波的信號作為輸出,所述壓縮振幅函數處理器的輸入-輸出關系是仿真人類中耳響應的非線性函數,由此產生低頻信號分量的殘留諧波并形成包含諧波的信號的一部分; 增益模塊,用于向包含諧波的信號提供增益,所述增益模塊產生按比例縮放的包含諧波的信號,選擇增益使得所述按比例縮放的包含諧波的信號的信號強度和初始的低通信號的信號強度的范圍相同;加法器,用于將輸入聲音信號和所述按比例縮放的包含諧波的信號相加,產生加法器輸出;以及 高通濾波器,用于通過提取基本在半響度頻率以上的加法器輸出的頻率分量來產生輸出聲音信號,由此在輸出聲音信號中移除低頻信號分量而仍包括殘留諧波。
2.如權利要求I所述的壓縮振幅失真單元,進一步包括延遲元件,用于在提供至加法器的所述按比例縮放的包含諧波的信號中弓I入延遲。
3.如權利要求I或2所述的壓縮振幅失真單兀,其中輸入聲音信號被表不為模擬電信號、數字信號或物理聲波。
4.如權利要求I或2所述的壓縮振幅失真單元,其中輸入聲音信號包括直流分量。
5.如權利要求I或2所述的壓縮振幅失真單元,其中所述中耳響應的特征在于雙邊對數函數。
6.如權利要求I或2所述的壓縮振幅失真單元,其中所述壓縮振幅失真單元由硬件或軟件實現。
7.如權利要求I或2所述的壓縮振幅失真單元,其中半響度頻率是可調整的。
8.如權利要求7所述的壓縮振幅失真單元,其中半響度頻率可調整的范圍在150Hz至300Hz之間。
9.一種用于增強聲音信號中低頻部分的可感覺性的方法,所述方法包括 提取所述聲音信號中的低頻信號分量; 通過非線性函數處理包含提取的分量的信號,以產生低頻信號分量的殘留諧波,其中所述非線性函數的輸入-輸出關系仿真人類的中耳響應; 調整非線性函數的輸出信號的振幅,使得調整后的信號的功率和提供至非線性函數的信號的功率在相同的范圍內;以及 將振幅被調整的信號加入至原始聲音信號,然后將低頻信號分量濾除,由此產生合成的信號,由于殘留諧波的存在,所述合成的信號具有增強低頻信號分量的可感覺性。
10.如權利要求9所述的方法,其中所述聲音信號以模擬電信號、數字信號或物理聲波的形式表示。
11.如權利要求9所述的方法,其中所述聲音信號包括直流分量。
12.如權利要求9所述的方法,其中所述中耳響應的特征在于雙邊對數函數。
13.—種反侵權方法,用于將聲音信號變換為可檢測侵權的聲音信號,使得在聽眾還可以感覺到聲音信號的再生聲音和可檢測侵權的聲音信號的再生聲音基本相似的同時,可檢測侵權的聲音信號的未授權副本能夠被方便地檢測,所述反侵權方法包括 通過權利要求9所述的方法產生可檢測侵權的聲音信號,其中合成的信號成為可檢測侵權的聲音信號; 由此在低音加重處理后,未授權副本的再生聲音基本保持不變,使得未授權的版本能夠被方便地檢測。
14.一種反侵權方法,用于向設備的模擬輸出端提供聲音信號,其中所述設備能夠發出至少一個模擬聲音信號,以及用于阻止人們通過記錄所述模擬輸出端存在的模擬輸出信號來制造聲音信號的未授權副本,所述反侵權方法包括 按照權利要求13所述的方法從聲音信號產生可檢測侵權的聲音信號; 將以一種形式原始地表示的可檢測侵權的聲音信號變換為等價的模擬形式;以及 向所述設備的模擬輸出端提供等價模擬形式的可檢測侵權的聲音信號,使得所述可檢測侵權的聲音信號的等價模擬形式成為模擬輸出信號;由此模擬輸出信號中缺少低頻信號分量使得通過低音增強裝置進一步增強模擬輸出信號的低音不能實現;由于不能實現進一步增強低音,阻止了人們記錄模擬輸出信號而制造未授權副本。
全文摘要
本發明涉及低頻聲音分量的感覺增強。一種壓縮振幅失真單元,包括低通濾波器,用于提取輸入聲音信號中的低頻分量;壓縮振幅函數處理器,用于通過仿真中耳響應的非線性函數,從低通信號中產生包含諧波的信號;增益模塊,用于按比例縮放包含諧波的信號,使得按比例縮放的包含諧波的信號的信號強度與初始的低通信號的強度在相同范圍中;加法器,用于將輸入聲音信號和按比例縮放的包含諧波的信號相加;以及高通濾波器,用于移除輸出聲音信號中的低通信號分量,而同時仍包含殘留諧波。本發明還公開了兩種利用在聲音信號中缺少低頻信號分量的反侵權方法,其中一種用于方便檢測處理后的聲音信號的未授權副本,另一種用于阻止人們制造這樣的未授權副本。
文檔編號G10L21/0316GK102855882SQ201210171270
公開日2013年1月2日 申請日期2012年5月29日 優先權日2011年6月29日
發明者曾永漢 申請人:自然低音技術有限公司