專利名稱:全頻帶可擴縮音頻編解碼器的制作方法
全頻帶可擴縮音頻編解碼器
背景技術:
很多類型的系統(tǒng)使用音頻信號處理以產生音頻信號或從這些信號再現(xiàn)聲音。通常,信號處理將音頻信號變換為數(shù)字數(shù)據(jù)并編碼該數(shù)據(jù)以通過網(wǎng)絡傳輸。然后,附加的信號處理解碼所傳輸?shù)臄?shù)據(jù)并把它轉換回模擬信號,以再現(xiàn)聲波。存在各種用于編碼或解碼音頻信號的技術。(編碼和解碼信號的處理器或處理模塊通常被稱為編解碼器。)音頻編解碼器被用于會議以減少為呈現(xiàn)音頻而必須從近端傳輸?shù)竭h端的數(shù)據(jù)量。例如,用于音頻和視頻會議的音頻編解碼器壓縮高保真度音頻輸入以使得到的用于傳輸?shù)男盘柋3肿詈玫馁|量但需要最小數(shù)量的比特。這樣的話,具有音頻編解碼器的會議設備需要更少的存儲容量,并且由設備使用以傳輸音頻信號的通信信道需要更少的帶寬。音頻編解碼器可以使用各種技術來編碼和解碼在會議中從一個端點傳輸?shù)搅硪粋€端點的音頻。一些通常使用的音頻編解碼器使用變換編碼(transform coding)技術以編碼和解碼通過網(wǎng)絡傳輸?shù)囊纛l數(shù)據(jù)。一種音頻編解碼器是Polycom的Siren編解碼器。Polycom的Siren編解碼器的一個版本是ITU_T(國際電信聯(lián)盟電信標準化部門)建議G. 722. 1 (Polycom Siren 7)。Siren 7是編碼高達7kHz的信號的寬帶編解碼器。另一個版本是 ITU-T G. 722. 1. C (Polycom Siren 14)。Siren 14 是編碼高達 14kHz 的信號的超寬帶編解碼器。Siren編解碼器是基于調制重疊變換(MLT)的音頻編解碼器。這樣,Siren編解碼器將音頻信號從時域變換到調制重疊變換(MLT)域。眾所周知的是,調制重疊變換(MLT) 是為各種類型信號的變換編碼而使用的余弦調制濾波器組的一種形式。一般而言,重疊變換考慮長度為L的音頻塊并將該塊變換為M個系數(shù),滿足條件L > M。為這樣工作,在相繼的塊之間必須有L-M個采樣的交疊,以使合成的信號能夠使用相繼的變換系數(shù)塊而獲得。圖1A-1B簡單表示出變換編碼編解碼器(諸如Siren編解碼器)的特征。具體音頻編解碼器的實際細節(jié)依賴于實現(xiàn)和使用的編解碼器的類型。例如,Siren 14的已知細節(jié)可在ITU-T建議G. 722. 1附錄C中找到,Siren 7的已知細節(jié)可在ITU-T建議G. 722. 1中找到,其都通過引用結合于此。涉及音頻信號的變換編碼的附加細節(jié)還可在美國專利申請序號No. 11/550,629和11/550,682中找到,其通過引用結合于此。用于變換編碼編解碼器(例如,Siren編解碼器)的編碼器10在圖IA中示出。 編碼器10接收已經(jīng)從模擬音頻信號變換成的數(shù)字信號12。該模擬音頻信號的幅度已經(jīng)以某一頻率被采樣并且被變換為表示幅度的數(shù)字。典型的采樣頻率是大約8kHz (即,每秒采樣8,000次),16kHz到196kHz,或在中間的某些值。在一個例子中,數(shù)字信號12可在大約 20ms的塊或幀中以48kHz或其他速率被采樣。變換20,其可以是離散余弦變換(DCT),將數(shù)字信號12從時域變換到具有變換系數(shù)的頻域。例如,對于每個音頻塊或幀,變換20能夠產生具有960個變換系數(shù)的頻譜。編碼器10在歸一化處理22中找到系數(shù)的平均能量水平(基準)。然后,編碼器10使用快速 Lattice矢量量化(FLVQ)算法M或類似算法量化所述系數(shù)來編碼輸出信號14以便打包(packetize)禾口傳輸。用于變換編碼編解碼器(例如,Siren編解碼器)的解碼器50在圖IB中表示。解碼器50得到從網(wǎng)絡接收的輸入信號52的進入比特流并從其中重新創(chuàng)建原始信號的最佳估計。為這樣做,解碼器50對輸入信號52執(zhí)行Lattice解碼(反向FLVQ)60并且使用去量化處理62來去量化(de-quanfize)解碼后的變換系數(shù)。另外,變換系數(shù)的能量水平則在各種頻帶中被校正。最后,逆變換64以反向DCT運行并將來自頻域的信號變換回時域以作為輸出信號討傳輸。盡管這樣的音頻編解碼器是有效的,在音頻會議應用中增長的需求和復雜度需要更通用和增強的音頻編碼技術。例如,音頻編解碼器必須在網(wǎng)絡上運行,并且各種條件(帶寬、接收器的不同連接速度等)可能動態(tài)變化。無線網(wǎng)絡是信道的比特率隨時間變化的例子。因此,無線網(wǎng)絡中的端點為適應網(wǎng)絡條件必須以不同比特率發(fā)送比特流。MCU(多路控制單元)——諸如Polycom的RMX系列和MGC系列產品——的使用, 是其中更通用和增強的音頻編碼技術可能有用的另一個例子。例如,會議中的MCU首先接收來自第一端點A的比特流,然后需要發(fā)送不同長度的比特流到多個其他端點B,C,D,E, F...。要發(fā)送的不同比特流將取決于端點中的每一個具有多少網(wǎng)絡帶寬。例如,對于音頻, 一個端點B可能以641cbpS (比特每秒)連接到網(wǎng)絡,但另一個端點C可能僅以Slcbps連接。從而,MCU以641ibpS發(fā)送比特流到一個端點B,以Slcbps發(fā)送比特流到另一個端點 C,類似地對于端點中的每一個。當前,MCU解碼來自第一端點A的比特流,即,把它變換回時域。然后,MCU對每個單一端點B,C,D,E,F(xiàn)...進行編碼,從而比特流可被設定給它們。顯然,該方法需要大量計算資源,引入信號延遲,并因為所執(zhí)行的編碼轉換而降低信號質量。處理丟包是其中更通用和增強的音頻編碼技術可能有用的另一個領域。在視頻會議或VoIP呼叫中,例如,已編碼的音頻信息被放在每包通常具有20ms音頻的包內發(fā)送。在傳輸過程中,包可能會丟失,并且丟失的音頻包導致接收的音頻中出現(xiàn)間隙。一種克服網(wǎng)絡中丟包的方法是傳輸包(即,比特流)多次,假定4次。丟失所有這4次包的機會將大大降低,因此具有間隙的機會也將減少。但是,多次傳輸包要求網(wǎng)絡帶寬增加為四倍。為減小成本,通常,同一個20ms時域信號以較高比特率(在正常模式下,例如481ApS)被編碼并且以較低比特率(例如Slcbps) 被編碼。較低(Slcbps)比特流是被多次傳輸?shù)哪莻€。這樣的話,總的所需帶寬是48+8女 3 = 72kbps,以替換原始信號被多次發(fā)送的情況下的48 * 4 = 1921cbpS。由于掩蔽效應 (masking effect),當網(wǎng)絡具有丟包時,48+8女3方案在語音質量上表現(xiàn)得幾乎與48 * 4 方案一樣。然而,這種以不同比特率獨立編碼同一 20ms時域數(shù)據(jù)的傳統(tǒng)方案需要計算資源。最后,一些端點可能沒有足夠的計算資源以完成全部解碼。例如,端點可能具有較慢的信號處理器,或信號處理器可正忙于其他任務。如果這樣的話,僅解碼該端點接收的比特流的一部分可能不會產生有用的音頻。眾所周知的是,音頻質量取決于解碼器接收和解碼了多少比特。因為這些原因,需要用在音頻和視頻會議中的可擴縮的(scalable)音頻編解碼器。
發(fā)明內容
如在背 景技術中所提到的,在音頻會議應用中增長的需求和復雜度需要更通用和增強的音頻編碼技術。具體地,需要用在音頻和視頻會議中的可擴縮的音頻編解碼器。根據(jù)本公開,一種用于處理設備的可擴縮音頻編解碼器為輸入音頻的每一幀確定第一和第二比特分配。第一比特被分配給第一頻帶,而第二比特被分配給第二頻帶。該分配基于這兩個頻帶間的能量比逐幀地進行。對于每一幀,編解碼器把兩個頻帶變換為兩組變換系數(shù),這兩組變換系數(shù)基于所述比特分配被量化然后被打包。然后這些包使用處理設備被傳輸。另外,變換系數(shù)的頻率區(qū)域能夠以由功率水平和感知建模所確定的重要性的順序被安排。一旦發(fā)生比特去除(bit stripping),考慮到已經(jīng)在頻帶之間分配了比特并且變換系數(shù)的各區(qū)域已經(jīng)根據(jù)重要性被排序,在接收設備處的解碼器可以產生合適質量的音頻。可擴縮音頻編解碼器為輸入音頻逐幀地執(zhí)行動態(tài)比特分配。用于該幀的全部可用比特在低頻帶和高頻帶之間被分配。在一種配置中,低頻帶包括0到14kHz,而高頻帶包括 14kHz到22kHz。給定幀中的兩個頻帶之間的能量水平之比確定為每個頻帶分配多少可用比特。一般而言,低頻帶將傾向于被分配更多的可用比特。這種逐幀的動態(tài)比特分配使音頻編解碼器能夠編碼和解碼所傳輸?shù)囊纛l以獲得一致的語音音調感知。換而言之,即使在處理過程中可能發(fā)生的極低比特率的情況下,音頻也可被感知為全頻帶語音。這是因為至少14kHz的帶寬總是被獲取。可擴縮音頻編解碼器將頻率帶寬擴展到全頻帶,S卩,到22kHz。總的來說,音頻編解碼器從大約IOkbps到64kbps可擴縮。IOkbps的值可能不同,并且針對給定實現(xiàn)而被選擇以獲得可接受的編碼質量。在任何情況下,所公開的音頻編解碼器的編碼質量可以與被稱為Siren 14的固定速率的22kHz版本的音頻編解碼器大致相同。在28kbps及以上,所公開的音頻編解碼比得上22kHz編解碼器。另外,在28kHz以下,所公開的音頻編解碼器比得上14kHz編解碼器,因為它在任何速率都有至少14kHz帶寬。所公開的音頻編解碼器能夠有區(qū)別地通過使用掃描音周、白噪聲、以及真實語音信號的測試。還有,所公開的音頻編解碼器僅需要現(xiàn)有Siren 14音頻編解碼器當前所需的大約1. 5倍的計算資源和存儲需求。除了比特分配,可擴縮音頻編解碼器還基于每一個頻帶中的每個區(qū)域的重要性執(zhí)行比特重新排序。例如,一幀的低頻帶的變換系數(shù)被安排在多個區(qū)域中。音頻編解碼器確定這些區(qū)域中每一個的重要性,然后按重要性順序用分配給該頻帶的比特來打包這些區(qū)域。 一種確定區(qū)域的重要性的方式是基于區(qū)域的功率水平,按重要性順序從最高功率水平到最低功率水平來安排這些區(qū)域。這種確定可基于使用周圍區(qū)域的加權來確定重要性的感知模型而被擴展。用可擴縮音頻編解碼器來解碼包利用了比特分配和基于重要性被重新排序的頻率區(qū)域。如果接收到的包的比特流的一部分因為任何原因被去除,音頻編解碼器至少能夠首先解碼比特流中的較低頻帶,而較高頻帶有可能被比特去除至一定程度。還有,由于頻帶的區(qū)域按重要性排序,具有較高功率水平的更重要的比特被先解碼,并且它們被去除的可能性更小。如上所討論的,本公開的可擴縮音頻編解碼器允許從編碼器生成的比特流中去除比特,同時解碼器仍能產生時域中可理解的音頻。因為這個原因,可擴縮音頻編解碼器在許多應用中可以是有用的,其中的一些在下面被討論。在 一個例子中,可擴縮音頻編解碼器在無線網(wǎng)絡中可以是有用的,其中端點必須以不同比特率發(fā)送比特流以適應網(wǎng)絡條件。當MCU被使用時,可擴縮音頻編解碼器能夠通過去除比特而以不同比特率創(chuàng)建比特流以便發(fā)送到各個端點,而不是通過慣常的方式。因此,MCU能夠使用可擴縮音頻編解碼器,通過從來自第一端點的64kbps比特流中去除比特來獲得用于第二端點的8kbps比特流,同時仍保持有用的音頻。當處理丟包時,可擴縮音頻編解碼器的使用還能夠幫助節(jié)省計算資源。如前面提到的,應對丟包的傳統(tǒng)方案是以高和低比特率(例如,48kbps和8kbps)獨立地編碼同一 20ms時域數(shù)據(jù),因此低質量(8kbps)比特流可被多次發(fā)送。然而,當使用可擴縮音頻編解碼器時,編解碼器僅需要編碼一次,因為第二(低質量)比特流是通過從第一(高質量)比特流去除比特而獲得的,同時仍能保持可用的音頻。最后,可擴縮音頻編解碼器可在端點可能沒有足夠的計算資源來完成全部解碼的情況下有幫助。例如,端點可能具有較慢的信號處理器,或者該信號處理器可能正忙于其他任務。在此情況下,使用可擴縮音頻編解碼器來解碼端點所接收的比特流的一部分仍然可以產生有用的音頻。前述的概述并非意圖總結本公開的每個可能實施例或每個方面。
圖IA示出變換編碼編解碼器的編碼器。圖IB示出變換編碼編解碼器的解碼器。圖2A圖示出音頻處理設備,諸如會議終端,其使用根據(jù)本公開的編碼和解碼技術。圖2B圖示出具有發(fā)送器和接收器的會議布置,其使用根據(jù)本公開的編碼和解碼技術。圖3是根據(jù)本公開的音頻編碼技術的流程圖。圖4A是更詳細地示出編碼技術的流程圖。圖4B示出被采樣為許多幀的模擬音頻信號。圖4C示出從時域中的采樣幀變換而來的一組頻域中的變換系數(shù)。圖4D示出將用于編碼變換系數(shù)的可用比特分配到兩個頻帶中的8種模式。圖5A-5C示出基于重要性對已編碼音頻中的區(qū)域進行排序的例子。圖6A是示出用于確定已編碼音頻中的區(qū)域的重更性的功率譜技術的流程圖。圖6B是示出用于確定已編碼音頻中的區(qū)域的重要性的感知技術的流程圖。圖7是更詳細地示出解碼技術的流程圖。圖8示出使用所公開的可擴縮音頻編解碼器來處理音頻包丟失的技術。
具體實施例方式基于本公開的音頻編解碼器是可擴縮的并且在頻帶間分配可用比特。另外,音頻編解碼器基于重要性對這些頻帶中每一個頻帶的頻率區(qū)域進行排序。如果發(fā)生比特去除, 那么那些具有更高重要性的頻率區(qū)域將已經(jīng)在比特流中首先被打包。以這種方式,即使發(fā)生比特去除,更有用的音頻將被保持。音頻編解碼器的這些和其他細節(jié)在這里被公開。本 公開的各種實施例可以在諸如音頻會議、視頻會議和流媒體(包括流式音樂或語音)等領域中找到有用的應用。因此,本公開的音頻處理設備可包括音頻會議端點、視頻會議端點、音頻回放設備、個人音樂播放器、計算機、服務器、電信設備、蜂窩電話、個人數(shù)字助理、VoIP電話設備、呼叫中心設備、錄音設備、語音消息設備等。例如,專用的音頻或視頻會議端點可受益于所公開的技術。類似地,計算機或其他設備可被用于桌面會議或用于數(shù)字音頻的發(fā)送和接收,并且這些設備也能受益于所公開的技術。A.會議端點如上所述,本公開的音頻處理設備可以包括會議端點或終端。圖2A示意性地示出了端點或終端100的例子。如所示的,會議終端100在網(wǎng)絡125上既可以是發(fā)送器又可以是接收器。還如所示的,會議終端100可以具有視頻會議能力以及音頻能力。一般而言,終端100具有麥克風102和揚聲器108,并且可以具有各種其他輸入/輸出設備,諸如攝像機 103、顯示器109、鍵盤、鼠標等。另外,終端100具有處理器160、存儲器162、轉換器電子裝置164、和適合于特定網(wǎng)絡125的網(wǎng)絡接口 122/124。音頻編解碼器110根據(jù)用于聯(lián)網(wǎng)終端的合適協(xié)議提供基于標準的會議。這些標準可以完全以存儲器162中所存儲的軟件實現(xiàn), 以及在處理器160上、在專用硬件上、或使用以上的組合來執(zhí)行。在傳輸路徑中,麥克風102拾取的模擬輸入信號被轉換器電子裝置164轉換為數(shù)字信號,并且在終端的處理器160上運行的音頻編解碼器110具有編碼器200,其編碼數(shù)字音頻信號以便在網(wǎng)絡125(諸如因特網(wǎng))上通過發(fā)送器接口 122傳輸。如果存在,具有視頻編碼器170的視頻編解碼器可以對視頻信號執(zhí)行類似功能。在接收路徑中,終端100具有耦接到音頻編解碼器110的網(wǎng)絡接收器接口 124。解碼器250解碼已接收的音頻信號,并且轉換器電子裝置164將數(shù)字信號轉換為模擬信號以輸出到揚聲器108。如果存在,具有視頻解碼器172的視頻編解碼器可以對視頻信號執(zhí)行類似功能。B.音頻處理布置圖2B示出一會議布置,其中第一音頻處理設備100A(作為發(fā)送器)發(fā)送壓縮的音頻信號到第二音頻處理設備100B (在該上下文中作為接收器)。發(fā)送器100A和接收器100B 都具有可擴縮音頻編解碼器110,其執(zhí)行類似于用在ITUG. 722. 1 (Polycom Siren 7)或ITU G. 722. l.C(Polycom Siren 14)中的變換編碼。對于當前討論,發(fā)送器和接收器100A-B可以是音頻或視頻會議中的端點或終端,但是它們可以是其他類型的設備。在操作過程中,發(fā)送器100A中的麥克風102捕獲源音頻,并且電子裝置采樣該音頻的塊或幀。典型地,音頻塊或幀的跨度為20毫秒的輸入音頻。在這一點上,音頻編解碼器110的正向變換(forward transform)將每個音頻幀轉換為一組頻域變換系數(shù)。使用本領域公知技術,這些變換系數(shù)然后使用量化器115被量化并且被編碼。一旦被編碼,發(fā)送器100A使用其網(wǎng)絡接口 120通過網(wǎng)絡125以包的形式將編碼后的變換系數(shù)發(fā)送到接收器100B。任何適當?shù)木W(wǎng)絡可被使用,包括但不限于IP(因特網(wǎng)協(xié)議) 網(wǎng)絡、PSTN(公共交換電話網(wǎng)絡)、ISDN(綜合服務數(shù)字網(wǎng)絡),等等。就它們而言,所發(fā)送的包可使用任何適當?shù)膮f(xié)議或標準。例如,包中的音頻數(shù)據(jù)可遵循一個表格的內容,并且構成一個音頻幀的所有八比特組可作為一個單元被附加到凈荷中。音頻幀和包的附加細節(jié)在ITU-T建議G. 722. 1和G. 722. IC中有詳細說明,這些建議都被結合于此。在接收器100B,網(wǎng)絡接口 120接收包。在隨后的反向處理中,接收器100B使用去量化器115和編解碼器110的逆變換來對編碼后的變換系數(shù)進行去量化和解碼。該逆變換將變換系數(shù)轉換回時域,以便為接收器的揚聲器108產生輸出音頻。對于音頻和視頻會議, 接收器100B和發(fā)送器100A在會議過程中可互換角色。
C.音頻編解碼器操作在理解上面提供的音頻編解碼器110和音頻處理設備100后,現(xiàn)在轉到討論根據(jù)本公開音頻編解碼器110如何編碼和解碼音頻。如圖3所示,發(fā)送器100A中的音頻編解碼器110接收時域的音頻數(shù)據(jù)(塊310)并得到音頻數(shù)據(jù)的音頻塊或幀(塊312)。使用正向變換,音頻編解碼器110將音頻幀轉換為頻域中的變換系數(shù)(塊314)。 如上所述,音頻編解碼器110可使用Polycom Siren技術來執(zhí)行該變換。然而,音頻編解碼器可以是任何變換編解碼器,包括但不限于MP3、MPEG、AAC等。當變換音頻幀時,音頻編解碼器110還量化和編碼該幀的譜包絡(塊316)。該包絡描述了被編碼的音頻的幅度,但是它不提供任何相位細節(jié)。編碼包絡譜不需要大量比特, 因此它可以容易地完成。還有,如下面將看到的,如果比特在傳輸中被去除,譜包絡可以在后面的音頻解碼過程中被使用。當通過網(wǎng)絡(諸如因特網(wǎng))通信時,帶寬可能改變,包可能丟失,并且連接速率可能不同。為應對這些挑戰(zhàn),本公開的音頻編解碼器110是可擴縮的。以這種方式,音頻編解碼器110在稍后更詳細描述的處理中在至少兩個頻帶之間分配可用比特(塊318)。編解碼器的編碼器200量化和編碼每個已分配頻帶中的變換系數(shù)(塊320),然后基于區(qū)域的重要性對每個頻率區(qū)域的比特重新排序(塊322)。總體上,整個編碼處理可僅引入大約20ms 的延遲。如果比特因為許多原因被去除,確定比特重要性(其在下面更詳細地描述)將提高可在遠端再現(xiàn)的音頻質量。在將比特重新排序后,比特被打包以用于發(fā)送到遠端。最后, 包被發(fā)送到遠端,從而下一幀能被處理(塊324)。在遠端,接收器100B接收包,根據(jù)已知技術處理它們。編解碼器的解碼器250然后解碼和去量化譜包絡(塊352),并確定在頻帶間分配的比特(塊354)。關于解碼器250 如何確定頻帶間比特分配的細節(jié)在稍后提供。知道比特分配后,解碼器250然后解碼和去量化變換系數(shù)(塊356),并對每個頻帶中的系數(shù)執(zhí)行逆變換(塊358)。最終,解碼器250 將音頻轉換回時域以便為接收器的揚聲器108產生輸出音頻(塊360)。D.編碼技術如上所述,所公開的音頻編解碼器110是可擴縮的并且使用變換編碼將音頻編碼到為至少兩個頻帶分配的比特中。由可擴縮音頻編解碼器100執(zhí)行的編碼技術的細節(jié)在圖 4的流程圖中示出。最開始,音頻編解碼器110獲得輸入音頻幀(塊402),并使用本領域公知的調制重疊變換將該幀轉換為變換系數(shù)(塊404)。如所知道的那樣,這些變換系數(shù)中的每一個具有幅度并且可以是正的或者負的。音頻編解碼器110還如前面提到的那樣量化和編碼譜包絡[OHz到22kHz](塊406)。在這點上,音頻編解碼器110在兩個頻帶之間分配用于該幀的比特(塊408)。當音頻編解碼器110編碼所接收的音頻數(shù)據(jù)時,逐幀地動態(tài)確定該比特分配。在這兩個頻帶間的劃分頻率被選擇為使得第一數(shù)量的可用比特被分配給低于該劃分頻率的低頻率區(qū)域, 而剩余比特被分配給高于該劃分頻率的較高頻率區(qū)域。在確定了頻帶的比特分配后,音頻編解碼器110在低頻帶和高頻帶中使用它們各自分配的比特來編碼歸一化系數(shù)(塊410)。然后,音頻編解碼器110確定這兩個頻帶中的每個頻率區(qū)域的重要性(塊412),并基于所確定的重要性對頻域區(qū)域進行排序(塊414)。如前所述,音頻編解碼器110可類似于Siren編解碼器并且可將音頻信號從時域變換到具有MLT系數(shù)的頻域。(為了簡化,本公開提及的是MLT變換的變換系數(shù),但是其他類型的變換也可被使用,諸如FFT(快速傅立葉變換)和DCT(離散余弦變換)等。)在采樣率下,MLT變換產生大約960個MLT系數(shù)(S卩,每25Hz —個系數(shù))。這些系數(shù)基于升序以索引0,1,2,...被安排在頻率區(qū)域中。例如,第一區(qū)域0覆蓋頻率范圍W到 500Hz],下一區(qū)域1覆蓋[500到1000Hz],以此類推。不同于通常那樣簡單地以升序發(fā)送頻率區(qū)域,可擴縮音頻編解碼器110在整個音頻的上下文中確定區(qū)域的重要性,然后基于從更高重要性到更低重要性的順序來重新排序這些區(qū)域。該基于重要性的重新排列在兩個頻帶中都執(zhí)行。確定每個頻率區(qū)域的重要性可以以許多方式實現(xiàn)。在一個實施例中,編碼器200 基于量化的信號功率譜來確定區(qū)域的重要性。在這種情況下,具有更高功率的區(qū)域具有更高重要性。在另一個實施例中,感知模型可被用于確定區(qū)域的重要性。該感知模型掩蔽 (mask)不被人們感知的無關音頻、噪聲等等。這些技術將分別在稍后更詳細地討論。在基于重要性進行排序后,最重要的區(qū)域被首先打包,跟隨其后是稍微不那么重要的區(qū)域,再隨其后是不那么重要的區(qū)域,以此類推(塊416)。最后,已排序和打包的區(qū)域可通過網(wǎng)絡被發(fā)送到遠端(塊420)。在發(fā)送包時,關于變換系數(shù)的區(qū)域排序的索引信息不需要被發(fā)送。而是,索引信息可基于從比特流解碼的譜包絡在解碼器中被計算。如果發(fā)生比特去除,那么接近尾端的被打包的那些比特可被去除。因為區(qū)域已被排序,在更重要的區(qū)域中的系數(shù)已經(jīng)被首先打包。因此,如果發(fā)生比特去除的話,被最后打包的不那么重要的區(qū)域更有可能被去除。在遠端,解碼器250解碼并變換所接收到的數(shù)據(jù),該數(shù)據(jù)已經(jīng)反映了最初由發(fā)送器100A賦予的有次序的重要性。以這種方式,當接收器100B解碼包并在時域產生音頻時, 接收器的音頻編解碼器110實際上將接收和處理輸入音頻中的系數(shù)的更重要區(qū)域的機會得到增加。如所預期的,帶寬、計算能力和其他資源的變化在會議過程中可能會改變,因此音頻被丟失、不被編碼,等等。如果音頻在頻帶之間進行了比特分配并且按重要性進行了排序,音頻編解碼器 110可以增加更有用的音頻將在遠端被處理的機會。考慮所有這些,當音頻質量由于不管什么原因而降低時,即使有比特從比特流中被去除(即,部分比特流),音頻編解碼器110仍能生成有用的音頻信號。1.比特分配 如前面提到的,本公開的可擴縮音頻編解碼器110在頻帶間分配可用比特。如圖 4B所示,音頻編解碼器(110)以特定采樣頻率(例如,48kHz)在每個約20ms的連續(xù)的幀 F1,F(xiàn)2,F(xiàn)3等中采樣并數(shù)字化音頻信號430。(實際上,這些幀可能會交疊。)因此,每個幀 Fl, F2,F(xiàn)3等具有大約960個采樣(48kHzX0. 02s = 960)。音頻編解碼器(110)然后將每個幀F(xiàn)1,F(xiàn)2,F(xiàn)3等從時域變換到頻域。對于給定幀,例如,變換得到如圖4C所示的一組MLT 系數(shù)。對于該幀,大約有960個MLT系數(shù)(S卩,每25Hz—個MLT系數(shù))。由于22kHz的編碼帶寬,代表高于大約22kHz的頻率的MLT變換系數(shù)可能被忽略。在頻域中從0到22kHz的該組變換系數(shù)必須被編碼,因此編碼后的信息能夠被打包和通過網(wǎng)絡傳輸。在一種布置中,音頻編解碼器(110)被配置為以最大速率編碼全頻帶音頻信號,該最大速率可以是64kbps。還有,如這里所述,音頻編解碼器(110)在兩個頻帶間分配用于編碼幀的可用比特。為分配這些比特,音頻編解碼器110可將總共可用比特在第一頻帶W到12kHz] 和第二頻帶[12kHz到22kHz]之間劃分。在這兩個頻帶間的12kHz的劃分頻率可主要基于語音音調變化和主觀測試而被選擇。其他劃分頻率可被用于給定的實施例。分割總共可用比特是基于兩個頻帶間的能量比。在一個例子中,對于兩個頻帶間的分割,可有四種可能的模式。例如,64kbps的總共可用比特可被如下劃分 表 1四種模式的比特分配示例
模式為<12klfe的信號為>12kHz的信f 總共可用帶寬麵____(kbps)
0__48__16__64_
1_44__20__64_
2_40__24__64_
336_28__64_為了在發(fā)送到遠端的信息中表示出這四種可能性,要求編碼器(200)在傳輸?shù)谋忍亓髦惺褂?比特。當接收時,遠端解碼器(250)可使用來自這些發(fā)送的比特的信息來確定對于給定幀的比特分配。知道比特分配后,解碼器(250)然后可基于該確定的比特分配
解碼信號。在如圖4C所示的另一布置中,音頻編解碼器(110)被配置為通過在第一頻帶 (LoBand)440
和第二頻帶(HiBand)450[14kHz到22kHz]之間劃分總可用比特來分配比特。盡管取決于實施例可使用其他值,14kHz的劃分頻率可基于考慮語音/音樂、 嘈雜/干凈、男性聲音/女性聲音等的主觀聽力質量而被優(yōu)先選擇。在14kHz處將信號劃分為HiBand和LoBand也使可擴縮音頻編解碼器110比得上現(xiàn)有的SirenH音頻編解碼器。在該布置中,幀可以使用8種可能的劃分模式而逐幀地彼劃分。這8種模式(bit_ split_mode)是基于兩個頻帶440/450間的能量比。這里,低頻帶(LoBand)的能量或功率值被標記為LoBandsPower,而高頻帶(HiBand)的能量或功率值被標記為HiBandsPower。給定幀的特定模式(bit_split_mode)被如下確定if (HiBandsPower) (LoBandsPower -k 4. 0))bit_split_mode = 7 ;else if (HiBandsPower) (LoBandsPower -k 3.0))
bit_split_mode = 6 ;else if (HiBandsPower) (LoBandsPower -k 2.0))bit_split_mode = 5 ;else if (HiBandsPower) (LoBandsPower -k 1.0))bit_split_mode = 4 ;else if (HiBandsPower) (LoBandsPower -k 0.5))bit_split_mode = 3 ;else if (HiBandsPower) (LoBandsPower -k 0.01))bit_split_mode = 2 ;else if (HiBandsPower) (LoBandsPower -k 0. 001))bit_split_mode = 1 ;else bit_split_mode = O ;這里,低頻帶的能量值(LoBandsPower)被計算為,^gMonfeei/ ——其中區(qū)域索弓I i = 0,1,2,· · ·,25。(因為每
i
個區(qū)域的帶寬是500Hz,相應的頻率范圍是OHz到12500Hz)。可用于現(xiàn)有Siren編解碼器的預定義表可被用于量化每個區(qū)域的功率以獲得quantiZed_regi0n_p0Wer[i]的值。就它而言,高頻帶的功率值(HiBandsPower)被類似地計算,但使用的頻率范圍是從13kHz到 22kHz。因此,在該比特技術中的劃分頻率實際上是13kHz,盡管信號頻譜是在14kHz處被劃分。這樣做是為了通過掃描正弦波測試。兩個頻帶440/450的比特分配然后基于從如上所述的頻帶功率值的能量比所確定的bit_split_mode被計算。特別地,HiBand頻帶獲得總共可用的64kbps中的(16+4 * bit_split_mode)kbps,而LoBand頻帶獲得總共64kbps中的剩余比特。這分解為下列對于 8種模式的分配表 28種模式的比特分配示例
權利要求
1.一種用于處理設備的可擴縮音頻處理方法,包括為輸入音頻的幀確定第一和第二比特分配,第一比特分配被分配給第一頻帶,第二比特分配被分配給第二頻帶;將所述幀的第一頻帶從時域變換編碼為頻域中的第一變換系數(shù); 將所述幀的第二頻帶從時域變換編碼為頻域中的第二變換系數(shù); 利用相應的第一和第二比特分配,將第一和第二變換系數(shù)打包到包中;以及使用所述處理設備發(fā)送所述包。
2.如權利要求1所述的方法,其中確定第一和第二比特分配是針對所述輸入音頻逐幀地進行的。
3.如權利要求1所述的方法,其中確定第一和第二比特分配包括 計算所述幀的第一和第二頻帶的能量比;以及基于所計算的能量比為所述幀進行第一和第二比特分配。
4.如權利要求1所述的方法,其中第一和第二變換系數(shù)中的每一個被安排在多個頻率區(qū)域中,并且其中打包所述第一和第二變換系數(shù)中的每一個包括確定所述頻率區(qū)域的重要性;基于所確定的重要性對所述頻率區(qū)域進行排序;以及按照排序來打包所述頻率區(qū)域。
5.如權利要求4所述的方法,其中確定所述頻率區(qū)域的重要性和對所述頻率區(qū)域進行排序包括為所述頻率區(qū)域中的每一個確定功率水平;以及從最大功率水平到最小功率水平對所述頻率區(qū)域進行排序。
6.如權利要求5所述的方法,其中確定能量水平進一步包括使用基于頻率區(qū)域間的頻譜距離的固定函數(shù)來加權頻率區(qū)域的功率水平。
7.如權利要求1所述的方法,其中打包包括打包關于第一和第二比特分配的指示。
8.如權利要求1所述的方法,其中打包包括打包第一和第二頻帶二者的譜包絡。
9.如權利要求1所述的方法,其中打包包括對于每個幀,在打包第一和第二頻帶中較高的頻帶之前先打包較低的頻帶。
10.如權利要求1所述的方法,其中變換編碼和打包包括通過以第一比特率變換編碼所述幀,來產生所述幀的第一版本; 通過將所述第一版本精簡到低于第一比特率的第二比特率,來產生所述幀的第二版本;以及將所述幀的第一版本與前一個幀的第二版本一起打包到所述包中。
11.如權利要求1所述的方法,其中所述第一頻帶是大約O到大約12kHz,并且其中所述第二頻帶是大約12kHz到大約22kHz。
12.如權利要求1所述的方法,其中所述第一頻帶是大約0到大約12500Hz,并且其中所述第二頻帶是大約13kHz到大約22kHz。
13.如權利要求1所述的方法,其中所述第一和第二比特分配總共有大約641ApS的可用比特。
14.如權利要求1所述的方法,其中所述變換系數(shù)包括調制重疊變換的系數(shù)。
15.一種其上存儲有程序指令的可編程存儲設備,所述程序指令用于使可編程控制設備執(zhí)行如權利要求1所述的可擴縮音頻處理方法。
16.一種處理設備,包括 網(wǎng)絡接口 ;通信地耦接到該網(wǎng)絡接口并獲得輸入音頻的處理器,所述處理器被配置為 為輸入音頻的幀確定第一和第二比特分配,第一比特分配被分配給第一頻帶,第二比特分配被分配給第二頻帶;針對所述幀的每一個,將時域中的第一頻帶變換編碼為頻域中的第一變換系數(shù); 針對所述幀的每一個,將時域中的第二頻帶變換編碼為頻域中的第二變換系數(shù); 針對所述幀的每一個,使用所述第一比特分配中相應的第一比特分配,將第一變換系數(shù)打包到包中;針對所述幀的每一個,使用所述第二比特中相應的第二比特分配,將第二變換系數(shù)打包到所述包中;以及使用所述網(wǎng)絡接口發(fā)送所述包。
17.如權利要求16所述的設備,其中所述處理設備選自由音頻會議端點、視頻會議端點、音頻回放設備、個人音樂播放器、計算機、服務器、電信設備、蜂窩電話和個人數(shù)字助理所構成的組。
18.一種用于處理設備的音頻處理方法,包括接收用于輸入音頻的幀的包,每個包具有一個幀的第一頻帶的在頻域中的第一變換系數(shù)和該幀的第二頻帶的在頻域中的第二變換系數(shù);為每個包中的幀確定第一和第二比特分配,第一比特分配中的每一個被分配給所述包中的所述幀的第一頻帶,第二比特分配中的每一個被分配給所述包中的所述幀的第二頻帶;針對所述包中的每個幀,將第一變換系數(shù)和第二變換系數(shù)逆變換編碼為輸出音頻; 針對所述包中的每個幀,確定第一和第二比特分配中是否有比特缺失;以及填充音頻到任何被確定為缺失的比特中。
19.如權利要求18所述的方法,其中接收所述包包括接收所述幀的第一和第二頻帶中的每一個的譜包絡,并且其中填充音頻包括利用譜包絡縮放音頻信號。
20.一種用于處理設備的音頻處理方法,包括通過以第一比特率變換編碼輸入音頻的連續(xù)的幀中的每個幀,來產生所述連續(xù)的幀的第一版本;通過將每個第一版本精簡到低于第一比特率的第二比特率,來產生所述連續(xù)的幀中的每個幀的第二版本;將所述連續(xù)的幀的每個第一版本與所述連續(xù)的幀中的前一個幀的第二版本一起打包到包中;使用處理設備發(fā)送所述包。
21.一種用于處理設備的音頻處理方法,包括接收用于輸入音頻的連續(xù)的幀的包,每個包具有所述連續(xù)的幀中的一個幀的第一版本和所述連續(xù)的幀中的前一個幀的第二版本,每個第一版本包括以第一比特率變換編碼的所述一個幀,每個第二版本包括前一個幀的被精簡到低于第一比特率的第二比特率的第一版本;解碼每個包;對于接收的包中的一個包,檢測包錯誤;再生所述一個包的缺失幀,這是通過使用來自接收到的包中的前一個包的、所述一個包的缺失幀的第二版本而實現(xiàn)的;以及使用幀的第一版本和再生的缺失幀產生輸出音頻。
全文摘要
本公開涉及全頻帶可擴縮音頻編解碼器。一種用于處理設備的可擴縮音頻編解碼器為輸入音頻的每一幀確定第一和第二比特分配。第一比特被分配給第一頻帶,第二比特被分配給第二頻帶。該分配基于這兩個頻帶間的能量比逐幀地進行。對于每一幀,編解碼器把兩個頻帶變換編碼為兩組變換系數(shù),然后這兩組變換系數(shù)基于所述比特分配被打包。然后這些包使用處理設備被傳輸。另外,變換系數(shù)的頻率區(qū)域能夠以由功率水平和感知建模所確定的重要性的順序被安排。一旦發(fā)生比特去除,考慮到已經(jīng)在頻帶之間分配了比特并且變換系數(shù)的各區(qū)域已經(jīng)根據(jù)重要性被排序,在接收設備處的解碼器可以產生合適質量的音頻。
文檔編號G10L19/02GK102332267SQ20111025974
公開日2012年1月25日 申請日期2011年7月1日 優(yōu)先權日2010年7月1日
發(fā)明者P·舒, 馮津偉 申請人:寶利通公司