混音方法及裝置制造方法

文檔序號：2827552閱讀：201來源：國知局

混音方法及裝置制造方法
【專利摘要】本發明提供一種混音方法及裝置。本發明實施例通過對所獲取的至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，進而利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，使得能夠對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，由于利用指定的方位信息，對待混音音源的音頻信號進行濾波處理，使得每個音源的聲像能夠位于不同的位置，而不是都在一個位置，因此，混音后的每個音源在聽覺上會感到非常清晰，從而提高了混音后的音頻質量。
【專利說明】混音方法及裝置【【技術領域】】
[0001] 本發明涉及音頻處理技術，尤其涉及一種混音方法及裝置。【【背景技術】】
[0002] 隨著通信技術的發展，逐漸出現了多方交流的應用平臺，例如，視頻會議或直播電臺等，因此，在音頻的處理上，需要對多路音頻信號進行混音，以使得多路音頻信號聽起來類似于一個聲音，其效果就像同時聽到多個人的發言一樣。現有技術中，一般采用線性疊加的方式，即對多路的音頻信號先進行數據的量化，然后把全部的數據相加。這樣，混音后的音頻質量不高。【
【發明內容】
】
[0003] 本發明的多個方面提供一種混音方法及裝置，用以提高混音后的音頻質量。
[0004] 本發明的一方面，提供一種混音方法，包括：
[0005] 獲取至少兩個音源的原始音頻數據；
[0006] 對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據；
[0007] 利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
[0008] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述獲取至少兩個音源的原始音頻數據，包括：
[0009] 對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據；和/或 [0010] 對至少一個目標聲道的音頻信號進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據。
[0011] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，包括：
[0012] 確定待混音的至少兩個目標聲道，以作為混音聲道；
[0013] 對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據；
[0014] 對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
[0015] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，包括：
[0016] 根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數；
[0017] 根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據；
[0018] 對每個混音聲道的濾波數據，進行混音處理。
[0019] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述頻域變換處理為快速傅里葉變換方法；所述根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數，包括：
[0020] 根據每個混音聲道的方位信息，并利用公式t(k，m)= round(NXfkX τ (0m)+〇. 5)，獲得每個混音聲道的頻率響應參數；其中，fk = kXfs/N; τ (0m) = 〇.2Xsin(0m)/v ;其中，
[0021] k為頻點，取值范圍[0，N-1];
[0022] t (k, m)為第k個頻點的頻率響應參數值；
[0023] fs為采樣率；
[0024] fk為第k個頻點的頻率；
[0025] N為快速傅里葉變換方法的點數；
[0026] θπ*每個混音聲道的方位信息，m= 1，2，···，Μ為，Μ為混音聲道的數目；
[0027] ν為聲速，340米/秒；
[0028] round (X)表示取最接近X的整數。
[0029] 本發明的另一方面，提供一種混音裝置，包括：
[0030] 獲取單元，用于獲取至少兩個音源的原始音頻數據；
[0031] 變換單元，用于對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據；
[0032] 混音單元，用于利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
[0033] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述獲取單元，具體用于
[0034] 對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據；和/或
[0035] 對至少一個目標聲道的音頻信號進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據。
[0036] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述變換單元，用于
[0037] 確定待混音的至少兩個目標聲道，以作為混音聲道；
[0038] 對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據；以及
[0039] 對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
[0040] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述混音單元，具體用于音源的原始音頻數據所對應的頻域數據
[0041] 根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數；
[0042] 根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據；以及
[0043] 對每個混音聲道的濾波數據，進行混音處理。
[0044] 如上所述的方面和任一可能的實現方式，進一步提供一種實現方式，所述頻域變換處理為快速傅里葉變換方法；所述混音單元，具體用于
[0045] 根據每個混音聲道的方位信息，并利用公式t(k，m) = round(NXfkX τ ( Θ m)+〇. 5)，獲得每個混音聲道的頻率響應參數;其中，fk = kX fs/N ; τ ( Θ m) = 〇. 2X sin ( Θ m)/v ;其中，
[0046] k為頻點，取值范圍[0，N-1];
[0047] t (k, m)為第k個頻點的頻率響應參數值；
[0048] fs為采樣率；
[0049] fk為第k個頻點的頻率；
[0050] N為快速傅里葉變換方法的點數；
[0051] 0mS每個混音聲道的方位信息，m= 1，2，···，Μ為，Μ為混音聲道的數目；
[0052] ν為聲速，340米/秒；
[0053] round (X)表示取最接近X的整數。
[0054] 由上述技術方案可知，本發明實施例通過對所獲取的至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，進而利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，使得能夠對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，由于利用指定的方位信息，對待混音音源的音頻信號進行濾波處理，使得每個音源的聲像能夠位于不同的位置，而不是都在一個位置，因此，混音后的每個音源在聽覺上會感到非常清晰，從而提高了混音后的音頻質量。【【專利附圖】

【附圖說明】】
[0055] 為了更清楚地說明本發明實施例中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹，顯而易見地，下面描述中的附圖是本發明的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。
[0056] 圖1為本發明一實施例提供的混音方法的流程示意圖；
[0057] 圖2為本發明另一實施例提供的混音裝置的結構示意圖。【【具體實施方式】】
[0058] 為使本發明實施例的目的、技術方案和優點更加清楚，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例。基于本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的全部其他實施例，都屬于本發明保護的范圍。
[0059] 需要說明的是，本發明實施例中所涉及的終端可以包括但不限于手機、個人數字助理（Personal Digital Assistant, PDA)、無線手持裝置、無線上網本、便攜電腦、個人電腦（Personal Computer, PC)、MP3 播放器、MP4 播放器等。
[0060] 另外，本文中術語"和/或"，僅僅是一種描述關聯對象的關聯關系，表示可以存在三種關系，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中字符"/"，一般表示前后關聯對象是一種"或"的關系。
[0061] 圖1為本發明一實施例提供的一種混音方法的流程示意圖，如圖1所示。
[0062] 101、獲取至少兩個音源的原始音頻數據。
[0063] 102、對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據。
[0064] 103、利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
[0065] 其中，所述方位信息，用于指示音源的聲像位置。可以采用任何參照物，例如，人的任意一個耳朵、人的兩個耳朵中間的位置等。
[0066] 需要說明的是，101?103的執行主體可以為處理裝置，可以位于本地的應用 (Application，App)例如，百度樂播中，或者還可以位于網絡側的服務器中，或者還可以一部分位于本地的應用中，另一部分位于網絡側的服務器。
[0067] 可以理解的是，所述應用可以是安裝在終端上的應用程序（nativeAPP)，或者還可以是終端上的瀏覽器的一個網頁（webAPP)，只要能夠實現音頻數據的處理的客觀存在形式都可以，本實施例對此不進行限定。
[0068] 所謂音源，就是音頻信號的源頭。音頻信號，是一種連續變化的模擬信號。音頻處理設備可以對所采集的音頻信號進行抽樣、量化和編碼處理，以獲得脈沖編碼調制（Pulse Code M〇dulati〇n，PCM)數據，進而再采用壓縮算法，對PCM數據進行壓縮，以獲得不同壓縮格式的音頻文件。
[0069] 其中，所述音頻文件可以包括現有技術中各種壓縮格式的音頻文件，例如，動態圖像專家組（Moving Picture Experts Group，MPEG)層 3 (MPEGLayer_3，MP3)格式音頻文件、 WMA (Windows Media Audio)格式音頻文件、高級音頻編碼（Advanced Audio Coding，AAC) 格式音頻文件、無損音頻壓縮編碼（Free Lossless Audio Codec，FLAC)或APE格式音頻文件等，本實施例對此不進行特別限定。
[0070] 可選地，在本實施例的一個可能的實現方式中，在101中，處理裝置具體可以對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據，即PCM數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據。
[0071] 可選地，在本實施例的一個可能的實現方式中，在101中，處理裝置具體可以對至少一個目標聲道的音頻信號（即聲音模擬信號）進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據，即PCM數據。
[0072] 可選地，在本實施例的一個可能的實現方式中，在102中，處理裝置具體可以確定待混音的至少兩個目標聲道，以作為混音聲道。然后，所述處理裝置對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據，進而對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
[0073] 具體地，由于混音操作是按照聲道對應執行，因此，所述處理裝置具體可以根據每個音源所對應的聲道數目，確定待混音的至少兩個目標聲道，以作為混音聲道。
[0074] 例如，音源1的聲道數目是1，可以記為L11，音源2的聲道數目也是1，可以記為 L21，那么，所述處理裝置則可以確定L11和L21為混音聲道。
[0075] 或者，再例如，音源1的聲道數目是2,可以記為L12和L13,音源2的聲道數目也是2,可以記為L22和L23,那么，所述處理裝置則可以確定L12和L22為一組混音聲道，確定L13和L23為另一組混音聲道。
[0076] 例如，音源1的聲道數目是1，可以記為L14,音源2的聲道數目是2,可以記為L24 和L25。那么，所述處理裝置則可以采用兩種方式，進行混音聲道的確定。
[0077] -種方式為，所述處理裝置可以對音源2的兩個聲道的原始音頻數據進行處理，以獲得1個聲道即L26的原始音頻數據。處理裝置具體可以采用現有技術中的處理方法，將2個聲道的原始音頻數據轉換成1個聲道的原始音頻數據，詳細描述可以參見現有技術中的相關內容，此處不再贅述。這樣，則可以確定L14和L26為混音聲道。
[0078] 另一種方式為，所述處理裝置可以對音源1的1個聲道的原始音頻數據進行處理，以獲得2個聲道即L15和L16的原始音頻數據。處理裝置具體可以采用現有技術中的處理方法，將1個聲道的原始音頻數據轉換成2個聲道的原始音頻數據，詳細描述可以參見現有技術中的相關內容，此處不再贅述。這樣，則可以確定L15和L24為一組混音聲道，確定L16 和L25為另一組混音聲道。
[0079] 具體地，所述頻域變換處理可以包括但不限于快速傅里葉變換（Fast Fourier Transform, FFT)〇
[0080] 例如，所述處理裝置可以對每個混音聲道所對應的聲道音頻數據按照預設時間間隔，例如,20ms，進行分幀處理，且相鄰幀之間有部分的數據重疊，例如50%的數據重疊，這樣，能夠獲得每個混音聲道的至少一幀音頻數據。然后，所述處理裝置則可以對每個混音聲道的至少一幀音頻數據，進行 FFT處理，以獲得每個混音聲道所對應的頻域數據，記為Ai j ; 其中，i表示頻點的編號，j表示幀的編號，Ay表示第j個幀在第i個頻點處的頻域數據。
[0081] 可選地，在本實施例的一個可能的實現方式中，在103中，處理裝置具體可以根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數，進而根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據。然后，所述處理裝置則可以對每個混音聲道的濾波數據，進行混音處理。
[0082] 例如，所述頻域變換處理為FFT處理，所述處理裝置具體可以根據每個混音聲道的方位信息，并利用公式t(k，m) =r〇und(NXfkX τ (θπ)+〇.5)，獲得每個混音聲道的頻率響應參數；其中，fk = kXfs/N;T (0J =〇. 2Xsin(0m)/v;其中，
[0083] k為頻點，取值范圍[0，N-1];
[0084] t (k, m)為第k個頻點的頻率響應參數值；
[0085] fs為采樣率；
[0086] fk為第k個頻點的頻率；
[0087] N為快速傅里葉變換方法的點數；
[0088] θπ*每個混音聲道的方位信息，m= 1，2，···，Μ為，Μ為混音聲道的數目；
[0089] ν為聲速，340米/秒；
[0090] round (X)表示取最接近X的整數。
[0091] 具體地，θπ*設置具體可以根據混音聲道的數目M，進行靈活設置，盡量使得每個音源的聲像能夠位于不同的位置。
[0092] 例如，假設音源1的聲道數目是1，記為L11，音源2的聲道數目也是1，記為L21，所述處理裝置確定L11和L21為混音聲道。L11所對應的頻域數據，記為Hll，L21所對應的頻域數據，記為Η21。
[0093] 那么，L11的濾波數據則可以為HllXt(k，l) ;L21的濾波數據則可以為 HllXt(k，2);其中，Θ i 關 θ2。
[0094] 然后，所述處理裝置則可以分別對L11的濾波數據和L21的濾波數據進行反FFT 處理，以獲得L11的虛擬音頻數據和L21的虛擬音頻數據。最后，所述處理裝置具體可以采用現有技術中的混音方法，對L11的虛擬音頻數據和L21的虛擬音頻數據進行混音處理，詳細描述可以參見現有技術中的相關內容，此處不再贅述。
[0095] 或者，再例如，音源1的聲道數目是2,記為L12和L13,音源2的聲道數目也是2, 記為L22和L23,所述處理裝置確定L12和L22為一組混音聲道，確定L13和L23為另一組混音聲道。L12和L13所對應的頻域數據，記為Η12和Η13,L22和L23所對應的頻域數據，記為Η22和Η23。
[0096] 那么，L12的濾波數據則可以為H12Xt(k，l)+H13Xt(k，1)，L13的濾波數據則可以為H12Xt(k，l' )+H13Xt(k，l' )，0i，關360° -01;L22的濾波數據則可以為 H22Xt(k,2)+H23Xt(k,2)，L23 的濾波數據則可以為 H22Xt(k,2' )+H23Xt(k,2')， θ2，尹 360。-θ2;其中，θ2。
[0097] 然后，所述處理裝置則可以分別對L12的濾波數據和L22的濾波數據進行反FFT 處理，以獲得L12的虛擬音頻數據和L22的虛擬音頻數據，以及分別對L13的濾波數據和 L23的濾波數據進行反FFT處理，以獲得L13的虛擬音頻數據和L23的虛擬音頻數據。
[0098] 最后，所述處理裝置具體可以采用現有技術中的混音方法，對L12的虛擬音頻數據和L22的虛擬音頻數據進行混音處理，以及對L13的虛擬音頻數據和L23的虛擬音頻數據進行混音處理，進而將經過混音處理的兩部分音頻數據重新組合成聲道數目是2的音頻數據。其中，混音處理的詳細描述可以參見現有技術中的相關內容，此處不再贅述。
[0099] 本實施例中，通過對所獲取的至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，進而利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，使得能夠對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，由于利用指定的方位信息，對待混音音源的音頻信號進行濾波處理，使得每個音源的聲像能夠位于不同的位置，而不是都在一個位置，因此，混音后的每個音源在聽覺上會感到非常清晰，從而提高了混音后的音頻質量。
[0100] 需要說明的是，對于前述的各方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本發明并不受所描述的動作順序的限制，因為依據本發明，某些步驟可以采用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬于優選實施例，所涉及的動作和模塊并不一定是本發明所必須的。
[0101] 在上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。
[0102] 圖2為本發明另一實施例提供的混音裝置的結構示意圖，如圖2所示。本實施例的混音裝置可以包括獲取單元21、變換單元22和混音單元23。其中，獲取單元21，用于獲取至少兩個音源的原始音頻數據；變換單元22,用于對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據；混音單元23,用于利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
[0103] 其中，所述方位信息，用于指示音源的聲像位置。可以采用任何參照物，例如，人的任意一個耳朵、人的兩個耳朵中間的位置等。
[0104] 需要說明的是，本實施例所提供的混音裝置可以為一處理裝置，可以位于本地的應用（Application，App)例如，百度樂播中，或者還可以位于網絡側的服務器中，或者還可以一部分功能單元位于本地的應用中，另一部分功能單元位于網絡側的服務器。
[0105] 可以理解的是，所述應用可以是安裝在終端上的應用程序（nativeAPP)，或者還可以是終端上的瀏覽器的一個網頁（webAPP)，只要能夠實現音頻數據的處理的客觀存在形式都可以，本實施例對此不進行限定。
[0106] 圖1對應的實施例中的方法，均可以由本實施例提供的混音裝置實現，詳細描述可以參見圖1對應的實施例中的相關內容。
[0107] 可選地，在本實施例的一個可能的實現方式中，所述獲取單元21，具體可以用于對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據。
[0108] 可選地，在本實施例的一個可能的實現方式中，所述獲取單元21，具體可以用于對至少一個目標聲道的音頻信號進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據。
[0109] 可選地，在本實施例的一個可能的實現方式中，所述變換單元22,具體可以用于確定待混音的至少兩個目標聲道，以作為混音聲道；對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據；以及對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
[0110] 可選地，在本實施例的一個可能的實現方式中，所述混音單元23,具體可以根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數；根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據；以及對每個混音聲道的濾波數據，進行混音處理。
[0111] 例如，所述頻域變換處理為FFT處理，所述混音單元23,具體可以用于根據每個混音聲道的方位信息，并利用公式t(k，m) =round(NXfkX τ (0m)+〇. 5)，獲得每個混音聲道的頻率響應參數；其中，fk = kXfs/N;T (θπ) =〇. 2Xsin(0m)/v^*，
[0112] k為頻點，取值范圍[0，N-1];
[0113] t(k，m)為第k個頻點的頻率響應參數值；
[0114] fs為采樣率；
[0115] fk為第k個頻點的頻率；
[0116] N為快速傅里葉變換方法的點數；
[0117] Θ m為每個混音聲道的方位信息，m = 1，2,…，Μ為，Μ為混音聲道的數目；
[0118] ν為聲速，340米/秒；
[0119] round(X)表示取最接近X的整數。
[0120] 具體地，θπ*設置具體可以根據混音聲道的數目M，進行靈活設置，盡量使得每個音源的聲像能夠位于不同的位置。
[0121] 本實施例中，通過變換單元對獲取單元所獲取的至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，進而由混音單元利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，使得能夠對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，由于利用指定的方位信息，對待混音音源的音頻信號進行濾波處理，使得每個音源的聲像能夠位于不同的位置，而不是都在一個位置，因此，混音后的每個音源在聽覺上會感到非常清晰，從而提 1? 了混首后的首頻質量。
[0122] 所屬領域的技術人員可以清楚地了解到，為描述的方便和簡潔，上述描述的系統，裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。
[0123] 在本發明所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特征可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。
[0124] 所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0125] 另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現，也可以采用硬件加軟件功能單元的形式實現。
[0126] 上述以軟件功能單元的形式實現的集成的單元，可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中，包括若干指令用以使得一臺計算機裝置（可以是個人計算機，音頻處理引擎，或者網絡裝置等）或處理器（processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括：U盤、移動硬盤、只讀存儲器（Read-Only Memory，ROM)、隨機存取存儲器（Random Access Memory，RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0127] 最后應說明的是：以上實施例僅用以說明本發明的技術方案，而非對其限制；盡管參照前述實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分技術特征進行等同替換；而這些修改或者替換，并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。
【權利要求】
1. 一種混音方法，其特征在于，包括：獲取至少兩個音源的原始音頻數據；對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據；利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
2. 根據權利要求1所述的方法，其特征在于，所述獲取至少兩個音源的原始音頻數據，包括：對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據；和/或對至少一個目標聲道的音頻信號進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據。
3. 根據權利要求2所述的方法，其特征在于，所述對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據，包括：確定待混音的至少兩個目標聲道，以作為混音聲道；對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據；對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
4. 根據權利要求2或3所述的方法，其特征在于，所述利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理，包括：根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數；根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據；對每個混音聲道的濾波數據，進行混音處理。
5. 根據權利要求4所述的方法，其特征在于，所述頻域變換處理為快速傅里葉變換方法；所述根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數，包括：根據每個混音聲道的方位信息，并利用公式t(k，m) =round(NXfkX τ (θπ)+〇.5)，獲得每個混音聲道的頻率響應參數；其中，fk = kX fs/N ; τ ( θ m) = 〇. 2 X sin ( θ m)/ν ;其中， k為頻點，取值范圍[0，Ν-1]; t (k, m)為第k個頻點的頻率響應參數值； fs為采樣率； fk為第k個頻點的頻率； N為快速傅里葉變換方法的點數； Θ m為每個混音聲道的方位信息，m = 1，2,…，Μ為，Μ為混音聲道的數目； ν為聲速，340米/秒； round (X)表示取最接近X的整數。
6. -種混音裝置，其特征在于，包括：獲取單元，用于獲取至少兩個音源的原始音頻數據；變換單元，用于對所述至少兩個音源的原始音頻數據中每個音源的原始音頻數據進行頻域變換處理，以獲得每個音源的原始音頻數據所對應的頻域數據；混音單元，用于利用預先設置的至少兩個方位信息，分別對每個音源的原始音頻數據所對應的頻域數據進行濾波處理，以獲得每個音源的原始音頻數據所對應的濾波數據，對每個音源的原始音頻數據所對應的濾波數據，進行混音處理。
7. 根據權利要求6所述的裝置，其特征在于，所述獲取單元，具體用于對目標音頻文件的幀頭進行解析，以確定所述目標音頻文件的目標聲道數目；對所述目標音頻文件的數據塊進行解碼，以獲得音源的原始音頻數據；以及根據所述目標聲道數目和所述音源的原始音頻數據，獲得每個目標聲道所對應的聲道音頻數據；和/或對至少一個目標聲道的音頻信號進行抽樣、量化和編碼處理，以獲得所述至少一個目標聲道中每個目標聲道所對應的聲道音頻數據。
8. 根據權利要求7所述的裝置，其特征在于，所述變換單元，用于確定待混音的至少兩個目標聲道，以作為混音聲道；對每個混音聲道所對應的聲道音頻數據進行分幀處理，以獲得每個混音聲道的至少一幀音頻數據；以及對每個混音聲道的至少一幀音頻數據，進行頻域變換處理，以獲得每個混音聲道所對應的頻域數據。
9. 根據權利要求7或8所述的裝置，其特征在于，所述混音單元，具體用于根據每個混音聲道的方位信息，獲得每個混音聲道的頻率響應參數；根據每個混音聲道的頻率響應參數和每個混音聲道所對應的頻域數據，獲得每個混音聲道的濾波數據；以及對每個混音聲道的濾波數據，進行混音處理。
10. 根據權利要求9所述的裝置，其特征在于，所述頻域變換處理為快速傅里葉變換方法；所述混音單元，具體用于根據每個混音聲道的方位信息，并利用公式t(k，m) =round(NXfkX τ (θπ)+〇.5)，獲得每個混音聲道的頻率響應參數；其中，fk = kX fs/N ; τ ( θ m) = 〇. 2 X sin ( θ m)/ν ;其中， k為頻點，取值范圍[0，Ν-1]; t (k, m)為第k個頻點的頻率響應參數值； fs為采樣率； fk為第k個頻點的頻率； N為快速傅里葉變換方法的點數； Θ m為每個混音聲道的方位信息，m = 1，2,…，Μ為，Μ為混音聲道的數目； ν為聲速，340米/秒； round (X)表示取最接近X的整數。
【文檔編號】G10L19/00GK104064191SQ201410256380
【公開日】2014年9月24日申請日期:2014年6月10日優先權日:2014年6月10日
【發明者】田彪申請人:百度在線網絡技術（北京）有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：田彪
技術所有人：百度在線網絡技術(北京)有限公司
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

混音方法及裝置制造方法