用于確定增強(qiáng)現(xiàn)實(shí)應(yīng)用中音頻上下文的系統(tǒng)和方法與流程

文檔序號(hào)：11159486閱讀：751來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>休閑,運(yùn)動(dòng),玩具,娛樂用品的裝置及其制品制造技術(shù)

用于確定增強(qiáng)現(xiàn)實(shí)應(yīng)用中音頻上下文的系統(tǒng)和方法與制造工藝

本申請(qǐng)要求于2014年7月23日遞交的且標(biāo)題為“System and Method for Determining Audio Context in Augmented-Reality Applications”的美國(guó)臨時(shí)專利申請(qǐng)序列號(hào)62/028，121的優(yōu)先權(quán)和權(quán)益，其全部?jī)?nèi)容通過引用合并于此。

技術(shù)領(lǐng)域

本公開涉及增強(qiáng)現(xiàn)實(shí)系統(tǒng)的音頻應(yīng)用。

背景技術(shù)：

當(dāng)渲染增強(qiáng)現(xiàn)實(shí)應(yīng)用中音頻上下文時(shí)，具有關(guān)于現(xiàn)行音頻情景上下文的信息是很重要的。增強(qiáng)現(xiàn)實(shí)內(nèi)容需要符合周圍環(huán)境和上下文以對(duì)增強(qiáng)現(xiàn)實(shí)應(yīng)用的用戶顯得自然。例如，當(dāng)增強(qiáng)音頻場(chǎng)景內(nèi)的人工音頻源時(shí)，如果源混響不同于用戶周圍的音頻場(chǎng)景的混響，或者如果內(nèi)容在與環(huán)境源相同的相關(guān)方向被渲染，在所述內(nèi)容聽起來(lái)不是自然的并且不能提供自然的用戶體驗(yàn)。當(dāng)音頻標(biāo)簽在域中或相對(duì)于用戶在預(yù)定位置被增強(qiáng)時(shí)，這在虛擬現(xiàn)實(shí)游戲和娛樂中尤其重要。為了實(shí)現(xiàn)自然渲染，期望應(yīng)用上下文分析以獲得包括提供可靠的混響估計(jì)的給定音頻場(chǎng)景的準(zhǔn)確估計(jì)。這類似于對(duì)針對(duì)在增強(qiáng)現(xiàn)實(shí)屏幕上渲染的視覺分量具有匹配的照度和恰當(dāng)?shù)年幱暗钠谕?/p>

混響估計(jì)通常通過搜索音頻內(nèi)容內(nèi)衰減事件而來(lái)進(jìn)行。在最佳情況中，估計(jì)器檢測(cè)脈沖式聲音事件，其衰減拖尾揭示了給定空間的混響條件。自然地，估計(jì)器還檢測(cè)自然緩慢衰減的信號(hào)。在這種情況下，觀測(cè)的衰減率為源信號(hào)衰減和給定空間的混響的結(jié)合。此外，通常假設(shè)音頻場(chǎng)景是靜止的，即，聲音源不移動(dòng)。然而，混響估計(jì)算法可能將移動(dòng)的音頻源檢測(cè)為衰減信號(hào)源，這引起估計(jì)結(jié)果的誤差。

混響上下文僅僅在存在活躍音頻源時(shí)可以被檢測(cè)。然而，不是所有音頻內(nèi)容適合用戶進(jìn)行這種分析。增強(qiáng)現(xiàn)實(shí)設(shè)備和游戲機(jī)可以應(yīng)用測(cè)試信號(hào)來(lái)進(jìn)行現(xiàn)行的音頻上下文分析。然而，許多可穿戴設(shè)備并不具有發(fā)射這種測(cè)試信號(hào)的能力，或者在許多情境中這種測(cè)試信號(hào)是不可用的。

環(huán)境和室內(nèi)效應(yīng)的混響通常利用離線測(cè)量設(shè)置來(lái)估計(jì)。基本方式是具有人工脈沖聲音源和用于記錄脈沖響應(yīng)的附加設(shè)備。混響估計(jì)工具可以使用本領(lǐng)域已知的工具，諸如極大似然估計(jì)(MLE)。脈沖衰減率然后被應(yīng)用以計(jì)算混響。這是用于確定現(xiàn)行上下文的相當(dāng)可靠的方式。然而，其不是實(shí)時(shí)的并且當(dāng)用戶的位置不事先預(yù)知時(shí)其不能被用于增強(qiáng)現(xiàn)實(shí)服務(wù)中。

通常給定環(huán)境的混響估計(jì)和室內(nèi)響應(yīng)使用測(cè)試信號(hào)來(lái)進(jìn)行。游戲設(shè)備或增強(qiáng)現(xiàn)實(shí)應(yīng)用輸出定義明確的聲學(xué)測(cè)試信號(hào)，其可以由白噪聲或分紅噪聲、偽隨機(jī)序列或脈沖等組成。例如，微軟公司的體感設(shè)備可以被配置成掃描室內(nèi)并估計(jì)室內(nèi)聲學(xué)。在這種情況中，設(shè)備或應(yīng)用同時(shí)回放測(cè)試信號(hào)并利用一個(gè)或多個(gè)麥克風(fēng)記錄輸出。結(jié)果，先知的輸入信號(hào)和輸出信號(hào)，設(shè)備和應(yīng)用能夠確定給定空間的脈沖響應(yīng)。

技術(shù)實(shí)現(xiàn)要素：

于此公開了用于確定增強(qiáng)現(xiàn)實(shí)應(yīng)用中音頻上下文的系統(tǒng)和方法。

一種實(shí)施方式具有包括以下項(xiàng)的方法的形式：(i)從多個(gè)麥克風(fēng)采樣音頻信號(hào)；(ii)從所采樣的音頻信號(hào)確定至少一個(gè)音頻源的相應(yīng)位置；以及(iii)渲染具有與確定的至少一個(gè)位置相隔至少閾值間隔的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，通過增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備執(zhí)行所述方法。

在至少一個(gè)這種實(shí)施方式中，渲染包括應(yīng)用頭相關(guān)傳遞函數(shù)濾波。

在至少一個(gè)這種實(shí)施方式中，所確定的位置是角位置，并且閾值間隔是閾值角距離；在至少一個(gè)這種實(shí)施方式中，閾值角距離具有從包括5度和10度的組中選擇的值。

在至少一個(gè)這種實(shí)施方式中，所述至少一個(gè)音頻源包括多音頻源，以及虛擬位置與相應(yīng)確定的位置中的每一者相隔至少閾值間隔。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括基于從包括諧振頻率、聲級(jí)和相干性的范圍中選擇的一個(gè)或多個(gè)統(tǒng)計(jì)特性區(qū)別所述多個(gè)音頻源。

在至少一個(gè)這種實(shí)施方式中，多個(gè)音頻源中的每一者向采樣的音頻信號(hào)貢獻(xiàn)相應(yīng)音頻分量，以及所述方法進(jìn)一步包括確定音頻分量中的每一者具有高于預(yù)定相干性等級(jí)閾值的相應(yīng)的相干性等級(jí)。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括使用高斯混合模型識(shí)別所述多個(gè)音頻源中的每一者。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括至少部分通過確定到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)來(lái)識(shí)別所述多個(gè)音頻源中的每一者。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括至少部分通過模型化到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)作為所述多個(gè)音頻源的概率分布函數(shù)的總和的模型來(lái)識(shí)別所述多個(gè)音頻源中的每一者。

在至少一個(gè)這種實(shí)施方式中，所采樣的音頻信號(hào)不是測(cè)試信號(hào)。

在至少一個(gè)這種實(shí)施方式中，使用雙耳線索編碼來(lái)執(zhí)行位置確定。

在至少一個(gè)這種實(shí)施方式中，通過分析頻域中的子頻帶來(lái)執(zhí)行位置確定。

在至少一個(gè)這種實(shí)施方式中，使用信道(channel)間時(shí)間差來(lái)執(zhí)行位置確定。

一種實(shí)施方式采用增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備的方式，所述增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備包括：(i)多個(gè)麥克風(fēng)；(ii)至少一個(gè)音頻輸出設(shè)備；(iii)處理器，以及(iv)數(shù)據(jù)存儲(chǔ)器，包含所述處理器可執(zhí)行的指令用于促使增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備執(zhí)行功能集合，所述功能集合包括(a)從所述多個(gè)麥克風(fēng)采樣音頻信號(hào)；(b)從所采樣的音頻信號(hào)確定至少一個(gè)音頻源的相應(yīng)位置；以及(c)經(jīng)由所述至少一個(gè)音頻輸出設(shè)備渲染具有與所述確定的至少一個(gè)位置相隔至少閾值間隔的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

一種實(shí)施方式采用包括以下項(xiàng)的方法的形式：(i)從多個(gè)麥克風(fēng)采樣至少一個(gè)音頻信號(hào)；(ii)基于所采樣的至少一個(gè)音頻信號(hào)確定混響時(shí)間；(iii)至少部分基于所確定的混響時(shí)間來(lái)修改增強(qiáng)現(xiàn)實(shí)音頻信號(hào)；以及(iv)渲染所修改的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述方法通過增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備來(lái)執(zhí)行。

在至少一個(gè)這種實(shí)施方式中，至少部分基于所確定的混響時(shí)間來(lái)修改所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)包括將對(duì)應(yīng)于所確定的混響時(shí)間的混響應(yīng)用至所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，至少部分基于所確定的混響時(shí)間來(lái)修改所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)包括將對(duì)應(yīng)于所確定的混響時(shí)間的混響濾波器應(yīng)用至所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，至少部分基于所確定的混響時(shí)間來(lái)修改所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)包括通過至少部分基于所確定的混響時(shí)間確定的量來(lái)放緩所述增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

附圖說(shuō)明

圖1是到達(dá)雙麥克風(fēng)陣列的聲波的示意性說(shuō)明。

圖2是用戶體驗(yàn)的聲波的示意性說(shuō)明。

圖3是示出作為頭戴式增強(qiáng)現(xiàn)實(shí)設(shè)備的空間音頻的聲源的增加的示意性框圖，其中聲音處理鏈包括3D渲染HRTF和混響濾波器。

圖4是示出音頻放大軟件模型的示意性框圖。

圖5是示出在上下文估計(jì)過程中執(zhí)行的步驟的流程圖。

圖6是示出在音頻增強(qiáng)期間使用上下文信息執(zhí)行的步驟的流程圖。

圖7是可以在一些實(shí)施方式中使用的無(wú)線收發(fā)信機(jī)用戶設(shè)備的框圖。

圖8是示出根據(jù)至少一個(gè)實(shí)施方式的第一方法的流程圖。

圖9是示出根據(jù)至少一個(gè)實(shí)施方式的第二方法。

具體實(shí)施方式

音頻上下文分析方法可以通過集合與感興趣點(diǎn)相關(guān)聯(lián)的多個(gè)音頻情景參數(shù)化而被改善。在一些實(shí)施方式中，檢測(cè)到的音頻源的到達(dá)方向和相干性估計(jì)一樣揭示關(guān)于環(huán)境的有用信息并且被用于提供上下文的信息。在另一實(shí)施方式中，與源的移動(dòng)相關(guān)聯(lián)的測(cè)量可以被用于進(jìn)一步改善所述分析。在于此描述的各種實(shí)施方式中，音頻上下文分析可以在不使用測(cè)試信號(hào)的情況下通過監(jiān)聽環(huán)境及現(xiàn)有自然聲音而被執(zhí)行。

在一種實(shí)施方式中，音頻源的到達(dá)估計(jì)的方向使用包括至少兩個(gè)麥克風(fēng)的麥克風(fēng)陣列而被進(jìn)行。陣列的輸出是所有麥克風(fēng)的總計(jì)信號(hào)。旋轉(zhuǎn)方向并檢測(cè)提供感興趣信號(hào)的能量的最高量的方向是用于估計(jì)到達(dá)方向的一種方法。在另一實(shí)施方式中，可以通過調(diào)節(jié)麥克風(fēng)延遲線來(lái)實(shí)現(xiàn)陣列的電子操縱，即，向著感興趣點(diǎn)旋轉(zhuǎn)所述陣列，而不是物理地旋轉(zhuǎn)設(shè)備。例如，通過在對(duì)信號(hào)相加之前將另一麥克風(fēng)輸入信號(hào)延緩特定時(shí)間延遲，使得雙麥克風(fēng)陣列與麥克風(fēng)的垂直軸相對(duì)齊。提供感興趣的總計(jì)信號(hào)的最大能量的時(shí)間延遲與這兩個(gè)麥克風(fēng)之間的距離一起可以被用于導(dǎo)出到達(dá)方向。

圖1是到達(dá)雙麥克風(fēng)陣列的聲音波形的示意性說(shuō)明。實(shí)際上，圖1示出麥克風(fēng)陣列106(包括麥克風(fēng)108和110)物理地稍微偏離正在產(chǎn)生聲波104的聲源102的情況100。可以看出，聲波104到達(dá)麥克風(fēng)110的時(shí)間晚于它們到達(dá)麥克風(fēng)108的時(shí)間。現(xiàn)在，為了操縱麥克風(fēng)陣列106向著實(shí)際聲源102，來(lái)自麥克風(fēng)110的信號(hào)可以被延遲與垂直于聲源102的距離差對(duì)應(yīng)的時(shí)間單元。雙麥克風(fēng)陣列106可以例如是安裝在增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備上的麥克風(fēng)對(duì)。

當(dāng)麥克風(fēng)108和110之間的距離、捕獲的麥克風(fēng)信號(hào)之間的時(shí)間延遲和聲音的速度是已知的情況下，使用三角法直接確定源的到達(dá)方向。在又一實(shí)施方式中，估計(jì)到達(dá)的方向的方法包括檢測(cè)麥克風(fēng)信號(hào)的電平差并應(yīng)用對(duì)應(yīng)的立體平移法。

圖2是用戶體驗(yàn)的聲音波形的示意性說(shuō)明。實(shí)際上，圖2示出聽眾210(從上文示出并具有右耳212和左耳214)暴露于多個(gè)聲音源202(通常在206處發(fā)射所示聲波)和204(通常在208處發(fā)射所示聲波)的情況200。在這種情形中，耳裝式麥克風(fēng)充當(dāng)傳感器陣列，其能夠基于輸入的左側(cè)信號(hào)和右側(cè)信號(hào)的時(shí)間和電平差來(lái)區(qū)別源。聲音場(chǎng)景分析可以在時(shí)頻域中通過利用重疊變換或?yàn)V波器組來(lái)首先分解輸出信號(hào)而被進(jìn)行。這使能信號(hào)的子頻帶處理。

當(dāng)兩個(gè)信道音頻信號(hào)的信道間時(shí)間和電平差參數(shù)化是可用的時(shí)，可以通過以下等式通過首先將時(shí)間差線索轉(zhuǎn)換為到達(dá)線索的參考方向來(lái)對(duì)每個(gè)子頻帶進(jìn)行到達(dá)方向估計(jì)：

τ＝(|x|sin(φ))/c (1)

其中∣x∣是麥克風(fēng)之間的距離，c是聲音的速度以及τ是兩個(gè)信道之間的時(shí)間差。

可替代地，信道間電平線索可以被應(yīng)用。到達(dá)線索的方向φ使用例如傳統(tǒng)的平移等式而被確定：

其中，信道i的l_i＝xi(n)^Tx_i(n)。

一種用于空間音頻參數(shù)化的方法是使用雙耳線索編碼(BCC)，其提供多信道信號(hào)分解至組合(下混合)的音頻信號(hào)和描述空間圖像的空間線索。通常，BCC參數(shù)化的輸入信號(hào)可以是兩個(gè)或更多個(gè)音頻信道或源。

所述輸入首先使用例如傅里葉變換或QMF濾波器組而被轉(zhuǎn)換成時(shí)頻域。音頻情景在變換域中被分析并且對(duì)應(yīng)的參數(shù)化被提取。

常規(guī)的BCC分析包括每個(gè)變換域時(shí)頻間隙內(nèi)(即，在每個(gè)輸入幀的每個(gè)頻帶中)估計(jì)的信道間相干性(ICC)、時(shí)間差(ITD)和信道間電平差(ILD)參數(shù)。ILD和ITD參數(shù)在每個(gè)信道對(duì)之間被確定，然而ICC通常針對(duì)每個(gè)輸入信道單獨(dú)被確定。在具有兩個(gè)信道的雙耳音頻信號(hào)的情況中，BCC線索可以在分解的左信道和右信道之間被確定。

在下文中，BCC方式的一些細(xì)節(jié)使用具有例如在頭安裝立體聲麥克風(fēng)陣列中可用的兩個(gè)輸入信道而被說(shuō)明。然而，以下陳述可以很容易被替換成包括在傳感器網(wǎng)絡(luò)中具有可用的多于兩個(gè)信道的輸入信號(hào)。

針對(duì)每個(gè)子頻帶ΔL_n的信道間電平差(ILD)通常在對(duì)數(shù)域中被估計(jì)：

其中和分別是子頻帶n中的時(shí)域左信道信號(hào)和右信道信號(hào)。信道間時(shí)間差(ITD)(即，左信道和右信道之間的延遲)是

τ_n＝arg max_d{Φ_n(k，d)} (4)

其中Φ_n(k，d)是歸一化相關(guān)性

其中

d₁＝max{0，-d}

d₂＝max{0，d} (6)

等式(5)的歸一化相關(guān)性是信道間相干性(ICC)參數(shù)。其可以被用于捕獲被與由等式(3)和(4)中的相位和幅度參數(shù)表示的“干燥”聲音分量去相關(guān)的環(huán)境分量。

可替代地，BCC系數(shù)可以在DFT域中被確定。使用例如加窗短時(shí)傅里葉變換(STFT)，上述子頻帶信號(hào)被轉(zhuǎn)化成變換系數(shù)組。和分別是給定分析幀的子頻帶n的左和右(雙耳)信號(hào)的頻譜系數(shù)向量。變換域ILD可以根據(jù)等式(3)很容易被確定

其中*表示復(fù)共軛。

然而，ITD根據(jù)以下等式可以更方便處理為復(fù)數(shù)域的信道間相位差(ICPD)

ICC可以使用非常類似于等式(5)中時(shí)域計(jì)算中使用的計(jì)算而在頻域中被計(jì)算：

電平和時(shí)間/相位差線索表示干燥環(huán)繞立體聲分量，即，它們可以被認(rèn)為模型化空間中聲音源位置。基本上，ILD和ITD線索表示環(huán)繞立體聲平移系數(shù)。

另一方面，相干性線索應(yīng)該包括相干性和解相關(guān)聲音之間的關(guān)系。也就是說(shuō)，ICC表示環(huán)境氛圍。其直接涉及輸入信道的相關(guān)性，并因此給出關(guān)于聽眾周圍環(huán)境的良好指示。因此，聲源后期混響的等級(jí)(例如，由于室內(nèi)效應(yīng))和分布在輸入信道之間的環(huán)境聲音可以對(duì)于例如給定空間的混響上的空間音頻上下文具有重大貢獻(xiàn)。

上述到達(dá)估計(jì)的方向已經(jīng)針對(duì)單一音頻源的檢測(cè)被給出。然而，相同參數(shù)化也可以被用于多個(gè)源。線索的統(tǒng)計(jì)分析可以被用于揭示音頻情景可以包含一個(gè)或多個(gè)源。例如空間音頻線索可以使用高斯混合模型(GMM)方式在任意數(shù)量的子集中被聚合。

實(shí)現(xiàn)的到達(dá)線索的方向可以通過確定到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)(PDF)在M個(gè)高斯混合中被分類

其中ρ_i是分量權(quán)重并且分量是高斯分布的

具有平均值μ_i，方差σ²和到達(dá)線索的方向φ。

例如，期望最大化(EM)算法可以被用于使用獲得的數(shù)據(jù)集合以迭代方式針對(duì)每個(gè)混合進(jìn)行分量權(quán)重、平均和方差參數(shù)的估計(jì)。對(duì)于這種特殊情況，系統(tǒng)可以被配置成確定每個(gè)高斯混合的平均參數(shù)，因?yàn)槠浣o出多個(gè)聲源的到達(dá)方向的估計(jì)。由于算法提供的混合數(shù)量最有可能大于圖像中聲源的實(shí)際數(shù)量，其可以是有益的相對(duì)于具有最大分量權(quán)重和最低方差的參數(shù)集中，因?yàn)樗鼈冎甘緩?qiáng)點(diǎn)狀聲源。也可以具有平均值互相接近的混合被結(jié)合，例如，比10-15度更近的源可以被結(jié)合為單個(gè)源。

源運(yùn)動(dòng)可以通過觀察對(duì)應(yīng)于最大分量權(quán)重的集合的平均μ_i而被追蹤。在新的分量權(quán)重(具有不同于任何先前參數(shù)的分量平均參數(shù))超過預(yù)定閾值時(shí)，新的聲源的引入可以被確定。類似地，當(dāng)被追蹤的聲源的分量權(quán)重降到閾值以下時(shí)，該源最有可能是無(wú)聲的或已經(jīng)從空間音頻圖像消失了。

當(dāng)渲染增強(qiáng)音頻內(nèi)容時(shí)，檢測(cè)聲源的數(shù)量和它們相對(duì)于用戶的位置是很重要的。附加信息源必須不是被放置在現(xiàn)有聲源頂部或接近現(xiàn)有聲源的3D空間中。

一些實(shí)施方式可以維持檢測(cè)到的位置的記錄以保持聲源和源數(shù)量的追蹤。例如，當(dāng)記錄對(duì)話時(shí)，說(shuō)話者傾向于輪流講話。也就是說(shuō)，估計(jì)算法可以被配置成記住先前講話者的位置。一種可能性是基于統(tǒng)計(jì)特性標(biāo)注所述源，其中統(tǒng)計(jì)特性諸如諧振頻率的范圍、聲級(jí)、相干性等。

用于估計(jì)給定音頻情景中的混響時(shí)間的便利方式是首先構(gòu)造表示混響拖尾的信號(hào)衰減的模型。當(dāng)聲源正被關(guān)閉時(shí)，信號(hào)持續(xù)對(duì)應(yīng)于混響時(shí)間的特定時(shí)間段。由于多重散射，該混響拖尾可以包含若干反射。通常，該拖尾持續(xù)從十分之一秒到幾秒，這取決于給定空間的聲學(xué)性質(zhì)。

混響時(shí)間指的是被關(guān)掉的聲音衰減期望量的時(shí)間。在一些實(shí)施方式中，60dB可以被使用。其它值也可以被使用，這依賴于環(huán)境和期望的應(yīng)用。應(yīng)該注意的是，在大多數(shù)情況中，連續(xù)信號(hào)不包含下跌60dB的任何完整事件。僅僅在用戶例如正在拍手或以其它方式在記錄音頻場(chǎng)景的同時(shí)人工地創(chuàng)建脈沖狀聲音事件的情況下，可以觀察到完全的60dB的衰減信號(hào)。因此，估計(jì)算法可以被配置成使用具有較低電平的信號(hào)來(lái)識(shí)別模型參數(shù)。在這種情況中，即使20dB的衰減足以發(fā)現(xiàn)衰減信號(hào)模型參數(shù)。

衰減信號(hào)的簡(jiǎn)單模型包括衰減因子a以使得衰減拖尾的信號(hào)模型被寫成

y(n)＝a(n)ⁿx(n) (12)

其中x(n)是聲源信號(hào)以及y(n)是給定空間中混響效應(yīng)的檢測(cè)信號(hào)。衰減因子值(用于衰減信號(hào))被計(jì)算為a(n)＝e^(-1/τ(n))，其中衰減時(shí)間常數(shù)排列τ(n)＝[0...∞)以獲得一對(duì)一映射a(n)＝[0...1)。在一些實(shí)施方式中實(shí)際混響時(shí)間(RT)通過RT＝6.91τ與時(shí)間常數(shù)相關(guān)。也就是說(shuō)，RT定義了聲音衰減60dB的時(shí)間，即，針對(duì)人類聽眾變成無(wú)聲的。其被確定為20log10(e^-RT/τ)＝-60。

用于估計(jì)等式(12)的模型參數(shù)的有效方法是利用重疊的N個(gè)采樣窗口執(zhí)行的極大似然估計(jì)(MLE)算法。所述窗口大小可以被選擇以在衰減混響拖尾不符合所述窗口以及不衰減部分偶然被包括的情況下避免估計(jì)失敗。

可以假設(shè)由于延遲因子a(n)隨時(shí)間變化的的性質(zhì)，檢測(cè)的采樣y(n)獨(dú)立于概率分布因此，用于序列觀察n＝0，...，N-1的聯(lián)合概率密度函數(shù)被寫成(其中N被認(rèn)為是分析窗口長(zhǎng)度)：

等式(13)中依時(shí)性衰減因子a(n)可以被認(rèn)為是分析窗口內(nèi)的常數(shù)。因此，聯(lián)合概率函數(shù)可以被寫為：

等式(14)的似然函數(shù)通過衰減因子和方差σ被唯一地定義。采用等式(14)的算法，得到對(duì)數(shù)似然函數(shù)。

因子a和方差σ的偏導(dǎo)數(shù)為

等式(15)中對(duì)數(shù)似然函數(shù)的最大值在偏導(dǎo)數(shù)為零時(shí)被實(shí)現(xiàn)。因此，等式對(duì)如下被獲得

當(dāng)衰減因子a是已知的時(shí)，可以針對(duì)給定數(shù)據(jù)集合使用等式(19)而求解方差。然而，等式(18)僅僅可以被迭代地解決。解決方案是將等式(19)代入等式(15)中的對(duì)數(shù)似然函數(shù)并簡(jiǎn)單地發(fā)現(xiàn)最大化所述似然性的衰減因子。

針對(duì)衰減因子的估計(jì)可以通過選擇以下等式而被發(fā)現(xiàn)

衰減因子候選可以是量化的參數(shù)集合。例如，我們可以定義例如處于RT_i＝0.1，...，5秒的范圍內(nèi)的一組Q個(gè)時(shí)間候選并且將該衰減因子集合確定為其中i＝0,…,Q-1并且fs為采樣頻率。

上述極大似然估計(jì)算法可以與重疊N個(gè)采樣窗口而被執(zhí)行。所述窗口大小可以被選擇以使得衰減混響拖尾符合所述窗口，從而避免意外地包括不衰減部分。

一些實(shí)施方式可以被配置成針對(duì)預(yù)定時(shí)間段i＝0,…,T來(lái)采集衰減極大似然估計(jì)所述估計(jì)的集合可以被表示為直方圖。一個(gè)簡(jiǎn)單的方式是挑選具有最小衰減因子的估計(jì)因?yàn)榧僭O(shè)任何聲源將不會(huì)衰減的比給定空間內(nèi)實(shí)際混響快是合邏輯的。然而，音頻信號(hào)可以包含衰減比該實(shí)際混響時(shí)間快的分量。因此，一個(gè)解決方案是代替地挑選對(duì)應(yīng)于直方圖中的第一主峰的估計(jì)。

可能發(fā)生的是，所采集的估計(jì)集合內(nèi)的i＝0，...，T的一些估計(jì)針對(duì)包括活躍信號(hào)的不混響衰減拖尾來(lái)確定，而不是多徑散射。因此，根據(jù)于此描述的實(shí)施方式，該估計(jì)集合可以使用關(guān)于現(xiàn)行音頻上下文的信息來(lái)改善。

上下文估計(jì)細(xì)化

由于混響時(shí)間估計(jì)是連續(xù)過程并且在每個(gè)分析窗口中產(chǎn)生估計(jì)時(shí)，會(huì)發(fā)生針對(duì)包括活躍信號(hào)、無(wú)聲、移動(dòng)源和相干內(nèi)容的不混響衰減拖尾而確定一些估計(jì)。應(yīng)用重疊窗口的實(shí)時(shí)分析算法產(chǎn)生混響估計(jì)，盡管內(nèi)容不具有任何混響分量。也就是說(shuō)，針對(duì)基于直方圖選擇算法采集的估計(jì)可能是誤導(dǎo)性的。因此，估計(jì)可以使用關(guān)于當(dāng)前音頻上下文的信息而被增強(qiáng)。

聲音環(huán)境的混響上下文通常是相當(dāng)穩(wěn)定的。也就是說(shuō)，由于物理原因，用戶周圍環(huán)境的混響不會(huì)突然改變。因此，分析可以應(yīng)用在相當(dāng)長(zhǎng)時(shí)間段上從重疊窗口獲得的多個(gè)混響估計(jì)而被進(jìn)行。一些實(shí)施方式可以將估計(jì)緩沖若干秒，因?yàn)榉治稣趪L試確定所記錄的將提供最可靠估計(jì)的音頻內(nèi)容中的衰減拖尾。大多數(shù)音頻內(nèi)容是不具有衰減拖尾的無(wú)聲或活躍聲音。因此，一些實(shí)施方式可以丟棄大多數(shù)的估計(jì)。

根據(jù)一種實(shí)施方式，混響時(shí)間估計(jì)通過考慮例如輸入信號(hào)信道間相干性而被改進(jìn)。混響估計(jì)算法連續(xù)地或周期性地監(jiān)視音頻圖像估計(jì)的信道間線索參數(shù)。即使MLE算法提供有意義的結(jié)果，并且衰減信號(hào)事件被檢測(cè)到，高ICC參數(shù)估計(jì)可以指示給定信號(hào)事件是來(lái)自點(diǎn)狀源的直達(dá)聲并且不能是包含聲音的多重散射的混響拖尾。

當(dāng)僅僅單信道音頻是可用的時(shí)，相干性估計(jì)可以使用傳統(tǒng)相關(guān)法通過找到輸入信號(hào)的最大自相關(guān)而被進(jìn)行。例如，大于0.6的ICC或歸一化相關(guān)值指示高相關(guān)的周期信號(hào)。因此，對(duì)應(yīng)于ICC(或自相關(guān))的高于預(yù)定閾值的混響時(shí)間估計(jì)可以被安全地丟棄。

此外，在一些實(shí)施方式中，當(dāng)來(lái)自連續(xù)的重疊分析窗口的結(jié)果包含一個(gè)或多個(gè)相對(duì)大的值時(shí)，混響估計(jì)可以從基于直方圖的分析中丟棄。從活躍不衰減信號(hào)計(jì)算的MLE估計(jì)是無(wú)限的。因此，例如10秒的混響是沒有意義的。在這種情況中，分析窗口可以被認(rèn)為是不混響的并且環(huán)境的混響估計(jì)不被更新。

由多重散射引起的混響衰減拖尾可以通過點(diǎn)狀聲源引起，但是拖尾本身是環(huán)繞的并不具有到達(dá)線索的明確方向。因此，在混響拖尾的情況中檢測(cè)到的源的高斯混合是正在擴(kuò)展的。也就是說(shuō)，當(dāng)衰減線索的MLE估計(jì)被檢測(cè)到且高斯混合的方差σ²正在增加時(shí)，實(shí)現(xiàn)可靠的估計(jì)。

根據(jù)該實(shí)施方式，移動(dòng)聲源的檢測(cè)被用作選擇標(biāo)準(zhǔn)。移動(dòng)聲音可以在從觀察的音頻圖像逐漸消失時(shí)促使衰減聲級(jí)拖尾。例如，過往的汽車產(chǎn)生長(zhǎng)的衰減聲音效果，其可能被誤認(rèn)為是混響拖尾。衰減的聲音可以恰好適合于MLE估計(jì)并且最終在所有緩沖估計(jì)的直方圖中產(chǎn)生大的峰值。因此，根據(jù)該實(shí)施方式，當(dāng)移動(dòng)的比預(yù)定角速度(跟蹤源的到達(dá)估計(jì)的方向的第一差分)快的源高于預(yù)定閾值時(shí)，對(duì)應(yīng)的混響時(shí)間估計(jì)不被更新及緩沖以用于基于直方圖的分析。

移動(dòng)聲音還可以利用多普勒效應(yīng)來(lái)識(shí)別。已知聲源的頻率分量被偏移到更高或更低頻率，這取決于所述源是向著聽眾移動(dòng)還是遠(yuǎn)離聽眾移動(dòng)的。頻移還揭示了經(jīng)過的聲源。

應(yīng)用上下文

本公開的一些實(shí)施方式的另一方面是在觀察的音頻環(huán)境中使用聲源位置和混響估計(jì)。具有人為增加的音頻分量的增強(qiáng)現(xiàn)實(shí)概念可以通過使用用戶的音頻環(huán)境的指示而被改善。例如，基于頭戴式設(shè)備的媒體渲染和增強(qiáng)現(xiàn)實(shí)設(shè)備，諸如谷歌眼鏡式頭戴式設(shè)備，可以具有位于頭戴式設(shè)備框架中的聽筒或麥克風(fēng)陣列中的麥克風(fēng)。因此，該設(shè)備部可以進(jìn)行第一實(shí)施方式中描述的聽覺上下文分析。所述設(shè)備可以分析音頻圖像，確定混響條件并精煉參數(shù)化。當(dāng)所述設(shè)備是上下文感知時(shí)，增強(qiáng)內(nèi)容可以通過3D定位方案和混響生成濾波器而被處理。這確保增強(qiáng)內(nèi)容聽起來(lái)是自然的并且作為屬于環(huán)境的自然聲音被體驗(yàn)。

通常增強(qiáng)聲音在相對(duì)于用戶和環(huán)境的特定預(yù)定方向上被渲染。在這種情況中，環(huán)境中的現(xiàn)活躍源被考慮以避免相同方向中的多個(gè)源。這例如使用頭相關(guān)傳遞函數(shù)(HRTF)濾波來(lái)完成。在期望的增強(qiáng)源的位置是已知的情況下，對(duì)應(yīng)于到達(dá)方向的HRTF濾波器集合被選擇。當(dāng)多于一個(gè)源被增強(qiáng)時(shí)，每個(gè)單獨(dú)源信號(hào)利用對(duì)應(yīng)于所期望的方向的HRTF集合分別被渲染。可替代地，渲染可以在子頻帶及主源中完成，即每個(gè)子頻帶和時(shí)間窗的最大聲分量利用對(duì)應(yīng)于HRTF濾波器對(duì)的時(shí)頻分量而被濾波。

在已知關(guān)于用戶周圍自然音頻圖像內(nèi)的現(xiàn)有聲源的情況下，該增強(qiáng)可以避免相同的位置。當(dāng)相干的(即，當(dāng)歸一化相干性線索大于例如0.5時(shí))，以及靜止聲源在圖像中被檢測(cè)到時(shí)，增強(qiáng)源可以在預(yù)定距離內(nèi)被平緩地移動(dòng)或放置。例如，水平面內(nèi)5至10度空隙有益于源的分離和可解度。然而，在源是不相干，即散射的聲音和在圖像內(nèi)的移動(dòng)的情況下，可能不需要來(lái)改善該增強(qiáng)聲音的位置。而且，在一些應(yīng)用中，利用在相同位置中渲染的增強(qiáng)源可以是有益于消除現(xiàn)有的自然聲源與在相同位置中渲染的增強(qiáng)源。

另一方面，當(dāng)音頻增強(qiáng)應(yīng)用是將要消除用戶周圍的音頻圖像內(nèi)的一個(gè)或多個(gè)自然聲源時(shí)，可能需要源的位置、混響和相干性的準(zhǔn)確估計(jì)。

基于期望的增強(qiáng)聲音的方向來(lái)選擇HRTF濾波器參數(shù)。并且最后，用本發(fā)明實(shí)現(xiàn)的上下文參數(shù)需要混響生成。存在實(shí)施人為混響的若干有效方法。

圖3是示出作為頭戴式增強(qiáng)現(xiàn)實(shí)設(shè)備的空間音頻的聲源的增強(qiáng)的示意性框圖，其中聲音處理鏈包括3D渲染HRTF和混響濾波器。實(shí)際上，如圖所示，在描述300中，增強(qiáng)聲音分別通過有右側(cè)HRTF濾波器302和左側(cè)HRTF濾波器304，其還將輸入位置信息作為輸入，然后分別通過右側(cè)和左側(cè)混響濾波器306和308，其還根據(jù)本方法和系統(tǒng)采用混響信息作為輸入。然后分別向所描述的示例用戶310的右耳和左耳播放輸出。

圖4是示出音頻增強(qiáng)軟件模塊400的示意性框圖。模塊400包括用于執(zhí)行與從麥克風(fēng)收集的數(shù)據(jù)相關(guān)的上下文分析的子模塊408。模塊400進(jìn)一步包括子模塊406，該子模塊406執(zhí)行上下文精煉并連接在子模塊408和子模塊404之間，其操縱于此描述的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)的渲染。子模塊404連接在(a)API 403(以下描述)與(b)(1)上下文精煉子模塊406及混合器子模塊410之間。混合器子模塊410連接在渲染子模塊410和回放子模塊412之間，回放子模塊412向擴(kuò)音器提供音頻輸出。

而且，上下文估計(jì)可以被應(yīng)用于例如用戶戶內(nèi)/戶外分類。戶外空地中混響通常為零，因?yàn)椴淮嬖谏⑸浔砻婧头瓷浔砻妗＠饪赡苁窃讵M窄街道上的高層建筑之間的位置。因此，知曉用戶處于戶外并不能確保混響線索在上下文分析和音頻增強(qiáng)中不被需要。

于此描述的各種實(shí)施方式涉及多麥克風(fēng)中多源傳感器信號(hào)捕捉和空間音頻捕捉，應(yīng)用音頻參數(shù)化的時(shí)間和空間上的音頻情景估計(jì)及上下文提取。于此描述的方法可以被用于ad-hoc(自組織)傳感器網(wǎng)絡(luò)、實(shí)時(shí)增強(qiáng)現(xiàn)實(shí)服務(wù)、設(shè)備和基于音頻的用戶接口。

各種實(shí)施方式提供一種用于使用雙耳、立體和多信道音頻信號(hào)的音頻上下文估計(jì)的方法。音頻情景的實(shí)時(shí)估計(jì)通過估計(jì)聲源位置、信道間相干性、離散音頻源運(yùn)動(dòng)和混響而被進(jìn)行。相干性線索可以被用于將音頻事件的混響拖尾與不受混響影響的自然衰減相干和“干燥”的信號(hào)區(qū)分開。此外，由于聲源遠(yuǎn)離觀察者移動(dòng)而引起的可能的聲級(jí)衰退效應(yīng)，移動(dòng)聲源被從混響時(shí)間估計(jì)中排除在外。具有分析空間音頻線索的能力改善了整體上下文分析可靠性。

掌握用戶周圍的整體聽覺上下文的情況對(duì)于增強(qiáng)現(xiàn)實(shí)概念(諸如實(shí)時(shí)指導(dǎo)和信息服務(wù)及例如隨境游戲)是有用的。于此描述的方法和設(shè)備提供用于關(guān)于混響、現(xiàn)有聲源的數(shù)量和它們相對(duì)運(yùn)動(dòng)的環(huán)境分析的手段。

在一些實(shí)施方式中上下文音頻環(huán)境估計(jì)開始于用戶周圍音頻圖像的參數(shù)化，其可以包括：

-估計(jì)聲源的數(shù)量和相應(yīng)的到達(dá)方向，以及使用到達(dá)估計(jì)的方向來(lái)優(yōu)選地在子頻帶域中追蹤聲源運(yùn)動(dòng)；

-在多于一個(gè)輸入信道被記錄以及單聲道記錄自相關(guān)的情況下，使用信道間相干性確定聲源環(huán)境；

-利用例如在每個(gè)單獨(dú)信道上的重疊窗口中的極大似然估計(jì)函數(shù)構(gòu)建衰減信號(hào)模型，以啟用連續(xù)和實(shí)時(shí)的上下文分析；

-使用例如高斯混合建模確定在范圍內(nèi)的源的數(shù)量；以及

-通過核查高斯混合的運(yùn)動(dòng)來(lái)確定移動(dòng)源。

參數(shù)化然后可以在一些實(shí)施方式中通過使用以下上下文知識(shí)中的一者或多者和/或組合的不同的模態(tài)而被精煉：

-通過丟棄對(duì)應(yīng)于無(wú)限衰減時(shí)間的太高的估計(jì)、或?qū)?yīng)于高相干信號(hào)、點(diǎn)狀源或快速移動(dòng)源的估計(jì)來(lái)改善混響估計(jì)；

-僅僅當(dāng)上下文分析保證合適條件時(shí)更新混響線索；

-在增強(qiáng)內(nèi)容渲染中應(yīng)用聲源位置和混響估計(jì)；以及

-根據(jù)上下文估計(jì)，當(dāng)自然源是相干和靜止的時(shí)候，以一定的間隙移動(dòng)與現(xiàn)有自然源相鄰的增強(qiáng)源。

本公開的音頻上下文分析方法可以在增強(qiáng)現(xiàn)實(shí)設(shè)備或移動(dòng)電話音頻增強(qiáng)模塊中實(shí)施。于此描述的算法將操縱處理一個(gè)或多個(gè)麥克風(fēng)信號(hào)、輸入的上下文分析408和增強(qiáng)內(nèi)容的渲染404。

本公開的音頻增強(qiáng)層可以包括用于多個(gè)麥克風(fēng)的輸入連接。所述系統(tǒng)可以進(jìn)一步包含用于應(yīng)用開發(fā)者和服務(wù)供應(yīng)商的API 402以輸入增強(qiáng)音頻分量和關(guān)于期望位置的元信息。

所述增強(qiáng)層對(duì)利用麥克風(fēng)捕捉的自然音頻環(huán)境的實(shí)施音頻上下文分析。當(dāng)例如由服務(wù)提供商或游戲應(yīng)用提供的增強(qiáng)內(nèi)容被渲染時(shí)，所述信息被應(yīng)用至音頻輸出。

圖5是示出上下文估計(jì)過程中執(zhí)行的步驟的流程圖。實(shí)際上，圖5根據(jù)一些實(shí)施方式詳細(xì)描繪了上下文分析過程500。首先，來(lái)自兩個(gè)或更多麥克風(fēng)的音頻信號(hào)被轉(zhuǎn)發(fā)至模塊502中的聲源和相干性估計(jì)工具。對(duì)應(yīng)的線索被提取至信號(hào)510用于上下文精煉及用于協(xié)助可能的增強(qiáng)音頻源處理階段。聲源運(yùn)動(dòng)估計(jì)利用模塊504中估計(jì)的位置信息的幫助而被進(jìn)行。輸出是在信號(hào)512中的現(xiàn)有源的數(shù)量及其運(yùn)動(dòng)信息。所捕捉到的音頻進(jìn)一步被轉(zhuǎn)發(fā)至模塊506中的混響估計(jì)。該混響估計(jì)在信號(hào)514中。最后，上下文信息使用模塊508中的所有估計(jì)的線索510、512和514而被精煉。該混響估計(jì)考慮位置、相干性和運(yùn)動(dòng)信息而被精煉。

注意到描述的實(shí)施方式中的一者或多者的各種硬件元件被稱為“模塊”，其完成(即，執(zhí)行、實(shí)行等)于此結(jié)合相應(yīng)模塊描述的不同功能。如于此所使用的，模塊包括相關(guān)領(lǐng)域技術(shù)人員認(rèn)為適合給定的實(shí)施方式中的硬件(例如，一個(gè)或多個(gè)處理器、一個(gè)或多個(gè)微處理器、一個(gè)或多個(gè)微控制器、一個(gè)或多個(gè)微芯片、一個(gè)或多個(gè)專用集成電路(ASIC)、一個(gè)或多個(gè)現(xiàn)場(chǎng)可編程門陣列(FPGA)、一個(gè)或多個(gè)存儲(chǔ)器設(shè)備)。每個(gè)所描述的模塊還可以包括可執(zhí)行的指令，用于實(shí)現(xiàn)描述的如相應(yīng)模塊完成的一個(gè)或多個(gè)功能，以及注意到那些指令可以采用以下形式或包括：硬件(即硬連線)指令、固件指令、軟件指令等等并且可以存儲(chǔ)在任何合適的非暫時(shí)性計(jì)算機(jī)可讀媒介或媒體，諸如通常稱為RAM、ROM等。

圖6是示出在使用上下文信息的音頻增強(qiáng)期間執(zhí)行的步驟的流程圖。實(shí)際上，圖6描繪了使用給定空間的上下文信息的一些實(shí)施方式的增強(qiáng)音頻源過程600。首先，增強(qiáng)源的設(shè)計(jì)位置考慮給定空間內(nèi)的自然源的估計(jì)位置而被改善。當(dāng)增強(qiáng)源被設(shè)計(jì)成與相干的、點(diǎn)狀自然源處于相同的位置或方向時(shí)，增強(qiáng)源在模塊602中移動(dòng)預(yù)定義度數(shù)。這幫助用戶分離源，并且內(nèi)容的可解度被改善。尤其在增強(qiáng)源和自然源均在例如電話會(huì)議類型的應(yīng)用場(chǎng)景中包含語(yǔ)音時(shí)。然而，當(dāng)自然聲音是非相干的時(shí)，例如平均歸一化相干性線索值低于閾值，諸如0.5，增強(qiáng)源不被移動(dòng)，即時(shí)其可能位于相同方向。HPTF處理可以被應(yīng)用于渲染模塊604中期望位置中的內(nèi)容。估計(jì)的混響線索被應(yīng)用至所有增強(qiáng)內(nèi)容以用于在模塊606中生成自然發(fā)聲的音頻體驗(yàn)。最后，所有增強(qiáng)源在模塊608中混合在一起并在增強(qiáng)現(xiàn)實(shí)設(shè)備中回放。

本公開中描述的音頻上下文估計(jì)的系統(tǒng)和方法的一些實(shí)施方式可以提供以下幾個(gè)不同優(yōu)勢(shì)中的一者或多者：

-利用對(duì)聽覺環(huán)境中全部條件的了解丟棄最明顯錯(cuò)誤的上下文估計(jì)以使得上下文算法是可靠的；

-聲源位置線索、相干性知識(shí)和環(huán)境的混響估計(jì)使能增強(qiáng)現(xiàn)實(shí)應(yīng)用中音頻內(nèi)容的自然渲染；

-易于實(shí)施，因?yàn)榭纱┐鞯脑鰪?qiáng)現(xiàn)實(shí)設(shè)備已經(jīng)具有用于例如連接至眼鏡的耳承式或頭戴式耳機(jī)而具有渲染3D音頻的手段。用于捕捉音頻內(nèi)容的麥克風(fēng)可以設(shè)置在移動(dòng)電話中或者優(yōu)選地設(shè)置在頭戴式框架中作為麥克風(fēng)陣列或利用安裝在接近用戶耳道或在用戶耳道中的麥克風(fēng)的立體聲/雙耳錄音：

-甚至具有麥克風(fēng)陣列和固定設(shè)置的非便攜增強(qiáng)現(xiàn)實(shí)設(shè)備的游戲機(jī)，由于給定空間的上下文可以在不設(shè)計(jì)任何特定測(cè)試過程或測(cè)試設(shè)置的情況下被估計(jì)而受益。該音頻處理鏈可以在后臺(tái)中進(jìn)行分析。

本公開中描述的增強(qiáng)音頻的系統(tǒng)和方法的一些實(shí)施方式可以提供以下幾個(gè)不同優(yōu)勢(shì)中的一者或多者：

-上下文估計(jì)通過捕捉和檢測(cè)用戶和增強(qiáng)現(xiàn)實(shí)設(shè)備周圍環(huán)境中的自然聲源而被進(jìn)行。無(wú)需使用人為生成或發(fā)射信標(biāo)或測(cè)試信號(hào)來(lái)檢測(cè)例如室內(nèi)聽覺響應(yīng)和混響來(lái)進(jìn)行分析。這是有益的，因?yàn)樵黾拥男盘?hào)可能妨礙服務(wù)體驗(yàn)并打攪用戶。最重要的是，用于增強(qiáng)現(xiàn)實(shí)解決方案的可穿戴設(shè)備甚至可以不具有輸出測(cè)試信號(hào)的手段。本公開中描述的方法可以包括主動(dòng)監(jiān)聽環(huán)境并在不干擾環(huán)境的情況下進(jìn)行可靠的估計(jì)。

-一些方法可能尤其有益于與未連接至任何預(yù)定義的或固定位置的可穿戴的增強(qiáng)設(shè)備和服務(wù)使用。用戶可以在不同位置周圍移動(dòng)以具有不同音頻環(huán)境。因此，為了根據(jù)用戶周圍的現(xiàn)行條件能夠渲染增強(qiáng)內(nèi)容，可穿戴設(shè)備可以進(jìn)行上下文的連續(xù)估計(jì)。

在移動(dòng)設(shè)備或可穿戴增強(qiáng)現(xiàn)實(shí)設(shè)備中音頻增強(qiáng)軟件層中的測(cè)試應(yīng)用功能是直接的。本公開的上下文線索精煉方法通過運(yùn)行諸如低混響監(jiān)聽室或無(wú)回音室的受控音頻環(huán)境中內(nèi)容增強(qiáng)服務(wù)而被測(cè)試。在測(cè)設(shè)設(shè)置中，服務(wù)API被饋送增強(qiáng)音頻內(nèi)容并且設(shè)備擴(kuò)音器或耳承式設(shè)備中的實(shí)際渲染內(nèi)容被記錄。

-測(cè)試開始于人為創(chuàng)建的混響聲音在測(cè)試室中回放。由增強(qiáng)現(xiàn)實(shí)設(shè)備或服務(wù)創(chuàng)建的渲染聲音的特征然后與原始增強(qiáng)內(nèi)容進(jìn)行比較。如果渲染聲音具有混響效應(yīng)，則音頻增強(qiáng)層軟件的混響估計(jì)工具被驗(yàn)證。

-下一步，不具有混響效應(yīng)的監(jiān)聽室內(nèi)的人為聲音在周圍移動(dòng)以創(chuàng)建衰減聲音效應(yīng)和可能的多普勒效應(yīng)。現(xiàn)在，當(dāng)比較增強(qiáng)源和渲染內(nèi)容的輸出不具有任何混響效應(yīng)時(shí)，音頻軟件的上下文精煉工具被驗(yàn)證。

-最后，室內(nèi)人為聲源被設(shè)置在與增強(qiáng)源的期望位置相同的相對(duì)位置。人為聲音作為點(diǎn)狀相干源被回放，并且包含用于降低相干性的混響。當(dāng)音頻軟件移動(dòng)增強(qiáng)源遠(yuǎn)離相干的自然聲音并在該自然聲音是不相干的情況下保持位置時(shí)，則該工具被驗(yàn)證。

圖7是可以在一些實(shí)施方式中使用的無(wú)線收發(fā)信機(jī)用戶設(shè)備的框圖。在一些實(shí)施方式中，于此描述的系統(tǒng)和方法可以在無(wú)線發(fā)射接收單元(WTRU)中實(shí)施，諸如圖7中所示的WTRU 702。在一些實(shí)施方式中，WTRU 702的組件可以在增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備中實(shí)施。如圖7所示，WTRU 702可以包括處理器718、收發(fā)信機(jī)720、發(fā)射/接收元件722、音頻轉(zhuǎn)換器724(優(yōu)選地包括至少兩個(gè)麥克風(fēng)和至少兩個(gè)揚(yáng)聲器，其可以是耳承式設(shè)備)、鍵盤726、顯示器/觸摸板728、不可移除存儲(chǔ)器730、可移除存儲(chǔ)器732、電源734、全球定位系統(tǒng)(GPS)芯片組736、以及其它外圍設(shè)備738。應(yīng)該理解的是，在保持符合實(shí)施方式的同時(shí)，WTRU 702可以包括任意子組合的前述元件。WTRU可以與節(jié)點(diǎn)通信，該節(jié)點(diǎn)諸如但不限于收發(fā)信臺(tái)(BTS)、節(jié)點(diǎn)B、站點(diǎn)控制器、接入點(diǎn)(AP)、家庭節(jié)點(diǎn)B、演進(jìn)型節(jié)點(diǎn)B(eNodeB)、家庭演進(jìn)節(jié)點(diǎn)B(HeNB)、家庭演進(jìn)節(jié)點(diǎn)B網(wǎng)關(guān)、及代理節(jié)點(diǎn)，等。

處理器718可以是通用處理器、專用處理器、常規(guī)處理器、數(shù)字信號(hào)處理器(DSP)、多個(gè)微處理器、與DSP內(nèi)核相關(guān)聯(lián)的一個(gè)或多個(gè)微處理器、控制器、微控制器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門陣列(FPGA)電路、其他任意類型的集成電路(IC)、狀態(tài)機(jī)等等。處理器718可以執(zhí)行信號(hào)編碼、數(shù)據(jù)處理、功率控制、輸入/輸出處理和/或其他任意能使WTRU702在無(wú)線環(huán)境中工作的功能。處理器718可以耦合至收發(fā)信機(jī)720，收發(fā)信機(jī)720可以耦合至發(fā)射/接收部件722。雖然圖7將處理器718和收發(fā)信機(jī)720描述成是獨(dú)立組件，但是應(yīng)該了解，處理器718和收發(fā)信機(jī)720可以集成在一個(gè)電子封裝或芯片中。

發(fā)射/接收部件722可以被配置成經(jīng)由空中接口715向節(jié)點(diǎn)發(fā)射信號(hào)或接收來(lái)自節(jié)點(diǎn)的信號(hào)。舉個(gè)例子，在一個(gè)實(shí)施方式中，發(fā)射/接收部件722可以是被配置成傳送和/或接收RF信號(hào)的天線。在另一個(gè)實(shí)施方式中，作為示例，發(fā)射/接收部件722可以是被配置成發(fā)射和/或接收IR、UV或可見光信號(hào)的發(fā)射器/檢測(cè)器。在又一個(gè)實(shí)施方式中，發(fā)射/接收部件722可以被配置成發(fā)射和接收RF和光信號(hào)。應(yīng)該理解的是，發(fā)射/接收部件722可以被配置成發(fā)射和/或接收無(wú)線信號(hào)的任意組合。

此外，雖然在圖7中將發(fā)射/接收部件722被描述成是單個(gè)部件，但是WTRU 702可以包括任意數(shù)量的發(fā)射/接收部件722。更具體地說(shuō)，WTRU 702可以使用MIMO技術(shù)。因此，在一個(gè)實(shí)施方式中，WTRU 702可以包括兩個(gè)或更多個(gè)經(jīng)由空中接口715來(lái)傳送和接收無(wú)線電信號(hào)的發(fā)射/接收部件722(例如多個(gè)天線)。

收發(fā)信機(jī)720可以被配置成對(duì)發(fā)射/接收部件722將要傳送的信號(hào)進(jìn)行調(diào)制，以及對(duì)發(fā)射/接收部件722接收的信號(hào)進(jìn)行解調(diào)。如上所述，WTRU 702可以具有多模能力。因此，收發(fā)信機(jī)720可以包括用于使WTRU 702能夠經(jīng)由諸如UTRA和IEEE 802.11之類的多種RAT來(lái)進(jìn)行通信的多個(gè)收發(fā)信機(jī)。

WTRU 102的處理器718可以耦合至揚(yáng)聲器/麥克風(fēng)724、鍵盤726和/或顯示器/觸摸板728(例如液晶顯示器(LCD)顯示單元或有機(jī)發(fā)光二極管(OLED)顯示單元)，并且可以接收來(lái)自這些部件的用戶輸入數(shù)據(jù)。處理器718還可以向揚(yáng)聲器/麥克風(fēng)724、鍵盤726和/或顯示器/觸摸板728輸出用戶數(shù)據(jù)。此外，處理器718可以從任意類型的適當(dāng)?shù)拇鎯?chǔ)器(例如不可移除存儲(chǔ)器730和/或可移除存儲(chǔ)器732)中訪問信息，以及將信息存入這些存儲(chǔ)器。所述不可移除存儲(chǔ)器730可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、硬盤或是其他任意類型的記憶存儲(chǔ)設(shè)備。可移除存儲(chǔ)器732可以包括用戶身份模塊(SIM)卡、記憶棒、安全數(shù)字(SD)記憶卡等等。在其他實(shí)施方式中，處理器718可以從那些并非實(shí)際位于WTRU 702上的存儲(chǔ)器訪問信息，以及將數(shù)據(jù)存入這些存儲(chǔ)器，其中舉例來(lái)說(shuō)，所述存儲(chǔ)器可以是位于服務(wù)器或家庭計(jì)算機(jī)(未顯示)上。

處理器718可以接收來(lái)自電源734的電力，并且可以被配置成分發(fā)和/或控制用于WTRU 702中的其他組件的電力。該電源734可以是為WTRU702供電的任意適當(dāng)?shù)脑O(shè)備。舉例來(lái)說(shuō)，該電源734可以包括一個(gè)或多個(gè)干電池組(如鎳鎘(Ni-Cd)、鎳鋅(Ni-Zn)、鎳金屬氫化物(NiMH)、鋰離子(Li-ion)等等)、太陽(yáng)能電池、燃料電池等等。

處理器718還可以與GPS芯片組736耦合，該芯片組可以被配置成提供與WTRU 702的當(dāng)前位置相關(guān)的位置信息(例如經(jīng)度和緯度)。作為來(lái)自GPS芯片組136的信息的補(bǔ)充或替換，WTRU 702可以經(jīng)由空中接口715接收來(lái)自基站的位置信息，和/或根據(jù)從兩個(gè)或多個(gè)附近基站接收的信號(hào)的時(shí)機(jī)來(lái)確定其位置。應(yīng)該了解的是，在保持符合實(shí)施方式的同時(shí)，WTRU 702可以借助任意適當(dāng)?shù)亩ㄎ环椒▉?lái)獲取位置信息。

處理器718還可以耦合到其他外圍設(shè)備738，該外圍設(shè)備738可以包括提供附加特征、功能和/或有線或無(wú)線連接的一個(gè)或多個(gè)軟件和/或硬件模塊。例如，該外圍設(shè)備738可以包括加速度計(jì)、電子指南針、衛(wèi)星收發(fā)信機(jī)、數(shù)碼相機(jī)(用于照片和視頻)、通用串行總線(USB)端口、振動(dòng)設(shè)備、電視收發(fā)信機(jī)、免提耳機(jī)、藍(lán)牙模塊、調(diào)頻(FM)無(wú)線電單元、數(shù)字音樂播放器、媒體播放器、視頻游戲機(jī)模塊、因特網(wǎng)瀏覽器等等。

圖8是示出根據(jù)至少一種實(shí)施方式的第一方法的流程圖。示例方法800于此通過示例方式被描述為由增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備完成。

在步驟802，頭戴式設(shè)備采集來(lái)自多個(gè)麥克風(fēng)的音頻信號(hào)。在至少一個(gè)實(shí)施方式中，所采樣的音頻信號(hào)不是測(cè)試信號(hào)。

在步驟804，頭戴式設(shè)備從所采樣的音頻信號(hào)確定至少一個(gè)音頻源的相應(yīng)位置。在至少一個(gè)實(shí)施方式中，使用雙耳線索編碼來(lái)執(zhí)行位置確定。在至少一個(gè)實(shí)施方式中，通過分析頻域中的子頻帶來(lái)執(zhí)行位置確定。在至少一個(gè)實(shí)施方式中，使用信道間時(shí)間差來(lái)執(zhí)行位置確定。

在步驟806，頭戴式設(shè)備渲染具有與至少一個(gè)確定位置相隔至少閾值間隔的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。在至少一個(gè)實(shí)施方式中，渲染包括應(yīng)用頭相關(guān)傳遞函數(shù)濾波。在至少一個(gè)實(shí)施方式中，確定的位置是角位置，并且閾值間隔是閾值角距離；在至少一個(gè)這種實(shí)施方式中，閾值角距離具有從包含5度和10度的組選擇的值。

在至少一種實(shí)施方式中，至少一個(gè)音頻源包括多個(gè)音頻源，并且虛擬位置與相應(yīng)確定的位置的每一者分隔至少閾值間隔。

在至少一種實(shí)施方式中，所述方法進(jìn)一步包括基于從包含諧振頻率、聲級(jí)和相干性的范圍的組選擇的一個(gè)或多個(gè)統(tǒng)計(jì)特性區(qū)分多個(gè)音頻源。

在至少一種實(shí)施方式中，多個(gè)音頻源中的每一者將相應(yīng)音頻分量貢獻(xiàn)至采樣的音頻信號(hào)，并且所述方法進(jìn)一步包括確定音頻分量的每一者具有超過預(yù)定相干性等級(jí)閾值的相應(yīng)相干性等級(jí)。

在至少一種實(shí)施方式中，所述方法進(jìn)一步包括使用高斯混合模型識(shí)別多個(gè)音頻源中的每一者。在至少一種實(shí)施方式中，所述方法進(jìn)一步包括至少部分通過確定到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)來(lái)識(shí)別多個(gè)音頻源中的每一者。在至少一種實(shí)施方式中，所述方法進(jìn)一步包括至少部分通過模型化到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)作為多個(gè)音頻源的概率分布函數(shù)的總和來(lái)識(shí)別多個(gè)音頻源中的每一者。

圖9是根據(jù)至少一種實(shí)施方式的第二方法的流程圖。圖9的示例方法900于此通過示例方式描述為通過增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備完成。

在步驟902，頭戴式設(shè)備從多個(gè)麥克風(fēng)采樣至少一個(gè)音頻信號(hào)。

在步驟904，頭戴式設(shè)備基于所采樣的至少一個(gè)音頻信號(hào)確定混響時(shí)間。

在步驟906，頭戴式設(shè)備至少部分基于所確定的混響時(shí)間修改增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。在至少一種實(shí)施方式中，步驟906包含將對(duì)應(yīng)于所確定的混響時(shí)間的混響應(yīng)用至增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。在至少一種實(shí)施方式中，步驟906包含將對(duì)應(yīng)于所確定的混響時(shí)間的混響濾波應(yīng)用至增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。在至少一種實(shí)施方式中，步驟906包含通過至少部分基于所確定的混響時(shí)間來(lái)放緩增強(qiáng)現(xiàn)實(shí)音頻信號(hào)(即，增減用于增強(qiáng)現(xiàn)實(shí)音頻信號(hào)的播放時(shí)間)。放緩音頻信號(hào)可以使得在混響顯著的環(huán)境中的音頻信號(hào)更容易被用戶所理解。

在步驟908，頭戴式設(shè)備渲染修改的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

附加實(shí)施方式

一種實(shí)施方式采用確定音頻上下文的方法的形式。該方法包括(i)從多個(gè)麥克風(fēng)采樣音頻信號(hào)；以及(ii)從所采樣的音頻信號(hào)確定至少一個(gè)音頻源的位置。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括渲染具有與所述至少一個(gè)音頻源的位置分離的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一種實(shí)施方式中，所述方法進(jìn)一步包括渲染具有與所述至少一個(gè)音頻源的位置分離的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)，以及渲染包括應(yīng)用頭相關(guān)傳遞函數(shù)濾波。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括渲染具有在水平面內(nèi)與音頻源的位置相隔至少5度的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括渲染具有在水平面內(nèi)與音頻源的位置相隔至少10度的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括(i)從所采樣的音頻信號(hào)確定多個(gè)音頻源的位置以及(ii)渲染具有不同于所有所述多個(gè)音頻源的所述位置的虛擬位置的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括(i)從所采樣的音頻信號(hào)確定多個(gè)音頻源的位置，每個(gè)音頻源將相應(yīng)音頻分量貢獻(xiàn)至采樣的音頻信號(hào)；(ii)確定每個(gè)相應(yīng)音頻分量的相干性等級(jí)；(iii)識(shí)別與超過預(yù)定閾值的相干性等級(jí)相關(guān)聯(lián)的一個(gè)或多個(gè)相干音頻源；以及(iv)渲染在不同于一個(gè)或多個(gè)相干音頻源的位置的虛擬位置處的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)實(shí)施方式中，所采樣的音頻信號(hào)不是測(cè)試信號(hào)。

在至少一種實(shí)施方式中，使用雙耳線索編碼來(lái)執(zhí)行位置確定。

在至少一個(gè)實(shí)施方式中，通過分析頻域中子頻帶來(lái)執(zhí)行位置確定。

在至少一個(gè)實(shí)施方式中，使用信道間時(shí)間差來(lái)執(zhí)行位置確定。

一種實(shí)施方式采用確定音頻上下文的方法的形式。所述方法包括(i)從多個(gè)麥克風(fēng)采樣音頻信號(hào)；(ii)識(shí)別多個(gè)音頻源，每個(gè)源將相應(yīng)音頻分量貢獻(xiàn)至所采樣的音頻信號(hào)；以及(iii)從所采樣的音頻信號(hào)確定至少一個(gè)音頻源的位置。

在至少一個(gè)這種實(shí)施方式中，音頻源的識(shí)別使用高斯混合模型來(lái)執(zhí)行。

在至少一個(gè)這種實(shí)施方式中，音頻源的識(shí)別包括確定到達(dá)數(shù)據(jù)的概率密度函數(shù)。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括追蹤所述多個(gè)音頻源。

在至少一個(gè)這種實(shí)施方式中，音頻源的識(shí)別通過模型化到達(dá)數(shù)據(jù)的方向的概率密度函數(shù)作為多個(gè)音頻源的概率分布函數(shù)的總和而被執(zhí)行。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括基于從包含諧振頻率、聲級(jí)和相干性的范圍的組選擇的一個(gè)或多個(gè)統(tǒng)計(jì)特性來(lái)區(qū)分不同音頻源。

一種實(shí)施方式采用確定音頻上下文的方法的形式。所述方法包括(i)從多個(gè)麥克風(fēng)采樣音頻信號(hào)；以及(ii)基于所采樣的音頻信號(hào)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，所采樣的音頻信號(hào)不是測(cè)試信號(hào)。

在至少一個(gè)這種實(shí)施方式中，混響時(shí)間的確定使用多個(gè)重疊采樣窗口來(lái)執(zhí)行。

在至少一個(gè)這種實(shí)施方式中，混響時(shí)間的確定使用極大似然估計(jì)來(lái)執(zhí)行。

在至少一個(gè)這種實(shí)施方式中，多個(gè)音頻信號(hào)被采樣，以及混響時(shí)間的確定包括：(i)針對(duì)多個(gè)所采樣的音頻信號(hào)中每一者確定信道間相干性參數(shù)；以及(ii)僅基于具有低于預(yù)定閾值的信道間相干性參數(shù)的信號(hào)來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，多個(gè)音頻信號(hào)被采樣，以及所述混響時(shí)間的確定包括：(i)針對(duì)多個(gè)采樣的音頻信號(hào)中的每一者，確定候選混響時(shí)間；以及(ii)僅基于具有低于預(yù)定閾值的候選混響時(shí)間的信號(hào)來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，混響時(shí)間的確定包括：(i)從所采樣的音頻信號(hào)識(shí)別多個(gè)音頻源，每個(gè)音頻源將關(guān)聯(lián)的音頻分量貢獻(xiàn)至所采樣的音頻信號(hào)；(ii)從所述關(guān)聯(lián)的音頻分量確定多個(gè)音頻源中每一者的角速度；以及(iii)僅基于與具有低于閾值角速度的角速度的音頻源相關(guān)聯(lián)的音頻分量來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，混響時(shí)間的確定包括：(i)從所采樣的音頻信號(hào)識(shí)別多個(gè)音頻源，每個(gè)音頻源將關(guān)聯(lián)的音頻分量貢獻(xiàn)至所采樣的音頻信號(hào)；(ii)使用多普勒效應(yīng)確定所述多個(gè)音頻源中每一者的徑向速度；以及(iii)僅基于與具有低于閾值徑向速度的徑向速度的音頻源相關(guān)聯(lián)的音頻分量來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，混響時(shí)間的確定包括：(i)從所采樣的音頻信號(hào)識(shí)別多個(gè)音頻源，每個(gè)音頻源將關(guān)聯(lián)的音頻分量貢獻(xiàn)至所采樣的音頻信號(hào)；以及(ii)僅基于實(shí)質(zhì)上靜止的音頻源來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括渲染具有對(duì)應(yīng)于所確定的混響時(shí)間的混響的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

一種實(shí)施方式采用確定音頻上下文的方法的形式。該方法包括(i)從多個(gè)麥克風(fēng)采樣音頻信號(hào)；(ii)從所采樣的音頻信號(hào)中識(shí)別多個(gè)音頻源；(iii)識(shí)別歸因于靜止音頻源的采樣的音頻信號(hào)的分量；以及(iv)至少部分基于歸因于所述靜止音頻源的采樣的音頻信號(hào)的分量來(lái)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，使用雙耳線索編碼執(zhí)行歸因于靜止音頻源的分量的識(shí)別。

在至少一個(gè)這種實(shí)施方式中，通過分析頻域中子頻帶來(lái)執(zhí)行歸因于靜止音頻源的分量的識(shí)別。

在至少一個(gè)這種實(shí)施方式中，使用信道間時(shí)間差來(lái)執(zhí)行歸因于靜止音頻源的分量的識(shí)別。

一種實(shí)施方式采用系統(tǒng)的形式，該系統(tǒng)包括(i)多個(gè)麥克風(fēng)；(ii)多個(gè)揚(yáng)聲器；(iii)處理器；以及(iv)具有存儲(chǔ)在其上的指令的非暫時(shí)性計(jì)算機(jī)可讀媒介，所述指令在由所述處理器執(zhí)行時(shí)可操作以下項(xiàng)(a)獲得來(lái)自多個(gè)麥克風(fēng)的多信道音頻采樣；(b)從所述多信道音頻采樣識(shí)別多個(gè)音頻源，每個(gè)源將相應(yīng)音頻分量貢獻(xiàn)至多信道音頻采樣；(c)確定每個(gè)音頻源的位置；以及(d)通過所述多個(gè)揚(yáng)聲器渲染增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述指令進(jìn)一步實(shí)施以渲染以在不同于所述多個(gè)音頻源的所述位置的虛擬位置處的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

在至少一個(gè)這種實(shí)施方式中，所述指令進(jìn)一步實(shí)施以從多信道音頻樣本確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，所述指令進(jìn)一步實(shí)施以(a)從多個(gè)音頻緣中識(shí)別至少一個(gè)靜止音頻源；以及(b)僅從與所述靜止音頻源相關(guān)聯(lián)的音頻分量確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，所述揚(yáng)聲器是耳承式設(shè)備。

在至少一個(gè)這種實(shí)施方式中，所述系統(tǒng)在增強(qiáng)現(xiàn)實(shí)頭戴式設(shè)備中實(shí)施。

在至少一個(gè)這種實(shí)施方式中，所述指令被實(shí)施以使用高斯混合建模來(lái)識(shí)別多個(gè)音頻源。

在至少一個(gè)這種實(shí)施方式中，所述指令進(jìn)一步實(shí)施以(a)針對(duì)每個(gè)音頻分量確定候選混響時(shí)間；以及(b)基于混響時(shí)間的候選混響時(shí)間小于預(yù)定閾值。

在至少一個(gè)這種實(shí)施方式中，所述系統(tǒng)在移動(dòng)電話中實(shí)施。

在至少一個(gè)這種實(shí)施方式中，所述指令進(jìn)一步實(shí)施以(a)從多信道音頻樣本確定混響時(shí)間；(b)使用所確定的混響時(shí)間將混響濾波器應(yīng)用至增強(qiáng)現(xiàn)實(shí)音頻信號(hào)；以及(c)通過所述多個(gè)揚(yáng)聲器渲染經(jīng)濾波的增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

一種實(shí)施方式采用方法的形式，該方法包括(i)在至少兩個(gè)信道上采樣多個(gè)音頻信號(hào)；(ii)針對(duì)每個(gè)音頻信號(hào)確定信道間相干性值；(iii)識(shí)別至少一個(gè)具有低于預(yù)定閾值的信道間相干性值的音頻信號(hào)；以及(iv)從所述至少一個(gè)具有低于預(yù)定閾值的信道間相干性值的音頻信號(hào)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括使用所確定的混響時(shí)間生成增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

一種實(shí)施方式采用方法的形式，該方法包括(i)在至少兩個(gè)信道上采樣多個(gè)音頻信號(hào)；(ii)確定表示針對(duì)每個(gè)音頻信號(hào)的源運(yùn)動(dòng)的值；(iii)識(shí)別至少一個(gè)具有低于預(yù)定閾值的源運(yùn)動(dòng)值的音頻信號(hào)；以及(iv)從具有低于所述預(yù)定閾值的源運(yùn)動(dòng)值的所述至少一個(gè)音頻信號(hào)確定混響時(shí)間。

在至少一個(gè)這種實(shí)施方式中，表示源運(yùn)動(dòng)的值是角速度。

在至少一個(gè)這種實(shí)施方式中，表示源運(yùn)動(dòng)的值是表示多普勒偏移的值。

在至少一個(gè)這種實(shí)施方式中，所述方法進(jìn)一步包括使用所確定的混響時(shí)間生成增強(qiáng)現(xiàn)實(shí)音頻信號(hào)。

一種實(shí)施方式采樣增強(qiáng)現(xiàn)實(shí)音頻系統(tǒng)的形式，該系統(tǒng)通過采樣音頻信號(hào)生成關(guān)于聽覺環(huán)境的信息。使用高斯混合模型或其它技術(shù)，所述系統(tǒng)識(shí)別一個(gè)或多個(gè)音頻源的位置，其中每個(gè)源將音頻分量貢獻(xiàn)至所采樣的音頻信號(hào)。所述系統(tǒng)使用音頻分量確定聽覺環(huán)境的混響時(shí)間。在確定混響時(shí)間時(shí)，所述系統(tǒng)可以丟棄來(lái)自被確定處于運(yùn)動(dòng)中的源的音頻分量，諸如具有高于閾值的角速度的分量或具有高于閾值的多普勒偏移的分量。所述系統(tǒng)還可以丟棄來(lái)自具有高于閾值的信道間相干性的源的音頻分量。在至少一個(gè)這種實(shí)施方式中，所述系統(tǒng)使用在與音頻源的位置分離的虛擬位置處的混響時(shí)間來(lái)渲染聲音。

結(jié)論

雖然在上文中描述了采用特定組合的特征和元素，但是本領(lǐng)域普通技術(shù)人員將會(huì)了解，每一個(gè)特征或元素既可以單獨(dú)使用，也可以與其他特征和元素進(jìn)行任意組合。此外，于此描述的方法可以在引入到計(jì)算機(jī)可讀介質(zhì)中并供計(jì)算或處理器運(yùn)行的計(jì)算機(jī)程序、軟件或固件中實(shí)施。關(guān)于計(jì)算機(jī)可讀介質(zhì)的示例包括但不局限于只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、寄存器、緩沖存儲(chǔ)器、半導(dǎo)體存儲(chǔ)設(shè)備、內(nèi)部硬盤盒可拆卸磁盤之類的磁介質(zhì)、磁光介質(zhì)、以及CD-ROM碟片和數(shù)字多用途碟片(DVD)之類的光學(xué)介質(zhì)。與軟件相關(guān)聯(lián)的處理器可以用于實(shí)施在WTRU、UE、終端、基站、RNC或任意主計(jì)算機(jī)中使用的射頻收發(fā)信機(jī)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3