本公開涉及音頻數(shù)據(jù)的處理。
背景技術(shù):
1、正在開發(fā)計(jì)算機(jī)介導(dǎo)的現(xiàn)實(shí)系統(tǒng),以允許計(jì)算設(shè)備對(duì)用戶體驗(yàn)到的現(xiàn)有現(xiàn)實(shí)進(jìn)行增強(qiáng)或添加、去除或減少、或通常進(jìn)行修改。計(jì)算機(jī)介導(dǎo)的現(xiàn)實(shí)系統(tǒng)(其也可以被稱為“擴(kuò)展現(xiàn)實(shí)系統(tǒng)”或“xr系統(tǒng)”)可以包括例如虛擬現(xiàn)實(shí)(vr)系統(tǒng)、增強(qiáng)現(xiàn)實(shí)(ar)系統(tǒng)和混合現(xiàn)實(shí)(mr)系統(tǒng)。計(jì)算機(jī)介導(dǎo)的現(xiàn)實(shí)系統(tǒng)的感知成功通常與此類計(jì)算機(jī)介導(dǎo)的現(xiàn)實(shí)系統(tǒng)在視覺和音頻體驗(yàn)兩者方面提供真實(shí)沉浸式體驗(yàn)的能力有關(guān),其中視覺和音頻體驗(yàn)以用戶期望的方式保持一致。盡管人類視覺系統(tǒng)比人類聽覺系統(tǒng)更敏感(例如,在場景內(nèi)的各種對(duì)象的感知定位方面),但是確保充分的聽覺體驗(yàn)是在確保真實(shí)的沉浸式體驗(yàn)方面越來越重要的因素,尤其是隨著視覺體驗(yàn)改善以允許更好地定位使用戶能夠更好地標(biāo)識(shí)音頻內(nèi)容的源的視覺對(duì)象。
技術(shù)實(shí)現(xiàn)思路
1、本公開整體涉及用于提供便于在音頻回放系統(tǒng)處進(jìn)行渲染的單獨(dú)音頻接口的技術(shù)。這些技術(shù)可以使音頻回放系統(tǒng)能夠使音頻元素的回放與視覺元素的回放同步。音頻回放系統(tǒng)可以包括音頻系統(tǒng)可以暴露的接口(諸如應(yīng)用編程接口即api),以便于與管理支持?jǐn)U展現(xiàn)實(shí)(xr)場景的一個(gè)或多個(gè)視覺元素的回放的場景管理器的交互。
2、在一些情況下,音頻元素可以不與視覺元素同時(shí)被捕獲,或者可以稍后添加(例如,在xr介導(dǎo)的會(huì)議期間,諸如xr視頻會(huì)議)。因此,音頻回放系統(tǒng)可以調(diào)用場景管理器以將一個(gè)或多個(gè)視覺元素與一個(gè)或多個(gè)音頻元素進(jìn)行匹配(例如,通過比較與一個(gè)或多個(gè)視覺元素和一個(gè)或多個(gè)音頻元素中的每一者相關(guān)聯(lián)的名稱或其他唯一標(biāo)識(shí)符即uid)。場景管理器可以修改定義一個(gè)或多個(gè)音頻元素的位姿(其可以指位置和/或取向)的音頻元數(shù)據(jù),以更緊密地對(duì)應(yīng)于匹配的一個(gè)或多個(gè)視覺元素。然后,場景管理器可以將修改后的音頻元數(shù)據(jù)輸出到音頻回放系統(tǒng)的音頻單元,該音頻單元可以將音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送。然后,音頻回放系統(tǒng)可以將一個(gè)或多個(gè)揚(yáng)聲器饋送輸出到一個(gè)或多個(gè)揚(yáng)聲器(其也可以稱為擴(kuò)音器、耳機(jī)揚(yáng)聲器或更一般地稱為換能器)。
3、因此,這些技術(shù)可以改進(jìn)音頻回放系統(tǒng)的操作,因?yàn)橐纛l回放系統(tǒng)可以更準(zhǔn)確地再現(xiàn)聲場(基于一個(gè)或多個(gè)揚(yáng)聲器饋送)以潛在地改善xr系統(tǒng)的沉浸式體驗(yàn)。也就是說,音頻回放系統(tǒng)可以修改音頻元數(shù)據(jù)以更緊密地匹配對(duì)應(yīng)的視覺元素,從而通過更高分辨率的音頻元數(shù)據(jù)增加xr體驗(yàn)的沉浸感,而不是基于可能與對(duì)應(yīng)的視覺元素不匹配的低分辨率音頻元數(shù)據(jù)來渲染音頻元素。因此,本公開中描述的技術(shù)的各個(gè)方面可以改進(jìn)音頻回放系統(tǒng)本身。
4、在一個(gè)示例中,這些技術(shù)涉及一種被配置為處理音頻比特流的設(shè)備,該設(shè)備包括:存儲(chǔ)器,該述存儲(chǔ)器被配置為存儲(chǔ)表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)視覺元素的視覺比特流和表示該擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的音頻比特流;以及處理電路,該處理電路其耦合到該存儲(chǔ)器且被配置為:基于與該至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
5、在另一示例中,這些技術(shù)涉及一種處理至少一個(gè)音頻元素的方法,該方法包括:基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
6、在另一示例中,這些技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),這些指令在被執(zhí)行時(shí)使一個(gè)或多個(gè)處理器:基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
7、在另一示例中,這些技術(shù)涉及一種被配置為處理音頻比特流的設(shè)備,該設(shè)備包括:存儲(chǔ)器,該述存儲(chǔ)器被配置為存儲(chǔ)表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)視覺元素的視覺比特流和表示該擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的音頻比特流;以及處理電路,該處理電路耦合到該存儲(chǔ)器并且被配置為執(zhí)行場景管理器和音頻單元,其中該場景管理器被配置為:基于與該至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);以及向該音頻單元注冊(cè)回調(diào),該音頻單元被配置為在渲染該至少一個(gè)音頻元素之前通過該回調(diào)請(qǐng)求修改后的音頻元數(shù)據(jù),并且其中該音頻單元被配置為:基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
8、在另一示例中,這些技術(shù)涉及一種處理至少一個(gè)音頻元素的方法,該方法包括:通過由處理電路執(zhí)行的場景管理器并且基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;由該場景管理器并且基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);通過由該處理電路執(zhí)行的音頻單元并且基于修改后的音頻元數(shù)據(jù)將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及由該音頻單元輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
9、在另一示例中,這些技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),這些指令在被執(zhí)行時(shí)使一個(gè)或多個(gè)處理器:執(zhí)行場景管理器,該場景管理器被配置為:基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;以及基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);以及執(zhí)行音頻單元,該音頻單元被配置為:基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
10、在另一示例中,這些技術(shù)涉及一種被配置為處理音頻比特流的設(shè)備,該設(shè)備包括:存儲(chǔ)器,該述存儲(chǔ)器被配置為存儲(chǔ)表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)視覺元素的視覺比特流和表示該擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的音頻比特流;以及處理電路,該處理電路耦合到該存儲(chǔ)器并且被配置為執(zhí)行場景管理器、音頻處理單元和音頻單元,其中該場景管理器被配置為:基于與該至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);以及將該音頻處理單元配置為基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射而修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù),其中該音頻處理單元被配置為:基于該配置,用修改后的音頻元數(shù)據(jù)替換該音頻比特流中的音頻元數(shù)據(jù);以及將該音頻比特流輸出到該音頻單元,并且其中該音頻單元被配置為:基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
11、在另一示例中,這些技術(shù)涉及一種處理至少一個(gè)音頻元素的方法,該方法包括:通過由處理電路執(zhí)行的場景管理器并且基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;由該場景管理器并且基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);由該場景管理器將音頻處理單元配置為基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射而修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);由該音頻處理單元并且基于該配置用修改后的音頻元數(shù)據(jù)替換該音頻比特流中的音頻元數(shù)據(jù);以及由該音頻處理單元將該音頻比特流輸出到由該處理電路執(zhí)行的音頻單元;由該音頻單元并且基于修改后的音頻元數(shù)據(jù)將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及由該音頻單元輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
12、在另一示例中,這些技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),這些指令在被執(zhí)行時(shí)使一個(gè)或多個(gè)處理器:執(zhí)行場景管理器,該場景管理器被配置為基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù)將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素,以及基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù),以及將音頻處理單元配置為基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);執(zhí)行該音頻處理單元以基于該配置用修改后的音頻元數(shù)據(jù)替換音頻比特流中的音頻元數(shù)據(jù),以及將該音頻比特流輸出到音頻單元;以及執(zhí)行該音頻單元,該音頻單元被配置為基于修改后的音頻元數(shù)據(jù)將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送,以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
13、在另一示例中,這些技術(shù)涉及一種被配置為處理音頻比特流的設(shè)備,該設(shè)備包括:存儲(chǔ)器,該述存儲(chǔ)器被配置為存儲(chǔ)表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)視覺元素的視覺比特流和表示該擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的音頻比特流;以及處理電路,該處理電路耦合到該存儲(chǔ)器并且被配置為執(zhí)行場景管理器和音頻單元,其中該場景管理器被配置為:基于與該至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)視覺元素的父節(jié)點(diǎn)以及依賴于該父節(jié)點(diǎn)并且表示該至少一個(gè)音頻元素的子節(jié)點(diǎn);以及基于該場景圖修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù),并且其中該音頻單元被配置為:基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
14、在另一示例中,這些技術(shù)涉及一種處理至少一個(gè)音頻元素的方法,該方法包括:通過由處理電路執(zhí)行的場景管理器并且基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;由該場景管理器并且基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)視覺元素的父節(jié)點(diǎn)以及依賴于該父節(jié)點(diǎn)并且表示該至少一個(gè)音頻元素的子節(jié)點(diǎn);由該場景管理器并且基于場景圖修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);通過由該處理電路執(zhí)行的音頻單元并且基于修改后的音頻元數(shù)據(jù)將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及由該音頻單元輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
15、在另一示例中,這些技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),這些指令在被執(zhí)行時(shí)使一個(gè)或多個(gè)處理器:執(zhí)行場景管理器,該場景管理器被配置為:基于與至少一個(gè)視覺元素相關(guān)聯(lián)的視覺元數(shù)據(jù)和與至少一個(gè)音頻元素相關(guān)聯(lián)的音頻元數(shù)據(jù),將該至少一個(gè)視覺元素映射到該至少一個(gè)音頻元素;由該場景管理器并且基于該至少一個(gè)視覺元素到該至少一個(gè)音頻元素的映射構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)視覺元素的父節(jié)點(diǎn)以及依賴于該父節(jié)點(diǎn)并且表示該至少一個(gè)音頻元素的子節(jié)點(diǎn);以及由該場景管理器并且基于場景圖修改該音頻元數(shù)據(jù)以獲得修改后的音頻元數(shù)據(jù);以及執(zhí)行音頻單元,該音頻單元被配置為:基于修改后的音頻元數(shù)據(jù),將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
16、在另一示例中,這些技術(shù)涉及一種被配置為處理比特流的設(shè)備,該設(shè)備包括:存儲(chǔ)器,該存儲(chǔ)器被配置為存儲(chǔ)表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的比特流以及與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻描述性信息;以及處理電路,該處理電路耦合到該存儲(chǔ)器并且被配置為執(zhí)行場景管理器和音頻單元,其中該場景管理器被配置為:基于該至少一個(gè)音頻元素構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)音頻元素的至少一個(gè)節(jié)點(diǎn);以及基于該場景圖修改該音頻描述性信息以獲得修改后的音頻描述性信息,并且其中該音頻單元被配置為:基于修改后的音頻描述性信息,將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
17、在另一示例中,這些技術(shù)涉及一種方法,該方法包括:獲得表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的比特流以及與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻描述性信息;以及基于該至少一個(gè)音頻元素構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)音頻元素的至少一個(gè)節(jié)點(diǎn);以及基于該場景圖修改該音頻描述性信息以獲得修改后的音頻描述性信息,以及基于修改后的音頻描述性信息將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
18、在另一示例中,這些技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),這些指令在被執(zhí)行時(shí)使處理電路:獲得表示擴(kuò)展現(xiàn)實(shí)場景中的至少一個(gè)音頻元素的比特流以及與該至少一個(gè)音頻元素相關(guān)聯(lián)的音頻描述性信息;以及基于該至少一個(gè)音頻元素構(gòu)建場景圖,該場景圖包括表示該至少一個(gè)音頻元素的至少一個(gè)節(jié)點(diǎn);以及基于該場景圖修改該音頻描述性信息以獲得修改后的音頻描述性信息,以及基于修改后的音頻描述性信息將該至少一個(gè)音頻元素渲染到一個(gè)或多個(gè)揚(yáng)聲器饋送;以及輸出該一個(gè)或多個(gè)揚(yáng)聲器饋送。
19、在附圖和以下說明書中闡述了本公開內(nèi)容的一個(gè)或多個(gè)示例的細(xì)節(jié)。根據(jù)說明書和附圖以及根據(jù)權(quán)利要求,所述技術(shù)的各個(gè)方面的其他特征、目的和優(yōu)勢(shì)將是顯而易見的。