增強演奏場景合成控制方法及裝置與流程

文檔序號：11153831閱讀：481來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機技術(shù)領(lǐng)域，特別涉及一種增強演奏場景合成控制方法及裝置。

背景技術(shù)：

增強現(xiàn)實(Augmented Reality，簡稱AR)技術(shù)，是一種實時地計算攝影機影像的位置及角度并加上相應(yīng)圖像的技術(shù)，這種技術(shù)的目標(biāo)是在屏幕上把虛擬世界套在現(xiàn)實世界并進行互動。AR技術(shù)不僅展現(xiàn)了真實世界的信息，而且能將虛擬的信息同時顯示出來，兩種信息相互補充、疊加。在視覺化的增強現(xiàn)實中，用戶利用頭盔顯示器，把真實世界與電腦圖形多重合成在一起，便可以看到真實的世界圍繞著它。該技術(shù)包含了虛擬現(xiàn)實(VR)技術(shù)、多媒體、三維建模、實時視頻顯示及控制、多傳感器融合、實時跟蹤及注冊、場景融合等新技術(shù)。隨著電子產(chǎn)品運算能力的提升，增強現(xiàn)實的用途越來越廣。

在音樂演奏的應(yīng)用中，增強現(xiàn)實技術(shù)就能夠得到充分的應(yīng)用。隨著VR(虛擬現(xiàn)實)技術(shù)的發(fā)展，特定樂器3D模型場景的生成已經(jīng)成為現(xiàn)實，將其與增強現(xiàn)實技術(shù)中其他技術(shù)內(nèi)容相結(jié)合完全可以實現(xiàn)對虛擬樂器的模擬和交互，這能夠為廣大音樂演奏者大大擴展樂器選擇范圍，例如申請公布號為CN103456286的發(fā)明專利申請就形成了虛擬鼓并進行演奏，申請公布號為CN105786162的發(fā)明專利申請甚至提供了虛擬演奏指揮方法。然而，增強現(xiàn)實技術(shù)提供的虛擬演奏中樂器由VR技術(shù)提供，聲音則由相關(guān)數(shù)據(jù)庫提供并伴隨虛擬樂器的演奏而產(chǎn)生，只能實現(xiàn)演奏者與虛擬樂器的交互，可見的演奏場景仍然是虛擬的，而且僅演奏者自己可見，而在網(wǎng)絡(luò)直播場景中需要除演奏者之外的觀眾都能夠看到真實或者是接近真實的樂器、演奏者影像以及演奏過程，在近年來蓬勃發(fā)展的網(wǎng)絡(luò)直播領(lǐng)域未見使用虛擬樂器進行網(wǎng)絡(luò)直播的技術(shù)，也即增強現(xiàn)實技術(shù)在樂器演奏上的應(yīng)用仍然在網(wǎng)絡(luò)直播中無法實現(xiàn)。

技術(shù)實現(xiàn)要素：

基于此，為了實現(xiàn)增強現(xiàn)實技術(shù)在樂器演奏網(wǎng)絡(luò)直播中的應(yīng)用，提供一種增強演奏場景合成控制方法及裝置。

一種增強演奏場景合成控制方法，包括下列步驟：

添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中；

從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，伴隨該用戶手勢在該音視頻流的圖像流中改變所述演奏控制部位的控制狀態(tài)，且調(diào)用與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流；

將包含有所述圖像流和所述音頻流的合成音視頻流推送到所述的直播間。

在其中一個實施例中，所述伴隨該用戶手勢在該音視頻流的圖像流中改變所述演奏控制部位的控制狀態(tài)的步驟具體包括：

檢測到所述用戶手勢的幀信息滿足據(jù)以判定所述演奏控制部位的控制變化的參考信息，以預(yù)定時間間隔連續(xù)記錄所述用戶手勢的幀信息并得到累積幀數(shù)；

當(dāng)所述累積幀數(shù)達到預(yù)定幀數(shù)，確定所述用戶手勢對應(yīng)的所述演奏控制部位的控制變化；

響應(yīng)于所述控制變化，改變所述演奏控制部位的控制狀態(tài)。

在其中一個實施例中，添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中的步驟包括：

確定被用戶選擇的預(yù)定的虛擬樂器的樂器類型，獲取與所述樂器類型相對應(yīng)的配置文件；

調(diào)取所述配置文件中所指定的虛擬樂器的對應(yīng)圖像；

通過特定圖像合成算法將所述對應(yīng)圖像合并到所述直播間的音視頻流中。

在其中一個實施例中，所述直播間的音視頻流中包括演奏者三維圖像和預(yù)設(shè)直播間場景圖像，所述演奏者三維圖像獲取自計算機形成的三維模型，該三維模型包括由實景影像經(jīng)計算機計算形成的使用者三維虛擬形象，或

由計算機三維動畫形成的動畫形象。

在其中一個實施例中，將包含有所述圖像流和所述音頻流的合成音視頻流推送到所述的直播間的步驟還包括，將所述合成音視頻流通過預(yù)定壓縮編碼算法進行壓縮編碼，再推送到所述直播間。

在其中一個實施例中，從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢的步驟具體為：

獲取所述圖像流中的演奏者三維圖像，分割出其中人手部分的三維圖像數(shù)據(jù)信息；

利用預(yù)定算法檢測出所述人手部分的三維圖像數(shù)據(jù)信息中的手指信息數(shù)據(jù)，并形成手指運動軌跡的信息數(shù)據(jù)；

將所述手指運動軌跡的信息數(shù)據(jù)與所述演奏控制部位的信息數(shù)據(jù)進行數(shù)學(xué)合并，據(jù)以實現(xiàn)識別出作用于該虛擬樂器的演奏控制部位的用戶手勢。

在其中一個實施例中，所述將包含有所述圖像流和所述音頻流的合成音視頻流推送到所述的直播間的步驟之前還包括，將所述合成音視頻流中的視頻流投射到支持虛擬現(xiàn)實技術(shù)的視頻顯示單元，據(jù)以對所述合成音視頻流中的視頻流進行三維視角顯示，同時將合成音視頻流中的音頻流推送到音頻播放單元以進行音頻播放。

本發(fā)明提供的增強演奏場景合成控制方法為增強現(xiàn)實技術(shù)在樂器演奏網(wǎng)絡(luò)直播應(yīng)用提供了一條可行的途徑，該方法和裝置可將演奏者演奏虛擬樂器的過程以及演奏產(chǎn)生的聲音真實展現(xiàn)給網(wǎng)絡(luò)直播間的觀眾。

本發(fā)明同時提供了一種增強演奏場景合成控制裝置，包括：

圖像合并模塊，用于添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中；

音視頻融合模塊，用于從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，伴隨該用戶手勢在該音視頻流的圖像流中改變所述演奏控制部位的控制狀態(tài)，且調(diào)用與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流；

輸出模塊，用于將包含有所述圖像流和所述音頻流的合成音視頻流推送到所述的直播間。

在其中一個實施例中，所述音視頻融合模塊包括：

檢測單元，用于檢測到所述用戶手勢的幀信息滿足據(jù)以判定所述演奏控制部位的控制變化的參考信息，以預(yù)定時間間隔連續(xù)記錄所述用戶手勢的幀信息并得到累積幀數(shù)；

識別單元，用于當(dāng)所述累積幀數(shù)達到預(yù)定幀數(shù)，確定所述用戶手勢對應(yīng)的所述演奏控制部位的控制變化；

執(zhí)行單元，用于響應(yīng)于所述控制變化，改變所述演奏控制部位的控制狀態(tài)。

在其中一個實施例中，所述增強演奏場景合成控制裝置還包括：

預(yù)覽單元，用于將所述合成音視頻流中的視頻流投射到支持虛擬現(xiàn)實技術(shù)的視頻顯示單元，據(jù)以對所述合成音視頻流中的視頻流進行三維視角顯示，同時將合成音視頻流中的音頻流推送到音頻播放單元以進行音頻播放。

與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點：

通過將構(gòu)建得到的虛擬樂器圖像結(jié)合到反映現(xiàn)實場景的網(wǎng)絡(luò)直播間音視頻流中而形成增強演奏場景，再經(jīng)對用戶手勢的辨識和分析，使增強演奏場景中的虛擬樂器控制狀態(tài)伴隨用戶手勢而變化，再隨著虛擬樂器控制狀態(tài)的變化而調(diào)配與之相對應(yīng)的聲音，實現(xiàn)演奏圖像與聲音的良好同步，使得演奏者只要施展演奏動作即可達到演奏樂曲的目的，由此取得通過增強演奏場景進行虛擬樂器演奏并進行網(wǎng)絡(luò)直播的效果。又由于增強演奏場景合成控制方法中的演奏者圖像、虛擬樂器和直播間場景均為預(yù)先設(shè)定，演奏者可任意挑選需要展示的形象、需要使用的樂器以及演奏背景，使虛擬樂器演奏直播突破了演奏者形象、演奏場地和演奏樂器的限制，節(jié)省了樂器演奏直播成本，并極大豐富了網(wǎng)絡(luò)直播的內(nèi)容。

附圖說明

圖1為本發(fā)明一實施例的增強演奏場景合成控制方法的流程圖；

圖2為本發(fā)明一實施例的增強演奏場景合成控制方法中步驟S100的具體流程圖；

圖3為本發(fā)明一實施例的增強演奏場景合成控制方法中步驟S200的具體流程圖；

圖4為本發(fā)明另一實施例的增強演奏場景合成控制方法中步驟S200的具體流程圖；

圖5為本發(fā)明一實施例的增強演奏場景合成控制裝置結(jié)構(gòu)示意圖；

圖6為本發(fā)明一實施例的增強演奏場景合成控制裝置中音視頻融合模塊的結(jié)構(gòu)示意圖；

圖7為本發(fā)明另一實施例的增強演奏場景合成控制裝置中音視頻融合模塊的結(jié)構(gòu)示意圖；

圖8為本發(fā)明一實施例的增強演奏場景合成控制裝置中輸出模塊的結(jié)構(gòu)示意圖。

具體實施方式

下面詳細描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件時，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)，具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語，應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣被特定定義，否則不會用理想化或過于正式的含義來解釋。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，這里所使用的“終端”、“終端設(shè)備”既包括無線信號接收器的設(shè)備，其僅具備無發(fā)射能力的無線信號接收器的設(shè)備，又包括接收和發(fā)射硬件的設(shè)備，其具有能夠在雙向通信鏈路上，進行雙向通信的接收和發(fā)射硬件的設(shè)備。這種設(shè)備可以包括：蜂窩或其他通信設(shè)備，其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設(shè)備；PCS(Personal Communications Service，個人通信系統(tǒng))，其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力；PDA(Personal Digital Assistant，個人數(shù)字助理)，其可以包括射頻接收器、尋呼機、互聯(lián)網(wǎng)/內(nèi)聯(lián)網(wǎng)訪問、網(wǎng)絡(luò)瀏覽器、記事本、日歷和/或GPS(Global Positioning System，全球定位系統(tǒng))接收器；常規(guī)膝上型和/或掌上型計算機或其他設(shè)備，其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計算機或其他設(shè)備。這里所使用的“終端”、“終端設(shè)備”可以是便攜式、可運輸、安裝在交通工具(航空、海運和/或陸地)中的，或者適合于和/或配置為在本地運行，和/或以分布形式，運行在地球和/或空間的任何其他位置運行。這里所使用的“終端”、“終端設(shè)備”還可以是通信終端、上網(wǎng)終端、音樂/視頻播放終端，例如可以是PDA、MID(Mobile Internet Device，移動互聯(lián)網(wǎng)設(shè)備)和/或具有音樂/視頻播放功能的移動電話，也可以是智能電視、機頂盒等設(shè)備。

增強現(xiàn)實技術(shù)是一種將真實世界信息和虛擬世界信息“無縫”集成的技術(shù)，包含了多媒體、三維建模、實時視頻顯示及控制、多傳感器融合、實時跟蹤及注冊、場景融合、虛擬現(xiàn)實(VR)等新技術(shù)，是把原本在現(xiàn)實世界的一定時間空間范圍內(nèi)很難體驗到的實體信息(視覺、聽覺、觸覺甚至味覺等)，通過計算機技術(shù)、傳感器技術(shù)、攝像技術(shù)等，對某種或某幾種情景進行模擬仿真后再疊加，將虛擬的信息應(yīng)用到真實世界，使真實的環(huán)境和虛擬的物體實時地疊加到了同一個畫面或空間同時存在，再通過特定的儀器被人類感官所感知，從而達到超越現(xiàn)實的感官體驗。

虛擬現(xiàn)實(VR)也是多種技術(shù)的綜合，包括實時三維計算機圖形技術(shù)，廣角(寬視野)立體顯示技術(shù)，對觀察者頭、眼和手的跟蹤技術(shù)，以及觸覺/力覺反饋、立體聲、網(wǎng)絡(luò)傳輸、語音輸入輸出技術(shù)等。

本發(fā)明一實施例提供了一種增強演奏場景合成控制方法，如圖1所示，該增強演奏場景合成控制方法包括下列步驟：

步驟S100：添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中。

在進行樂器演奏直播過程中，需要有演奏者、樂器、演奏場地場景以及錄音攝像設(shè)備等，而現(xiàn)有的網(wǎng)絡(luò)直播中只需要有攝像頭、話筒以及接入互聯(lián)網(wǎng)的電腦即可實現(xiàn)，如果進行樂器演奏網(wǎng)路直播，則需要將二者所需要的設(shè)備人員結(jié)合起來。引入虛擬樂器，可以將現(xiàn)實的樂器省去，改由現(xiàn)有的VR構(gòu)建技術(shù)生成，這將突破樂器種類的限制，在一個特定場所，不論大小的場所，都可以進行各種樂器的演奏直播。虛擬樂器由支持VR技術(shù)的設(shè)備生成，現(xiàn)有的VR設(shè)備有很多，而本發(fā)明中只需要使用VR技術(shù)生成具有特定樂器的3D模型場景以及產(chǎn)生特定樂器的聲音，基本需求能夠十分方便地得到實現(xiàn)。虛擬樂器經(jīng)支持虛擬現(xiàn)實技術(shù)的環(huán)境模擬模塊在預(yù)定物體上形成，同時交互模塊在預(yù)定物體上注入交互界面，比如如果需要鋼琴，則在一張普通桌面上投射交互界面，如果是笛子，則可在一根類似笛子的長棒上注入交互界面，交互界面可選擇可見方式(即使用者之外的第三人可以看見)，也可選擇不可見方式，但是不可見方式的交互界面能夠在特定顯示儀器中顯示(比如VR頭盔)，在交互界面上由匹配虛擬現(xiàn)實技術(shù)的傳感器采集肢體運動的信息，更為詳細具體的虛擬樂器生成方式可由相關(guān)技術(shù)領(lǐng)域的技術(shù)人員構(gòu)建。通過VR技術(shù)生成預(yù)定的虛擬樂器之后，將虛擬樂器對應(yīng)的圖像添加到直播間的音視頻流中。

直播間本身存在各種音視頻流，這些音視頻流包括直播間所處的場景圖像以及演奏者的三維圖像，該音視頻流可以通過計算機進行圖像和/或聲音的編輯。其中演奏者三維圖像獲取自計算機形成的三維模型，該三維模型既包括經(jīng)計算機計算形成的使用者三維虛擬形象，又可以選用計算機三維動畫形成的動畫形象。對于使用者三維虛擬形象的得來包括兩個步驟，首先由實景攝像機對演奏者進行全方位影像采集，例如站姿六視圖、坐姿六視圖、演奏姿勢六視圖以及各角度動態(tài)影像等等，視圖影像的數(shù)據(jù)越多，記錄角度越精細，能夠生成的使用者三維虛擬形象越接近真人形象，在演奏時更是需要實時采集演奏者的實景影像，實景影像采集自設(shè)定數(shù)量的攝像機，攝像機設(shè)置在預(yù)定位置，例如在演奏者的頭頂、背后、面前以及左右側(cè)都分別設(shè)置若干臺攝像機，攝像機可采用3D攝像機；再由計算機通過3D影像合成技術(shù)處理獲取到的實景影像數(shù)據(jù)形成為演奏者的三維虛擬形象，該三維虛擬形象通過現(xiàn)有三維視頻圖像軟件可以很方便地實現(xiàn)，本領(lǐng)域技術(shù)人員通過相關(guān)軟件即可完成。當(dāng)然也可以選擇計算機三維動畫作為演奏者三維圖像，直接使用計算機即可實現(xiàn)這一技術(shù)特征，然而此時卻使得演奏網(wǎng)路直播并不完全接近于真實，但可以大幅度降低直播成本，因此也能夠有很廣泛的應(yīng)用。無論演奏者三維圖像以三維虛擬形象的形式還是以三維動畫的形式出現(xiàn)，其表現(xiàn)的動作直接與真實存在的人(即演奏者)的動作保持同步。

優(yōu)選的，如圖2所示，添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中的步驟包括：

步驟S110：確定被用戶選擇的預(yù)定的虛擬樂器的樂器類型，獲取與所述樂器類型相對應(yīng)的配置文件。首先用戶在可供選擇的虛擬樂器庫中選定其中一個，系統(tǒng)確認被選擇的樂器種類，并獲取到與所選擇的樂器類型相對應(yīng)的配置文件，該配置文件包括一系列描述信息，這些描述信息指定到與虛擬樂器對應(yīng)的三維圖像，例如在鋼琴、吉他、小提琴、笛子或二胡等等樂器庫中，用戶選擇其中的鋼琴，則在系統(tǒng)中會加載到與鋼琴相關(guān)的配置文件，該配置文件指定到與鋼琴相對應(yīng)的三維圖像。

步驟S120：調(diào)取所述配置文件中所指定的虛擬樂器的對應(yīng)圖像。

根據(jù)配置文件中的描述，將用戶選擇到的虛擬樂器所對應(yīng)的圖像從系統(tǒng)數(shù)據(jù)庫中調(diào)取出來，例如調(diào)出虛擬鋼琴的三維圖像。

步驟S130：通過特定圖像合成算法將所述對應(yīng)圖像合并到所述直播間的音視頻流中。

調(diào)取到虛擬樂器的對應(yīng)三維圖像，通過系統(tǒng)后臺運行的某些圖像處理軟件，通過特定的圖像合成算法將其與直播間既有的音視頻流合并，實現(xiàn)在直播間的音視頻流中加載呈現(xiàn)出虛擬樂器的圖像，具體操作方法相關(guān)領(lǐng)域技術(shù)人員能夠知曉。

步驟S200：從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，伴隨該用戶手勢在該音視頻流的圖像流中改變演奏控制部位的控制狀態(tài)，且調(diào)用與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流。

在直播間中出現(xiàn)與演奏者對應(yīng)的演奏者三維圖像以及演奏者持握的虛擬樂器三維圖像之后，演奏過程進入待演奏狀態(tài)，此時需要將現(xiàn)實中的演奏者演奏動作被系統(tǒng)捕捉并感知到，即系統(tǒng)從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，在演奏者三維圖像中用戶手勢最為關(guān)鍵，尤其是進入虛擬樂器演奏控制部位的用戶手勢，虛擬樂器演奏控制部位例如鋼琴的鍵盤、小提琴或二胡等弦樂器的琴弓、笛子等管樂器的孔位，而用戶手勢即是手部手指的動作，利用指尖跟蹤識別算法可以實現(xiàn)實際演奏者與虛擬樂器的交互。指尖跟蹤識別算法有多種，例如Camshift(Continuously Adaptive Mean-SHIFT)算法或者特征空間匹配法等都能夠?qū)崿F(xiàn)對手指動作的檢測和跟蹤。伴隨用戶手勢在該音視頻流的圖像流中改變演奏控制部位的控制狀態(tài)，即通過指尖跟蹤識別算法實現(xiàn)實際演奏者演奏動作與演奏者三維圖像在虛擬樂器上的相關(guān)之后，伴隨演奏者的每一個動作，演奏者三維圖像也相應(yīng)在虛擬樂器上形成演奏動作，而演奏動作本質(zhì)上是演奏控制部位的控制狀態(tài)的變化，比如某一個琴鍵被按下或者笛子的某一個發(fā)音孔被放開等。而一旦演奏控制部位的控制狀態(tài)有變化，則相應(yīng)調(diào)取與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流，這些音頻配置信息包括虛擬樂器的聲音音色、音調(diào)和音高等，以鋼琴為例，音頻配置信息中包括鋼琴發(fā)出聲音的音色，也包括鋼琴每個琴鍵對應(yīng)的音調(diào)和音高等描述聲音的元素，該音頻配置信息可以由獨立的聲音配置文件描述和指定，也可以在與虛擬樂器相對應(yīng)的配置文件中被描述和指定，并且與某一虛擬樂器對應(yīng)的三維圖像相匹配，每一幀三維圖像都對應(yīng)著一定時長的樂器聲音，最后使得連貫的圖像與連貫的聲音相匹配，形成帶有樂曲的演奏畫面。

優(yōu)選的，如圖3所示，從音視頻流中的圖像流中識別出作用于虛擬樂器的演奏控制部位的用戶手勢的步驟具體為：

步驟S210：獲取圖像流中的演奏者三維圖像，分割出其中人手部分的三維圖像數(shù)據(jù)信息。例如利用微軟的Kinect設(shè)備獲取演奏者三維圖像的深度信息，利用SVM方法同膚色識別相結(jié)合分割出人手部分。

步驟S220：利用預(yù)定算法檢測出所述人手部分的三維圖像數(shù)據(jù)信息中的手指信息數(shù)據(jù)，并形成手指運動軌跡的信息數(shù)據(jù)。分割出人手部分之后，再利用SVM方法或者其他指尖跟蹤識別算法實現(xiàn)對手指的檢測和跟蹤，形成人手手指運動的軌跡信息數(shù)據(jù)。

步驟S230：將手指運動軌跡的信息數(shù)據(jù)與所述演奏控制部位的信息數(shù)據(jù)進行數(shù)學(xué)合并，據(jù)以實現(xiàn)識別出作用于該虛擬樂器的演奏控制部位的用戶手勢。根據(jù)步驟S220形成人手手指運動的軌跡信息數(shù)據(jù)之后，通過相關(guān)數(shù)學(xué)處理，例如將手指指尖三維運動的軌跡坐標(biāo)同虛擬樂器三維模型數(shù)據(jù)相結(jié)合或相對比等處理，實現(xiàn)對演奏動作的識別。

優(yōu)選的，如圖4所示，伴隨用戶手勢在音視頻流的圖像流中改變演奏控制部位的控制狀態(tài)的步驟具體包括：

步驟S210’：檢測到用戶手勢的幀信息滿足據(jù)以判定演奏控制部位的控制變化的參考信息，以預(yù)定時間間隔連續(xù)記錄用戶手勢的幀信息并得到累積幀數(shù)。

在計算機中，人們看到的任何視頻都是由一系列的圖片按照一定速率連貫放映形成的，描述這一系列圖片中的一副所用的單位為幀，一幀就是一副靜止的畫面，連續(xù)的幀就形成動畫。系統(tǒng)對具有用戶手勢的圖像流進行分析，檢測到某一用戶手勢對應(yīng)的幀信息(即圖像流中的某一副或若干幅圖像)滿足判定演奏控制部位的控制變化的參考信息，這樣的參考信息可能是圖像中用戶手勢離某一演奏控制部位的距離，也可能是圖像中某一用戶手勢在某一演奏控制部位的位置。當(dāng)系統(tǒng)檢測到第一幅這樣的幀信息，系統(tǒng)將判斷演奏者可能進行樂器上某一個音的演奏，從而開始按照預(yù)定的時間間隔連續(xù)記錄用戶手勢的幀信息得到一定的累積幀數(shù)，此項技術(shù)內(nèi)容是為了記錄用戶手勢的變化趨勢，防止系統(tǒng)在演奏者只是將要碰觸到樂器時就發(fā)出演奏聲音。

步驟S220’：當(dāng)所述累積幀數(shù)達到預(yù)定幀數(shù)，確定所述用戶手勢對應(yīng)的所述演奏控制部位的控制變化。一旦滿足控制變化的參考信息的幀數(shù)的累積數(shù)量得到預(yù)定數(shù)量，則系統(tǒng)確定用戶手勢對應(yīng)的演奏動作，確定要進行演奏控制部位的控制變化。此項步驟是對用戶手勢的變化趨勢進行分析之后，得到一個準(zhǔn)確的變化結(jié)果，使樂器演奏更加精準(zhǔn)。

步驟S230’：響應(yīng)于控制變化，改變演奏控制部位的控制狀態(tài)。確定用戶手勢對應(yīng)的演奏控制部位的控制變化之后，改變演奏控制部位的控制狀態(tài)，比如琴鍵被按下，或者琴弦的位置轉(zhuǎn)移，于此同時，發(fā)出相應(yīng)控制狀態(tài)對應(yīng)的樂器聲音。在技術(shù)原理層面上看，由于視頻是由一定數(shù)量的幀以一定速率播放形成的，只有通過分析若干幀的畫面確實代表演奏者在敲擊某一個音鍵時，該音鍵的聲音才被調(diào)配發(fā)生出來，所以實際上是演奏者的實際演奏與直播間中的聲音發(fā)出之間有一些時間延遲，即二者并不是完全同步，但是計算機處理速度很快，這樣的時間延遲十分短暫，可以達到觀眾不可察覺的程度。

經(jīng)過步驟S200，系統(tǒng)將來源于VR設(shè)備的虛擬樂器三維圖像與直播間中的音視頻流合并，通過實景影像攝錄設(shè)備(例如雙目攝像機)或者指尖識別跟蹤設(shè)備(例如微軟的Kinect設(shè)備，3D體感攝影機的一種)，攝取演奏者的用戶三維圖像特別是用戶手勢，將其與虛擬樂器三維圖像聯(lián)動，并伴隨該聯(lián)動發(fā)出被選中的虛擬樂器的聲音，最后得到虛擬樂器的對應(yīng)圖像的圖像流和直播間音頻流的合成音視頻流。

步驟S300：將包含有所述圖像流和所述音頻流的合成音視頻流推送到所述的直播間。

在合成音視頻流生成之后，可以將其再推送到直播間當(dāng)中，通過相關(guān)設(shè)備對外播出，直播間中的觀眾能夠看到演奏者演奏樂器的場景，聽到演奏出來的聲音。優(yōu)選的，在推送到直播間之前，先將該合成音視頻流進行三維視角顯示，通過三維顯示設(shè)備預(yù)覽演奏過程，同時在音頻播放單元中播放合成音視頻流中的音頻流，一方面為演奏者自身提供一個演奏過程的三維視角，讓其完全沉浸在接近真實的演奏場景之中，實現(xiàn)增強現(xiàn)實方式的演奏，另一方面也為視頻質(zhì)量提供一個檢查的途徑，從而保證演奏網(wǎng)絡(luò)直播的高質(zhì)量進行。

優(yōu)選的，在向直播間推送合成音視頻流的過程中，將合成音視頻流通過預(yù)定壓縮編碼算法進行壓縮編碼，再推送到直播間當(dāng)中，例如通過H264編碼將合成音視頻流進行壓縮編碼，再上傳到服務(wù)器，服務(wù)器再分發(fā)到各個觀眾用戶客戶端解碼，觀眾觀看虛擬樂器的直播表演。當(dāng)然，現(xiàn)有三維顯示技術(shù)尚未普及，所以可以將三維格式的合成音視頻流轉(zhuǎn)變?yōu)槎S格式，再向直播間推送播出。

適應(yīng)前述的方法，基于計算機模塊化思維，本發(fā)明的另一實施例提供一種增強演奏場景合成控制裝置，如圖5所示，包括：

圖像合并模塊10，用于添加預(yù)定的虛擬樂器的對應(yīng)圖像到從攝像單元獲取且將被推送到直播間的音視頻流中。通過VR技術(shù)生成預(yù)定的虛擬樂器之后，圖像合并模塊10將虛擬樂器對應(yīng)的圖像添加到直播間的音視頻流中。直播間本身已經(jīng)存在各種音視頻流，這些音視頻流包括直播間所處的場景圖像以及演奏者的三維圖像，該音視頻流可以通過計算機進行圖像和/或聲音的編輯，比如根據(jù)用戶的喜好選擇不同的直播間渲染顏色、風(fēng)格以及大小等，調(diào)整演奏者三維圖像類型以及外觀等。

音視頻融合模塊20，用于從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，伴隨該用戶手勢在該音視頻流的圖像流中改變所述演奏控制部位的控制狀態(tài)，且調(diào)用與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流。

音視頻融合模塊20解決的是將演奏者、虛擬樂器以及二者所處的場景與聲音匹配起來，達到伴隨著視頻流中演奏狀態(tài)的變化準(zhǔn)確播放與演奏狀態(tài)變化相適應(yīng)的聲音的目的。在直播間中出現(xiàn)與演奏者對應(yīng)的演奏者三維圖像以及演奏者持握的虛擬樂器三維圖像之后，演奏進入待演奏狀態(tài)，此時需要將現(xiàn)實中的演奏者演奏動作被系統(tǒng)捕捉并感知到，即系統(tǒng)從該音視頻流中的圖像流中識別出作用于該虛擬樂器的演奏控制部位的用戶手勢，在演奏者三維圖像中用戶手勢最為關(guān)鍵，尤其是進入虛擬樂器演奏控制部位的用戶手勢，而用戶手勢即是手部手指的動作，利用指尖跟蹤識別算法可以實現(xiàn)實際演奏者與虛擬樂器的交互。伴隨用戶手勢在該音視頻流的圖像流中改變演奏控制部位的控制狀態(tài)，即通過指尖跟蹤識別算法實現(xiàn)實際演奏者演奏動作與演奏者三維圖像在虛擬樂器上的相關(guān)之后，伴隨演奏者的每一個動作，演奏者三維圖像也相應(yīng)在虛擬樂器上形成演奏動作，而演奏動作本質(zhì)上是演奏控制部位的控制狀態(tài)的變化，一旦演奏控制部位的控制狀態(tài)有變化，則系統(tǒng)中的音視頻融合模塊20相應(yīng)調(diào)取與該虛擬樂器相對應(yīng)的音頻配置信息，生成插入到該音視頻流中的與該演奏控制部位的控制狀態(tài)相適應(yīng)的音頻流，這些音頻配置信息包括虛擬樂器的聲音音色、音調(diào)和音高等，以鋼琴為例，音頻配置信息中包括鋼琴發(fā)出聲音的音色，也包括鋼琴每個琴鍵對應(yīng)的音調(diào)和音高等描述聲音的元素，該音頻配置信息可以由獨立的聲音配置文件描述和指定，也可以在與虛擬樂器相對應(yīng)的配置文件中被描述和指定，并且與某一虛擬樂器對應(yīng)的三維圖像相匹配，每一幀三維圖像都對應(yīng)著一定時長的樂器聲音，最后使得連貫的圖像與連貫的聲音相匹配，形成帶有樂曲的演奏畫面。

優(yōu)選的，如圖6所示，音視頻融合模塊20包括：

解析單元21：用于獲取圖像流中的演奏者三維圖像，分割出其中人手部分的三維圖像數(shù)據(jù)信息。例如利用微軟的Kinect設(shè)備獲取演奏者三維圖像的深度信息，利用SVM方法同膚色識別相結(jié)合分割出人手部分。

運算單元22：用于利用預(yù)定算法檢測出所述人手部分的三維圖像數(shù)據(jù)信息中的手指信息數(shù)據(jù)，并形成手指運動軌跡的信息數(shù)據(jù)。

辨識單元23：用于將手指運動軌跡的信息數(shù)據(jù)與所述演奏控制部位的信息數(shù)據(jù)進行數(shù)學(xué)合并，據(jù)以實現(xiàn)識別出作用于該虛擬樂器的演奏控制部位的用戶手勢。

作為另一個優(yōu)選的方案，如圖7所示，音視頻融合模塊20包括：

檢測單元21’：檢測到用戶手勢的幀信息滿足據(jù)以判定演奏控制部位的控制變化的參考信息，以預(yù)定時間間隔連續(xù)記錄用戶手勢的幀信息并得到累積幀數(shù)。

識別單元22’：用于當(dāng)所述累積幀數(shù)達到預(yù)定幀數(shù)，確定所述用戶手勢對應(yīng)的所述演奏控制部位的控制變化。一旦滿足控制變化的參考信息的幀數(shù)的累積數(shù)量得到預(yù)定數(shù)量，則系統(tǒng)確定用戶手勢對應(yīng)的演奏動作，確定要進行演奏控制部位的控制變化。此項步驟是對用戶手勢的變化趨勢進行分析之后，得到一個準(zhǔn)確的變化結(jié)果，使樂器演奏更加精準(zhǔn)。

執(zhí)行單元23’：用于響應(yīng)于控制變化，改變演奏控制部位的控制狀態(tài)。確定用戶手勢對應(yīng)的演奏控制部位的控制變化之后，改變演奏控制部位的控制狀態(tài)，比如琴鍵被按下，或者琴弦的位置轉(zhuǎn)移，于此同時，發(fā)出相應(yīng)控制狀態(tài)對應(yīng)的樂器聲音。

輸出模塊30，用于將包含有所述圖像流和所述音頻流的最終音視頻流推送到所述的直播間。

音視頻融合模塊20生成合成音視頻流之后，輸出模塊30可以將其再推送到直播間中，通過相關(guān)設(shè)備對外播出，使直播間中的觀眾能夠看到演奏者演奏樂器的場景，聽到演奏出來的聲音。

優(yōu)選的，如圖8所示，增強演奏場景合成控制裝置中的輸出模塊30還包括：

預(yù)覽單元31：用于將所述合成音視頻流中的視頻流投射到支持虛擬現(xiàn)實技術(shù)的視頻顯示單元，據(jù)以對所述合成音視頻流中的視頻流進行三維視角顯示，同時將合成音視頻流中的音頻流推送到音頻播放單元以進行音頻播放。在推送到直播間之前，先將該合成音視頻流進行三維視角顯示，通過三維顯示設(shè)備預(yù)覽演奏過程，同時在音頻播放單元中播放合成音視頻流中的音頻流，一方面為演奏者自身提供一個演奏過程的三維視角，讓其完全沉浸在接近真實的演奏場景之中，實現(xiàn)增強現(xiàn)實方式的演奏，另一方面也為視頻質(zhì)量提供一個檢查的途徑，從而保證演奏網(wǎng)絡(luò)直播的高質(zhì)量進行。

為便于本領(lǐng)域技術(shù)人員更容易理解本發(fā)明的實現(xiàn)方式，以下示例敘述實際場景中如何通過增強演奏場景合成控制方法實現(xiàn)虛擬樂器演奏的網(wǎng)絡(luò)直播的：

在配置有增強演奏場景合成控制裝置的場地內(nèi)，演奏者打開直播間界面，選擇虛擬樂器演奏直播，進入虛擬樂器演奏直播界面之后，首先選擇界面上提供的虛擬樂器中的一個，比如鋼琴，再選擇直播間界面，例如在音樂教室當(dāng)中，還可以選擇在直播間視頻中的演奏者三維圖像，比如選擇計算機形成的演奏者的三維模型(需要預(yù)先通過計算機以相關(guān)三維模擬技術(shù)生成)。系統(tǒng)開始生成鋼琴，演奏者眼前戴有VR設(shè)備，能夠通過該設(shè)備看到面前的鋼琴，而除演奏者之外的其他人能通過直播間的視頻界面看到演奏者坐在鋼琴前面，或者通過預(yù)覽設(shè)備觀察到演奏者坐在鋼琴前面，而在現(xiàn)實世界當(dāng)中，演奏者只是坐在一張空無一物的桌子面前，頭戴VR設(shè)備。或者由支持增強現(xiàn)實技術(shù)的設(shè)備在演奏者面前的桌子上投放出一臺鋼琴的三維立體影像，演奏者可以直接看到鋼琴，在現(xiàn)場的其他人也能看到這臺鋼琴，而鋼琴的鍵盤在桌面上(以免在沒有桌子或者其他支撐物的情況下，演奏者雙手懸空會演奏比較吃力)。演奏者開始敲擊鋼琴琴鍵(實際場景中為桌面)，如在正常鋼琴上演奏，場地內(nèi)的攝影捕捉設(shè)備，如3D體感攝影機，可選用微軟公司的Kinect，捕捉到演奏者的動作，特別是手指的運動軌跡，伴隨該演奏者手指的運動，直播間的視頻中顯示演奏者在相應(yīng)演奏鋼琴，演奏者每敲擊一個琴鍵，增強演奏場景合成控制裝置中的音響設(shè)備相應(yīng)發(fā)出敲擊這個琴鍵產(chǎn)生的聲音，敲擊時間長，聲音相應(yīng)持續(xù)時間長，敲擊時間短，則相應(yīng)持續(xù)時間短促，重擊和輕敲均發(fā)出不同音量的聲音，整體的效果是在直播間視頻中可以觀察到演奏者在演奏鋼琴，發(fā)出演奏產(chǎn)生的音樂，而其他登錄該網(wǎng)絡(luò)直播間的觀眾在其電腦中的視頻播放界面上就看到演奏者在鋼琴上演奏某一樂曲，如同現(xiàn)場直播。如果播放設(shè)備具備播放三維視頻的能力，直播間視頻的觀眾將看到三維立體的樂器演奏場景，聽到樂器演奏出來的音樂，如果播放設(shè)備暫不具備播放三維視頻的能力，觀眾將看到目前普遍具有的二維演奏畫面，同樣聽到演奏者用所選樂器演奏出的聲音。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以用計算機程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以將這些計算機程序指令提供給通用計算機、專業(yè)計算機或其他可編程數(shù)據(jù)處理方法的處理器來實現(xiàn)，從而通過計算機或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進一步地，具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進一步地，現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實施方式，應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：寧華龍;
技術(shù)所有人：廣州華多網(wǎng)絡(luò)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

場景合成相關(guān)技術(shù)

裝置藝術(shù)應(yīng)用場景相關(guān)技術(shù)

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

增強演奏場景合成控制方法及裝置與流程