2D數字人實時互動方法、裝置、設備、存儲介質及產品與流程

文檔序號：41744721發布日期：2025-04-25 17:28閱讀：9來源：國知局

本技術涉及計算機，尤其涉及2d數字人實時互動方法、裝置、設備、存儲介質及產品。

背景技術：

1、數字人技術集成了計算機圖形學、動作捕捉、自然語言處理、語音識別與合成等多種人工智能技術。數字人技術能夠創建具備人類特征的虛擬人物，這些特征包括外貌、行為和交互能力。數字人可以存在于非物理世界中，通過計算機手段被創造和使用，數字人不僅模擬人類的外貌特征，還能模擬人類的行為，如行走、說話、表情變化等。

2、相關技術中，通常是將用戶輸入的文本/語音輸入到大語言模型中獲取對應文本回答，再通過tts技術從文本生成音頻，用音頻驅動數字人。但是該方法存在數字人難以實時驅動，數字人視頻會卡頓的問題。

3、上述內容僅用于輔助理解本技術的技術方案，并不代表承認上述內容是現有技術。

技術實現思路

1、本技術的主要目的在于提供一種2d數字人實時互動方法，旨在解決相關技術中存在數字人難以實時驅動，數字人視頻會卡頓的技術問題。

2、為實現上述目的，本技術提出一種2d數字人實時互動方法，所述2d數字人實時互動的方法包括：

3、響應于用戶輸入指令，確定答復音頻以及所述答復音頻相應的數字人圖像；

4、基于預設的時間幀順序，通過預設的音頻寫入進程，將每幀答復音頻傳入至音頻管道，以及通過預設的圖片寫入進程，將每幀數字人圖像傳入至圖片管道；

5、基于所述時間幀順序和預設的視頻編碼進程，將音頻管道中每幀答復音頻和圖片管道中每幀數字人圖像進行視頻編碼，得到目標數字人視頻，其中，所述視頻編碼進程、所述音頻寫入進程以及所述圖片寫入進程是按照所述時間幀順序并行執行的；

6、播放所述目標數字人視頻，以實現數字人與用戶間的互動。

7、可選地，所述確定答復音頻以及所述答復音頻相應的數字人圖像的步驟，包括：

8、基于所述用戶輸入指令，確定答復音頻；

9、提取各幀所述答復音頻對應的音頻特征；

10、按照預設的時間長度，對所述音頻特征進行劃分，得到劃分后的音頻特征，以使每一幀音頻包括預設數量的連續音頻特征；

11、基于所述劃分后的音頻特征，生成相應的數字人唇形圖像，并基于預設的數字人底圖和所述數字人唇形圖像，生成所述答復音頻相應的數字人圖像。

12、可選地，所述按照預設的時間長度，對所述音頻特征進行劃分，得到劃分后的音頻特征的步驟，包括：

13、分別對所述音頻特征中首特征和尾特征進行復制，得到相應數量的首復制特征和尾復制特征；

14、將所述首復制特征擴充至所述首特征之前，以及將所述尾復制特征擴充至所述尾特征之后，得到邊緣擴充后的音頻特征；

15、按照預設的時間長度，對所述邊緣擴充后的音頻特征進行劃分，得到劃分后的音頻特征。

16、可選地，所述基于預設的數字人底圖和所述數字人唇形圖像，生成所述答復音頻相應的數字人圖像的步驟，包括：

17、獲取數字人的唇形位置信息；

18、基于所述唇形位置信息，將預設的數字人底圖中唇形對應區域替換為所述數字人唇形圖像，得到所述答復音頻相應的數字人圖像，其中，所述數字人底圖是預加載至內存中的。

19、可選地，所述2d數字人實時互動的方法包括：

20、在數字人與用戶間的互動過程中，確定數字人第一狀態的第一視頻、第二狀態的第二視頻，其中，第一狀態是指數字人初始靜默狀態，所述第二狀態是指數字人傾聽狀態或者數字人答復狀態；

21、基于所述第一視頻，確定相應的初態幀；

22、將所述初態幀分別加入各數字人視頻的第一幀前和最后一幀后，得到修改后的數字人視頻，其中，數字人視頻包括所述第一視頻和所述第二視頻；

23、將所述修改后的數字人視頻進行拼接，得到拼接后的數字人視頻，播放所述拼接后的數字人視頻，以實現數字人狀態切換。

24、可選地，所述將所述初態幀分別加入各數字人視頻的第一幀前和最后一幀后，得到修改后的數字人視頻的步驟，包括：

25、基于所述初態幀，通過插幀算法，生成相應的中間幀；

26、將所述初態幀分別加入各數字人視頻的第一幀前和最后一幀后，并將所述中間幀分別加入至各數字人視頻的第一幀和所述初態幀之間，以及最后一幀和所述初態幀之間，得到修改后的數字人視頻。

27、此外，為實現上述目的，本技術還提出一種2d數字人實時互動裝置，所述2d數字人實時互動裝置包括：

28、確定模塊，用于響應于用戶輸入指令，確定答復音頻以及所述答復音頻相應的數字人圖像；

29、寫入模塊，用于基于預設的時間幀順序，通過預設的音頻寫入進程，將每幀答復音頻傳入至音頻管道，以及通過預設的圖片寫入進程，將每幀數字人圖像傳入至圖片管道；

30、編碼模塊，用于基于所述時間幀順序和預設的視頻編碼進程，將音頻管道中每幀答復音頻和圖片管道中每幀數字人圖像進行視頻編碼，得到目標數字人視頻，其中，所述視頻編碼進程、所述音頻寫入進程以及所述圖片寫入進程是按照所述時間幀順序并行執行的；

31、播放模塊，用于播放所述目標數字人視頻，以實現數字人與用戶間的互動。

32、此外，為實現上述目的，本技術還提出一種2d數字人實時互動設備，所述設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序配置為實現如上文所述的2d數字人實時互動方法的步驟。

33、此外，為實現上述目的，本技術還提出一種存儲介質，所述存儲介質為計算機可讀存儲介質，所述存儲介質上存儲有計算機程序，所述計算機程序被處理器執行時實現如上文所述的2d數字人實時互動方法的步驟。

34、此外，為實現上述目的，本技術還提供一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時實現如上文所述的2d數字人實時互動方法的步驟。

35、本技術提出的一個或多個技術方案，至少具有以下技術效果：

36、相關技術中，通常是將用戶輸入的文本/語音輸入到大語言模型中獲取對應文本回答，再通過tts技術從文本生成音頻，用音頻驅動數字人。但是該方法存在數字人難以實時驅動，數字人視頻會卡頓的問題，與之相比，本技術響應于用戶輸入指令，確定答復音頻以及所述答復音頻相應的數字人圖像；基于預設的時間幀順序，通過預設的音頻寫入進程，將每幀答復音頻傳入至音頻管道，以及通過預設的圖片寫入進程，將每幀數字人圖像傳入至圖片管道；基于所述時間幀順序和預設的視頻編碼進程，將音頻管道中每幀答復音頻和圖片管道中每幀數字人圖像進行視頻編碼，得到目標數字人視頻，其中，所述視頻編碼進程、所述音頻寫入進程以及所述圖片寫入進程是按照所述時間幀順序并行執行的；播放所述目標數字人視頻，以實現數字人與用戶間的互動。可理解的是，本技術提出將視頻編碼進程、音頻寫入進程以及圖片寫入進程是按照所述時間幀順序并行執行，一方面保持圖片和音頻的同步性，避免單一模態的數據在圖片管道或者音頻管道中積壓過多，另一方面按照時間幀順序進行同步執行，實現實時生成視頻片段，且生成的速度快，以此提高數字人視頻的流暢性，進而實現數字人實時驅動，數字人視頻流暢的效果。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：朱勰戎,李國鳴,潘濤,錢學成
技術所有人：招商銀行股份有限公司
我是此專利的發明人

上一篇：一種石莼復合破壁酶解發酵產物及其制備方法和應用與流程
上一篇：一種船舶的裝卸貨自動化判斷方法與流程

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

2D數字人實時互動方法、裝置、設備、存儲介質及產品與流程