一種3D數字人的實時交互方法及裝置與流程

文檔序號：41761614發布日期：2025-04-29 18:30閱讀：5來源：國知局

本發明涉及3d數字人，具體涉及一種3d數字人的實時交互方法及裝置。

背景技術：

1、近些年，隨著元宇宙概念的興起以及計算機圖形學技術的發展，特別是隨著計算機硬件的提升而開發出的高級渲染技術，3d數字人技術得到了蓬勃發展。通過這些技術，3d數字人可以模擬真實世界中的人類形象和動作。

2、目前，3d數字人已經廣泛應用于教育、直播、客服等場景?，F在3d數字人與用戶交互的主要形式是基于規則的問答型對話，即依賴于人工編寫的對話系統規則或規則庫，進而實現對用戶提出的問題進行解析，在規則庫已有的內容中查找并返回答案，對于規則外的對話，3d數字人并不能給出令人滿意的回答。此外，3d數字人每次的問答都是獨立的，并不會聯系上下文信息,并不具備多輪對話的能力，對于不同的語言，還需為每種語言編寫不同規則。因此，按照預設規則對每種對話語言進行解析存在較大的局限性且應用不夠靈活。

技術實現思路

1、有鑒于此，本發明提供了一種3d數字人的實時交互方法及裝置，以解決按照預設規則對每種對話語言進行解析，存在較大的局限性且應用不夠靈活的問題。

2、根據第一方面，本公開實施例提供一種3d數字人的實時交互方法，方法包括：

3、在目標用戶與3d數字人對話時，采集目標用戶發起的第一對話數據；

4、通過語音識別單元將第一對話數據轉為第一對話文本；

5、通過語言識別模型識別第一對話文本對應的第二對話文本，第二對話文本為第一對話文本的應答文本；

6、通過語音合成單元合成第二對話文本，得到目標語音數據；

7、基于目標語音數據，通過唇語生成器生成目標唇語數據；

8、驅動3d數字人按照目標唇語數據回應目標用戶。

9、本公開實施例在目標用戶與3d數字人對話時，采集目標用戶發起的第一對話數據；通過語音識別單元將第一對話數據轉為第一對話文本；通過語言識別模型識別第一對話文本對應的第二對話文本，第二對話文本為第一對話文本的應答文本；通過語音合成單元合成第二對話文本，得到目標語音數據；基于目標語音數據，通過唇語生成器生成目標唇語數據；驅動3d數字人按照目標唇語數據回應目標用戶。另外，本公開對目標用戶發起的第一對話數據，依次經過語音識別單元轉換為第一對話文本，再輸入語言識別模型識別出應答文本，再合成為應答語音后經過唇語生成器生成目標唇語數據，最后驅動3d數字人作出語音應答，可以保證目標用戶得到準確、自然、真實的反饋。并且通過語音對話的方式進行交互，簡單便捷，能夠展現出高度逼真的對話情景，增強了目標用戶的交互體驗。

10、在一些可選的實施方式中，通過語音識別單元將第一對話數據轉換為第一對話文本，包括：

11、通過語音識別單元對第一對話數據依次進行過濾處理、填補處理、異常處理、特征提取處理、特征轉換處理后得到第一對話文本。

12、本公開實施例通過語音識別單元對第一對話數據依次進行過濾處理、填補處理、異常處理、特征提取處理、特征轉換處理，有利于將第一對話數據轉換至精確的第一對話文本。

13、在一些可選的實施方式中，通過語言識別模型識別第一對話文本對應的第二對話文本，第二對話文本為第一對話文本的應答文本，包括：

14、從第一對話文本中提取文本特征序列；

15、將文本特征序列切分為多個預設文本長度的文本文特征向量；

16、將多個預設文本長度的文本文特征向量輸入至語言識別模型進行編碼與解碼得到第二對話文本為第一對話文本的應答文本，以及得到第一對話文本的識別結果與第一對話文本的真實標簽之間的損失值，損失值用于不斷迭代更新語言識別模型的參數。

17、本公開實施例通過語言識別模型，有利于精準識別出第一對話文本對應的應答文本。

18、在一些可選的實施方式中，通過語音合成單元合成第二對話文本，包括：

19、通過語音合成單元對第二對話文本依次進行分段處理、分詞處理、韻律預測處理、字音轉換處理后得到目標語音數據。

20、本公開實施例有利于將第一對話文本對應的第二對話文本合成精確的語音數據。

21、在一些可選的實施方式中，基于目標語音數據，通過唇語生成器生成目標唇語數據，包括：

22、通過唇語生成器從目標語音數據中提取語音波形數據，再基于該語音波形數據預測對應的唇形序列動畫數據，唇形序列動畫數據為目標唇語數據。

23、本公開實施例通過唇語生成器有利于將語音波形數據轉換成唇形序列動畫數據。

24、在一些可選的實施方式中，驅動3d數字人按照目標唇語數據回應目標用戶，包括：

25、驅動3d數字人按照目標唇語數據展示相應的肢體動作以回應目標用戶。

26、本公開實施例通過3d數字人集成語音和唇形數據，以擬人化方式對應回復目標用戶，讓目標用戶體驗更加真實。

27、第二方面，本發明提供了一種3d數字人的實時交互裝置，裝置包括：

28、數據采集模塊，用于在目標用戶與3d數字人對話時，采集目標用戶發起的第一對話數據；

29、數據轉換模塊，用于通過語音識別單元將第一對話數據轉為第一對話文本；

30、數據識別模塊，用于通過語言識別模型識別第一對話文本對應的第二對話文本，第二對話文本為第一對話文本的應答文本；

31、數據合成模塊，用于通過語音合成單元合成第二對話文本；

32、唇語生成模塊，用于基于第二對話文本，通過唇語生成器生成目標唇語數據；

33、動作驅動模塊，用于驅動3d數字人按照目標唇語數據回應目標用戶。

34、第三方面，本發明提供了一種計算機設備，包括：存儲器和處理器，存儲器和處理器之間互相通信連接，存儲器中存儲有計算機指令，處理器通過執行計算機指令，從而執行上述第一方面或其對應的任一實施方式的3d數字人的實時交互方法。

35、第四方面，本發明提供了一種計算機可讀存儲介質，該計算機可讀存儲介質上存儲有計算機指令，計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的3d數字人的實時交互方法。

36、第五方面，本公開實施例提供一種計算機程序產品，包括計算機指令，計算機指令用于使計算機執行第一方面或第一方面任一實施方式中的3d數字人的實時交互方法。

技術特征：

1.一種3d數字人的實時交互方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，通過語音識別單元將所述第一對話數據轉換為第一對話文本，包括：

3.根據權利要求1所述的方法，其特征在于，通過語言識別模型識別所述第一對話文本對應的第二對話文本，所述第二對話文本為所述第一對話文本的應答文本，包括：

4.根據權利要求1所述的方法，其特征在于，通過語音合成單元合成所述第二對話文本，包括：

5.根據權利要求1所述的方法，其特征在于，基于所述目標語音數據，通過唇語生成器生成目標唇語數據，包括：

6.根據權利要求1所述的方法，其特征在于，驅動所述3d數字人按照所述目標唇語數據回應所述目標用戶，包括：

7.一種3d數字人的實時交互裝置，其特征在于，所述裝置包括：

8.一種計算機設備，其特征在于，包括：

9.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有計算機指令，所述計算機指令用于使計算機執行權利要求1至6中任一項所述的3d數字人的實時交互方法。

10.一種計算機程序產品，其特征在于，包括計算機指令，所述計算機指令用于使計算機執行權利要求1至6中任一項所述的3d數字人的實時交互方法。

技術總結
本發明涉及3D數字人技術領域，公開了一種3D數字人的實時交互方法及裝置，本發明對目標用戶發起的第一對話數據，依次經過語音識別單元轉換為第一對話文本，再輸入語言識別模型識別出應答文本，再合成為應答語音后經過唇語生成器生成目標唇語數據，最后驅動3D數字人作出語音應答，可以保證目標用戶得到準確、自然、真實的反饋。并且通過語音對話的方式進行交互，簡單便捷，能夠展現出高度逼真的對話情景，增強了目標用戶的交互體驗。

技術研發人員：盧歡,魏勛
受保護的技術使用者：天翼云科技有限公司
技術研發日：
技術公布日：2025/4/28

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：盧歡,魏勛
技術所有人：天翼云科技有限公司
我是此專利的發明人

上一篇：一種用于覆蓋膜熟化溢膠量防翹曲的裝置的制作方法
上一篇：一種標簽紙加工用涂布組件的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種3D數字人的實時交互方法及裝置與流程