基于光流引導和文本驅動的視頻人像一致性編輯方法

文檔序號：41747634發布日期：2025-04-25 17:35閱讀：11來源：國知局

本發明屬于計算機視覺中人像生成，特別是一種基于光流引導和文本驅動的視頻人像一致性編輯方法。

背景技術：

1、在虛擬現實和相關應用中，視頻人像編輯的重要性顯著增加，如虛擬形象編輯和風格化。然而，這一領域仍處于初期階段，并面臨重大挑戰。早期的人像編輯方法在操控3dgan模型的潛在空間方面取得了顯著進展。然而，它們僅限于編輯預設屬性，無法處理自然語言輸入。為了解決這些問題，出現了幾種先進的文本支持圖像編輯方法，如anyface和instructpix2pix。然而，這些方法僅限于2d領域，無法直接生成3d結果，導致多個視角下缺乏一致性。

2、最近的方法將3d編輯的挑戰轉化為更易管理的2d編輯任務。例如，instructnerf2nerf（in2n）使用instructpix2pix逐步修改從nerf（神經輻射場）渲染的圖像，同時更新基礎的nerf重建。in2n一次編輯一張圖像，優化3d?nerf并生成一個平均結果。盡管這種方法引入了一定的幾何一致性，但它收斂緩慢并且需要多次完整的nerf優化。因此，渲染視角之間保持一致性的問題依然存在。為了解決多視角一致性的問題，gaussctrl通過使用controlnet（控制網絡）將圖像編輯與深度圖結合，確保生成視角的幾何一致性。此外，它們引入了一種基于注意力的潛在代碼對齊模塊，選擇多個參考視角，并使用跨視角注意力來增強編輯過程中外觀的一致性。然而，如果所選視角與當前視角過于相似，這些操作可能會導致某些幀出現幾何不一致。

3、由于體積渲染通常涉及對現實世界成像過程的手動逼近，渲染圖像可能會出現細節喪失。此外，基于擴散模型的方法在從3d表示中分離時間信息方面存在困難。這一限制導致了虛擬形象驅動輸出中的時序不一致性，這在涉及視頻人像編輯的應用中是一個關鍵問題。

4、綜上所述，為更好地發展虛擬現實、人機交互以及視頻人像編輯的下游應用，丞需一種能夠實現多視角一致且時序一致性的視頻人像編輯方法。

技術實現思路

1、本發明目的在于提供一種基于光流引導和文本驅動的視頻人像一致性編輯方法，首先，通過人臉關鍵點提取方法、深度估計方法提取每幀的視頻面部關鍵點和深度圖，確保編輯后面部表情一致；然后，使用擴散控制網絡結合深度圖、關鍵點和用戶文本進行編輯，利用注意力機制和光流變化實現多視角一致性；接著，結合光流和深度圖變化構建時間一致的擴散模型，從而解決視頻編輯中的多視角和時間一致性問題，實現高質量的視頻人像編輯。

2、實現本發明目的的技術解決方案為：一種基于光流引導和文本驅動的視頻人像一致性編輯方法，包括以下步驟：

3、（1）獲取一段人像說話視頻、每一個視頻幀對應的人像深度圖以及每一個視頻幀對應的人像關鍵點圖；

4、（2）將人像深度圖、人像關鍵點圖、待編輯的圖像以及源文本提示，通過控制網絡的變分編碼器計算其潛在編碼；采用去噪擴散隱式模型反演方法，通過迭代的方式將該編碼轉換為相應的高斯噪聲；

5、（3）計算其他視角視頻幀與待編輯幀的光流變化，選出前兩幀光流變化最大的作為注意力對齊模塊的候選幀；將待編輯幀進行自注意力操作，并將待編輯幀和候選幀進行交叉注意力操作，將兩個注意力進行加權和實現注意力對齊；

6、（4）通過控制網絡接收步驟（3）對齊的注意力特征以及用戶編輯文本描述來對噪聲進行解碼得到多視角一致的編輯人像；

7、（5）構建以源視頻時序信息為條件的時序一致性擴散模型，源視頻的時序信息用幀間的光流變化先驗、深度變化先驗以及人像輪廓約束先驗共同表示；將步驟（4）的編輯人像和以上先驗信息共同輸入至時序一致的擴散模型，得到多視角一致且時序一致的編輯人像。

8、一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述程序時實現上述的基于光流引導和文本驅動的視頻人像一致性編輯方法。

9、一種計算機可讀存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現上述的基于光流引導和文本驅動的視頻人像一致性編輯方法。

10、一種計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現上述的基于光流引導和文本驅動的視頻人像一致性編輯方法。

11、與現有技術相比，本發明的顯著進步在于：（1）本發明提出一種基于controlnet的神經渲染器，旨在編輯具有跨多個視角和時間序列一致性的說話人頭像；（2）利用源視頻幀中的光流變化，選擇更有價值的參考視角進行注意力對齊，從而實現更好的多視角一致性；（3）利用源視頻幀中的光流變化和深度圖變化來訓練擴散模型，精煉編輯后的頭像，從而增強時間一致性。

12、為更清楚說明本發明的功能特性以及結構參數，下面結合附圖及具體實施方式進一步說明。

技術特征：

1.一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（1）中，獲取一段人像說話視頻、每一個視頻幀對應的人像深度圖以及每一個視頻幀對應的人像關鍵點圖，其中為視頻幀數；人像深度圖和人像關鍵點圖的獲取方法為：利用人臉關鍵點提取方法、深度估計方法分別提取輸入視頻每一幀的面部關鍵點和深度圖：

3.根據權利要求1所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（2）中，將人像深度圖、人像關鍵點圖、待編輯的圖像以及源文本提示，通過控制網絡的變分編碼器計算其潛在編碼；采用去噪擴散隱式模型反演方法，通過迭代的方式將該編碼轉換為相應的高斯噪聲；所述去噪擴散隱式模型反演方法具體為：

4.根據權利要求3所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（3）中，計算其他視角視頻幀與待編輯幀的光流變化：

5.根據權利要求4所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（3）中，將待編輯幀和候選幀進行交叉注意力操作，將兩個注意力進行加權和實現注意力對齊，具體為：

6.根據權利要求5所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（4）中，通過控制網絡接收步驟（3）的對齊注意力特征以及用戶編輯文本描述來對噪聲進行解碼得到多視角一致的編輯人像，具體為：

7.根據權利要求6所述的一種基于光流引導和文本驅動的視頻人像一致性編輯方法，其特征在于，步驟（5）中，構建以源視頻時序信息為條件的時序一致性擴散模型，具體為：

8.一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1-7中任一所述的方法的步驟。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該程序被處理器執行時實現如權利要求1-7中任一所述的方法的步驟。

10.一種計算機程序產品，包括計算機程序，其特征在于，該計算機程序被處理器執行時實現權利要求1-7任一所述的方法的步驟。

技術總結
本發明公開了一種基于光流引導和文本驅動的視頻人像一致性編輯方法，包括：首先利用人臉關鍵點提取方法、深度估計方法分別提取輸入視頻每一幀的面部關鍵點和深度圖，確保編輯后的人像和源圖像面部表情的一致性；然后使用擴散控制網絡對以人臉深度圖、關鍵點和用戶輸入文本描述為條件來進行編輯生成，并通過注意力機制的潛在編碼對齊和光流變化的引導，實現多視角編輯的一致性；接著，利用幀間光流變化和深度圖變化構建時間一致的擴散模型。通過以上步驟，本發明解決了在視頻編輯中多視角和時間一致性的問題，實現了高質量的視頻人像編輯。

技術研發人員：楊海杰,錢建軍,李俊,楊健
受保護的技術使用者：南京理工大學
技術研發日：
技術公布日：2025/4/24

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：楊海杰,錢建軍,李俊,楊健
技術所有人：南京理工大學
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于光流引導和文本驅動的視頻人像一致性編輯方法