本技術涉及計算機視覺處理、人工智能,尤其涉及一種基于文本音頻聯合引導的高時序性視頻生成方法及系統。
背景技術:
1、近年來,隨著視頻內容需求的爆發式增長,視頻生成任務逐漸成為信息技術領域的重要研究方向。傳統的視頻創作通常依賴專業人員的拍攝和剪輯,需要耗費大量的時間和精力。然而,隨著社交媒體和短視頻平臺的崛起,用戶對個性化、即時性和高質量視頻內容的需求不斷增長,如何讓普通用戶無需復雜的編輯流程便能快速生成符合特定主題或情感的視頻成為了一大挑戰。為此,自動化的視頻生成技術應運而生。
2、視頻生成任務的核心是通過算法生成高質量的視頻內容,其應用涵蓋了從社交娛樂到商業營銷的多個領域。在社交媒體上,用戶可以利用視頻生成技術輕松創建有吸引力的內容,分享生活片段、表達情感或傳遞觀點。對于企業來說,視頻生成技術能夠在營銷推廣中發揮重要作用,通過生成符合品牌形象的視頻內容,幫助提升用戶參與度和市場傳播效果。此外,在教育培訓領域,視頻生成技術可以幫助講師和學生快速制作教學視頻,豐富教育內容的呈現形式,從而提升學習效果。
3、視頻生成技術的發展經歷了多個階段。最初的視頻生成主要依賴于傳統的計算機圖形學方法,通過定義規則和參數來生成簡單的動畫序列。隨著深度學習的興起,基于神經網絡的視頻生成方法逐漸成為主流。這些方法最初主要關注如何從隨機噪聲或單一圖像生成視頻,通過卷積神經網絡和循環神經網絡來學習視頻的時空特征。然而,這類方法生成的視頻往往缺乏語義信息的指導,難以產生符合特定需求的內容。
4、近年來,隨著大規模預訓練模型的發展,特別是擴散模型在圖像生成領域取得的突破性進展,研究者們逐漸將注意力轉向基于文本提示的視頻生成任務。相比于傳統視頻生成方法所依賴的復雜視覺建模以及為學習視頻動態和時序信息的大量監督數據剛需,基于文本提示的視頻生成技術引入自然語言描述作為控制信號,使得模型能夠直接根據用戶的文本輸入生成視頻,通過理解和解析文本中的語義信息,模型可以生成符合描述的動態視頻內容。這種方法相比于傳統的視頻生成方法具有明顯的優勢。首先,文本提示可以包含豐富的高層次語義信息,使得生成內容更加多樣化和符合用戶意圖;其次,生成的視頻不僅在視覺表現上與文本信息匹配,還能夠在時序上反映出文本中的動態變化;再者,文本生成視頻方法使用戶能夠通過簡單的文本描述來定制視頻內容,降低了創作門檻。
5、隨著視頻生成技術的不斷演進和文本指導視頻生成技術的日益成熟,研究者們開始探索其他信息的加入在文本生成視頻中的應用,其中就包括了音頻信號的引入。音頻能夠提供豐富的情感和節奏信息,為視頻生成任務提供了新的控制維度,結合文本和音頻信號能生成富有情感和節奏感的視頻。然而,結合文本和音頻信號進行視頻生成面臨較大的挑戰:首先,文本和音頻特征差異較大,兩者之間可能會出現模態沖突;此外,使得生成的視頻在語義一致性和時間一致性上難以達到平衡。
6、為了應對以上難點,部分研究者提出了基于音頻-文本多模態融合的視頻生成框架,來協調音頻和文本信號的互補信息;另一部分研究者則致力于探索文本和音頻的聯合建模來增強一致性。
7、如圖1所示,現有技術之一的“自動生成音樂視頻的多模態融合方法”中,提出了music2video框架,通過融合音頻和文本模態后,指導生成內容一致的音樂視頻。
8、首先,將音頻和文本編碼到共享的表示空間中,利用clip模型提供多模態的聯合輸入條件。其次,基于音樂的節奏和變化,將音樂動態分割成不同長度的片段,并在各個片段生成過程中設置視覺主題切換點,使視頻的場景與音樂的情緒和節奏變化相匹配。第三,設置幀間一致性優化,在視頻生成過程中保持時間一致性,使生成的音樂視頻在不同片段之間過渡自然。
9、如圖2所示,現有技術之二的“文本-音頻引導的視頻生成”中,提出了tagvm框架,通過文本和音頻的聯合建模來生成一致性較強的視頻內容。
10、首先,將文本和音頻作為聯合輸入條件,以提供對視頻內容的多模態指導。然后,使用3dvq-gan壓縮視頻數據,并通過自回歸模型生成與文本描述相符的基本場景輪廓,在生成的初步場景基礎上,引入音頻引導的擴散模型,細化生成視頻的動態細節。最后,在生成流程中加入了時間自注意力層以增強跨幀一致性,增強文本和音頻信號對視頻動態變化的控制效果。
11、現有技術中“基于融合的音頻和文本自動生成音樂視頻”、“文本-音頻引導的視頻生成”:
12、1、音頻特征的處理方式較簡單;
13、2、文本參與控制的比重較大。
14、由于上述技術問題導致于現有技術中存在以下缺點:
15、1、難以充分利用音頻信號中的時序信息;
16、2、視頻生成效果更依賴文本,而音頻特征難以被較好地利用。
技術實現思路
1、本技術實施例提供一種基于文本音頻聯合引導的高時序性視頻生成方法及系統,用以通過多模態信號的聯合引導,以文本、音頻等信息為輸入條件生成視頻。
2、本技術實施例提供一種基于文本音頻聯合引導的高時序性視頻生成方法,在訓練階段執行:
3、將訓練集每個視頻vi使用音頻提取器提取對應音頻ai,獲得視頻-音頻對(vi,ai);
4、對任一視頻-音頻對(vi,ai)的視頻vi,使用多模態大模型對視頻vi生成文本描述ti,以獲得視頻-音頻-文本三元組(vi,ai,ti);
5、對視頻-音頻-文本三元組(vi,ai,ti)中的音頻進行轉換,以處理為向量形式的序列級音頻特征va,對文本ti進行分詞并表示為向量形式的文本特征vt;以及,
6、對視頻-音頻-文本三元組(vi,ai,ti)中的視頻vi進行處理,以獲得處理的視頻張量x,將視頻張量x映射為潛在表示z0,以獲得向量化的輸入三元組(z0,va,vt);
7、根據當前時間步t生成對應的比例系數并根據比例系數生成與潛在表示z形狀相同的隨機高斯噪聲∈,根據隨機高斯噪聲∈、比例系數潛在表示z獲得噪聲化潛在表示zt;
8、將噪聲化潛在表示zt、音頻特征va、文本特征vt輸入u-net,以在u-net的每一層使用視頻-文本交叉注意力模塊融合噪聲化潛在表示zt和文本特征vt,并使用視頻-音頻時序注意力模塊交互噪聲化潛在表示zt和音頻特征va;
9、計算損失,以執行訓練;
10、在訓練后用于高時序性視頻生成。
11、可選的,對任一視頻-音頻對(vi,ai)的視頻vi,使用多模態大模型對視頻vi生成文本描述ti包括:
12、對任一視頻-音頻對(vi,ai)的視頻vi,使用llava大模型對視頻vi生成文本描述ti。
13、可選的,對視頻-音頻-文本三元組(vi,ai,ti)中的音頻進行轉換,以處理為向量形式的序列級音頻特征va包括:
14、對視頻-音頻-文本三元組(vi,ai,ti)中的音頻ai進行重采樣、單聲道轉換和歸一化,使用音頻編碼器將音頻按預設的壓縮后視頻幀數編碼為向量形式的序列級音頻特征va,其中序列級音頻特征va采用如下方式提取:
15、
16、
17、其中,ai是分段后的音頻序列,是音頻序列中的第k段,f是預設的壓縮后視頻幀數,audio?encoder(x)是音頻編碼器。
18、可選的,根據當前時間步t生成對應的比例系數包括:
19、
20、αt=1-βt
21、
22、其中,βt為預設的線性調度,αt是中間系數;
23、噪聲化潛在表示zt滿足:
24、
25、其中,是比例系數,隨著隨時間步t的增大而減小。
26、可選的,將噪聲化潛在表示zt、音頻特征va、文本特征vt輸入u-net,以在u-net的每一層使用視頻-文本交叉注意力模塊融合噪聲化潛在表示zt和文本特征vt包括:
27、在u-net的每一層中采用如下計算:
28、zt′=reshape(zt)
29、
30、
31、其中,是計算視頻-文本交叉注意力更新后的潛在表示,zt′是維度變化后的潛在表示;
32、使用視頻-音頻時序注意力模塊交互噪聲化潛在表示zt和音頻特征va包括:
33、va′=reshape(va)
34、
35、
36、其中,va′是和視頻空間維度對齊后的音頻特征,是計算視頻-音頻時序注意力后的潛在表示。
37、可選的,計算損失,以執行訓練包括:
38、計算噪聲均方誤差損失函數
39、使用優化器在反向傳播過程中更新參數;
40、更新時間步t=t+1,重復根據當前時間步t生成對應的比例系數執行訓練直至t達到總時間步t。
41、可選的,計算噪聲均方誤差損失函數滿足:
42、
43、其中,e是均方誤差損失函數,是預測的噪聲。
44、本技術實施例還提出一種基于文本音頻聯合引導的高時序性視頻生成系統,包括處理器和存儲器,所述存儲器上存儲有計算機程序,所述計算機程序被處理器執行時實現如前述的基于文本音頻聯合引導的高時序性視頻生成方法的步驟。
45、本技術實施例的方法通過多模態信號的聯合引導,以文本、音頻等信息為輸入條件生成視頻。
46、上述說明僅是本技術技術方案的概述,為了能夠更清楚了解本技術的技術手段,而可依照說明書的內容予以實施,并且為了讓本技術的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本技術的具體實施方式。