本申請涉及計算機,特別涉及一種視頻處理方法、設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、目前的視頻編輯模型對真實視頻的編輯能力有限,雖然可以使用真實樣本微調(diào)視頻編輯模型的模型參數(shù),但每次微調(diào)都需消耗一定的計算資源,不僅容易造成算力浪費,還延長了模型推理時間。其中,微調(diào)是指在使用預(yù)訓(xùn)練模型的基礎(chǔ)上,針對特定任務(wù)的數(shù)據(jù)集進行進一步訓(xùn)練,以調(diào)整模型參數(shù),使其更好地適應(yīng)目標(biāo)任務(wù)。在微調(diào)過程中,通常會凍結(jié)預(yù)訓(xùn)練模型的大部分層,僅訓(xùn)練新添加的層或調(diào)整少量關(guān)鍵層。這樣做既可以保留預(yù)訓(xùn)練模型學(xué)習(xí)到的用特征,又能快速適應(yīng)新任務(wù)的特定需求。此外,選擇合適的學(xué)習(xí)率和訓(xùn)練輪次也是微調(diào)成功的關(guān)鍵。可見,微調(diào)指的是在預(yù)訓(xùn)練模型的基礎(chǔ)上,針對特定的任務(wù)目標(biāo)和任務(wù)數(shù)據(jù)進行小規(guī)模訓(xùn)練,實現(xiàn)對預(yù)訓(xùn)練模型參數(shù)的微小調(diào)整,最終得到適配特定任務(wù)和數(shù)據(jù)的模型。
2、因此,如何提高視頻編輯模型的編輯效率和精度,是本領(lǐng)域技術(shù)人員需要解決的問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請的目的在于提供一種視頻處理方法、設(shè)備、介質(zhì)及程序產(chǎn)品,以提高視頻編輯模型的編輯效率和精度。
2、第一方面,本申請?zhí)峁┝艘环N視頻處理方法,包括:
3、獲取初始視頻和編輯信息;
4、利用預(yù)設(shè)的光流網(wǎng)絡(luò)對所述初始視頻進行前向光流處理,得到前向光流視頻;
5、利用所述光流網(wǎng)絡(luò)對所述初始視頻進行反向光流處理,得到反向光流視頻;
6、利用預(yù)設(shè)擴散模型,按照所述編輯信息、以及所述前向光流視頻和所述反向光流視頻中攜帶的相鄰幀光流運動信息,將所述初始視頻編輯為新視頻。
7、第二方面,本申請?zhí)峁┝艘环N視頻處理裝置,包括:
8、獲取模塊,用于獲取初始視頻和編輯信息;
9、前向光流處理模塊,用于利用預(yù)設(shè)的光流網(wǎng)絡(luò)對所述初始視頻進行前向光流處理,得到前向光流視頻;
10、反向光流處理模塊,用于利用所述光流網(wǎng)絡(luò)對所述初始視頻進行反向光流處理,得到反向光流視頻;
11、編輯模塊,用于利用預(yù)設(shè)擴散模型,按照所述編輯信息、以及所述前向光流視頻和所述反向光流視頻中攜帶的相鄰幀光流運動信息,將所述初始視頻編輯為新視頻。
12、第三方面,本申請?zhí)峁┝艘环N電子設(shè)備,包括:
13、存儲器,用于存儲計算機程序;
14、處理器,用于執(zhí)行所述計算機程序,以實現(xiàn)前述公開的視頻處理方法。
15、第四方面,本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì),用于保存計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)前述公開的視頻處理方法。
16、第五方面,本申請?zhí)峁┝艘环N計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)前述公開的視頻處理方法的步驟。
17、通過本申請,擴散模型(即視頻編輯模型)能夠感知到真實的初始視頻中的相鄰幀光流運動信息,相鄰幀光流運動信息對應(yīng)視頻中的時序運動相關(guān)信息,那么擴散模型按照編輯信息以及相鄰幀光流運動信息,將初始視頻編輯為新視頻,使得擴散模型既具備了真實視頻的編輯能力,還借助視頻中的時序運動相關(guān)信息提高了視頻編輯精度,該方案無需調(diào)整模型參數(shù),節(jié)約了計算資源和模型推理時間,因而也提高了擴散模型對視頻的編輯效率。
18、相應(yīng)地,本申請?zhí)峁┑囊环N視頻處理設(shè)備、介質(zhì)及程序產(chǎn)品,也同樣具有上述技術(shù)效果。
1.一種視頻處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用預(yù)設(shè)的光流網(wǎng)絡(luò)對所述初始視頻進行前向光流處理,得到前向光流視頻,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用預(yù)設(shè)擴散模型,按照所述編輯信息、以及所述前向光流視頻和所述反向光流視頻中攜帶的相鄰幀光流運動信息,將所述初始視頻編輯為新視頻之前,還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述前向光流特征和所述反向光流特征進行拼接,包括:
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述預(yù)設(shè)擴散模型的訓(xùn)練過程包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,構(gòu)建包括原視頻、編輯指令和編輯后視頻的多個三元組,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,利用所述視頻描述模型針對任意原視頻輸出相應(yīng)文本描述的過程包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,根據(jù)各合并視頻片段中的目標(biāo)幀,生成當(dāng)前原視頻相應(yīng)的文本描述,包括:
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,分別優(yōu)化所述多個文本描述,包括:
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,利用視頻重建模型處理各個原視頻的過程包括:
13.一種電子設(shè)備,其特征在于,包括:
14.一種計算機可讀存儲介質(zhì),其特征在于,用于保存計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至12任一項所述的方法。
15.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至12任一項所述的方法。