本公開涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種視頻處理方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著計算機技術(shù)的不斷發(fā)展,人們對視頻編輯類應(yīng)用程序能夠支持的視頻處理功能的需求越來越多樣化。例如,大多視頻編輯軟件支持音頻識別成文字,即字幕生成功能等。
2、為了滿足用戶日益增長的多樣化視頻處理需求,如何進一步豐富視頻處理方式是目標(biāo)亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開實施例提供了一種視頻處理方法。
2、第一方面,本公開提供了一種視頻處理方法,所述方法包括:
3、對目標(biāo)視頻草稿中的音頻進行語音識別,得到所述目標(biāo)視頻草稿的初始文本片段;
4、根據(jù)所述目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對所述初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段;其中,所述初始語言類型用于表征所述目標(biāo)視頻草稿所屬的語言類型,所述目標(biāo)文本片段屬于所述目標(biāo)語言類型;
5、基于所述目標(biāo)文本片段生成目標(biāo)音頻片段;其中,所述目標(biāo)音頻片段屬于所述目標(biāo)語言類型;
6、基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿;其中,所述編輯結(jié)果視頻草稿中的目標(biāo)音頻片段與所述目標(biāo)視頻草稿對應(yīng)的初始文本片段之間具有對應(yīng)關(guān)系,所述編輯結(jié)果視頻草稿屬于所述目標(biāo)語言類型。
7、一種可選的實施方式中,所述根據(jù)所述目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對所述初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段之前,還包括:
8、根據(jù)所述目標(biāo)視頻草稿的初始文本片段,確定所述目標(biāo)視頻草稿的初始語言類型;
9、以及,接收針對所述目標(biāo)視頻草稿輸入的目標(biāo)語言類型。
10、一種可選的實施方式中,所述根據(jù)所述目標(biāo)視頻草稿的初始文本片段,確定所述目標(biāo)視頻草稿的初始語言類型,包括:
11、將所述目標(biāo)視頻草稿的初始文本片段中的文字轉(zhuǎn)換成預(yù)設(shè)類型編碼;
12、根據(jù)所述文字對應(yīng)的預(yù)設(shè)類型編碼所屬的編碼范圍,確定所述目標(biāo)視頻草稿的初始語言類型。
13、一種可選的實施方式中,所述根據(jù)所述目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對所述初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段,包括:
14、如果確定所述初始語言類型和所述目標(biāo)語言類型屬于同一種語言類型下的不同方言類型,則將所述目標(biāo)視頻草稿的初始文本片段確定為目標(biāo)文本片段。
15、一種可選的實施方式中,所述根據(jù)所述目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對所述初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段之前,還包括:
16、對所述目標(biāo)視頻草稿中的音頻進行語音識別,獲取所述目標(biāo)視頻草稿的語音聲紋信息;
17、針對不同的語音聲紋信息分別生成不同的文本軌道;其中,所述不同的文本軌道用于承載不同的語音聲紋信息對應(yīng)的初始文本片段。
18、一種可選的實施方式中,所述基于所述目標(biāo)文本片段生成目標(biāo)音頻片段,包括:
19、確定第一文本軌道對應(yīng)的文本朗讀聲音信息;
20、利用所述文本朗讀聲音信息,基于所述第一文本軌道上的目標(biāo)文本片段生成目標(biāo)音頻片段。
21、一種可選的實施方式中,所述基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿之前,還包括:
22、根據(jù)所述目標(biāo)音頻片段對應(yīng)的初始音頻片段的時長,對所述目標(biāo)音頻片段的播放速度進行調(diào)整,得到變速后目標(biāo)音頻片段;其中,所述初始音頻片段屬于所述目標(biāo)視頻草稿,所述變速后目標(biāo)音頻片段的時長與所述初始音頻片段的時長之差不大于預(yù)設(shè)時長閾值;
23、相應(yīng)的,所述基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿,包括:
24、基于所述變速后目標(biāo)音頻片段,生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿。
25、一種可選的實施方式中,所述基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿之后,還包括:
26、響應(yīng)于針對所述編輯結(jié)果視頻草稿中的第一目標(biāo)音頻片段的選定操作,顯示所述第一目標(biāo)音頻片段對應(yīng)的多個候選文本內(nèi)容;
27、響應(yīng)于針對所述多個候選文本內(nèi)容中的目標(biāo)候選文本內(nèi)容的選定操作,生成所述目標(biāo)候選文本內(nèi)容對應(yīng)的音頻片段;
28、利用所述目標(biāo)候選文本內(nèi)容對應(yīng)的音頻片段更新所述編輯結(jié)果視頻草稿中的所述第一目標(biāo)音頻片段。
29、一種可選的實施方式中,所述基于所述初始音頻片段對應(yīng)的目標(biāo)音頻片段,生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿之前,還包括:
30、將所述目標(biāo)文本片段確定為對應(yīng)的目標(biāo)音頻片段的字幕片段;
31、相應(yīng)的,所述基于所述初始音頻片段對應(yīng)的目標(biāo)音頻片段,生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿,包括:
32、基于所述初始音頻片段對應(yīng)的目標(biāo)音頻片段以及所述目標(biāo)音頻片段的字幕片段,生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿。
33、一種可選的實施方式中,所述對目標(biāo)視頻草稿中的音頻進行語音識別,得到所述目標(biāo)視頻草稿對應(yīng)的初始文本片段之前,還包括:
34、基于原始視頻確定目標(biāo)視頻草稿;
35、相應(yīng)的,所述基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿之后,還包括:
36、響應(yīng)于視頻導(dǎo)出操作,基于所述編輯結(jié)果視頻草稿生成所述原始視頻對應(yīng)的目標(biāo)視頻;其中,所述目標(biāo)視頻屬于所述目標(biāo)語言類型。
37、第二方面,本公開提供了一種視頻處理裝置,所述裝置包括:
38、語音識別模塊,用于對目標(biāo)視頻草稿中的音頻進行語音識別,得到所述目標(biāo)視頻草稿的初始文本片段;
39、轉(zhuǎn)換模塊,用于根據(jù)所述目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對所述初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段;其中,所述初始語言類型用于表征所述目標(biāo)視頻草稿所屬的語言類型,所述目標(biāo)文本片段屬于所述目標(biāo)語言類型;
40、第一生成模塊,用于基于所述目標(biāo)文本片段生成目標(biāo)音頻片段;其中,所述目標(biāo)音頻片段屬于所述目標(biāo)語言類型;
41、第二生成模塊,用于基于所述目標(biāo)音頻片段生成所述目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿;其中,所述編輯結(jié)果視頻草稿中的目標(biāo)音頻片段與所述目標(biāo)視頻草稿的初始文本片段之間具有對應(yīng)關(guān)系,所述編輯結(jié)果視頻草稿屬于所述目標(biāo)語言類型。
42、第三方面,本公開提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有指令,當(dāng)所述指令在終端設(shè)備上運行時,使得所述終端設(shè)備實現(xiàn)上述的方法。
43、第四方面,本公開提供了一種視頻處理設(shè)備,包括:存儲器,處理器,及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)上述的方法。
44、第五方面,本公開提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述的方法。
45、本公開實施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比至少具有如下優(yōu)點:
46、本公開實施例提供了一種視頻處理方法,首先,對目標(biāo)視頻草稿中的音頻進行語音識別,得到目標(biāo)視頻草稿的初始文本片段,根據(jù)目標(biāo)視頻草稿的初始語言類型和目標(biāo)語言類型,對初始文本片段進行語言轉(zhuǎn)換得到目標(biāo)文本片段,其中,初始語言類型用于表征目標(biāo)視頻草稿所屬的語言類型,目標(biāo)文本片段屬于目標(biāo)語言類型,然后,基于目標(biāo)文本片段生成目標(biāo)音頻片段,其中,目標(biāo)音頻片段屬于目標(biāo)語言類型,最后,基于目標(biāo)音頻片段生成目標(biāo)視頻草稿對應(yīng)的編輯結(jié)果視頻草稿,其中,編輯結(jié)果視頻草稿中的目標(biāo)音頻片段與目標(biāo)視頻草稿中的初始音頻片段之間具有對應(yīng)關(guān)系,編輯結(jié)果視頻草稿屬于目標(biāo)語言類型。可見,本公開實施例通過將目標(biāo)視頻草稿的初始文本片段進行語言轉(zhuǎn)換得到屬于目標(biāo)語言類型的目標(biāo)文本片段,并基于目標(biāo)文本片段生成屬于目標(biāo)語言類型的目標(biāo)音頻片段,進而生成編輯結(jié)果視頻草稿的方式,實現(xiàn)了將一種語言類型的目標(biāo)視頻草稿轉(zhuǎn)換成另一種語言類型的編輯結(jié)果視頻草稿的視頻編輯功能,滿足用戶日益增長的多樣化視頻處理需求,提升了用戶體驗。