本申請涉及視頻處理,尤其涉及一種基于深度學習的視頻內容分析方法、設備、介質及產品。
背景技術:
1、隨著多媒體技術的快速發展,視頻內容的自動化智能分析需求日益增長。然而,現有技術在視頻內容分析領域仍面臨諸多挑戰。在鏡頭檢測方面,傳統基于視覺特征的方法對復雜場景適應性差,而現有深度學習方法主要依賴單一尺度特征,難以有效處理不同類型的鏡頭轉換,同時缺乏對時序信息的有效利用,導致檢測準確率不穩定。
2、在關鍵幀提取方面,現有技術多基于低層視覺特征或預定義規則進行選取,難以捕捉語義層面的重要信息,且缺乏幀間關系的建模,無法保證所選關鍵幀的代表性和多樣性,對視頻內容變化的適應能力有限,容易出現冗余或遺漏關鍵信息的情況。
3、字幕處理技術方面也存在明顯不足。傳統字幕移除方法往往破壞原始圖像內容,且現有方法普遍將字幕檢測和移除作為獨立任務處理,效率低下。由于缺乏對字幕區域周圍上下文信息的充分利用,嚴重影響了處理效果。
4、在視頻內容描述領域,現有方法多采用單次生成策略,難以保證描述的準確性和完整性。圖像和文本特征的對齊不夠精確,且缺乏對視頻時序上下文的考慮,導致生成的描述質量和連貫性難以滿足實際需求。
5、從系統性能和資源利用角度來看,現有系統普遍采用固定的處理參數,無法根據視頻特點進行優化,各處理模塊間缺乏有效的協同機制,導致整體效率低下。同時,對計算資源的利用不夠靈活,容易出現資源浪費或處理瓶頸的問題。
6、這些技術缺陷嚴重制約了視頻內容智能分析技術的應用和發展。為解決上述問題,亟需開發一種新型的視頻內容智能分析方法。
技術實現思路
1、本申請的一個目的是提供一種基于深度學習的視頻內容分析方法、設備、介質及產品,至少用以解決現有技術的局限性,提供更高效、更準確的視頻內容分析解決方案。
2、為實現上述目的,本申請的一些實施例提供了以下幾個方面:
3、第一方面,本申請的一些實施例提供了一種基于深度學習的視頻內容分析方法,其特征在于,所述方法包括:
4、獲取原始視頻文件,并將所述原始視頻文件進行解碼得到目標視頻文件;
5、對所述目標視頻文件進行初步檢測,以獲取目標視頻文件的基本信息;所述基本信息包括基本屬性信息以及質量特征信息;
6、依據所述目標視頻文件的基本信息進行自適應采樣,將所述目標視頻文件轉換為幀圖像數組;
7、采用時空金字塔注意力網絡對鏡頭銜接點進行檢測,并依據檢測到的鏡頭銜接點將所述幀圖像數組切分為至少兩個片段;
8、采用動態對比學習框架,從每個片段中抽取關鍵幀圖像;
9、采用上下文感知的多任務學習網絡對關鍵幀圖像進行字幕移除處理,并采用循環漸進式多模態對齊網絡對關鍵幀圖像生成圖像描述。
10、第二方面,本申請的一些實施例還提供了一種電子設備,所述電子設備包括:一個或多個處理器;以及存儲有計算機程序指令的存儲器,所述計算機程序指令在被執行時使所述處理器執行如上所述方法的步驟。
11、第三方面,本申請的一些實施例還提供了一種計算機可讀介質,其上存儲有計算機程序指令,所述計算機程序指令可被處理器執行以實現如上所述的方法。
12、第四方面,本申請的一些實施例還提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執行時實現如上所述方法的步驟。
13、與相關技術相比,本申請實施例提供的方案中,采用時空金字塔注意力網絡對鏡頭切換精確建模,大幅提升了鏡頭銜接點檢測的魯棒性和準確度;采用動態對比學習框架開創性地構建了幀間動態對比機制,實現了更具代表性和信息量的關鍵幀選取;采用上下文感知的多任務學習網絡首次在字幕處理中引入多任務學習范式,并融入上下文感知能力,顯著提高了字幕移除的處理效率和準確性;采用循環漸進式多模態對齊網絡突破了傳統單次對齊的局限,實現了圖像-文本特征的精細對齊,生成更加準確、詳細和連貫的圖像描述。
1.一種基于深度學習的視頻內容分析方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述目標視頻文件進行初步檢測,以獲取目標視頻文件的基本信息,包括:
3.根據權利要求1所述的方法,其特征在于,所述依據所述目標視頻文件的基本信息進行自適應采樣,將所述目標視頻文件轉換為幀圖像數組,包括:
4.根據權利要求1所述的方法,其特征在于,所述采用時空金字塔注意力網絡對鏡頭銜接點進行檢測,并依據檢測到的鏡頭銜接點將所述幀圖像數組切分為至少兩個片段,包括:
5.根據權利要求1所述的方法,其特征在于,所述采用動態對比學習框架,從每個片段中抽取關鍵幀圖像,包括:
6.根據權利要求5所述的方法,其特征在于,所述采用動態對比學習框架,從每個片段中抽取關鍵幀圖像,還包括:
7.根據權利要求1所述的方法,其特征在于,所述采用上下文感知的多任務學習網絡對關鍵幀圖像進行字幕移除處理,并采用循環漸進式多模態對齊網絡對關鍵幀圖像生成圖像描述,包括:
8.一種電子設備,其特征在于,所述電子設備包括:
9.一種計算機可讀介質,其上存儲有計算機程序/指令,其特征在于,所述計算機程序/指令被處理器執行時實現權利要求1至7中任意一項所述基于深度學習的視頻內容分析方法的步驟。
10.一種計算機程序產品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執行時實現權利要求1至7中任意一項所述基于深度學習的視頻內容分析方法的步驟。