本發明涉及計算機視覺領域,具體地涉及一種基于視頻數據的事件描述文本生成方法、裝置和設備。
背景技術:
1、隨著視頻監控系統的普及,智能化視頻事件分析與描述技術成為學術界和工業界的研究熱點。傳統方法主要關注事件的語義內容識別,即檢測視頻中出現的對象、行為及其相互關系,而忽視了事件中蘊含的情感信息。然而,情感因素在理解事件全貌、刻畫事件性質方面有著不可或缺的作用。例如,人群聚集事件伴有憤怒情緒,往往意味著潛在的群體沖突風險;而歡慶氛圍下的人群則通常無安全隱患。因此,挖掘視頻事件中的情感線索,對于全面把控事態發展、及時響應處置具有重要意義。
技術實現思路
1、鑒于上述問題,本發明提供了一種基于視頻數據的事件描述文本生成方法、裝置和設備。
2、根據本發明的第一個方面,提供了一種基于視頻數據的事件描述文本生成方法,包括:基于待處理視頻數據構建視頻場景圖數據,視頻場景圖數據包括對象節點和邊關系,對象節點表征待處理視頻數據中的人物對象和與人物對象相關的物體對象;基于訓練后的情感分類器對待處理視頻數據進行處理,得到目標情感屬性節點,目標情感屬性節點表征人物對象的情感屬性;基于目標情感屬性節點更新視頻場景圖數據,得到視頻知識圖譜,視頻知識圖譜包括對象節點與目標情感屬性節點之間的邊關系;對視頻知識圖譜中的目標對象節點進行特征提取,得到節點特征;根據已生成的描述詞序列、目標情感屬性節點和節點特征,確定第i+1個描述詞概率分布,已生成的描述詞序列包括i個描述詞,i≥0且i為整數;利用解碼策略,將第i+1個描述詞概率分布中最大概率對應的描述詞確定為第i+1個描述詞;在已生成的描述詞的數量大于或等于預設數量閾值的情況下,得到目標事件描述文本。
3、根據本發明的實施例,基于訓練后的情感分類器對待處理視頻數據進行處理,得到目標情感屬性節點,包括:利用視覺特征提取層處理待處理視頻數據,得到視覺特征;利用音頻特征提取層處理器處理待處理視頻數據,得到音頻特征;基于自注意力機制處理視覺特征,得到視覺加權特征;對視覺加權特征和音頻特征進行特征融合,得到多模態情感特征;對多模態情感特征進行情感屬性分類,得到目標情感屬性節點。
4、根據本發明的實施例,訓練后的情感分類器是基于如下操作確定的:獲取視頻訓練數據和情感類別標簽數據;利用激活函數處理多模態情感訓練特征,得到視頻所屬情感類別的預測情感概率分布,多模態情感訓練特征是基于視頻訓練數據得到的;根據預測情感概率分布和情感類別標簽數據,確定損失函數;根據隨機梯度下降算法最小化損失函數,得到訓練后的情感分類器。
5、根據本發明的實施例,訓練后的解碼器是基于以下步驟訓練的,獲取訓練事件描述文本、訓練對象節點和訓練情感屬性節點;利用圖卷積神經網絡處理訓練對象節點,得到訓練節點上下文特征;根據多層感知機處理訓練節點上下文特征和事件描述文本特征,得到均值和方差,事件描述文本特征是基于訓練事件描述文本生成的;利用解碼器處理在第t時刻之前已生成的描述詞序列、訓練對象節點和訓練情感屬性節點,得到第t時刻訓練事件描述文本的描述詞概率分布,t為大于零的整數;根據描述詞概率分布、均值和方差,確定變分下界;將變分下界最大化,得到訓練后的解碼器。
6、根據本發明的實施例,利用圖卷積神經網絡處理訓練對象節點,得到訓練節點上下文特征,包括:根據圖卷積神經網絡的第n-1層節點表示矩陣,確定第n層節點表示矩陣;根據激活函數處理第n層訓練對象節點表示矩陣和第n層其他節點表示矩陣,得到訓練對象節點對其他節點的注意力權重,其中,訓練對象節點與第n層訓練對象節點表示矩陣對應,其他節點與第n層其他節點表示矩陣對應;根據注意力權重和第n層其他節點表示矩陣,得到訓練節點上下文特征,n為大于1的整數。
7、根據本發明的實施例,利用解碼器處理在第t時刻之前已生成的描述詞序列、訓練對象節點和訓練情感屬性節點,得到第t時刻訓練事件描述文本的描述詞概率分布,包括:利用解碼器處理在第t時刻之前已生成的描述詞序列、訓練情感屬性節點和訓練對象節點,得到第t時刻解碼隱層表示特征;利用歸一化算法處理第t時刻解碼隱層表示特征,得到第t時刻訓練事件描述文本的描述詞概率分布。
8、本發明的第二方面提供了一種基于視頻數據的事件描述文本生成裝置,包括:構建模塊,用于基于待處理視頻數據構建視頻場景圖數據,視頻場景圖數據包括對象節點和邊關系,對象節點表征待處理視頻數據中的人物對象和與人物對象相關的物體對象;目標情感屬性節點得到模塊,用于基于訓練后的情感分類器對待處理視頻數據進行處理,得到目標情感屬性節點,目標情感屬性節點表征人物對象的情感屬性;視頻知識圖譜得到模塊,用于基于目標情感屬性節點更新視頻場景圖數據,得到視頻知識圖譜,視頻知識圖譜包括對象節點與目標情感屬性節點之間的邊關系;節點特征得到模塊,用于對視頻知識圖譜中的目標對象節點進行特征提取,得到節點特征;描述詞概率分布模塊,用于根據已生成的描述詞序列、目標情感屬性節點和節點特征,確定第i+1個描述詞概率分布,已生成的描述詞序列包括i個描述詞,i≥0且i為整數;描述詞確定模塊,用于利用解碼策略,將第i+1個描述詞概率分布中最大概率對應的描述詞確定為第i+1個描述詞;目標事件描述文本得到模塊,用于在已生成的描述詞的數量大于或等于預設數量閾值的情況下,得到目標事件描述文本。
9、本發明的第三方面提供了一種電子設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個計算機程序,其中,上述一個或多個處理器執行上述一個或多個計算機程序以實現上述方法的步驟。
10、本發明的第四方面還提供了一種計算機程序產品,包括計算機程序或指令,上述計算機程序或指令被處理器執行時實現上述方法的步驟。
11、根據本發明的實施例,通過基于待處理視頻數據構建視頻場景圖,基于訓練后的情感分類器對待處理視頻數據進行處理,得到目標情感屬性節點,目標情感屬性節點的加入使得對視頻監控的理解不再局限于視覺層面,還能捕捉到場景中的情緒氛圍,從而更全面地反映事件的性質?;谀繕饲楦袑傩怨濣c更新視頻場景圖數據,得到視頻知識圖譜,能夠更好地理解視頻中的動態事件,這種動態理解能力能夠適應復雜多變的監控場景,能夠及時發現異常情緒或潛在風險,利用訓練后的解碼器處理視頻知識圖譜,得到用于描述人物對象行為的目標事件描述文本,目標事件描述文本帶有目標情感屬性,通過引入目標情感屬性節點,使得解碼出的文本不僅可以準確刻畫事件內容,還能反映微妙的情感色彩,更好的判斷事件的風險程度和緊急狀態。
1.一種基于視頻數據的事件描述文本生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于訓練后的情感分類器對所述待處理視頻數據進行處理,得到目標情感屬性節點,包括:
3.根據權利要求1所述的方法,其特征在于,所述訓練后的情感分類器是基于如下操作確定的:
4.根據權利要求1所述的方法,其特征在于,所述訓練后的解碼器是基于以下步驟訓練的,
5.根據權利要求4所述的方法,其特征在于,所述利用圖卷積神經網絡處理所述訓練對象節點,得到訓練節點上下文特征,包括:
6.根據權利要求4所述的方法,其特征在于,所述利用解碼器處理在第t時刻之前已生成的描述詞序列、所述訓練對象節點和訓練情感屬性節點,得到第t時刻所述訓練事件描述文本的描述詞概率分布,包括:
7.一種基于視頻數據的事件描述文本生成裝置,其特征在于,包括:
8.一種電子設備,包括:
9.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現根據權利要求1~6中任一項所述方法的步驟。