本發明屬于信息識別領域,具體涉及一種多模態視頻信息監測方法、裝置、計算機設備及介質。
背景技術:
1、隨著各種短視頻、網劇或直播等網絡視頻的發展,除了豐富人們的精神活動,其可能存在的敏感信息也帶來了相關風險。
2、通常情況下,敏感信息涉及的數據形態較多,諸如一些涉及政治話題、色情暴力或者敏感隱私之類的保密信息和違法信息,這些敏感信息一般涉及了文本、圖像和音頻這三種模態。另外,敏感信息還具有時空動態性和場景依賴特性。也就是說,敏感信息通常具有海量多模態、時空動態、場景依賴等特點。
3、傳統的方法往往只關注單一模態的數據,例如,只針對文本或僅僅是圖像。然而,隨著多媒體技術的演進,傳統的單模態方法在處理如網絡視頻這樣的復合型內容時顯得力不從心。其中一個明顯的問題是,單模態方法可能會遺漏其他模態中的關鍵信息,從而導致識別的不準確或不完整。此外,單模態方法也難以處理多模態間的互補和沖突信息,難以捕捉到這種復雜的關系。傳統的敏感信息識別方法通常依賴于人工審核或基于規則的篩選,然而,這些方法不僅耗時耗力,還容易出現錯誤或漏檢的情況。
4、近年來,深度學習技術已經在眾多領域展現了其強大的潛力,從圖像識別、語音處理到自然語言理解。跨模態敏感信息識別方法是一種利用深度學習技術,對不同類型的數據(如文本、圖像、音頻、視頻等)進行敏感信息識別的方法。然而,發明人發現,對于敏感信息識別的相關技術,一般是對不同模態的數據分別進行識別預測。例如,將文本模態的數據送入文本檢測接口得到敏感信息識別結果;將圖像模態的數據送入相應的圖片檢測接口得到敏感信息識別結果。這種識別過程往往是低效的,而且對多種模態數據之間的關聯性無法體現,導致對敏感信息的識別準確度低。
技術實現思路
1、為了解決對多模態敏感信息識別準確度低的問題,本發明提供了一種多模態視頻信息監測方法、裝置、計算機設備及介質。
2、為了實現上述目的,本發明提供如下技術方案:
3、首先提供了一種多模態視頻信息監測方法,所述方法包括:
4、將詞嵌入模型word2vec、卷積神經網絡cnn和循環神經網絡rnn進行全連接融合,并嵌入注意力模塊se,得到se增強融合模型se-wrc?model;通過預先獲取的訓練樣本對se-wrc?model進行訓練,得到多模態敏感信息識別模型;
5、獲取目標視頻和目標視頻對應用戶的歷史敏感信息;
6、提取出目標視頻的文本信息和音頻信息;并根據預設目標敏感信息的類型提取目標視頻的第一圖像幀;
7、通過所述歷史敏感信息調整se中的模態權重;
8、將所述文本信息、第一圖像幀以及音頻信息輸入至多模態敏感信息識別模型,分別通過word2vec、cnn和rnn提取文本信息、第一圖像幀和音頻信息的特征向量,通過se將所述文本信息、圖像信息和音頻信息的特征向量映射至同一維度,并根據模態權重對所述特征向量進行加權拼接,得到融合特征;最后通過分類器對融合特征進行識別,得到目標視頻中預設目標敏感信息的識別結果。
9、可選地,所述根據預設目標敏感信息的類型提取目標視頻的第一圖像幀包括:
10、根據所述預設目標敏感信息的圖像場景確定其對應的圖像類型;
11、根據所述圖像類型對目標視頻進行圖像幀提取,得到與所述預設目標敏感信息同一圖像類型的第一圖像幀。
12、可選地,所述提取出目標視頻的文本信息和音頻信息包括:
13、提取所述目標視頻中包含文本信息的第二圖像幀;通過光學字符識別ocr提取第二圖像幀的文本信息;
14、使用音頻處理庫從目標視頻中分離出音頻流。
15、可選地,通過所述歷史敏感信息調整se中的模態權重包括:
16、根據所述歷史敏感信息對不同模態的特征向量進行重要性評估,得到重要性評估結果;
17、在se中引入一個可學習的權重向量,根據所述重要性評估結果對可學習的權重向量進行調整,得到模態權重。
18、可選地,根據所述歷史敏感信息對不同模態的特征向量進行重要性評估,得到重要性評估結果包括:
19、確定所述歷史敏感信息中不同模態敏感信息的出現次數,根據所述出現次數確定不同模態特征的第一重要性;
20、將所述歷史敏感信息作為輸入,通過隨機森林法預測用戶行為,根據所述隨機森林法的特征權重確定不同模態特征的第二重要性;
21、根據所述第一重要性和第二重要性確定重要性評估結果。
22、可選地,所述根據模態權重對所述特征向量進行加權拼接,得到融合特征包括:
23、通過se的查詢向量分別對不同模態信息對應的特征向量進行相關性計算,得到相關性權重;
24、根據所述相關性權重對不同模態信息各自對應的特征向量進行特征融合,得到不同模態信息對應的綜合特征;
25、根據所述模態權重對不同模態信息對應的綜合特征進行拼接,得到融合特征。
26、可選地,所述訓練樣本包括帶有敏感信息的樣本圖像、樣本文本和樣本音頻,以及樣本圖像、樣本文本和樣本音頻對應的敏感信息;所述通過預先獲取的訓練樣本對se-wrcmodel進行訓練,得到多模態敏感信息識別模型包括:
27、將所述樣本圖像、樣本文本和樣本音頻輸入至se-wrc?model模型,得到識別結果;
28、以最小化所述識別結果和敏感信息之間的差別為目標對se-wrc?model模型進行訓練,得到多模態敏感信息識別模型。
29、其次還提供了一種多模態視頻信息監測裝置,所述裝置包括:
30、構建模塊,用于將詞嵌入模型word2vec、卷積神經網絡cnn和循環神經網絡rnn進行全連接層融合,并嵌入注意力模塊se,得到se增強融合模型se-wrc?model;通過預先獲取的訓練樣本對se-wrc?model進行訓練,得到多模態敏感信息識別模型;
31、獲取模塊,用于獲取目標視頻和目標視頻對應用戶的歷史敏感信息;
32、提取模塊,用于提取出目標視頻的文本信息和音頻信息;并根據預設目標敏感信息的類型提取目標視頻的第一圖像幀;
33、調整模塊,用于通過所述歷史敏感信息調整se中的模態權重;
34、識別模塊,用于將所述文本信息、第一圖像幀以及音頻信息輸入至多模態敏感信息識別模型,分別通過word2vec、cnn和rnn提取文本信息、第一圖像幀和音頻信息的特征向量,通過se將所述文本信息、圖像信息和音頻信息的特征向量映射至同一維度,并根據模態權重對所述特征向量進行加權拼接,得到融合特征;最后通過分類器對融合特征進行識別,得到目標視頻中預設目標敏感信息的識別結果。
35、另外還提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述一種多模態視頻信息監測方法。
36、最后還提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現上述一種多模態視頻信息監測方法。
37、本發明提供的多模態視頻信息監測方法具有以下有益效果:
38、首先通過對敏感信息的分析,提取出目標視頻與敏感信息相關的圖像幀,實現了對目標視頻中的初步篩選,減少了目標視頻中的無效信息,有利于提高對敏感信息識別的效率和準確性;其次通過目標視頻對應用戶的歷史敏感信息記錄調整不同模態信息的模態權重,這樣根據用戶的歷史行為確定用戶使用敏感信息的習慣,進而提高了對敏感信息識別的準確性,然后再通過多模態敏感信息識別模型分別提取不同模態的信息特征,對多種模態信息的特征進行融合,這樣通過多模塊信息的特征融合對不同模態的信息進行了語義關聯,強化了不同模態信息之間的相關性,提升了對多模態信息的語義分析能力,進一步提高了對多模態敏感信息識別的準確性。