本發明涉及長視頻事件預測,尤其涉及一種長視頻事件預測方法、系統、設備及存儲介質。
背景技術:
1、事件預測旨在基于歷史情況預測事件未來的態勢,從而有助于識別與規避潛在風險,進而為事件決策和應急提供有力支持。以往,事件預測工作往往圍繞歷史事件的文本化描述展開。隨著信息采集與交互手段的豐富,越來越多的事件以流媒體直播等視頻方式呈現。而視頻表達的多模態、富語義、高噪聲及抽象化表達等特點,使得僅基于文本的分析方法難以遷移到視頻場景下加以應用。因此,如何有效應對視頻場景下的事件理解與態勢感知需求成為應時之需。
2、圍繞這一需求,早期的工作往往通過關注一些淺層的細節,如目標或動作識別,來理解并預測視頻事態。然而,這些技術往往缺乏語義抽象能力,難以從更為宏觀的視角理解視頻并歸納其中的邏輯鏈條。更為嚴重的是,這一缺陷導致這些方法往往僅能處理較短的視頻,而對于現實中更為常見,語義信息也更完整、更豐富的長視頻且缺乏處理能力,難以形成具有顯著意義的事件邏輯鏈條。而這無疑嚴重限制了其應用價值。
3、隨著大語言模型和視覺語言技術的發展,長視頻的語義理解能力有了較大的提升。這些方法通常采用端到端的方式直接地理解視頻,或者將視頻轉成文本再進行預測。盡管能夠有效地定位細節和概括事件,但這些方法仍無法進一步地上升到事態的層面把握事件的宏觀走向,從而易于迷失在長視頻大量事件間的復雜邏輯關系中,進而極大削弱了其有效性。
4、有鑒于此,特提出本發明。
技術實現思路
1、本發明的目的是提供一種長視頻事件預測方法、系統、設備及存儲介質,能夠逐層深入至宏觀事態層面有效理解長視頻,并基于事態發展規律,準確的預測未來事件。
2、本發明的目的是通過以下技術方案實現的:
3、一種長視頻事件預測方法,包括:
4、將輸入的原始視頻分割為連續的若干視頻片段,并提取出每一視頻片段中的對話文本與視頻人物圖像;
5、對每一視頻片段、視頻片段中的對話文本與視頻人物圖像分別進行編碼,并融合生成視覺描述文本;
6、將每一視頻片段中的對話文本及相應的視覺描述文本總結為一個事件,并基于常識知識專家模型,采用知識促進的檢索策略,將不同事件根據邏輯關聯串聯為連貫有序的事件鏈;
7、從事件鏈中捕捉事態演變模式,并預測下一事態階段,再將事件鏈與預測出的下一事態階段相結合,預測出未來事件。
8、一種長視頻事件預測系統,用于實現前述的方法,該系統包括:
9、多模態數據預處理單元,用于將輸入的原始視頻分割為連續的若干視頻片段,并提取出每一視頻片段中的對話文本與視頻人物圖像;
10、關鍵視覺描述生成單元,用于對每一視頻片段、視頻片段中的對話文本與視頻人物圖像分別進行編碼,并融合生成視覺描述文本;
11、知識促進的事件鏈構建單元,用于將每一視頻片段中的對話文本及相應的視覺描述文本總結為一個事件,并基于常識知識專家模型,采用知識促進的檢索策略,將不同事件根據邏輯關聯串聯為連貫有序的事件鏈;
12、未來事件預測單元,用于從事件鏈中捕捉事態演變模式,并預測下一事態階段,再將事件鏈與預測出的下一事態階段相結合,預測出未來事件。
13、一種處理設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
14、其中,當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現前述的方法。
15、一種可讀存儲介質,存儲有計算機程序,當計算機程序被處理器執行時實現前述的方法。
16、由上述本發明提供的技術方案可以看出,對原始長視頻中的大量時空信息逐層地進行語義抽象與歸納,并進而深入至宏觀事態發展模式來指導未來事件預測,分層式的框架有效地從大量信息中捕捉并精煉與事件理解相關的關鍵語義,而事態演變模式則揭露了事件未來發展的宏觀趨勢。這些設計有效地解決了長視頻中時空信息爆炸及事件間聯系錯綜復雜的難點,生成了更可靠的事件預測。
1.一種長視頻事件預測方法,其特征在于,包括:
2.根據權利要求1所述的一種長視頻事件預測方法,其特征在于,所述將輸入的原始視頻分割為連續的若干視頻片段包括:
3.根據權利要求1所述的一種長視頻事件預測方法,其特征在于,所述提取出每一視頻片段中的對話文本與視頻人物圖像包括:
4.根據權利要求1所述的一種長視頻事件預測方法,其特征在于,所述對每一視頻片段、視頻片段中的對話文本與視頻人物圖像分別進行編碼,并融合生成視覺描述文本包括:
5.根據權利要求1所述的一種長視頻事件預測方法,其特征在于,所述常識知識專家模型為通過常識知識圖譜微調的語言模型。
6.根據權利要求1或5所述的一種長視頻事件預測方法,其特征在于,所述基于常識知識專家模型,采用知識促進的檢索策略,將不同事件根據邏輯關聯串聯為連貫有序的事件鏈包括:
7.根據權利要求1所述的一種長視頻事件預測方法,其特征在于,還包括:設置第三大語言模型與第四大語言模型,通過第三大語言模型構建的數據對第四大語言模型進行微調,利用微調后的第四大語言模型作為未來事件預測單元從事件鏈中捕捉事態演變模式,并預測下一事態階段,再將事件鏈與預測出的下一事態階段相結合,預測出未來事件;
8.一種長視頻事件預測系統,其特征在于,用于實現權利要求1~7任一項所述的方法,該系統包括:
9.一種處理設備,其特征在于,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
10.一種可讀存儲介質,存儲有計算機程序,其特征在于,當計算機程序被處理器執行時實現如權利要求1~7任一項所述的方法。