本發明涉及視頻實例分割,尤其涉及一種基于超圖表示的視頻實例分割方法、系統、介質及設備。
背景技術:
1、在視頻實例分割領域,當前面臨諸多挑戰,漸進式遮擋問題尤為突出。漸進式遮擋可由實例遮擋和相機遮擋引發,致使實例部分區域不可見,極大增加了分割任務的難度。在此情形下,維持幀間的時空一致性對準確的實例跟蹤至關重要。現有研究,如mask2former-vis、dvis和dvis-daq等解耦策略,雖構建了基于顯式查詢的目標運動建模框架,但過度依賴可見特征和實例間的語義相似性。在漸進式遮擋環境中,僅依靠視野內的可見特征信息,難以區分同類相互遮擋的實例,進而導致識別模糊,嚴重影響分割精度。
2、現有大多數視頻實例分割方法多基于視頻圖像展開研究,鮮少涉及基于超圖的技術方案。超圖能夠表達復雜的高階關系,在分析視頻實例間的復雜交互方面具有獨特優勢,可對視頻中實例間豐富的結構屬性進行有效建模,為解決遮擋問題提供更全面的視角。
3、然而,在超圖上開展視頻實例分割研究也面臨諸多挑戰,例如超圖結構的復雜性使得特征提取和關系建模難度增大,如何高效地在超圖中捕捉和利用實例間的復雜關系成為難題。同時,由于超圖的特性,在建立幀間時空一致性方面也存在技術障礙。目前,對于在超圖上如何有效解決視頻實例分割的問題,現有技術尚未給出切實可行的解決方法。
技術實現思路
1、為了解決上述問題,本發明提出了一種基于超圖表示的視頻實例分割方法、系統、介質及設備,通過捕捉視頻中固有的豐富結構屬性,提取實例間交互關系來增強局部與全局實例特征在幀間的時空對應關系,建立可靠的幀間時空一致性,實現復雜動態場景下準確的實例跟蹤與分割。
2、為了實現上述目的,本發明采用如下技術方案:
3、第一方面,本發明提供一種基于超圖表示的視頻實例分割方法,包括:
4、基于視頻幀的實例查詢構建超圖;
5、基于胞腔層疊為所述超圖的節點和超邊分配向量空間,并通過限制映射定義節點與超邊的特征關聯;采用拉普拉斯算子對所述限制映射進行聚合,得到增強結構特征;
6、從所述向量空間生成投影方向,沿每個投影方向將相鄰幀的增強結構特征映射至一維空間;計算相鄰幀在一維投影上的wasserstein距離,并根據距離動態分配權重,加權得到相鄰幀超圖結構特征的加權切片wasserstein距離,作為wsw值;
7、計算相鄰幀中所有跨幀實例配對的wsw值,選擇wsw值最小的配對作為最佳匹配;基于所述最佳匹配建立幀間實例對應關系,實現視頻中目標實例的分割及連續跟蹤。
8、第二方面,本發明提供一種基于超圖表示的視頻實例分割系統,包括:
9、超圖構建模塊,被配置為,基于視頻幀的實例查詢構建超圖;
10、特征提取模塊,被配置為,基于胞腔層疊為所述超圖的節點和超邊分配向量空間,并通過限制映射定義節點與超邊的特征關聯;采用拉普拉斯算子對所述限制映射進行聚合,得到增強結構特征;
11、距離計算模塊,被配置為,從所述向量空間生成投影方向,沿每個投影方向將相鄰幀的增強結構特征映射至一維空間;計算相鄰幀在一維投影上的wasserstein距離,并根據距離動態分配權重,加權得到相鄰幀超圖結構特征的加權切片wasserstein距離,作為wsw值;
12、實例分割模塊,被配置為,計算相鄰幀中所有跨幀實例配對的wsw值,選擇wsw值最小的配對作為最佳匹配;基于所述最佳匹配建立幀間實例對應關系,實現視頻中目標實例的分割及連續跟蹤。
13、第三方面,本發明提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現第一方面所述的一種基于超圖表示的視頻實例分割方法中的步驟。
14、第四方面,本發明提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現第一方面所述的一種基于超圖表示的視頻實例分割方法中的步驟。
15、與現有技術相比,本發明的有益效果為:
16、(1)為解決漸進式遮擋問題,本發明提出了面向遮擋的加權時序一致性,采用重要性加權策略,著重突出關鍵結構信息在特征表示中的貢獻。該策略包含兩個關鍵部分:一方面,運用加權超圖卷積,借助超邊來提取增強的結構特征。這種方式能夠有效突出實例之間的重要交互信息,使得模型對實例間的復雜關系有更清晰的理解。另一方面,利用加權切片wasserstein距離來衡量相鄰幀之間的時空一致性。通過這種方式,可以更精準地捕捉不同幀之間實例的變化情況。這種雙重加權機制顯著增強了模型應對復雜遮擋的能力,進而有效提升了模型在動態遮擋場景下的視頻實例分割性能。
17、(2)在進行復雜動態建模時,本發明運用基于超圖卷積的復雜動態建模方法,引入基于胞腔層疊的加權超圖卷積。這一操作的核心目的是捕捉局部高階細微結構信息,胞腔層疊為超圖的節點和超邊提供更豐富的層次化結構信息。憑借這些豐富的信息,模型得以更精準地對實例之間的復雜關系進行建模。進一步地,將利用胞腔層疊獲取的細微結構信息,整合到超圖拉普拉斯算子當中。通過這種整合,在卷積過程中,模型可以有效捕捉隱藏的高階結構,進而實現高效的特征傳播和聚合。這一系列操作,讓模型在處理復雜動態場景時表現更優,能夠更好地應對復雜動態環境中的各種情況。
18、(3)為實現幀間的時空一致性,本發明通過動態推理保持時空一致性,采用基于加權切片wasserstein距離的動態推理機制來比較相鄰幀的結構特征。不僅能夠維持超圖的結構特性,還能精確捕捉實例之間的關聯差異。通過維持這些結構不變性,即便在存在遮擋的復雜情況下,也能夠準確建立幀間實例的對應關系,進而確保可靠的實例跟蹤,保證視頻實例分割任務在不同幀之間的準確性和連貫性。
19、本發明附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
1.一種基于超圖表示的視頻實例分割方法,其特征在于,包括:
2.如權利要求1所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述基于視頻幀的實例查詢構建超圖,具體為:
3.如權利要求1所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述基于胞腔層疊為所述超圖的節點和超邊分配向量空間,并通過限制映射定義節點與超邊的特征關聯,具體包括:
4.如權利要求1所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述采用拉普拉斯算子對所述限制映射進行聚合,得到增強結構特征,具體包括:
5.如權利要求1所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述從所述向量空間生成投影方向,沿每個投影方向將相鄰幀的增強結構特征映射至一維空間;計算相鄰幀在一維投影上的wasserstein距離,并根據距離動態分配權重,加權得到相鄰幀超圖結構特征的加權切片wasserstein距離,作為wsw值,具體包括:
6.如權利要求5所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述wsw值具體為:
7.如權利要求1所述的一種基于超圖表示的視頻實例分割方法,其特征在于,所述基于所述最佳匹配建立幀間實例對應關系,實現視頻中目標實例的分割及連續跟蹤的訓練過程包括:
8.一種基于超圖表示的視頻實例分割系統,其特征在于,包括:
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-7中任一項所述的一種基于超圖表示的視頻實例分割方法中的步驟。
10.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-7中任一項所述的一種基于超圖表示的視頻實例分割方法中的步驟。