本發(fā)明涉及視頻圖像處理,尤其是涉及一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法、設備及介質(zhì)。
背景技術:
1、腦啟發(fā)幀間圖像分割方法通過模仿人類大腦的視覺處理機制,提升了圖像分割的效率和準確性。腦啟發(fā)幀間圖像分割方法結合神經(jīng)科學的原理和先進的深度學習技術,使其能夠有效地處理復雜的視覺任務。通過使用類腦結構的卷積神經(jīng)網(wǎng)絡和注意力機制,這種方法可以自適應地捕捉和分析幀間圖像中的重要特征。與傳統(tǒng)方法相比,腦啟發(fā)方法在處理多樣化和動態(tài)變化的圖像場景時表現(xiàn)更為優(yōu)異。其主要優(yōu)勢在于能夠在較低的計算成本下實現(xiàn)高精度分割,這使其在實時應用中具有很大的潛力。此外,腦啟發(fā)幀間圖像分割方法能夠更好地處理噪聲和模糊等問題,提升了圖像處理的魯棒性。腦啟發(fā)幀間圖像分割方法在多種實際應用中表現(xiàn)出色,尤其是在自動駕駛、視頻監(jiān)控和醫(yī)療圖像分析領域。通過模仿人類大腦的視覺處理機制,該方法能夠有效地處理復雜動態(tài)場景中的圖像變化,提高目標檢測和追蹤的精度。它在實時性要求高的應用中具有顯著優(yōu)勢,可以快速響應并準確分割圖像中的關鍵對象。此外,這種方法還能增強對噪聲和模糊圖像的魯棒性,提高系統(tǒng)的可靠性。
2、腦啟發(fā)幀間圖像分割方法可以分類為基于卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡和變換器等不同結構的方法。基于卷積神經(jīng)網(wǎng)絡的方法通常具有較高的分割精度,適用于處理靜態(tài)圖像中的局部特征,但在捕捉長距離依賴關系時表現(xiàn)不足。遞歸神經(jīng)網(wǎng)絡方法能夠處理時間序列信息,更適合動態(tài)場景中的連續(xù)幀分割,但計算復雜度較高。基于變換器的方法通過引入自注意力機制,有效捕捉幀間相關性,提升了對復雜場景的處理能力,但在硬件資源消耗上較大。
3、如何實現(xiàn)精準且高效的視頻圖像分割,成為需要解決的技術問題。
技術實現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法、設備及介質(zhì)。
2、本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
3、根據(jù)本發(fā)明的一個方面,提供了一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,該方法包括以下步驟:
4、步驟s1,獲取視頻圖像,使用3d-cnn網(wǎng)絡從連續(xù)的視頻圖像幀中提取時空特征;
5、步驟s2,應用微分幾何工具對提取的時空特征進行分析,提取幾何特征;
6、步驟s3,將時空特征和幾何特征進行特征融合,形成融合特征,其中特征融合包括流形上的卷積操作和卷積平滑;
7、步驟s4,利用融合特征,通過分割網(wǎng)絡實現(xiàn)幀間圖像的精準分割。
8、優(yōu)選地,所述提取時空特征的過程包括:
9、假設輸入的視頻圖像幀序列為其中其中it表示第t幀圖像,t為總幀數(shù);對視頻圖像幀序列應用3d卷積,以同時提取空間和時間上的特征,3d卷積操作的公式為:
10、
11、其中,表示第l層的特征圖,表示3d卷積核,b(l)為偏置項,σ(·)為激活函數(shù),*表示3d卷積操作。
12、優(yōu)選地,所述提取幾何特征的過程包括:
13、將時空特征圖視為嵌入在一個高維流形m上的點集,假設視頻中的每一幀對應流形上的一個點表示為xt∈m,其中φ(·)為嵌入映射,將特征圖嵌入到流形上;
14、使用度量張量用于描述局部鄰域內(nèi)的幾何性質(zhì):ds2=gμvdxμdxv,其中,ds為流形上的微小距離,gμν為度量張量,dxμ和dxν分別為坐標系x軸和y軸中的微小變化。
15、優(yōu)選地,所述流形上的卷積操作具體為:
16、在高維流形m上,定義拉普拉斯-貝爾特拉米算子來進行卷積操作,用于捕捉特征圖在流形上的變化:
17、
18、其中,|g|是度量張量gμν的行列式,gμν是度量張量的逆矩陣,為高維流形m的拉普拉斯-貝爾特拉米算子。
19、優(yōu)選地,流形上的卷積平滑具體為:
20、通過拉普拉斯-貝爾特拉米算子對特征圖進行平滑處理:
21、
22、其中,η是平滑系數(shù),為平滑處理后的特征圖。
23、優(yōu)選地,所述的步驟s4中分割網(wǎng)絡的損失函數(shù)結合分割精度和時序一致性,具體為:
24、
25、
26、其中,為總的損失函數(shù);為分割的交叉熵損失;λtemporal為控制時序一致性損失的權重系數(shù);為時序一致性損失;pt和pt+1分別為第t幀和第t+1幀的分割結果,表示每個像素屬于不同類別的概率;t為總幀數(shù)。
27、優(yōu)選地,將步驟s3處理后的特征ftsmooth輸入到分割頭,通過softmax函數(shù)生成每個像素的分類概率:
28、pt=softmax(conv(ftsmooth))
29、其中,pt是第t幀的分割結果,表示每個像素屬于不同類別的概率。
30、優(yōu)選地,利用幾何中的測地線描述特征圖在流形上的演化路徑,以捕捉視頻中特征的連續(xù)變化:
31、
32、其中,d表示協(xié)變導數(shù),確保特征在流形上的演化保持一致性;xt表示第t幀對應流形上的一個特征點。
33、根據(jù)本發(fā)明的另一個方面,提供了一種電子設備,包括存儲器和處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)所述的方法。
34、根據(jù)本發(fā)明的第三方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)所述的方法。
35、與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
36、1)本發(fā)明利用3d-cnn從連續(xù)的圖像幀中提取時空信息(變化和運動信息),提高分割的動態(tài)響應性,然后利用微分幾何分析圖像中的曲面和形狀,用于捕捉圖像的局部幾何形狀,幫助理解復雜的空間關系,將兩者融合能夠更準確地捕捉復雜場景中的時空特征,實現(xiàn)高精度的圖像分割,有效融合了空間形狀分析和時間變化檢測的優(yōu)勢,使得分割結果更加準確和魯棒,對動態(tài)變化和復雜形狀的場景有更好的適應性,特別是在實時性要求高的應用中表現(xiàn)突出。
37、2)本發(fā)明的特征融合包括流形上的卷積操作和卷積平滑,減少噪聲并增強結構特征,并引入測地線來描述特征圖在流形上的演化路徑,捕捉特征圖在流形上的連續(xù)變化,幫助識別復雜場景的空間關系和時空信息,能夠在高維空間準確建模,并提高動態(tài)響應性,為后續(xù)的分割做好準備。
38、3)本發(fā)明在分割網(wǎng)絡訓練時結合了分割精度和時序一致性損失,確保結果在時間和空間上的一致性,因此輸出更加穩(wěn)定、準確的分割結果。
39、4)本發(fā)明3d-cnn和微分幾何分析結合的腦啟發(fā)幀間圖像分割方法的計算復雜度低,能夠更快速地處理變化復雜的圖像,因此提高了圖像分割的效率,適用于實時性要求高的應用。
1.一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,所述提取時空特征的過程包括:
3.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,所述提取幾何特征的過程包括:
4.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,所述流形上的卷積操作具體為:
5.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,流形上的卷積平滑具體為:
6.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,所述的步驟s4中分割網(wǎng)絡的損失函數(shù)結合分割精度和時序一致性,具體為:
7.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,將步驟s3處理后的特征輸入到分割頭,通過softmax函數(shù)生成每個像素的分類概率:
8.根據(jù)權利要求1所述的一種基于3d-cnn的腦啟發(fā)幀間圖像分割方法,其特征在于,利用幾何中的測地線描述特征圖在流形上的演化路徑,以捕捉視頻中特征的連續(xù)變化:
9.一種電子設備,包括存儲器和處理器,所述存儲器上存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權利要求1~8中任一項所述的方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權利要求1~8中任一項所述的方法。