本發明涉及圖像生成,特別是基于可見光和熱成像的空間圖像生成方法及系統。
背景技術:
1、隨著計算機視覺、遙感探測、自動駕駛及醫學成像等領域的發展,多模態數據融合技術得到了廣泛關注,其中,可見光與熱成像數據融合技術作為一種能夠提升環境感知能力、目標識別精度以及惡劣環境適應性的關鍵手段,現有的多模態成像技術通常依賴于單一或少量傳感器,并采用基于傳統圖像配準和特征融合的方法進行信息整合。
2、然而,在處理高動態場景、不同模態數據的時間同步、空間對齊以及特征融合方面仍然存在諸多局限,例如,傳統的圖像配準方法主要依賴于特征點匹配或基于幾何變換的空間映射,難以應對復雜場景下的視角差異和傳感器畸變,同時,由于可見光圖像與紅外圖像的物理成像原理不同,直接進行像素級融合容易導致信息冗余或模態不匹配,此外,現有的多模態特征提取方法大多基于卷積神經網絡cnn,其局部感受野限制了對全局信息的建模能力,難以充分利用不同模態數據的互補特性。
技術實現思路
1、鑒于上述現有存在的問題,提出了本發明。
2、因此,本發明提供了基于可見光和熱成像的空間圖像生成方法解決在處理高動態場景、不同模態數據的時間同步、空間對齊以及特征融合方面仍然存在諸多局限,難以應對復雜場景下的視角差異和傳感器畸變,同時,由于可見光圖像與紅外圖像的物理成像原理不同,直接進行像素級融合容易導致信息冗余或模態不匹配,此外,現有的多模態特征提取方法大多基于卷積神經網絡cnn,其局部感受野限制了對全局信息的建模能力,難以充分利用不同模態數據的互補特性問題。
3、為解決上述技術問題,本發明提供如下技術方案:
4、第一方面,本發明提供了基于可見光和熱成像的空間圖像生成方法,其包括:
5、獲取熱成像圖像數據、可見光灰度數據、深度圖數據以及事件相機數據作為采集數據,進行統一坐標系和空間對齊;
6、對采集數據進行patch分割,并添加位置編碼,采用vit網絡計算注意力得分矩陣,進行多頭注意力計算組成綜合特征矩陣,并進行線性變化得到多模態特征;
7、使用卷積塊注意力機制cbam計算多模態特征的通道注意力權重和空間注意力權重,得到通道增強特征,基于mlp神經網絡輸出3d位置預測顏色,使用nerf計算光線顏色值,并生成3d特征矩陣,采用深度可分離卷積進行特征降維,提取多尺度特征矩陣;
8、使用生成對抗網絡進行最終映射輸出融合圖像,進行融合圖像的無損壓縮,并進行加密安全傳輸。
9、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述對采集數據進行patch分割,并添加位置編碼,采用vit網絡計算注意力得分矩陣,進行多頭注意力計算組成綜合特征矩陣,并進行線性變化得到多模態特征,包括:
10、采用vit網絡對經過空間對齊的采集數據進行patch分割,并將每個patch線性變換為固定長度的特征向量;
11、根據所有patch組成的特征向量序列,并確定特征通道數;
12、為每個patch采用正弦和余弦函數計算位置編碼,將位置編碼添加至對應的patch中,形成帶有位置信息的patch序列;
13、根據patch序列計算query查詢、key鍵、value值,并計算query和key的點積,得到注意力得分矩陣,表示每個patch對所有patch的注意力權重;
14、對注意力得分矩陣進行softmax歸一化,使得每個patch的注意力權重總和為1,并對歸一化的注意力權重矩陣進行加權value計算全局特征;
15、進行多頭注意力計算,將query、key和value復制成h份,分別計算每個注意力頭的注意力分數,并執行softmax歸一化,得到多個注意力加權后的輸出,將所有注意力頭的輸出組成綜合特征矩陣;
16、對拼接的綜合特征矩陣進行線性變換,將特征維度映射回原始維度得到融合了全局信息的多模態特征f,包括特征圖的空間尺寸、批次大小batch?size,以及通道數。
17、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述使用卷積塊注意力機制cbam計算多模態特征的通道注意力權重和空間注意力權重,得到通道增強特征,包括:
18、使用卷積塊注意力機制cbam,基于每個patch的多模態特征進行全局平均池化和全局最大池化計算,分別得到平均池化特征和最大池化特征,并通過由兩層全連接層組成的網絡,計算通道注意力權重;
19、計算得到的通道注意力權重將作用于vit計算出的多模態特征,得到增強特征矩陣;
20、根據特征通道數對應的增強特征矩陣計算通道平均池化和通道最大池化,并通過卷積核進行空間注意力權重計算;
21、計算得到的通道注意力權重將作用于增強特征矩陣,得到通道增強特征。
22、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述基于mlp神經網絡輸出3d位置預測顏色,使用nerf計算光線顏色值,并生成3d特征矩陣,采用深度可分離卷積進行特征降維,提取多尺度特征矩陣,包括:
23、基于深度圖數據使用nerf根據相機的內參矩陣k和外參矩陣進行3d投影;
24、基于mlp神經網絡構建預訓練的顏色預測模型,包括輸入層、隱藏層和輸出層;
25、根據通道增強特征在隱藏層采用多層感知機mlp進行非線性變換,輸出3d位置預測顏色;
26、基于3d投影數據對于每個光線方向r,通道增強特征計算體密度和預測顏色確定不同光線的顏色值,并通過nerf訓練生成3d特征矩陣;
27、采用深度可分離卷積dsconv,對nerf訓練生成的3d特征矩陣在空間維度上進行通道獨立卷積,通過執行點卷積進行特征降維,提取多尺度特征矩陣。
28、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述使用生成對抗網絡進行最終映射輸出融合圖像指基于多尺度特征矩陣,使用生成對抗網絡進行最終映射,生成對抗網絡包括生成器g和判別器d,其中生成器g采用resnet殘差塊對多尺度特征矩陣進行特征變換,并采用雙線性插值進行上采樣重建生成融合圖像,通過判別器d采用預訓練的卷積神經網絡進行真實性預測,基于最小化判別器d的誤差為目標進行生成對抗網絡訓練,完成訓練后,通過輸入的多尺度特征矩陣,輸出最終的融合圖像。
29、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述獲取熱成像圖像數據、可見光灰度數據、深度圖數據以及事件相機數據作為采集數據,進行統一坐標系和空間對齊,包括:
30、基于可見光相機采集可見光圖像數據,針對每個像素點的紅、綠、藍通道值分別乘以固定的加權系數,得到單通道的灰度值;
31、基于熱成像傳感器采集紅外熱成像圖像數據進行噪聲去除,基于事件相機采集事件相機數據,并與紅外熱成像圖像數據和可見光灰度數據進行時間對齊;
32、基于lidar傳感器采集的深度圖數據進行噪聲濾波,并針對包括熱成像圖像數據、可見光灰度數據、深度圖數據以及事件相機數據的采集數據進行歸一化處理;
33、針對采集數據進行透視變換,通過相機標定獲取對應的單應性變換矩陣,將采集數據的坐標轉換到統一的全局參考坐標系,計算采集數據的視野差異,采用雙線性插值調整數據的分辨率,使采集數據在空間上的對齊。
34、作為本發明所述基于可見光和熱成像的空間圖像生成方法的一種優選方案,其中:所述進行融合圖像的無損壓縮,并進行加密安全傳輸指使用無損壓縮技術tiff?lzw壓縮進行融合圖像文件壓縮,使用aes-256加密壓縮數據,并采用密鑰管理系統kms進行密鑰保護,通過sftp協議進行數據安全傳輸至云端存儲,根據存儲位置生成融合圖像存儲日志,進行終端本地存儲。
35、第二方面,本發明提供了基于可見光和熱成像的空間圖像生成方法的系統,包括,
36、數據處理模塊,負責獲取熱成像圖像數據、可見光灰度數據、深度圖數據、事件相機數據,并進行數據處理和統一坐標系對齊;
37、多模態特征模塊,負責對齊后的多模態數據進行patch分割、位置編碼,并通過vit計算注意力矩陣,獲取融合特征;
38、注意力增強模塊,基于卷積塊注意力機制cbam對vit計算出的多模態特征進行通道注意力和空間注意力優化;
39、多尺度特征模塊,使用nerf計算光線顏色值、生成3d體積特征矩陣,并使用深度可分離卷積dsconv進行降維,提取多尺度特征;
40、融合圖像生成模塊,使用gan進行最終圖像合成,將?多尺度特征矩陣映射為高質量融合圖像;
41、安全傳輸模塊,進行融合圖像的存儲、無損壓縮、安全加密和傳輸。
42、第三方面,本發明提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其中:所述計算機程序被處理器執行時實現如本發明第一方面所述的基于可見光和熱成像的空間圖像生成方法的任一步驟。
43、第四方面,本發明提供了一種計算機可讀存儲介質,其上存儲有計算機程序,其中:所述計算機程序被處理器執行時實現如本發明第一方面所述的基于可見光和熱成像的空間圖像生成方法的任一步驟。
44、本發明有益效果為:通過采用vit計算全局注意力分布,可以使得每個patch關注所有其他patch,確保跨模態數據的特征不僅僅受局部鄰域影響,而是結合整個圖像的信息,通過計算綜合特征矩陣,使用線性變換可以確保最終的融合特征既包含vit計算的全局信息,通過計算得到的空間注意力權重直接作用于通道增強特征矩陣,進一步優化空間特征的表達,使得關鍵區域在多模態特征中更具辨識度,通過采用多層感知機mlp進行非線性變換,可以使通道增強特征通過深層特征映射學習顏色信息,確保預測出的顏色能夠準確反映3d體積的光線顏色特征,通過使用gan確保深層網絡仍然能夠保留關鍵的局部信息和紋理細節,使得最終生成的融合圖像更加接近真實可見光圖像。