本技術涉及ct圖像處理領域,尤其是,涉及危險液體的多模態識別方法、裝置以及計算機程序產品。
背景技術:
1、隨著社會的高速發展,公共安全越來越受到重視,對于行李中的危險液體的安全檢測的準確率和效率也提出了更高的要求。近年來,通過采用智能安檢識別算法對ct圖像進行分類和定位,在現有情況下,可以達到危險液體的較為準確且快速的識別。然而,現有的圖像檢測方法多數是基于對ct數據不同角度的投影圖片進行學習,主要根據容器形狀和顏色信息進行識別,未能充分學習ct掃描圖像的物理特征值。
2、為了解決這樣的局限性,專利文獻1提出了一種爆炸物識別系統,用于實現快速且準確的危險液體識別。
3、專利文獻1:cn115452870a
技術實現思路
1、然而,本技術的發明人經過研究發現,上述的專利文獻1仍然存在如下的技術問題:只利用容器的三維形狀信息與危險液體數據庫判斷是否為危險液體,未能考慮不同材質的容器、不同的液體成分等對ct掃描圖像的影響,容易造成行李中危險液體的誤檢與漏檢。
2、本技術提供一種考慮ct掃描圖像中容器材質、液體成分等的影響、從而提高危險液體識別準確率的危險液體的多模態識別方法、裝置以及計算機程序產品。
3、本技術的一個方面提供一種危險液體的多模態識別方法,該方法包括:針對ct成像的圖像數據,生成描述危險液體的屬性的文本數據,屬性至少包括液體成分和容器材質;使用圖像編碼器對圖像數據進行編碼獲得視覺向量;使用文本編碼器,對文本數據中的每個屬性進行編碼獲得文本向量,將文本向量存儲到文本向量庫;以及針對學習用的圖像數據,利用視覺向量和文本向量,訓練識別危險液體的多模態模型。通過在多模態模型的訓練中,使用視覺向量和文本向量兩者,且文本向量的屬性至少包括液體成分和容器材質,能夠實現考慮了液體成分、容器材質等屬性的危險液體識別,從而能夠提高危險液體識別的準確率。
4、在上述的多模態識別方法的一些實施例中,還包括:針對待測的圖像數據,根據訓練后的多模態模型,計算視覺向量和文本向量的相似度,根據相似性判斷,生成包含描述文本的危險液體識別結果。通過在本技術中,由于利用視覺向量和文本向量兩者的相關度進行識別,因此,能夠進行考慮了文本向量所體現的危險液體的液體成分、容器材質等屬性的危險液體的識別,從而識別結果更為準確。另外,由于識別結果中包含描述文本,而該描述文本包含與圖像數據中的各容器匹配的屬性的關鍵詞,因此,能夠直觀地得知危險液體的液體成分、容器材質等屬性。
5、在上述的多模態識別方法的一些實施例中,根據訓練后的多模態模型,計算視覺向量和文本向量的相似度,根據相似性判斷,生成包含描述文本的危險液體識別結果包括:利用多模態模型,計算視覺向量與文本向量庫中的各屬性的文本向量的相似度;進行視覺向量和文本向量的相似性判斷;以及根據相似性判斷結果,輸出包含描述文本的識別結果。通過利用視覺向量和文本向量兩者的相關度進行識別,因此,能夠進一步提高危險液體識別結果的準確率。
6、在上述的多模態識別方法的一些實施例中,進行視覺向量和文本向量的相似性判斷包括:設置預設的相似度閾值;以及若相似度大于預設的相似度閾值時,則將該屬性的文本向量記為有效匹配,描述文本包含與有效匹配的文本向量對應的關鍵詞。通過設置閾值并對每個屬性判斷有效匹配的文本向量,使得描述文本包含與有效匹配的文本向量對應的關鍵詞,能夠生成表達內容準確、豐富的識別結果。
7、在上述的多模態識別方法的一些實施例中,使用圖像編碼器,對圖像數據進行編碼獲得視覺向量包括:獲取圖像數據的每幅圖像中的容器區域,針對每個容器區域,生成視覺向量。通過針對每個容器區域生成視覺向量,能夠應對同一幅圖像中包含有多個容器的情況。
8、在上述的多模態識別方法的一些實施例中,使用文本編碼器,對文本數據中的每個屬性進行編碼獲得文本向量包括:對文本數據進行分詞來獲取不同屬性的關鍵詞;以及使用文本編碼器對關鍵詞進行編碼,與每個關鍵詞對應地產生一個文本向量。由此,能夠獲得與每個屬性對應的準確的文本向量。
9、在上述的多模態識別方法的一些實施例中,在文本向量庫中,按照不同屬性對關鍵詞進行分組,將屬于相同屬性的文本向量作為一個集合進行存儲。由此,有利于文本向量的管理和檢索。
10、在上述的多模態識別方法的一些實施例中,利用視覺向量和文本向量訓練識別危險液體的多模態模型包括:設計一個多模態融合對齊網絡,將視覺向量和文本向量映射到一個共同的多維特征空間;構建圖像文本對比損失函數,優化視覺向量和文本向量的跨模態對齊,損失函數的維度與屬性的個數有關;以及通過損失函數對多模態融合對齊網絡進行訓練,得到多模態模型。由于在損失函數的構建過程中也考慮了屬性且損失函數的維度與屬性的個數有關,從而能夠獲得能夠考慮危險液體的液體成分、容器材質等多種屬性的多模態模型,從而使得利用該多模態模型的識別準確率更高。
11、在上述的多模態識別方法的一些實施例中,利用視覺向量和文本向量訓練識別危險液體的多模態模型包括:針對每一種屬性的文本向量,分別獨立地與視覺向量進行關聯性學習。通過每一種屬性的文本向量分別獨立地與視覺向量進行關聯性學習,避免了不同屬性向量之間的相互干擾,提高多模態模型的識別準確率。
12、在上述的多模態識別方法的一些實施例中,屬性還包括:液體體積、容器的壁厚中的至少一者。通過考慮液體體積、容器的壁厚,可以進一步提高危險液體的識別準確率。
13、本技術的另一方面提供一種危險液體的多模態識別裝置,該裝置包括:數據生成部,針對ct成像的圖像數據,生成描述危險液體的屬性的文本數據,屬性至少包括液體成分和容器材質;視覺向量編碼部,使用圖像編碼器,對圖像數據進行編碼獲得視覺向量;文本向量編碼部,使用文本編碼器,對文本數據中的每個屬性進行編碼獲得文本向量,將文本向量存儲到文本向量庫;以及訓練部,針對學習用的圖像數據,利用視覺向量和文本向量,訓練識別危險液體的多模態模型。通過在多模態模型的訓練中,使用視覺向量和文本向量兩者,且文本向量的屬性至少包括液體成分和容器材質,能夠實現考慮了液體成分、容器材質等屬性的危險液體識別,從而能夠提高危險液體識別的準確率。
14、在上述的多模態識別裝置的一些實施例中,還包括:識別部,針對待測的圖像數據,根據訓練后的多模態模型,計算視覺向量和文本向量的相似度,根據相似性判斷,生成包含描述文本的危險液體識別結果。通過在本技術中,由于利用視覺向量和文本向量兩者的相關度進行識別,因此,能夠進行考慮了文本向量所體現的危險液體的液體成分、容器材質等屬性的危險液體的識別,從而識別結果更為準確。另外,由于識別結果中包含描述文本,而該描述文本包含與圖像數據中的各容器匹配的屬性的關鍵詞,因此,能夠直觀地得知危險液體的液體成分、容器材質等屬性。
15、在上述的多模態識別裝置的一些實施例中,識別部包括:相似度計算模塊,利用多模態模型,計算視覺向量與文本向量庫中的各屬性的文本向量的相似度;相似性判斷模塊,進行視覺向量和文本向量的相似性判斷;以及識別結果輸出模塊,根據相似性判斷結果,輸出包含描述文本的識別結果。通過利用視覺向量和文本向量兩者的相關度進行識別,因此,能夠進一步提高危險液體識別結果的準確率。
16、在上述的多模態識別裝置的一些實施例中,相似性判斷模塊包括:閾值設定單元,設置預設的相似度閾值;以及有效匹配確定單元,若相似度大于預設的相似度閾值時,則將該屬性的文本向量記為有效匹配,描述文本包含與有效匹配的文本向量對應的關鍵詞。通過設置閾值并對每個屬性判斷有效匹配的文本向量,使得描述文本包含與有效匹配的文本向量對應的關鍵詞,能夠生成表達內容準確、豐富的識別結果。
17、在上述的多模態識別裝置的一些實施例中,視覺向量編碼部獲取圖像數據的每幅圖像中的容器區域,針對每個容器區域,生成視覺向量。通過針對每個容器區域生成視覺向量,能夠應對同一幅圖像中包含有多個容器的情況。
18、在上述的多模態識別裝置的一些實施例中,文本向量編碼部包括:關鍵詞獲取模塊,對文本數據進行分詞來獲取不同屬性的關鍵詞;以及文本向量生成模塊,使用文本編碼器對關鍵詞進行編碼,與每個關鍵詞對應地產生一個文本向量。由此,能夠獲得與每個屬性對應的準確的文本向量。
19、在上述的多模態識別裝置的一些實施例中,文本向量編碼部還包括文本向量庫存儲模塊,文本向量庫存儲模塊在文本向量庫中,按照不同屬性對關鍵詞進行分組,將屬于相同屬性的文本向量作為一個集合進行存儲。由此,有利于文本向量的管理和檢索。
20、在上述的多模態識別裝置的一些實施例中,訓練部包括:多模態融合對齊網絡設計模塊,設計一個多模態融合對齊網絡,將視覺向量和文本向量映射到一個共同的多維特征空間;損失函數構建模塊,構建圖像文本對比損失函數,優化視覺向量和文本向量的跨模態對齊,損失函數的維度與屬性的個數有關;以及模型訓練模塊,通過損失函數對多模態融合對齊網絡進行訓練,得到多模態模型。由于在損失函數的構建過程中也考慮了屬性且損失函數的維度與屬性的個數有關,從而能夠獲得能夠考慮危險液體的液體成分、容器材質等多種屬性的多模態模型,從而使得利用該多模態模型的識別準確率更高。
21、在上述的多模態識別裝置的一些實施例中,訓練部針對每一種屬性的文本向量分別獨立地與視覺向量進行關聯性學習。通過每一種屬性的文本向量分別獨立地與視覺向量進行關聯性學習,避免了不同屬性向量之間的相互干擾,提高多模態模型的識別準確率。
22、在上述的多模態識別裝置的一些實施例中,屬性還包括:液體體積、容器的壁厚中的至少一者。通過考慮液體體積、容器的壁厚,可以進一步提高危險液體的識別準確率。
23、本技術的又一個方面提供一種計算機程序產品,包括計算機程序,該程序使得計算機執行上述的多模態識別方法的任意的實施例的中的步驟。