本發明涉及人工智能和數據清洗,尤其涉及一種圖文對象處理方法及裝置。
背景技術:
1、隨著人工智能在各個領域上取得的進步,計算機視覺和自然語言處理結合的領域也受到了廣泛的關注。例如,基于文本信息生成圖像的文生圖模型,以其形象性、生動性以及流暢性等優勢成為一個研究熱點。
2、訓練文生圖模型時需要大量的圖文樣本,即圖像和對應圖像的描述文本。但是由于圖片質量不佳或者描述文本形容或描述地不夠準確,導致訓練出來的文生圖模型效果較差。因此,亟需一種有效的方案以解決上述問題。
技術實現思路
1、針對現有技術存在的問題,本發明實施例提供一種圖文對象處理方法及裝置。
2、本發明提供一種圖文對象處理方法,包括:
3、獲取初始圖文對象,所述初始圖文對象包括初始圖像和所述初始圖像的初始描述文本;
4、從至少一個維度對所述初始圖像進行圖像分析,得到所述初始圖像的置信度,并計算所述初始描述文本與所述初始圖像的第一相似度;
5、在所述置信度大于第一閾值,且所述第一相似度大于第二閾值的情況下,根據所述初始圖像和所述初始描述文本確定目標圖文對象。
6、根據本發明提供的一種圖文對象處理方法,所述計算所述初始描述文本與所述初始圖像的第一相似度,包括:
7、將所述初始描述文本分割為至少兩個初始子文本;
8、從所述至少兩個初始子文本中確定至少一個目標子文本;
9、將各所述目標子文本進行拼接,得到目標描述文本;
10、計算所述目標描述文本與所述初始圖像的第一相似度。
11、根據本發明提供的一種圖文對象處理方法,所述從所述至少兩個初始子文本中確定至少一個目標子文本,包括:
12、計算各所述初始子文本與所述初始圖像的第二相似度;
13、確定各所述第二相似度中大于第三閾值的目標相似度,將所述目標相似度對應的所述初始子文本確定為目標子文本。
14、根據本發明提供的一種圖文對象處理方法,所述根據所述初始圖像和所述初始描述文本確定目標圖文對象,包括:
15、將所述初始圖像和所述初始描述文本對應的所述目標描述文本,確定為所述目標圖文對象。
16、根據本發明提供的一種圖文對象處理方法,所述從至少一個維度對所述初始圖像進行圖像分析,得到所述初始圖像的置信度,包括:
17、從至少一個維度分別所述初始圖像進行圖像特征提取,得到所述初始圖像在各所述維度的圖像特征;
18、根據各所述圖像特征,確定所述初始圖像的置信度。
19、根據本發明提供的一種圖文對象處理方法,所述至少一個維度包括美學維度、水印維度和違規鑒別維度中的至少一個;
20、相應地,所述從至少一個維度分別所述初始圖像進行圖像特征提取,得到所述初始圖像在各所述維度的圖像特征,包括以下至少一種:
21、從美學維度對所述初始圖像進行圖像特征提取,得到所述初始圖像在所述美學維度的圖像特征;
22、從水印維度對所述初始圖像進行圖像特征提取,得到所述初始圖像在所述水印維度的圖像特征;
23、從違規鑒別維度對所述初始圖像進行圖像特征提取,得到所述初始圖像在所述違規鑒別維度的圖像特征。
24、根據本發明提供的一種圖文對象處理方法,所述根據各所述圖像特征,確定所述初始圖像的置信度,包括:
25、對各所述圖像特征進行特征平均處理,得到所述初始圖像的綜合圖像特征;
26、根據所述綜合圖像特征對所述初始圖像進行概率預測,得到所述初始圖像的置信度。
27、根據本發明提供的一種圖文對象處理方法,所述從至少一個維度分別所述初始圖像進行圖像特征提取,得到所述初始圖像在各所述維度的圖像特征,包括:
28、針對每個維度,將所述初始圖像輸入至所述維度對應的圖像處理模型中進行圖像特征提取,得到所述初始圖像在各所述維度的圖像特征;
29、所述圖像處理模型基于攜帶有維度標簽的第一樣本圖像訓練得到,所述維度標簽為所述第一樣本圖像在所述維度下的概率值。
30、根據本發明提供的一種圖文對象處理方法,所述計算所述初始描述文本與所述初始圖像的第一相似度,包括:
31、對所述初始描述文本和所述初始圖像分別進行編碼處理,得到文本嵌入向量和圖像嵌入向量;
32、對所述文本嵌入向量和所述圖像嵌入向量進行相似度計算,得到所述初始描述文本與所述初始圖像的第一相似度。
33、根據本發明提供的一種圖文對象處理方法,所述對所述初始描述文本和所述初始圖像分別進行編碼處理,得到文本嵌入向量和圖像嵌入向量,包括:
34、將所述初始描述文本輸入至預訓練的相似度預測模型的文本編碼層進行文本編碼處理,得到文本嵌入向量,并將所述初始圖像輸入至所述相似度預測模型的圖像編碼層進行圖像編碼處理,得到圖像嵌入向量;
35、相應地,所述對所述文本嵌入向量和所述圖像嵌入向量進行相似度計算,得到所述初始描述文本與所述初始圖像的第一相似度,包括:
36、將所述文本嵌入向量和所述圖像嵌入向量輸入至所述相似度預測模型的相似度預測層進行相似度計算,得到所述初始描述文本與所述初始圖像的第一相似度。
37、根據本發明提供的一種圖文對象處理方法,所述將所述初始描述文本輸入至相似度預測模型的文本編碼層進行文本編碼處理之前,還包括:
38、獲取未訓練的相似度預測模型,并獲取攜帶有相似度標簽的樣本圖文對象,所述相似度預測模型包括文本編碼層、圖像編碼層和相似度預測層,所述樣本圖文對象包含第二樣本圖像和所述第二樣本圖像的樣本描述文本;
39、將所述樣本描述文本輸入至所述文本編碼層,得到預測文本嵌入向量,并將所述第二樣本圖像輸入至所述圖像編碼層,得到預測圖像嵌入向量;
40、將所述預測文本嵌入向量和所述預測圖像嵌入向量輸入至所述相似度預測層,得到預測相似度;
41、根據所述相似度標簽和所述預測相似度計算損失值;
42、根據所述損失值對所述相似度預測模型進行梯度優化,繼續執行所述獲取攜帶有相似度標簽的樣本圖文對象的步驟,直至達到預設停止條件,得到訓練好的所述相似度預測模型。
43、本發明還提供一種圖文對象處理裝置,包括:
44、獲取模塊,被配置為獲取初始圖文對象,所述初始圖文對象包括初始圖像和初始描述文本;
45、分析模塊,被配置為從至少一個維度對所述初始圖像進行圖像分析,得到所述初始圖像的置信度,并計算所述初始描述文本與所述初始圖像的第一相似度;
46、確定模塊,被配置為在所述置信度大于第一閾值,且所述第一相似度大于第二閾值的情況下,根據所述初始圖像和所述初始描述文本確定目標圖文對象。
47、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述圖文對象處理方法。
48、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述圖文對象處理方法。
49、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述圖文對象處理方法。
50、本發明提供的圖文對象處理方法及裝置,通過獲取初始圖文對象,所述初始圖文對象包括初始圖像和所述初始圖像的初始描述文本;從至少一個維度對所述初始圖像進行圖像分析,得到所述初始圖像的置信度,并計算所述初始描述文本與所述初始圖像的第一相似度;在所述置信度大于第一閾值,且所述第一相似度大于第二閾值的情況下,根據所述初始圖像和所述初始描述文本確定目標圖文對象。本發明從表征圖像質量的至少一個維度和描述準確性兩個方面進行數據清洗,采用投票的方式進行清洗,即基于閾值進行清洗,使得清洗出更高質量的目標圖文對象,以訓練出更優的文生圖模型。支持文生圖等多模態模型訓練。