本發明涉及人工智能、圖像處理和文本處理,尤其涉及一種圖像描述文本生成方法及裝置。
背景技術:
1、隨著人工智能在各個領域上取得的進步,計算機視覺和自然語言處理結合的領域也受到了廣泛的關注。例如,基于文本信息生成圖像的文生圖模型,以其形象性、生動性以及流暢性等優勢成為一個研究熱點。
2、訓練文生圖模型時需要大量的圖文樣本,即圖像和對應圖像的描述文本。但是大部分圖文樣本中的文本描述都是通過網上爬蟲獲得的,質量不高,即描述圖像的準確性較低或者語句不佳。因此,亟需一種有效的方案以解決上述問題。
技術實現思路
1、針對現有技術存在的問題,本發明實施例提供一種圖像描述文本生成方法及裝置。
2、本發明提供一種圖像描述文本生成方法,包括:
3、對待描述的目標圖像進行圖像文本識別,得到所述目標圖像對應的至少一個初始描述文本;
4、將各所述初始描述文本和所述目標圖像輸入至第一相似度預測模型,得到各所述初始描述文本分別與所述目標圖像的第一相似度;
5、根據各所述第一相似度,從各所述初始描述文本中篩選出至少一個備選描述文本;
6、將各所述備選描述文本和所述目標圖像輸入至第二相似度預測模型,得到各所述備選描述文本分別與所述目標圖像的第二相似度,所述第一相似度預測模型和所述第二相似度預測模型基于不同的圖文對象集訓練得到;
7、根據各所述第二相似度,從各所述備選描述文本中,確定所述目標圖像對應的目標描述文本。
8、根據本發明提供的一種圖像描述文本生成方法,所述對待描述的目標圖像進行圖像文本識別,得到所述目標圖像對應的至少一個初始描述文本,包括:
9、步驟1:對待描述的目標圖像和指定文本分別進行特征提取,得到圖像嵌入特征和文本嵌入特征,所述指定文本為空文本;
10、步驟2:根據所述圖像嵌入特征和所述文本嵌入特征,按照自回歸文本生成策略,得到所述目標圖像對應的初始描述文本;
11、步驟3:統計已得到的初始描述文本的文本數量;
12、在所述文本數量未達到數量閾值的情況下,繼續執行所述步驟1、所述步驟2和所述步驟3,直至所述文本數量達到所述數量閾值。
13、根據本發明提供的一種圖像描述文本生成方法,所述根據所述圖像嵌入特征和所述文本嵌入特征,按照自回歸文字生成策略,得到所述目標圖像對應的初始描述文本,包括:
14、步驟21:根據所述圖像嵌入特征和所述文本嵌入特征,對字庫中的各文字分析處理,確定各所述文字的文字特征;
15、步驟22:根據各所述文字特征,確定各所述文字的概率,并基于各所述概率對各所述文字進行隨機采樣,得到采樣結果;
16、步驟23:若所述采樣結果為停止符號或空,則將所述指定文本確定為所述目標圖像對應的初始描述文本;或者,若所述采樣結果不為停止符號或空,將所述采樣結果和所述指定文本進行拼接,得到更新的指定文本,對所述更新的指定文本進行特征提取,以更新所述文本嵌入特征,繼續執行所述步驟21、步驟22和步驟23。
17、根據本發明提供的一種圖像描述文本生成方法,所述根據所述圖像嵌入特征和所述文本嵌入特征,按照自回歸文字生成策略,得到所述目標圖像對應的初始描述文本,包括:
18、將所述圖像嵌入特征和所述文本嵌入特征進行特征融合,得到圖文嵌入特征;
19、根據所述圖文嵌入特征,按照自回歸文字生成策略,得到所述目標圖像對應的初始描述文本。
20、根據本發明提供的一種圖像描述文本生成方法,所述第一相似度預測模型包括第一文本編碼層、第一圖像編碼層和第一相似度預測層;
21、相應地,所述將各所述初始描述文本和所述目標圖像輸入至第一相似度預測模型,得到各所述初始描述文本分別與所述目標圖像的第一相似度,包括:
22、針對每個所述初始描述文本執行以下處理:
23、將所述初始描述文本輸入至所述第一文本編碼層進行文本編碼處理,得到第一文本嵌入向量,并將所述目標圖像輸入至所述第一圖像編碼層進行圖像編碼處理,得到第一圖像嵌入向量;
24、將所述第一文本嵌入向量和所述第一圖像嵌入向量輸入至所述第一相似度預測層進行相似度計算,得到所述初始描述文本與所述目標圖像的第一相似度。
25、根據本發明提供的一種圖像描述文本生成方法,所述第二相似度預測模型包括第二文本編碼層、第二圖像編碼層和第二相似度預測層;所述第二圖像編碼層與所述第一圖像編碼層不同;
26、相應地,所述將各所述備選描述文本和所述目標圖像輸入至第二相似度預測模型,得到各所述備選描述文本分別與所述目標圖像的第二相似度,包括:
27、針對每個所述備選描述文本執行以下處理:
28、將所述備選描述文本輸入至所述第二文本編碼層進行文本編碼處理,得到第二文本嵌入向量,并將所述目標圖像輸入至所述第二圖像編碼層進行圖像編碼處理,得到第二圖像嵌入向量;
29、將所述第二文本嵌入向量和所述第二圖像嵌入向量輸入至所述第二相似度預測層進行相似度計算,得到所述備選描述文本與所述目標圖像的第二相似度。
30、根據本發明提供的一種圖像描述文本生成方法,所述將各所述初始描述文本和所述目標圖像輸入至第一相似度預測模型之前,還包括:
31、獲取多個攜帶有相似度標簽的樣本圖文對象,所述樣本圖文對象包括樣本圖像和所述樣本圖像的樣本描述文本;
32、從各所述樣本圖文對象中隨機抽取第一指定數量的樣本圖文對象,得到第一圖文對象集;并從各所述樣本圖文對象中隨機抽取第二指定數量的樣本圖文對象,得到第二圖文對象集;
33、根據所述第一圖文對象集對第一相似度預測模型進行訓練,得到所述第一相似度預測模型,并根據所述第二圖文對象集對第二相似度預測模型進行訓練,得到所述第二相似度預測模型。
34、根據本發明提供的一種圖像描述文本生成方法,所述根據各所述第一相似度,從各所述初始描述文本中篩選出至少一個備選描述文本,包括:
35、將各所述第一相似度降序排序,將排名前n個的所述第一相似度作為備選相似度,n為正整數;
36、將各所述備選相似度對應的初始描述文本分別確定為備選描述文本。
37、根據本發明提供的一種圖像描述文本生成方法,所述根據各所述第二相似度,從各所述備選描述文本中,確定所述目標圖像對應的目標描述文本,包括:
38、從各所述第二相似度中確定最大相似度;
39、將所述備選描述文本中所述最大相似度對應的備選描述文本,確定為所述目標圖像對應的目標描述文本。
40、本發明還提供一種圖像描述文本生成裝置,包括:
41、識別模塊,被配置為對待描述的目標圖像進行圖像文本識別,得到所述目標圖像對應的至少一個初始描述文本;
42、第一輸入模塊,被配置為將各所述初始描述文本和所述目標圖像輸入至第一相似度預測模型,得到各所述初始描述文本分別與所述目標圖像的第一相似度;
43、篩選模塊,被配置為根據各所述第一相似度,從各所述初始描述文本中篩選出至少一個備選描述文本;
44、第二輸入模塊,被配置為將各所述備選描述文本和所述目標圖像輸入至第二相似度預測模型,得到各所述備選描述文本分別與所述目標圖像的第二相似度,所述第一相似度預測模型和所述第二相似度預測模型基于不同的圖文對象集訓練得到;
45、確定模塊,被配置為根據各所述第二相似度,從各所述備選描述文本中,確定所述目標圖像對應的目標描述文本。
46、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述圖像描述文本生成方法。
47、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述圖像描述文本生成方法。
48、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述圖像描述文本生成方法。
49、本發明提供的圖像描述文本生成方法及裝置,通過對待描述的目標圖像進行圖像文本識別,得到所述目標圖像對應的至少一個初始描述文本;將各所述初始描述文本和所述目標圖像輸入至第一相似度預測模型,得到各所述初始描述文本分別與所述目標圖像的第一相似度;根據各所述第一相似度,從各所述初始描述文本中篩選出至少一個備選描述文本;將各所述備選描述文本和所述目標圖像輸入至第二相似度預測模型,得到各所述備選描述文本分別與所述目標圖像的第二相似度,所述第一相似度預測模型和所述第二相似度預測模型基于不同的圖文對象集訓練得到;根據各所述第二相似度,從各所述備選描述文本中,確定所述目標圖像對應的目標描述文本。通過第一相似度預測模型和第二相似度預測模型篩選出目標描述文本,使得目標描述文本能夠較為準確地描述目標圖像,從而形成更高質量的目標圖文對象,以訓練出更優的文生圖模型。還可以為大量圖像生成對應的高質量描述文本,為文生圖模型提供大量優質的訓練樣本,生成大量初始文本描述,并在其中過濾出高質量的目標文本描述,節省人力物力,進而提高文生圖模型的訓練效率。