本發(fā)明涉及人工智能和機(jī)器學(xué)習(xí)的跨學(xué)科研究領(lǐng)域,尤其涉及一種跨模態(tài)食品檢索方法。
背景技術(shù):
1、食物是人類(lèi)日常飲食的基本且必不可少的組成部分。最近社交媒體在獲取大量食物數(shù)據(jù)方面的崛起,引起了研究人員對(duì)食品相關(guān)研究的越來(lái)越多關(guān)注。利用視覺(jué)-語(yǔ)言(vl)聯(lián)合學(xué)習(xí)來(lái)分析食物數(shù)據(jù)已經(jīng)成為一個(gè)熱門(mén)的研究領(lǐng)域,尤其是在跨模態(tài)食品檢索領(lǐng)域??缒B(tài)食品檢索任務(wù)由圖像和文本兩種模態(tài)的食物數(shù)據(jù)組成,目的是使用文本食譜(即標(biāo)題、成分和做法)作為查詢(xún),從候選列表中檢索到正面的食物圖像,或使用食物圖像作為查詢(xún)來(lái)檢索正面的食譜。之前的工作致力于通過(guò)將視覺(jué)和文本表征映射到潛在空間中,最小化它們之間的余弦距離相似性,從而縮小兩種模態(tài)之間的差距。例如,堆疊注意力網(wǎng)絡(luò)(san)被提出,以學(xué)習(xí)通過(guò)提取視覺(jué)和文本特征的聯(lián)合空間,最大化圖像-食譜對(duì)的相似度。有的研究者提取了文本食譜注意力以投影到一個(gè)共享空間中,這減少了視覺(jué)和文本模態(tài)之間的差距。盡管這些工作已經(jīng)取得了競(jìng)爭(zhēng)性的表現(xiàn),跨模態(tài)食品檢索任務(wù)仍然面臨幾個(gè)挑戰(zhàn),主要體現(xiàn)在兩方面。
2、主要挑戰(zhàn)在于,現(xiàn)有雙編碼器架構(gòu)中的圖像特征提取器難以從食物圖像中全面提取多粒度信息?,F(xiàn)有方法主要關(guān)注食物圖像的全局特征提取,沒(méi)有考慮捕捉食物某些區(qū)域的細(xì)粒度視覺(jué)信息。單獨(dú)的全局視覺(jué)特征對(duì)于食譜特征的高度結(jié)構(gòu)化特性不敏感,這使得提升兩種模態(tài)之間的多粒度語(yǔ)義互動(dòng)變得困難。上述現(xiàn)象促使我們探索一種新型的編碼器架構(gòu),不僅可以提取多粒度視覺(jué)特征,還能保留全局特征。
3、次要挑戰(zhàn)在于,直接計(jì)算圖像-食譜對(duì)的相似性度量在食物圖像的多粒度和文本食譜的多層次之間的潛在對(duì)齊方面并不特別有效。近期方法通過(guò)一些度量損失函數(shù)使用文本-圖像配對(duì)樣本訓(xùn)練聯(lián)合嵌入檢索模型,以更新檢索模型。由于圖像層次視覺(jué)信息和三層次文本信息的結(jié)構(gòu)分布廣泛,兩種模態(tài)之間的相似性度量會(huì)發(fā)生不匹配。不匹配的檢索性能主要存在于兩點(diǎn):(1)由于相同的食材和食物容器,不同類(lèi)別的食物表現(xiàn)出微小的視覺(jué)差異;(2)相同類(lèi)別的食物在不同烹飪方式后表現(xiàn)出較大的視覺(jué)外觀差異。因此,本文的目的是探索圖像和文本模態(tài)之間的多粒度互動(dòng)相關(guān)性,以提高跨模態(tài)檢索性能。
4、為了緩解上述挑戰(zhàn),本發(fā)明提供了一個(gè)tei一種跨模態(tài)食品檢索方法,以探索單個(gè)圖像與多層次食譜之間的對(duì)應(yīng)關(guān)系。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于探索圖像和文本模態(tài)之間的多粒度互動(dòng)相關(guān)性,以提高跨模態(tài)檢索性能,改善現(xiàn)有技術(shù)多粒度語(yǔ)義互動(dòng)困難、潛在對(duì)齊方面不理想的問(wèn)題。
2、本發(fā)明提供的一種跨模態(tài)食品檢索方法包括以下步驟:
3、在圖像編碼器與食譜編碼器的基礎(chǔ)上增加多粒度交互編碼器構(gòu)建tei框架;
4、將給定的圖像-文本配對(duì)數(shù)據(jù)分別輸入到圖像編碼器與食譜編碼器進(jìn)行訓(xùn)練學(xué)習(xí);
5、圖像編碼器提取全局視覺(jué)特征;
6、食譜編碼器提取層次化特征并使用線(xiàn)性層獲得全局食譜特征;
7、多粒度交互編碼器提取多粒度特征;
8、所述層次化特征與多粒度特征計(jì)算成對(duì)的自注意力并取平均值得多粒度交互特征;
9、基于層次化語(yǔ)義對(duì)齊損失函數(shù)對(duì)齊兩種模態(tài)之間的相關(guān)性;
10、將訓(xùn)練好的tei框架用于跨模態(tài)食品檢索。
11、本發(fā)明提供的一種跨模態(tài)食品檢索方法具有準(zhǔn)確、魯棒性強(qiáng)和適應(yīng)性強(qiáng)的技術(shù)效果。
12、可選地,所述圖像編碼器以預(yù)訓(xùn)練權(quán)重為clip-b/16的視覺(jué)變換器為主干,用于提取所述全局視覺(jué)特征。
13、可選地,所述食譜編碼器以一個(gè)變換器編碼器為主干,用于通過(guò)自注意力捕獲文本上下文信息,使用三個(gè)獨(dú)立的變換器編碼器對(duì)食譜中的標(biāo)題、成分和指令信息進(jìn)行編碼,用于獲得所述層次化特征。
14、可選地,所述多粒度交互編碼器由mra模塊和一個(gè)額外圖像編碼器組成,所述額外圖像編碼器與所述圖像編碼器使用相同的主干,并在整個(gè)訓(xùn)練過(guò)程中共享權(quán)重參數(shù)。
15、可選地,所述將給定的圖像-文本配對(duì)數(shù)據(jù)分別輸入到圖像編碼器與食譜編碼器進(jìn)行訓(xùn)練學(xué)習(xí)時(shí),文本數(shù)據(jù)被分為成分、標(biāo)題和指令信息三個(gè)實(shí)體注入食譜編碼器中。
16、可選地,所述圖像編碼器提取全局視覺(jué)特征時(shí),圖像編碼器最終輸出中的類(lèi)標(biāo)記通過(guò)一個(gè)全連接層線(xiàn)性投影,用作全局圖像特征。
17、可選地,所述食譜編碼器提取層次化特征并使用線(xiàn)性層獲得全局食譜特征時(shí),將層次化特征在通道維度上連接并取平均得全局食譜嵌入,并通過(guò)全連接層線(xiàn)性投影,用作全局食譜特征。
18、可選地,所述多粒度交互編碼器提取多粒度特征時(shí),食物圖像被轉(zhuǎn)換為三個(gè)粒度級(jí)別的張量并與mra進(jìn)行交互計(jì)算,得三個(gè)級(jí)別的細(xì)粒度輸入并通過(guò)線(xiàn)性投影得多粒度特征。
19、可選地,所述基于層次化語(yǔ)義對(duì)齊損失函數(shù)對(duì)齊兩種模態(tài)之間的相關(guān)性時(shí),通過(guò)小批量數(shù)據(jù)內(nèi)的兩階段相似度計(jì)算獲取多粒度交互相似性分?jǐn)?shù),并通過(guò)層次化語(yǔ)義對(duì)齊損失函數(shù)lhmsa減少所述圖像-文本配對(duì)數(shù)據(jù)的不匹配問(wèn)題。
20、可選地,所述基于層次化語(yǔ)義對(duì)齊損失函數(shù)對(duì)齊兩種模態(tài)之間的相關(guān)性時(shí),在lhmsa的基礎(chǔ)上引入一般跨模態(tài)三元組損失ltri和語(yǔ)義三元組損失lsem并由lhmsa、ltri和lsem共同監(jiān)督。
1.一種跨模態(tài)食品檢索方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述圖像編碼器以預(yù)訓(xùn)練權(quán)重為clip-b/16的視覺(jué)變換器為主干,用于提取所述全局視覺(jué)特征。
3.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述食譜編碼器以一個(gè)變換器編碼器為主干,用于通過(guò)自注意力捕獲文本上下文信息,使用三個(gè)獨(dú)立的變換器編碼器對(duì)食譜中的標(biāo)題、成分和指令信息進(jìn)行編碼,用于獲得所述層次化特征。
4.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述多粒度交互編碼器由mra模塊和一個(gè)額外圖像編碼器組成,所述額外圖像編碼器與所述圖像編碼器使用相同的主干,并在整個(gè)訓(xùn)練過(guò)程中共享權(quán)重參數(shù)。
5.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述將給定的圖像-文本配對(duì)數(shù)據(jù)分別輸入到圖像編碼器與食譜編碼器進(jìn)行訓(xùn)練學(xué)習(xí)時(shí),文本數(shù)據(jù)被分為成分、標(biāo)題和指令信息三個(gè)實(shí)體注入食譜編碼器中。
6.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述圖像編碼器提取全局視覺(jué)特征時(shí),圖像編碼器最終輸出中的類(lèi)標(biāo)記通過(guò)一個(gè)全連接層線(xiàn)性投影,用作全局圖像特征。
7.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述食譜編碼器提取層次化特征并使用線(xiàn)性層獲得全局食譜特征時(shí),將層次化特征在通道維度上連接并取平均得全局食譜嵌入,并通過(guò)全連接層線(xiàn)性投影,用作全局食譜特征。
8.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述多粒度交互編碼器提取多粒度特征時(shí),食物圖像被轉(zhuǎn)換為三個(gè)粒度級(jí)別的張量并與mra進(jìn)行交互計(jì)算,得三個(gè)級(jí)別的細(xì)粒度輸入并通過(guò)線(xiàn)性投影得多粒度特征。
9.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述基于層次化語(yǔ)義對(duì)齊損失函數(shù)對(duì)齊兩種模態(tài)之間的相關(guān)性時(shí),通過(guò)小批量數(shù)據(jù)內(nèi)的兩階段相似度計(jì)算獲取多粒度交互相似性分?jǐn)?shù),并通過(guò)層次化語(yǔ)義對(duì)齊損失函數(shù)lhmsa減少所述圖像-文本配對(duì)數(shù)據(jù)的不匹配問(wèn)題。
10.根據(jù)權(quán)利要求1所述的一種跨模態(tài)食品檢索方法,其特征在于,所述基于層次化語(yǔ)義對(duì)齊損失函數(shù)對(duì)齊兩種模態(tài)之間的相關(guān)性時(shí),在lhmsa的基礎(chǔ)上引入一般跨模態(tài)三元組損失ltri和語(yǔ)義三元組損失lsem并由lhmsa、ltri和lsem共同監(jiān)督。