本發明屬于圖像處理以及計算機視覺領域,具體涉及一種基于文本提煉與多粒度對齊的clip的圖像美學評價方法。
背景技術:
1、在現代圖像處理和計算機視覺領域,圖像美學評價技術日益受到關注。圖像美學評價通常用于評估圖像的視覺吸引力和藝術價值,廣泛應用于相冊管理、圖像檢索、數字攝影等多個領域。在實際應用中,圖像美學評價需要綜合考慮圖像的構圖、色彩、紋理、光影等多種美學要素,以提供客觀且準確的美學評分,從而輔助用戶選擇高美學質量的圖像。由于圖像美學具有高度的主觀性和多樣性,如何有效地捕捉和量化這些美學特征成為研究的核心挑戰。
2、早期的傳統圖像美學評價方法主要依賴于手工設計的特征,如顏色、紋理、對比度、清晰度等。雖然這些特征在一定程度上能夠反映圖像的基本美學屬性,但其表達能力有限,難以有效捕獲美學質量評價多種影響因素間的復雜關系。
3、隨著深度學習技術的發展,基于卷積神經網絡的圖像美學評價方法得到了廣泛的研究和應用。這些方法通過端到端的學習過程,能夠自動提取圖像的高級特征,并在多個美學評價數據集上取得了顯著的性能提升。然而,這類方法通常忽略了用戶評論文本中蘊含的豐富美學語義信息,導致其存在一定的局限性。為了解決這一問題,許多基于深度學習的跨模態美學評價方法被提出。該類方法通過同時處理圖像和文本模態,將圖像的視覺特征與文本的語義特征進行融合,從而更全面地捕捉圖像的美學屬性,進一步提升了圖像美學評價任務的性能。但這類方法在推理階段需要同時輸入圖像和文本對,這在實際應用中存在限制。
4、近年來,clip等視覺-語言預訓練模型在多模態語義理解領域取得了突破,在圖像文本相關語義信息的理解上表現出了強大的能力,為圖像美學評價任務帶來了新的研究契機。clip通過大規模圖像-文本配對數據進行訓練,不僅能夠提取圖像的語義特征,還具備出色的語言處理與內容理解能力,為美學評價任務提供了潛在的跨模態支持。然而,由于clip模型的訓練數據主要來源于通用領域,缺乏對圖像美學中精細美學特征的針對性建模,難以直接應用于復雜的美學評價任務中。因此,如何提升clip模型對美學特征的理解與捕捉能力,將其有效地應用于圖像美學評價任務是一個關鍵問題。
技術實現思路
1、本發明的目的旨在將clip模型更好地應用于美學評價任務中,并進一步解決現有圖像美學評價方法存在的局限性,提供一種基于文本提煉與多粒度對齊的clip的圖像美學評價方法,該方法利用現有的大語言模型對美學數據集中的用戶評論進行文本提煉,從中分析并概括出與美學相關的核心描述,進而構建美學摘要數據集;其次,設計多粒度對齊的clip框架,基于該框架利用配對的圖像-詳細評論-美學摘要對原始的clip模型進行微調,使模型更好地理解美學領域中圖像與文本描述之間的語義關系,從而學習到更加豐富的美學特征表示,獲得針對美學任務的優化后的clip模型;最后,基于微調后的clip模型設計圖像美學質量評價網絡,以實現對圖像美學質量的有效預測。
2、為實現上述目的,本發明的技術方案是:一種基于文本提煉與多粒度對齊的clip的圖像美學評價方法,包括:
3、步驟s1、將美學圖像-評論數據集中的圖像與文本進行預處理,得到用于訓練的配對圖像-評論數據集;
4、步驟s2、利用大語言模型構建美學摘要數據集;設計多粒度對齊的clip框架;
5、步驟s3、利用步驟s2所述的美學摘要數據集與步驟s1所述的配對圖像-評論數據集采用步驟s2所述的多粒度對齊的clip框架對原始的clip模型進行微調,得到優化后適用于美學任務的clip模型;
6、步驟s4、設計圖像美學質量評價網絡,包括圖像分支與文本分支,圖像分支中的圖像編碼器與文本分支中的文本編碼器來源于步驟s3中微調后的clip模型;
7、步驟s5、使用步驟s1所述的配對圖像-評論數據集中的圖像對步驟s4所述的圖像美學質量評價網絡進行訓練,獲得訓練好的圖像美學質量評價網絡;
8、步驟s6、將待測圖像輸入到訓練好的圖像美學質量評價網絡中,輸出對應的美學質量評估分數分布,據此計算美學評估分數。
9、在本發明一實施例中,所述步驟s1具體實現步驟如下:
10、步驟s11、將美學圖像-評論訓練數據集中的每一張圖像縮放為統一大小的h×w×3的圖像,并對縮放后每一張圖像的rgb三個通道分別進行標準化操作,其中h、w分別為圖像的高和寬;
11、步驟s12、將美學圖像-評論訓練數據集中所有評論文本的單詞轉換為小寫,并剔除無關符號;隨后,通過字節對編碼算法bpe對文本進行分詞處理,將文本拆分為單詞或子詞標記,每個單詞或子詞都映射為詞匯表中對應的唯一數值id,即每個id代表詞匯表中的一個單詞或子詞的索引;此外,在文本序列的開始和結束位置分別添加開始標記“[sos]”和結束標記“[eos]”;最終得到的每段文本序列的大小為1×len,len表示模型支持的輸入序列的最大長度,包括開始和結束標記,超過len的部分將其刪除,反之,則用0補齊。
12、在本發明一實施例中,所述步驟s2具體實現步驟如下:
13、步驟s21、利用大語言模型llama-7b對美學圖像-評論訓練數據集中的用戶評論進行文本提煉,分析其中與美學相關的描述并進行概括,構建美學摘要數據集,美學摘要數據集中的美學摘要與美學圖像-評論訓練數據集中的圖像與評論一一配對;
14、步驟s22、采用與步驟s12一致的方法對步驟s21得到的美學摘要數據集中的文本進行預處理,處理后的每段文本序列大小為1×len;
15、步驟s23、設計多粒度對齊的clip框架,該框架能夠將圖像的細粒度特征與其對應的詳細的評論文本特征進行對比學習實現細粒度對齊,同時獲取圖像的粗粒度特征與其對應的美學摘要特征進行對比學習實現粗粒度對齊,以使模型在捕捉圖像的細節美學屬性的同時,還能識別出關鍵的美學特征;此外,該框架需要多對樣本作為輸入,從而通過正負樣本對進行對比。
16、在本發明一實施例中,所述步驟s21具體實現步驟如下:
17、步驟s211、構建提示文本作為大語言模型llama-7b的輸入,提示文本內容包括三個部分:第一部分是任務指令描述,告知模型當前的具體任務是從給定的用戶評論文本中分析并概括出其中涉及到的各種與美學相關的描述;第二部分給定一個示例對,示例對之間用“=>”符號分隔,符號前表示原始的評論文本,符號后表示執行任務指令操作后期望得到的美學摘要文本,根據具體示例,大語言模型能夠學習并模仿所需的重構行為;最后一部分包括當前需要進行概括的評論文本以及分隔符號“=>”;
18、步驟s212、將步驟s211所述的提示文本輸入至大語言模型llama-7b,大語言模型llama-7b將自動補全提示文本中分隔符號“=>”后面的文本內容,即得到從當前評論文本中概括出的美學摘要;
19、步驟s213、對美學圖像-評論訓練數據集中的所有用戶評論經過步驟s212所述操作進行處理得到與每條用戶評論一一配對的美學摘要數據集。
20、在本發明一實施例中,所述步驟s23具體實現步驟如下:
21、步驟s231、利用clip模型的圖像編碼器提取細粒度圖像特征,對于給定的包含b張圖像的批次通過圖像編碼器得到細粒度圖像特征矩陣表示為fifine=image_encoder(ib),其中,image_encoder表示圖像編碼器,該圖像編碼器基于視覺transformer架構;具體來說,對于每張輸入圖像首先經過核大小為p×p,步長為p的卷積處理,隨后被展平為一系列patch序列,得到其中c表示通道數,p2表示每個圖像patch的大小,表示生成的patch數量;接著每個patch通過線性映射轉換成d維的嵌入向量,同時在嵌入序列的最前端添加一個可學習的[cls]token用于捕捉全局語義信息,并加入位置嵌入以保留patch的空間位置信息,從而生成圖像嵌入表示隨后,i'經過l層transformer層處理得到最后將i'lcls經過層歸一化并通過線性映射投影到多模態嵌入空間,獲得最終的圖像特征表示而對于b張輸入圖像,則得到細粒度圖像特征矩陣表示表示第i張圖像的細粒度圖像特征;具體公式表示如下:
22、ip=flatten(convp×p,p(i)),
23、
24、i′1=transformer(i′),
25、i′l=transformer(i′l-1),i=2,...,l,
26、
27、其中,convp×p,p(·)表示核大小為p×p,步長為p的卷積,flatten(·)表示展平操作;e、epos和ei表示可學習的矩陣,e用于將每個patch映射為d維的嵌入向量,epos用于學習patch的空間位置信息,ei用于將圖像特征投影到多模態嵌入空間;transformer(·)表示transformer層,l表示經過的transformer層的具體層數;ln(·)表示層歸一化操作;
28、步驟s232、獲取粗粒度圖像特征,利用主成分分析方法將步驟s231中得到的細粒度圖像特征進行主成分特征提取,得到降維后的特征表示此時每張圖像都已丟失一部分細節信息;隨后,利用逆變換將其映射回原始空間的維度,得到粗粒度圖像特征表示具體來說,首先對特征fifine進行中心化處理,即將每個特征減去其均值,得到中心化后的特征矩陣隨后,通過對ficenter進行奇異值分解從而獲得數據的主成分方向,奇異值分解后右奇異矩陣的列向量為特征向量即主成分方向,并從中選取前dim個主成分,以保留數據中最具代表性的信息;接著,將數據投影到選定的主成分方向上,實現特征降維,得到降維后的特征表示fipca;最后,將降維后的數據利用選定的主成分方向進行逆投影,映射回原始維度并加回原始特征的均值,便可獲得粗粒度圖像特征表示表示第i張圖像的粗粒度圖像特征;具體公式表示如下:
29、
30、ficenter=fifine-u,
31、
32、vdim=v[:,:dim],
33、fipca=ficentervdim,
34、
35、其中,表示奇異值分解操作,u表示左奇異向量矩陣,∑表示奇異值對角矩陣,v表示右奇異向量矩陣;dim表示選取的主成分的個數,即前dim個;
36、步驟s233、利用clip模型的文本編碼器提取細粒度文本特征,對于給定的包含b段詳細的評論文本的批次通過文本編碼器得到細粒度文本特征矩陣表示為ftfine=text_encoder(tb),其中,text_encoder表示文本編碼器,該文本編碼器基于transformer架構;具體來說,對于一段經過步驟s12分詞處理后的文本序列首先通過預先初始化的詞嵌入層,將每個id映射為d維的詞嵌入向量,從而得到文本嵌入表示隨后,t'經過l層transformer層處理得到最后,將t'llen[eos]經過層歸一化并通過線性映射投影到多模態嵌入空間,獲得最終的文本特征表示對于b段評論文本的輸入,則得到細粒度文本特征矩陣表示表示第i段文本的細粒度文本特征;具體公式表示如下:
37、t′=embedding(t),
38、t′1=transformer(t′),
39、t′l=transformer(t′l-1),l=2,...,l,
40、
41、其中,embedding(·)表示嵌入層,transformer(·)表示transformer層,l表示經過的transformer層的具體層數;ln(·)表示層歸一化操作;et表示可學習的矩陣,用于將文本特征投影到多模態嵌入空間;
42、步驟s234、利用與步驟s233所述一致的文本編碼器提取粗粒度文本特征;對于給定的包含b段美學摘要的批次通過文本編碼器得到粗粒度文本特征矩陣表示為ftcoarse=text_encoder(ab);
43、步驟s235、設計細粒度對比損失函數lfine,對于給定的包含b對(圖像,詳細評論,美學摘要)的批次,按照步驟s231至步驟s234所述方法,得到fifine、ficoarse、ftfine以及ftcoarse,表示為對于細粒度圖像、文本特征存在b×b種可能的配對,其中真實配對的有b對;efine旨在最大化批次中b對真實配對的與之間的余弦相似度,同時最小化b2-b個錯誤配對,以實現細粒度圖像文本特征的對齊;具體公式表示如下:
44、
45、其中,lfi2t(·)表示細粒度圖像到文本的對比學習損失,lft2i(·)表示細粒度文本到圖像的對比學習損失;sim(·)表示余弦相似度計算,τ代表溫度系數,用于縮放相似度分數;
46、步驟s236、設計粗粒度對比損失函數lcoarse,對于給定的包含b對(圖像,詳細評論,美學摘要)的批次,按照步驟s231至步驟s234所述方法,得到fifine、ficoarse、ftfine以及ftcoarse,表示為對于粗粒度圖像、文本特征存在b×b種可能的配對,其中真實配對的有b對;lcoarse旨在最大化批次中b對真實配對的與之間的余弦相似度,同時最小化b2-b個錯誤配對,以實現粗粒度圖像文本特征的對齊;具體公式表示如下:
47、
48、其中,lci2t(·)表示粗粒度圖像到文本的對比學習損失,lct2i(·)表示粗粒度文本到圖像的對比學習損失;sim(·)表示余弦相似度計算,τ代表溫度系數,用于縮放相似度分數;
49、步驟s237、設計多粒度對比損失函數l,將其作為模型的總目標函數,多粒度對比損失函數l為細粒度對比損失lfine與粗粒度對比損失lcoarse的和;具體公式表示如下:
50、l=lfine+lcoarse。
51、在本發明一實施例中,所述步驟s3具體實現步驟如下:
52、步驟s31、將步驟s1與步驟s2所述的用于訓練的配對(圖像,詳細評論,美學摘要)數據集進行隨機劃分,得到若干個包含b對(圖像,詳細評論,美學摘要)的批次;
53、步驟s32、使用預訓練的clip模型作為初始模型,以批次為單位將步驟s31所述數據集中的圖像與文本分別輸入圖像編碼器與文本編碼器中,按照步驟s23所述方法,得到并按照公式計算損失l;
54、步驟s33、根據損失函數使用反向傳播方法計算模型中參數的梯度,并利用adam優化方法更新模型參數;
55、步驟s34、重復步驟s31至s33,直到達到預設的訓練輪數,得到適用于美學任務的優化后的clip模型。
56、在本發明一實施例中,所述步驟s4具體實現步驟如下:
57、步驟s41、設計文本分支,包括一個參數凍結的文本編碼器,以及五個可學習的提示詞作為輸入;具體來說,首先引入五個代表不同美學質量類別的可學習提示詞,這些提示詞分別對應“terrible”、“bad”、“average”、“good”和“perfect”五個質量類別,每個提示詞由若干個可學習的嵌入向量以及代表對應質量類別的單詞組成;具體表示為“[x]1[x]2[x]3...[x]m[質量類別]”,其中每個[x]i(i∈1,...m)是一個可學習的文本token,其維度與詞嵌入的維度相同;m表示可學習文本token的數量,隨后,將這些提示詞輸入到文本編碼器中,生成與之對應的五個特征向量,表示為
58、步驟s42、設計圖像分支,包括一個參數凍結的圖像編碼器以及一個適配器模塊,適配器模塊中包括四個子適配器,每個適配器由一個將輸入特征映射到較低維度的全連接層,一個gelu激活函數以及一個將低維特征再映射回原始維度的全連接層構成,每個適配器的輸入分別為圖像編碼器中四個不同階段的i'lcls;具體來說,圖像編碼器由l層transformer層構成,首先將其均分為四個階段,每個階段包含ls層,則第一階段的輸出為第ls層輸出中的[cls]token,表示為將其作為第一個適配器的輸入,得到特征fa1;第二階段的輸出為第2ls層輸出中的[cls]token,表示為將其作為第二個適配器的輸入,得到特征fa2;第三階段的輸出為第3ls層輸出中的[cls]token,表示為將其作為第三個適配器的輸入,得到特征fa3;第四階段的輸出為第l層輸出中的[cls]token,表示為i'lcls,將其作為第四個適配器的輸入,得到特征fa4,接著,將四個適配器的輸出特征相加融合,并通過線性映射即得到最終的圖像特征具體公式表示如下:
59、
60、fa4=fc?up(gelu(fc?down(i′lcls))),
61、
62、其中,fc?down(·)表示用于將輸入特征映射到較低維度的全連接層,gelu·)表示gelu激活函數,fc?up(·)表示用于將低維特征再映射回原始維度的全連接層;ef表示可學習的矩陣,用于將特征fi投影到與文本特征fp相同的維度;
63、步驟s43、將步驟s41得到的文本特征fp作為鍵key和值value,將步驟s42得到的圖像特征fi作為查詢query,進行交叉注意力計算得到特征以捕捉圖像內容與不同美學質量類別之間的相關性;隨后fc經過一個前饋網絡與圖像特征fi進行融合得到最終的輸出特征再將其通過另一個前饋網絡進一步提煉,最終預測圖像的美學評分分布;具體公式表示如下:
64、fc=crossattention(fi,fp),
65、fo=ffn(fc)+fi,
66、
67、其中,crossattention(·)表示交叉注意力計算,ffn(·)表示前饋網絡;表示預測的美學評分分布;
68、步驟s44、設計圖像美學質量評價網絡的損失函數,為更準確地衡量預測分布與真實分布之間的差異,同時捕捉評分之間的順序和距離關系,采用emd損失作為圖像美學質量評價網絡的目標損失函數;具體表示公式如下:
69、
70、其中,t表示美學得分類別個數;表示真實分布p的累積分布函數,pi表示真實分布中第i個得分的概率;表示預測分布的累積分布函數,表示預測分布中第i個得分的概率。
71、在本發明一實施例中,所述步驟s5具體實現步驟如下:
72、步驟s51、將步驟s1所述的的配對圖像-評論數據集中的圖像進行隨機劃分,得到若干個包含b張圖像的批次;
73、步驟s52、將圖像輸入步驟s4中的圖像美學質量評價網絡得到預測的美學評分分布,使用步驟s42中的公式計算損失lemd;
74、步驟s53、根據損失函數使用反向傳播方法計算網絡中沒有被凍結的參數的梯度,并利用adam優化方法更新這些參數;
75、步驟s54、以批次為單位重復執行步驟s51至步驟s53,得到訓練好的圖像美學質量評價網絡。
76、在本發明一實施例中,所述步驟s6具體實現步驟如下:
77、步驟s61、將待測圖像輸入至步驟s5所述的訓練好的圖像美學質量評價網絡中,得到模型預測的美學評分分布表示預測分布中第i個得分的概率,基于模型預測的美學評分分布,將所有類別的評分與其對應的預測概率進行加權求和即可得到美學評估分數score;設評分類別的分值為其中si是第i個評分類別的分值,則具體公式表示如下:
78、
79、本發明還提供了一種計算機可讀存儲介質,其上存儲有能夠被處理器運行的計算機程序指令,當處理器運行該計算機程序指令時,能夠實現如上述所述的方法步驟。
80、相較于現有技術,本發明具有以下有益效果:首先,本發明構建了美學摘要數據集,利用現有的大語言模型對美學數據集中的用戶評論進行分析與總結,從中提煉出與美學相關的核心描述,為后續的美學評價任務提供更多的數據支持。其次,本發明設計了多粒度對齊的clip框架,將圖像的細粒度特征與其對應的詳細的評論文本特征進行對比學習實現細粒度對齊,同時獲取圖像的粗粒度特征與其對應的美學摘要特征進行對比學習實現粗粒度對齊,以使模型在捕捉圖像的細節美學屬性的同時,還能識別出關鍵的美學特征。最后,基于經過多粒度對齊框架微調后的clip模型,本發明設計了圖像美學質量評價網絡,該網絡將文本編碼器與圖像編碼器凍結用于特征提取;同時,考慮到圖像美學評價的主觀性與多元性,在文本分支中引入了五個代表不同美學質量類別的可學習的提示詞作為輔助特征,以提升美學評價任務的準確性;而圖像分支則引入了適配器模塊進行微調,以提升模型的泛化性。不同于其他基于深度學習的圖像美學評價方法,本發明充分利用視覺-語言模型的跨模態優勢,并采用多粒度對齊的微調策略使clip模型更好地捕捉理解圖像和多樣化文本描述之間的語義聯系,學習豐富的美學特征表示;此外,引入了可學習的提示詞作為輔助特征以進一步提高美學評價任務的性能,避免了現有的跨模態美學評價方法在推理階段需要同時輸入圖像文本對的問題,為美學評價提供了一種更有、更靈活的解決方案。