本申請涉及數據處理、人工智能,尤其涉及一種基于專家混合模型的遙感圖像的視覺語言處理方法及系統。
背景技術:
1、早期的rsic研究集中于傳統方法,包括基于模板的方法和基于檢索的方法。然而,這些方法無法生成豐富多樣的描述性句子。近期的研究普遍采用了編碼器-解碼器架構,將rsic任務分為圖像編碼階段(從輸入圖像中提取語義特征)和序列建模階段(使用提取的特征生成文本和句子)。根據具體使用的模型,編碼器-解碼器方法可進一步分為基于cnn編碼器與rnn/lstm解碼器的模型,以及基于cnn編碼器與transformer解碼器的模型。盡管這些方法在rsic任務中表現令人滿意,但通常只能生成一到兩句簡單的描述,限制了其實用性。這一局限性通常源于兩個主要原因:用于訓練模型的數據集中的句子簡單且重復;以及這些模型提取語義特征和生成復雜描述的能力相對有限。
2、大型語言模型(llms)和視覺語言模型(vlms)近期在多個領域取得了顯著成功,包括計算機視覺、自然語言處理和機器人技術特別是,vlms通過改進跨模態關系的理解,有效縮小了視覺圖像與自然語言之間的差距,達到了與人類相當的視覺理解水平。因此,一些研究者最近將研究重點轉向將vlms應用于遙感視覺解讀任務。具體到rsic任務,rsgpt引入了人工標注的rsicap數據集,該數據集為遙感圖像提供了高質量且詳細的描述,然而,rsgpt僅對現有的vlm模型在該數據集上進行微調,而未提出新的模型來深入探索和利用這些詳細描述。
技術實現思路
1、本申請實施例提供一種基于專家混合模型的遙感圖像的視覺語言處理方法及系統,對所輸入的遙感圖像提供細致且符合上下文的描述,全面反映遙感場景。
2、本申請實施例提供一種基于專家混合模型的遙感圖像的視覺語言處理方法,包括:
3、獲取遙感圖像數據;
4、利用結合專家混合框架的視覺語言模型rs-moe,基于所述遙感圖像數據生成描述性文本,所述rs-moe包括圖像編碼器(image?encoder)、vlm編碼器(vlm?encoder)和專家混合模塊(moe?block),其中moe?block包括動態生成任務提示的說明路由器(instructionrouter)和多個大語言模型(llms),所述rs-moe的訓練分為兩個階段,其中第一階段被配置為對vlm?encoder和llm進行微調,以初始化適用于遙感圖像描述rsic任務的模型權重,第二階段被配置為對moe?block進行微調,以生成期望的遙感圖像描述文本。
5、可選的,所述圖像編碼器為vit-g/14,以利用所述rs-moe提取所述遙感圖像數據的視覺特征。
6、可選的,所述vlm編碼器具體被配置為提取與給定指令t相匹配的視覺特征,其中:
7、將所述圖像編碼器提取的視覺特征和輸入說明輸入到所述vlm編碼器的自注意力層,以獲得中間特征集fsa;
8、將中間特征集fsa中的特征與所述圖像編碼器提取的視覺特征,利用交叉注意力層,生成說明感知的視覺特征fca;
9、將生成的說明感知的視覺特征fca通過前饋網絡和全連接層,以輸出說明感知特征fvlm。
10、可選的,所述moe?block包括一個動態生成任務提示的說明路由器(instructionrouter)和三個大語言模型llm塊,其中:
11、說明路由器被配置為根據輸入說明生成n個提示{p1,p2,..,pn},且基于提示學習(prompt?learning),說明路由器適應輸入圖像的特征來生成與視覺特征相關的提示,所述與視覺特征相關的提示用于引導專家模型生成目標描述;
12、任一個llm塊,被配置為一個對應的子任務。
13、可選的,還包括采用如下方式訓練rs-moe:
14、在訓練的所述第一階段,保持圖像編碼器的權重,以及,采用lora方法訓練vlm編碼器和llm塊的權重,以通過自注意力層和交叉注意力層中的關鍵投影層進行模型優化。
15、可選的,訓練rs-moe還包括:
16、在訓練的所述第二階段,保持圖像編碼器和vlm編碼器,調優專家混合模塊(moeblock)的權重;
17、其中調優專家混合模塊(moe?block)的權重包括:
18、通過說明路由器將說明轉換為具體提示,結合vlm編碼器提取的視覺特征輸入各llm塊,以優化生成任務。
19、本申請實施例還提出一種基于專家混合模型的遙感圖像的視覺語言處理系統,包括處理器和存儲器,所述存儲器上存儲有計算機程序,所述計算機程序被處理器執行時實現如前述的基于專家混合模型的遙感圖像的視覺語言處理方法的步驟。
20、本申請實施例提供了一種基于專家混合模型的遙感圖像的視覺語言處理方法,基于本申請實施例的視覺語言模型實現對所輸入的遙感圖像提供細致且符合上下文的描述,全面反映遙感場景。
21、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
1.一種基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,包括:
2.如權利要求1所述的基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,所述圖像編碼器為vit-g/14,以利用所述rs-moe提取所述遙感圖像數據的視覺特征。
3.如權利要求2所述的基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,所述vlm編碼器具體被配置為提取與給定指令t相匹配的視覺特征,其中:
4.如權利要求3所述的基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,所述moe?block包括一個動態生成任務提示的說明路由器(instruction?router)和三個大語言模型llm塊,其中:
5.如權利要求1所述的基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,還包括采用如下方式訓練rs-moe:
6.如權利要求5所述的基于專家混合模型的遙感圖像的視覺語言處理方法,其特征在于,訓練rs-moe還包括:
7.一種基于專家混合模型的遙感圖像的視覺語言處理系統,其特征在于,包括處理器和存儲器,所述存儲器上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至6中任一項所述的基于專家混合模型的遙感圖像的視覺語言處理方法的步驟。