本技術(shù)涉及計(jì)算機(jī)視覺的,尤其是涉及一種多模態(tài)大模型抗幻覺變化檢測(cè)方法。
背景技術(shù):
1、變化檢測(cè)(change?detection,cd)是遙感中的一項(xiàng)關(guān)鍵任務(wù),旨在識(shí)別和分析自然災(zāi)害評(píng)估和環(huán)境條件隨時(shí)間變化。精確的變化檢測(cè)方法對(duì)多個(gè)應(yīng)用領(lǐng)域至關(guān)重要,包括滑坡映射、城市規(guī)劃、災(zāi)害評(píng)估、生態(tài)監(jiān)測(cè)和土地管理等。隨著衛(wèi)星和航空影像獲取技術(shù)的快速發(fā)展,自動(dòng)化變化檢測(cè)工具的需求不斷增加,這些工具能夠處理大規(guī)模數(shù)據(jù)集并從高分辨率圖像中提取有意義的洞察。傳統(tǒng)方法,如圖像差異和后分類比較,由于無法處理復(fù)雜和動(dòng)態(tài)的環(huán)境,效果有限。深度學(xué)習(xí)(deep?learning,dl)方法因此在變化檢測(cè)任務(wù)中得到了廣泛應(yīng)用,特別是在卷積神經(jīng)網(wǎng)絡(luò)(cnn)和變換器(transformer)架構(gòu)的使用上,因其能夠?qū)W習(xí)復(fù)雜的時(shí)空模式。
2、現(xiàn)有的變化檢測(cè)方法在遙感圖像分析中廣泛應(yīng)用,但仍面臨一些問題和挑戰(zhàn),尤其是在處理復(fù)雜和動(dòng)態(tài)環(huán)境下的變化檢測(cè)時(shí)。傳統(tǒng)的變化檢測(cè)方法(如圖像差異法和后分類法)在面對(duì)大量時(shí)空數(shù)據(jù)和高分辨率圖像時(shí),容易受到環(huán)境噪聲、細(xì)微變化和大規(guī)模數(shù)據(jù)集處理的限制,難以有效捕捉復(fù)雜的變化模式。此外,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(cnn)和變換器(transformer)雖在一定程度上提升了變化檢測(cè)的精度,但依然在局部特征提取和訓(xùn)練數(shù)據(jù)分布外的泛化能力上存在不足,且這些方法容易產(chǎn)生幻覺現(xiàn)象,影響結(jié)果的可靠性。
3、為了解決上述問題,本發(fā)明提出了一種基于多模態(tài)大語言模型的變化檢測(cè)方法,旨在通過引入創(chuàng)新的框架,提高變化檢測(cè)的適應(yīng)性和精確性。
技術(shù)實(shí)現(xiàn)思路
1、為了提高變化檢測(cè)的適應(yīng)性和精確性,本技術(shù)提供一種多模態(tài)大模型抗幻覺變化檢測(cè)方法。
2、第一方面,本技術(shù)提供一種多模態(tài)大模型抗幻覺變化檢測(cè)方法,采用如下的技術(shù)方案:
3、一種多模態(tài)大模型抗幻覺變化檢測(cè)方法,包括:確定多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的遙感圖像,調(diào)取預(yù)先設(shè)置的siglip圖像編碼器,使用siglip圖像編碼器從多個(gè)遙感圖像中提取對(duì)應(yīng)的時(shí)間特征差異,其中,遙感圖像包括空間信息和紋理特征;獲取與所述遙感圖像相關(guān)的文本數(shù)據(jù),將所述文本數(shù)據(jù)與所述時(shí)間特征差異輸入預(yù)先訓(xùn)練的多模態(tài)大語言模型進(jìn)行識(shí)別,生成的初步變化檢測(cè)結(jié)果,基于cva-cicl機(jī)制對(duì)初步變化檢測(cè)結(jié)果進(jìn)行修正,獲取對(duì)應(yīng)的修正變化檢測(cè)結(jié)果,其中,初步變化檢測(cè)結(jié)果包含對(duì)變化區(qū)域的標(biāo)識(shí)及其可能的變化類型;基于鏈?zhǔn)剿季S推理機(jī)制將修正變化檢測(cè)結(jié)果分解為多個(gè)變化檢測(cè)任務(wù),并為每個(gè)所述變化檢測(cè)任務(wù)生成對(duì)應(yīng)的候選解決方案,將全部的候選解決方案進(jìn)行聚合,輸出對(duì)應(yīng)的最終變化檢測(cè)結(jié)果。
4、可選地,在所述獲取對(duì)應(yīng)的修正變化檢測(cè)結(jié)果的過程中,方法還包括:調(diào)取時(shí)間特征差異,基于所述時(shí)間特征差異中獲取多個(gè)遙感圖像之間的像素級(jí)信息;調(diào)取初步變化檢測(cè)結(jié)果,將所述像素級(jí)信息與所述初步變化檢測(cè)結(jié)果通過cva-cicl機(jī)制進(jìn)行迭代校準(zhǔn),獲取對(duì)應(yīng)的修正變化檢測(cè)結(jié)果。
5、可選地,siglip圖像編碼器包括卷積神經(jīng)網(wǎng)絡(luò)和變換器架構(gòu),方法還包括:使用卷積神經(jīng)網(wǎng)絡(luò)的多層濾波器逐層掃描并提取多幅遙感圖像的局部特征,通過激活函數(shù)傳遞局部特征以構(gòu)建高維特征圖,局部特征包括邊緣和紋理,編碼器采用高維特征圖直接相減、絕對(duì)差值計(jì)算或復(fù)雜度量方式生成表示時(shí)間變化的特征向量,編碼器將特征向量進(jìn)行整合確定對(duì)應(yīng)的時(shí)間特征差異;和/或,使用變換器架構(gòu),多幅遙感圖像劃分為多個(gè)patch并展平為一維向量,并利用多頭注意力機(jī)制使每個(gè)像素能夠關(guān)注整張圖片上的其他重要區(qū)域,從而捕捉全局上下文信息,且每個(gè)transformer?block內(nèi)部的前饋神經(jīng)網(wǎng)絡(luò)變換特征空間,經(jīng)過多層transformer?blocks融合局部細(xì)節(jié)和全局上下文信息的特征表示確定為時(shí)間特征差異。
6、可選地,在所述生成的初步變化檢測(cè)結(jié)果的過程中,方法還包括:獲取與遙感圖像相關(guān)的文本數(shù)據(jù),利用預(yù)訓(xùn)練的語言模型解析文本數(shù)據(jù)中的語義信息,其中,所述文本數(shù)據(jù)包含圖像變化的描述、地理位置、時(shí)間戳、用戶注釋、歷史記錄或其他上下文信息;將語義信息與圖像特征進(jìn)行融合,生成的綜合性表征,其中,綜合性表征包含圖像的空間特征、由文本提供的額外背景知識(shí);基于所述綜合性表征識(shí)別并分類發(fā)生的變化區(qū)域,基于變化區(qū)域輸出初步變化檢測(cè)結(jié)果。
7、可選地,方法還包括:每次迭代使用cva函對(duì)初步變化檢測(cè)結(jié)果進(jìn)行像素級(jí)別的變化檢測(cè),并進(jìn)行多輪變化檢測(cè),評(píng)估初步檢測(cè)到變化區(qū)域?qū)?yīng)的坐標(biāo)位置;基于變化區(qū)域的坐標(biāo)位置通過對(duì)比相鄰像素的變化以識(shí)別不準(zhǔn)確的邊界并進(jìn)行修正;在修正過程中,篩選并排除與實(shí)際變化無關(guān)或者被錯(cuò)誤標(biāo)記為變化區(qū)域的區(qū)域,經(jīng)過多輪迭代校準(zhǔn)后,生成經(jīng)過調(diào)整的修正變化檢測(cè)結(jié)果。
8、可選地,在所述輸出對(duì)應(yīng)的最終變化檢測(cè)結(jié)果的過程中,方法還包括:將變化檢測(cè)任務(wù)分解為多個(gè)子任務(wù),其中,每個(gè)子任務(wù)用于解決特定類型或區(qū)域的變化檢測(cè)問題;基于每個(gè)子任務(wù)生成多個(gè)候選解決方案,其中,候選解決方案即推理路徑,對(duì)生成的多個(gè)推理路徑進(jìn)行自一致性檢查并進(jìn)行篩選,對(duì)經(jīng)過篩選保留的推理路徑進(jìn)行信息聚合,輸出經(jīng)過鏈?zhǔn)剿季S推理機(jī)制處理后的最終變化檢測(cè)結(jié)果。
9、第二方面,本技術(shù)提供一種多模態(tài)大模型抗幻覺變化檢測(cè)方法,采用如下的技術(shù)方案:
10、一種多模態(tài)大模型抗幻覺變化檢測(cè)裝置,包括:
11、時(shí)間特征差異提取模塊,確定多個(gè)不同時(shí)間點(diǎn)對(duì)應(yīng)的遙感圖像,調(diào)取預(yù)先設(shè)置的siglip圖像編碼器,使用siglip圖像編碼器從多個(gè)遙感圖像中用于提取對(duì)應(yīng)的時(shí)間特征差異,其中,遙感圖像包括空間信息和紋理特征;
12、修正變化檢測(cè)結(jié)果獲取模塊,獲取與所述遙感圖像相關(guān)的文本數(shù)據(jù),將所述文本數(shù)據(jù)與所述時(shí)間特征差異輸入預(yù)先訓(xùn)練的多模態(tài)大語言模型進(jìn)行識(shí)別,生成的初步變化檢測(cè)結(jié)果,基于cva-cicl機(jī)制對(duì)初步變化檢測(cè)結(jié)果進(jìn)行修正,用于獲取對(duì)應(yīng)的修正變化檢測(cè)結(jié)果,其中,初步變化檢測(cè)結(jié)果包含對(duì)變化區(qū)域的標(biāo)識(shí)及其可能的變化類型;
13、最終變化檢測(cè)結(jié)果輸出模塊,基于鏈?zhǔn)剿季S推理機(jī)制將修正變化檢測(cè)結(jié)果分解為多個(gè)變化檢測(cè)任務(wù),并為每個(gè)所述變化檢測(cè)任務(wù)生成對(duì)應(yīng)的候選解決方案,將全部的候選解決方案進(jìn)行聚合,用于輸出對(duì)應(yīng)的最終變化檢測(cè)結(jié)果。
14、可選地,裝置還包括:
15、像素級(jí)信息獲取模塊,調(diào)取時(shí)間特征差異,基于所述時(shí)間特征差異中用于獲取多個(gè)遙感圖像之間的像素級(jí)信息;
16、迭代校準(zhǔn)模塊,調(diào)取初步變化檢測(cè)結(jié)果,用于將所述像素級(jí)信息與所述初步變化檢測(cè)結(jié)果通過cva-cicl機(jī)制進(jìn)行迭代校準(zhǔn),獲取對(duì)應(yīng)的修正變化檢測(cè)結(jié)果。
17、第三方面,本技術(shù)提供一種多模態(tài)大模型抗幻覺變化檢測(cè)方法,采用如下的技術(shù)方案:
18、一種多模態(tài)大模型抗幻覺變化檢測(cè)方法,包括處理器,所述處理器中運(yùn)行有上述中任意一項(xiàng)所述的多模態(tài)大模型抗幻覺變化檢測(cè)方法的程序。
19、第四方面,本技術(shù)提供一種存儲(chǔ)介質(zhì),采用如下的技術(shù)方案:
20、一種存儲(chǔ)介質(zhì),存儲(chǔ)有上述中任意一項(xiàng)所述的多模態(tài)大模型抗幻覺變化檢測(cè)方法的程序。
21、綜上所述,本技術(shù)包括以下至少一種有益技術(shù)效果:
22、1.通過深度融合遙感圖像的時(shí)間特征差異與相關(guān)文本數(shù)據(jù),顯著提升了對(duì)復(fù)雜環(huán)境變化的理解能力。利用預(yù)訓(xùn)練的語言模型解析文本中的語義信息,并將其與圖像特征進(jìn)行綜合表征,使得模型不僅能夠捕捉到視覺上的變化,還能結(jié)合上下文知識(shí)做出更為準(zhǔn)確和全面的判斷。這種多模態(tài)信息的高效整合確保了在處理不同類型的遙感圖像時(shí)具有更高的適應(yīng)性。
23、2.cva-cicl機(jī)制引入了像素級(jí)別的迭代調(diào)整過程,有效過濾掉無關(guān)或虛假的檢測(cè)結(jié)果,大幅提高了變化檢測(cè)的空間精度。通過反復(fù)評(píng)估和修正變化區(qū)域的坐標(biāo)位置及邊界,該機(jī)制能夠在保持細(xì)節(jié)的同時(shí)減少誤報(bào),從而提供更加可靠的變化檢測(cè)輸出。這一過程對(duì)于微小變化尤其重要,確保即使在噪聲較多或圖像質(zhì)量不佳的情況下也能獲得精確的結(jié)果。
24、3.鏈?zhǔn)剿季S推理機(jī)制將變化檢測(cè)任務(wù)分解為多個(gè)子任務(wù),并生成多種推理路徑以探索不同的變化模式。通過對(duì)這些路徑進(jìn)行嚴(yán)格的自一致性檢查和信息聚合,該機(jī)制不僅增強(qiáng)了檢測(cè)結(jié)果的邏輯連貫性和可靠性,還能夠在面對(duì)復(fù)雜和動(dòng)態(tài)環(huán)境時(shí)表現(xiàn)出色。這種方法確保了最終輸出不僅考慮了多種可能性,而且選擇了最可靠的結(jié)果,極大提升了變化檢測(cè)的整體魯棒性和準(zhǔn)確性。