本發(fā)明屬于電力圖文語義理解,涉及一種電力圖像文本多模態(tài)理解方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著新型電力系統(tǒng)的建設(shè),設(shè)備規(guī)模、作業(yè)頻次大幅增加,智能分析是及時(shí)發(fā)現(xiàn)、分析和消除電力設(shè)備缺陷、人員違章行為、環(huán)境隱患的重要手段。當(dāng)前,電力系統(tǒng)廣泛應(yīng)用的目標(biāo)檢測、行為識(shí)別等算法僅基于單一視覺數(shù)據(jù),在需要深層語義分析的情況下模型誤報(bào)漏報(bào)高。電力場景中每日產(chǎn)生大量圖像、文本等多模態(tài)數(shù)據(jù),如何利用這些多模態(tài)數(shù)據(jù)實(shí)現(xiàn)電力輸電、變電、配電、安監(jiān)等典型應(yīng)用場景的智能分析至關(guān)重要。
2、當(dāng)前電力圖文大模型致力于對齊圖、文空間信息,其主要任務(wù)有圖文互生成、跨模態(tài)檢索、視覺定位、推理問答等。根據(jù)預(yù)訓(xùn)練模型中圖文模態(tài)的交互方式,主要可以分為單塔結(jié)構(gòu)和雙塔結(jié)構(gòu)兩種。單塔結(jié)構(gòu)將兩種不同模態(tài)的數(shù)據(jù)映射到同一網(wǎng)絡(luò)中進(jìn)行處理,跨模態(tài)對齊難度較高,不適用于檢索任務(wù);雙塔結(jié)構(gòu)使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)分別映射每種模態(tài)的數(shù)據(jù),最后在某一層或輸出階段進(jìn)行融合,但是目前在對電力圖文大模型進(jìn)行訓(xùn)練時(shí),訓(xùn)練方式較為單一,因此對電力圖像文本多模態(tài)理解的準(zhǔn)確性有待提高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供了一種電力圖像文本多模態(tài)理解方法、系統(tǒng)、設(shè)備及介質(zhì),該方法、系統(tǒng)、設(shè)備及介質(zhì)能夠提高電力圖像文本多模態(tài)理解的準(zhǔn)確性。
2、為達(dá)到上述目的,本發(fā)明公開了一種電力圖像文本多模態(tài)理解方法,包括:
3、獲取待理解的電力圖像文本信息;
4、將所述待理解的電力圖像文本信息輸入到訓(xùn)練后的電力圖文大模型中,得到所述待理解的電力圖像文本信息的理解結(jié)果,其中,所述電力圖文大模型依次經(jīng)電力圖文樣本、正負(fù)樣本對以及混合樣本進(jìn)行訓(xùn)練。
5、本發(fā)明所述電力圖像文本多模態(tài)理解方法的進(jìn)一步改進(jìn)在于:
6、進(jìn)一步的,所述將所述待識(shí)別電力圖文信息輸入到訓(xùn)練后的電力圖文大模型中之前還包括:
7、獲取電力圖文數(shù)據(jù)集,所述電力圖文數(shù)據(jù)集中包含限不限于:無標(biāo)注的電力圖像樣本、帶標(biāo)注的電力圖像樣本、無標(biāo)注的電力文本樣本、人工標(biāo)注的電力文本負(fù)樣本對以及人工標(biāo)注的電力文本正樣本對;
8、構(gòu)建電力圖文大模型,所述電力圖文大模型包括相連接的電力視覺特征提取模塊及電力圖文大模型語言模塊;
9、利用所述電力圖文數(shù)據(jù)集對所述電力圖文大模型進(jìn)行訓(xùn)練,得到第一階段訓(xùn)練后的電力圖文大模型;
10、構(gòu)建正負(fù)樣本數(shù)據(jù)集;
11、利用所述正負(fù)樣本數(shù)據(jù)集對所述第一階段訓(xùn)練后的電力圖文大模型進(jìn)行訓(xùn)練,得到第二階段訓(xùn)練后的電力圖文大模型;
12、構(gòu)建混合樣本訓(xùn)練集;
13、利用所述混合樣本訓(xùn)練集對所述第二階段訓(xùn)練后的電力圖文大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的電力圖文大模型。
14、進(jìn)一步的,所述利用所述電力圖文數(shù)據(jù)集對所述電力圖文大模型進(jìn)行訓(xùn)練,得到第一階段訓(xùn)練后的電力圖文大模型的過程為:
15、利用電力圖文數(shù)據(jù)集中無標(biāo)注的電力圖像樣本對電力視覺特征提取模塊進(jìn)行無監(jiān)督訓(xùn)練,得到無監(jiān)督訓(xùn)練后的電力視覺特征提取模塊;
16、利用所述電力圖文數(shù)據(jù)集中帶標(biāo)注的電力圖像樣本對所述無監(jiān)督訓(xùn)練后的電力視覺特征提取模塊進(jìn)行訓(xùn)練,得到第一階段訓(xùn)練后的電力視覺特征提取模塊;
17、利用所述電力圖文數(shù)據(jù)集中無標(biāo)注的電力文本樣本對所述語言模型進(jìn)行無監(jiān)督訓(xùn)練,得到無監(jiān)督訓(xùn)練后的語言模塊;
18、利用所述電力圖文數(shù)據(jù)集中人工標(biāo)注的電力文本負(fù)樣本對以及人工標(biāo)注的電力文本正樣本對對所述無監(jiān)督訓(xùn)練后的語言模塊,得到第一階段訓(xùn)練后的語言模塊。
19、進(jìn)一步的,所述構(gòu)建正負(fù)樣本數(shù)據(jù)集的過程為:
20、從所述電力圖文數(shù)據(jù)集中抽取若干帶標(biāo)注i的電力圖像樣本x;
21、為所述各電力圖像樣本x生成反義描述語言o及近義描述語言s;
22、構(gòu)建負(fù)樣本對(x,o),構(gòu)建正樣本對(x,i)、(x,o);
23、根據(jù)所述負(fù)樣本對(x,o)及所述正樣本對(x,i)、(x,o)構(gòu)建所述正負(fù)樣本數(shù)據(jù)集。
24、進(jìn)一步的,所述構(gòu)建混合樣本訓(xùn)練集的過程為:
25、對所述電力圖文數(shù)據(jù)集進(jìn)行隨機(jī)采樣,得到隨機(jī)采樣的結(jié)果;
26、隨機(jī)獲取通用領(lǐng)域的圖文樣本;
27、利用所述隨機(jī)采樣的結(jié)果與隨機(jī)獲取的通用領(lǐng)域的圖文樣本構(gòu)建所述混合樣本訓(xùn)練集。
28、本發(fā)明公開了一種電力圖像文本多模態(tài)理解系統(tǒng),包括:
29、第一獲取模塊,用于獲取待理解的電力圖像文本信息;
30、理解模塊,用于將所述待理解的電力圖像文本信息輸入到訓(xùn)練后的電力圖文大模型中,得到所述待理解的電力圖像文本信息的理解結(jié)果,其中,所述電力圖文大模型依次經(jīng)電力圖文樣本、正負(fù)樣本對以及混合樣本進(jìn)行訓(xùn)練。
31、本發(fā)明所述電力圖像文本多模態(tài)理解系統(tǒng)的進(jìn)一步改進(jìn)在于:
32、進(jìn)一步的,還包括:
33、第二獲取模塊,用于獲取電力圖文數(shù)據(jù)集,所述電力圖文數(shù)據(jù)集中包含限不限于:無標(biāo)注的電力圖像樣本、帶標(biāo)注的電力圖像樣本、無標(biāo)注的電力文本樣本、人工標(biāo)注的電力文本負(fù)樣本對以及人工標(biāo)注的電力文本正樣本對;
34、第一構(gòu)建模塊,用于構(gòu)建電力圖文大模型,所述電力圖文大模型包括相連接的電力視覺特征提取模塊及電力圖文大模型語言模塊;
35、第一訓(xùn)練模塊,用于利用所述電力圖文數(shù)據(jù)集對所述電力圖文大模型進(jìn)行訓(xùn)練,得到第一階段訓(xùn)練后的電力圖文大模型;
36、第二構(gòu)建模塊,用于構(gòu)建正負(fù)樣本數(shù)據(jù)集;
37、第二訓(xùn)練模塊,用于利用所述正負(fù)樣本數(shù)據(jù)集對所述第一階段訓(xùn)練后的電力圖文大模型進(jìn)行訓(xùn)練,得到第二階段訓(xùn)練后的電力圖文大模型;
38、第三構(gòu)建模塊,用于構(gòu)建混合樣本訓(xùn)練集;
39、第三訓(xùn)練模塊,用于利用所述混合樣本訓(xùn)練集對所述第二階段訓(xùn)練后的電力圖文大模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的電力圖文大模型。
40、進(jìn)一步的,所述第一訓(xùn)練模塊包括:
41、第四訓(xùn)練模塊,用于利用電力圖文數(shù)據(jù)集中無標(biāo)注的電力圖像樣本對電力視覺特征提取模塊進(jìn)行無監(jiān)督訓(xùn)練,得到無監(jiān)督訓(xùn)練后的電力視覺特征提取模塊;
42、第五訓(xùn)練模塊,用于利用所述電力圖文數(shù)據(jù)集中帶標(biāo)注的電力圖像樣本對所述無監(jiān)督訓(xùn)練后的電力視覺特征提取模塊進(jìn)行訓(xùn)練,得到第一階段訓(xùn)練后的電力視覺特征提取模塊;
43、第六訓(xùn)練模塊,用于利用所述電力圖文數(shù)據(jù)集中無標(biāo)注的電力文本樣本對所述語言模型進(jìn)行無監(jiān)督訓(xùn)練,得到無監(jiān)督訓(xùn)練后的語言模塊;
44、第七訓(xùn)練模塊,用于利用所述電力圖文數(shù)據(jù)集中人工標(biāo)注的電力文本負(fù)樣本對以及人工標(biāo)注的電力文本正樣本對對所述無監(jiān)督訓(xùn)練后的語言模塊,得到第一階段訓(xùn)練后的語言模塊。
45、進(jìn)一步的,所述第二構(gòu)建模塊包括:
46、第三獲取模塊,用于從所述電力圖文數(shù)據(jù)集中抽取若干帶標(biāo)注i的電力圖像樣本x;
47、生成模塊,用于為所述各電力圖像樣本x生成反義描述語言o及近義描述語言s;
48、第四構(gòu)建模塊,用于構(gòu)建負(fù)樣本對(x,o),構(gòu)建正樣本對(x,i)、(x,o);
49、第五構(gòu)建模塊,用于根據(jù)所述負(fù)樣本對(x,o)及所述正樣本對(x,i)、(x,o)構(gòu)建所述正負(fù)樣本數(shù)據(jù)集。
50、進(jìn)一步的,所述第三構(gòu)建模塊包括:
51、采樣模塊,用于對所述電力圖文數(shù)據(jù)集進(jìn)行隨機(jī)采樣,得到隨機(jī)采樣的結(jié)果;
52、第四獲取模塊,用于隨機(jī)獲取通用領(lǐng)域的圖文樣本;
53、第六構(gòu)建模塊,用于利用所述隨機(jī)采樣的結(jié)果與隨機(jī)獲取的通用領(lǐng)域的圖文樣本構(gòu)建所述混合樣本訓(xùn)練集。
54、本發(fā)明公開了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述電力圖像文本多模態(tài)理解方法的步驟。
55、本發(fā)明公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述電力圖像文本多模態(tài)理解方法的步驟。
56、本發(fā)明具有以下有益效果:
57、本發(fā)明所述的電力圖像文本多模態(tài)理解方法、系統(tǒng)、設(shè)備及介質(zhì)在具體操作時(shí),將所述待理解的電力圖像文本信息輸入到訓(xùn)練后的電力圖文大模型中,得到所述待理解的電力圖像文本信息的理解結(jié)果,其中,所述電力圖文大模型依次經(jīng)電力圖文樣本、正負(fù)樣本對以及混合樣本進(jìn)行訓(xùn)練,其中,利用正負(fù)樣本對進(jìn)行對比訓(xùn)練,可以對齊電力元素圖像文本特征,另外,采用混合樣本進(jìn)行訓(xùn)練,實(shí)現(xiàn)對電力圖文大模型微調(diào)的同時(shí),提升電力圖文大模型在通用和電力領(lǐng)域的理解能力,繼而提高電力圖像文本多模態(tài)理解的準(zhǔn)確性。