所屬的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品,因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram),只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。
背景技術(shù):
1、現(xiàn)有機(jī)械圖片數(shù)據(jù)集的生成方式大多依賴人工整理和標(biāo)注,不僅效率低下,且容易出錯(cuò)。此外,機(jī)械圖片數(shù)據(jù)往往具有異構(gòu)性、海量性和主觀性等特點(diǎn),使得數(shù)據(jù)集的生成更加復(fù)雜。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,具體提供了基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,具體如下:
2、1)第一方面,本發(fā)明提供基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,具體技術(shù)方案如下:
3、獲取至少一張待識別機(jī)械圖像,將所有待識別機(jī)械圖像輸入至大模型處理模塊,生成每張待識別機(jī)械圖像對應(yīng)的機(jī)械類型以及標(biāo)注信息;
4、將所述機(jī)械類型、所述標(biāo)注信息以及對應(yīng)的待識別機(jī)械圖像進(jìn)行關(guān)聯(lián),生成一組數(shù)據(jù)信息,將所有組數(shù)據(jù)信息進(jìn)行整合生成機(jī)械圖片數(shù)據(jù)集;
5、所述大模型處理模塊包括多模態(tài)融合層、動態(tài)注意力機(jī)制層以及融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊。
6、本發(fā)明提供的基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法的有益效果如下:
7、通過大模型處理模塊可以自動從原始機(jī)械圖像中提取、整理并標(biāo)注出機(jī)械圖片數(shù)據(jù)集,提高數(shù)據(jù)集生成的效率和準(zhǔn)確性。
8、在上述方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
9、進(jìn)一步,所述多模態(tài)融合層用于對任一待識別機(jī)械圖像中的文本數(shù)據(jù)以及圖像數(shù)據(jù)進(jìn)行融合,得到融合后的第一特征。
10、進(jìn)一步,所述動態(tài)注意力機(jī)制層用于輸出最大注意力得分矩陣,所述最大注意力得分矩陣為:將所有第一特征對應(yīng)的注意力得分矩陣中數(shù)值最大的注意力得分矩陣。
11、進(jìn)一步,融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊用于對時(shí)空注意力機(jī)制的輸出結(jié)果以及動態(tài)卷積的輸出結(jié)果進(jìn)行融合處理得到機(jī)械類型以及標(biāo)注信息。
12、2)第二方面,本發(fā)明還提供一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成系統(tǒng),具體技術(shù)方案如下:
13、獲取單元用于:獲取至少一張待識別機(jī)械圖像,將所有待識別機(jī)械圖像輸入至大模型處理模塊,生成每張待識別機(jī)械圖像對應(yīng)的機(jī)械類型以及標(biāo)注信息;
14、生成單元用于:將所述機(jī)械類型、所述標(biāo)注信息以及對應(yīng)的待識別機(jī)械圖像進(jìn)行關(guān)聯(lián),生成一組數(shù)據(jù)信息,將所有組數(shù)據(jù)信息進(jìn)行整合生成機(jī)械圖片數(shù)據(jù)集;
15、所述大模型處理模塊包括多模態(tài)融合層、動態(tài)注意力機(jī)制層以及融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊。
16、在上述方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
17、進(jìn)一步,所述多模態(tài)融合層用于對任一待識別機(jī)械圖像中的文本數(shù)據(jù)以及圖像數(shù)據(jù)進(jìn)行融合,得到融合后的第一特征。
18、進(jìn)一步,所述動態(tài)注意力機(jī)制層用于輸出最大注意力得分矩陣,所述最大注意力得分矩陣為:將所有第一特征對應(yīng)的注意力得分矩陣中數(shù)值最大的注意力得分矩陣。
19、進(jìn)一步,融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊用于對時(shí)空注意力機(jī)制的輸出結(jié)果以及動態(tài)卷積的輸出結(jié)果進(jìn)行融合處理得到機(jī)械類型以及標(biāo)注信息。
20、3)第三方面,本發(fā)明還提供一種電子設(shè)備,所述電子設(shè)備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,以使所述電子設(shè)備實(shí)現(xiàn)如上任一項(xiàng)方法。
21、4)第四方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,以使計(jì)算機(jī)實(shí)現(xiàn)如上任一項(xiàng)方法。
22、需要說明的是,本發(fā)明的第二方面至第四方面的技術(shù)方案及對應(yīng)的可能的實(shí)現(xiàn)方式所取得的有益效果,可以參見上述對第一方面及其對應(yīng)的可能的實(shí)現(xiàn)方式的技術(shù)效果,此處不再贅述。
1.一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,其特征在于,所述多模態(tài)融合層用于對任一待識別機(jī)械圖像中的文本數(shù)據(jù)以及圖像數(shù)據(jù)進(jìn)行融合,得到融合后的第一特征。
3.根據(jù)權(quán)利要求1所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,其特征在于,所述動態(tài)注意力機(jī)制層用于輸出最大注意力得分矩陣,所述最大注意力得分矩陣為:將所有第一特征對應(yīng)的注意力得分矩陣中數(shù)值最大的注意力得分矩陣。
4.根據(jù)權(quán)利要求1所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成方法,其特征在于,融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊用于對時(shí)空注意力機(jī)制的輸出結(jié)果以及動態(tài)卷積的輸出結(jié)果進(jìn)行融合處理得到機(jī)械類型以及標(biāo)注信息。
5.一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成系統(tǒng),其特征在于,包括:
6.根據(jù)權(quán)利要求5所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成系統(tǒng),其特征在于,所述多模態(tài)融合層用于對任一待識別機(jī)械圖像中的文本數(shù)據(jù)以及圖像數(shù)據(jù)進(jìn)行融合,得到融合后的第一特征。
7.根據(jù)權(quán)利要求5所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成系統(tǒng),其特征在于,所述動態(tài)注意力機(jī)制層用于輸出最大注意力得分矩陣,所述最大注意力得分矩陣為:將所有第一特征對應(yīng)的注意力得分矩陣中數(shù)值最大的注意力得分矩陣。
8.根據(jù)權(quán)利要求5所述的一種基于融合注意力與動態(tài)卷積的機(jī)械圖片數(shù)據(jù)集生成系統(tǒng),其特征在于,融合注意力與動態(tài)卷積的時(shí)空增強(qiáng)網(wǎng)絡(luò)模塊用于對時(shí)空注意力機(jī)制的輸出結(jié)果以及動態(tài)卷積的輸出結(jié)果進(jìn)行融合處理得到機(jī)械類型以及標(biāo)注信息。
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由所述處理器加載并執(zhí)行,以使所述電子設(shè)備實(shí)現(xiàn)如權(quán)利要求1至4任一項(xiàng)權(quán)利要求所述的方法。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有至少一條計(jì)算機(jī)程序,所述至少一條計(jì)算機(jī)程序由處理器加載并執(zhí)行,以使計(jì)算機(jī)實(shí)現(xiàn)如權(quán)利要求1至4任一項(xiàng)權(quán)利要求所述的方法。