所屬的技術人員能夠理解,本發明的各個方面可以實現為系統、方法或程序產品。因此,本發明的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“平臺”。實施例2本發明提供一種電力多模態樣本標注系統,該系統能夠用于實現上述電力多模態樣本標注方法,具體的,該電力多模態樣本標注系統包括標簽模塊、標注模塊、轉換模塊、識別模塊以及輸出模塊。其中,標簽模塊,統一圖像樣本對應標注文件的標簽;標注模塊,基于得到的標注文件的標簽標注所有相關物體和缺陷,得到標注數據;轉換模塊,設計目標檢測任務問答對模板,將得到的標注數據轉換為問答對形式;識別模塊,針對圖像理解任務,基于得到的問答對形式構建多輪次問答對數據集,利用構建的多輪次問答對數據集訓練大語言模型,用于識別和分析圖像中的安全行為;輸出模塊,通過開源大語言模型豐富問答對的表達,保持語義等價的同時增加語言多樣性,提升大語言模型的泛化能力和適應性。實施例3本發明提供了一種終端設備,該終端設備包括處理器以及存儲器,所述存儲器用于存儲計算機程序,所述計算機程序包括程序指令,所述處理器用于執行所述計算機存儲介質存儲的程序指令。處理器可能是中央處理單元(central?processing?unit,cpu),還可以是其他通用處理器、圖形處理器(graphics?processing?unit,gpu)、張量處理器(tensorprocessing?unit,tpu)、數字信號處理器(digital?signal?processor,dsp)、專用集成電路(application?specific?integrated?circuit,asic)、現場可編程門陣列(field-programmable?gate?array,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等,其是終端的計算核心以及控制核心,其適于實現一條或一條以上指令,具體適于加載并執行一條或一條以上指令從而實現相應方法流程或相應功能;本發明實施例所述的處理器可以用于電力多模態樣本標注方法的操作,包括:統一圖像樣本對應標注文件的標簽;基于得到的標注文件的標簽標注所有相關物體和缺陷,得到標注數據;設計目標檢測任務問答對模板,將得到的標注數據轉換為問答對形式;針對圖像理解任務,基于得到的問答對形式構建多輪次問答對數據集,利用構建的多輪次問答對數據集訓練大語言模型,用于識別和分析圖像中的安全行為;通過開源大語言模型豐富問答對的表達,保持語義等價的同時增加語言多樣性,提升大語言模型的泛化能力和適應性。請參閱圖2,終端設備為計算機設備,該實施例的計算機設備60包括:處理器61、存儲器62以及存儲在存儲器62中并可在處理器61上運行的計算機程序63,該計算機程序63被處理器61執行時實現實施例中的電力多模態樣本標注方法,為避免重復,此處不一一贅述。或者,該計算機程序63被處理器61執行時實現實施例電力多模態樣本標注系統中各模型/單元的功能,為避免重復,此處不一一贅述。計算機設備60可以是桌上型計算機、筆記本、掌上電腦及云端服務器等計算設備。計算機設備60可包括,但不僅限于,處理器61、存儲器62。本領域技術人員可以理解,圖2僅僅是計算機設備60的示例,并不構成對計算機設備60的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如計算機設備還可以包括輸入輸出設備、網絡接入設備、總線等。所稱處理器61可以是中央處理單元(central?processing?unit,cpu),還可以是其它通用處理器、圖形處理器(graphics?processing?unit,gpu)、張量處理器(tensorprocessing?unit,tpu)、數字信號處理器(digital?signal?processor,dsp)、專用集成電路(application?specific?integrated?circuit,asic)、現場可編程門陣列(field-programmable?gate?array,fpga)或者其它可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。存儲器62可以是計算機設備60的內部存儲單元,例如計算機設備60的硬盤或內存。存儲器62也可以是計算機設備60的外部存儲設備,例如計算機設備60上配備的插接式硬盤,智能存儲卡(smart?media?card,smc),安全數字(secure?digital,sd)卡,閃存卡(flash?card)等。進一步地,存儲器62還可以既包括計算機設備60的內部存儲單元也包括外部存儲設備。存儲器62用于存儲計算機程序以及計算機設備所需的其它程序和數據。存儲器62還可以用于暫時地存儲已經輸出或者將要輸出的數據。請參閱圖3,終端設備為電子設備600,電子設備600以通用計算設備的形式表現。電子設備的組件可以包括但不限于:至少一個處理單元610、至少一個存儲單元620、連接不同平臺組件(包括存儲單元620和處理單元610)的總線630、顯示單元640等。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元610執行,使得處理單元610執行本說明書上述方法部分中描述的根據本發明各種示例性實施方式的步驟。例如,處理單元610可以執行如圖1中所示的步驟。存儲單元620可以包括易失性存儲單元形式的可讀介質,例如隨機存取存儲單元(ram)6201和/或高速緩存存儲單元6202,還可以進一步包括只讀存儲單元(rom)6203。存儲單元620還可以包括具有一組(至少一個)程序模塊6205的程序/實用工具6204,這樣的程序模塊6205包括但不限于:操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。總線630可以為表示幾類總線結構中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結構中的任一總線結構的局域總線。電子設備600也可以與一個或多個外部設備700(例如鍵盤、指向設備、藍牙設備等)通信,還可與一個或者多個使得用戶能與該電子設備600交互的設備通信,和/或與使得該電子設備600能與一個或多個其它計算設備進行通信的任何設備(例如路由器、調制解調器)通信。這種通信可以通過輸入/輸出接口650進行。并且,電子設備600還可以通過網絡適配器660與一個或者多個網絡(例如局域網,廣域網和/或公共網絡,例如因特網)通信。網絡適配器660可以通過總線630與電子設備600的其它模塊通信。應當明白,盡管圖中未示出,可以結合電子設備600使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、raid系統、磁帶驅動器以及數據備份存儲平臺等。實施例4本發明還提供了一種存儲介質,具體為計算機可讀存儲介質,所述計算機可讀存儲介質是終端設備中的記憶設備,用于存放程序和數據。可以理解的是,此處的計算機可讀存儲介質既可以包括終端設備中的內置存儲介質,當然也可以包括終端設備所支持的擴展存儲介質,可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。計算機可讀存儲介質提供存儲空間,該存儲空間存儲了終端的操作系統。并且,在該存儲空間中還存放了適于被處理器加載并執行的一條或一條以上的指令,這些指令可以是一個或一個以上的計算機程序(包括程序代碼)。需要說明的是,此處的計算機可讀存儲介質的更具體的例子包括:具有一個或多個導線的電連接、便攜式盤、硬盤、隨機存取存儲器、只讀存儲器、可擦式可編程只讀存儲器、光纖、便攜式緊湊盤只讀存儲器、光存儲器件、磁存儲器件、或者上述的任一合適的組合。計算機可讀存儲介質還包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了可讀程序代碼。這種傳播的數據信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任一合適的組合。可讀存儲介質還可以是可讀存儲介質以外的任何可讀介質,該可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。可讀存儲介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限于無線、有線、光纜、射頻等等,或者上述的任一合適的組合。可以以一種或多種程序設計語言的任一組合來編寫用于執行本發明操作的程序代碼,程序設計語言包括面向對象的程序設計語言—諸如java、c++等,還包括常規的過程式程序設計語言—諸如“c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執行、部分地在用戶設備上執行、作為一個獨立的軟件包執行、部分在用戶計算設備上部分在遠程計算設備上執行、或者完全在遠程計算設備或服務器上執行。在涉及遠程計算設備的情形中,遠程計算設備可以通過任一種類的網絡,包括局域網或廣域網,連接到用戶計算設備,或者,可以連接到外部計算設備(例如利用因特網服務提供商來通過因特網連接)。可由處理器加載并執行計算機可讀存儲介質中存放的一條或一條以上指令,以實現上述實施例中有關電力多模態樣本標注方法的相應步驟;計算機可讀存儲介質中的一條或一條以上指令由處理器加載并執行如下步驟:統一圖像樣本對應標注文件的標簽;基于得到的標注文件的標簽標注所有相關物體和缺陷,得到標注數據;設計目標檢測任務問答對模板,將得到的標注數據轉換為問答對形式;針對圖像理解任務,基于得到的問答對形式構建多輪次問答對數據集,利用構建的多輪次問答對數據集訓練大語言模型,用于識別和分析圖像中的安全行為;通過開源大語言模型豐富問答對的表達,保持語義等價的同時增加語言多樣性,提升大語言模型的泛化能力和適應性。為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。通常在此處附圖中的描述和所示的本發明實施例的組件可以通過各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發明的實施例的詳細描述并非旨在限制要求保護的本發明的范圍,而是僅僅表示本發明的選定實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。1.仿真數據設計仿真數據的目的是生成可用于訓練和驗證目標檢測與多輪次問答模型的數據集。仿真數據可以基于現有的電力圖像樣本庫以及缺陷場景進行擴展。s1.統一圖像樣本對應標注文件的標簽:數據設計:收集來自不同電力設備和檢測系統的圖像樣本,確保標注內容一致,例如,統一標注“電力桿塔”、“電纜”、“變電站設備”等。每種物體和缺陷的標簽使用統一標準進行歸類。仿真數據示例:如圖像中出現電力桿塔,標注文件包括“桿塔”標簽與坐標信息。s2.全面標注所有相關物體和缺陷:數據設計:標注圖像中的各類物體和缺陷(如電力線破損、設備老化等),確保每個圖像包含所有需要標注的內容。采用邊界框和像素級標注來描述不同的物體或缺陷。仿真數據示例:圖像中含有“電線斷裂”缺陷,標注文件包含該缺陷的邊界框、缺陷位置以及類型。s3.轉換標注格式:數據設計:轉換標注數據為適應不同模型的格式,例如yolo格式、coco格式或pascal?voc格式。對于多模態任務,圖像和文本數據的關聯性也需要在標注中體現。仿真數據示例:一幅圖像的數據轉換后,可能變為以下格式:json{"image":?"image_001.jpg","annotations":?[{"label":?"電力桿塔","bbox":?[50,?60,?200,?250]},{"label":?"電線斷裂","bbox":?[300,?400,?500,?550]}]}s4.設計目標檢測任務問答對模板:數據設計:根據目標檢測的任務需求,設計一系列問答對模板。例如,輸入圖像信息并生成與之對應的問答對(如問:圖像中的電力設備是什么?答:電力桿塔)。仿真數據示例:問:圖像中有哪些電力設備?答:電力桿塔、電線、電變壓器。問:圖像中是否存在電力設備的損壞?答:是,電線斷裂。s5.構建多輪次問答對數據集:數據設計:根據電力圖像中的物體和缺陷,設計多輪次問答場景。在每一輪問答中,基于圖像內容和前文問答的上下文生成新的問題與答案。例如,圖像中的電力桿塔和電纜被識別后,可以繼續詢問該設備是否存在危險。仿真數據示例:第一輪問:圖像中存在哪些電力設備?第一輪答:電力桿塔、電線、電變壓器。第二輪問:電力桿塔是否有損壞?第二輪答:是,電力桿塔存在輕微裂縫。s6.豐富問答對表達并提升語言模型泛化能力:數據設計:為了提高模型的語言多樣性,通過利用開源大語言模型生成與問答對語義等價但表述不同的版本。例如,對于“電力桿塔有裂縫”的問答,可以生成不同的表達,如“電力桿塔存在破裂”或“電力桿塔出現裂紋”。仿真數據示例:問:電力桿塔是否損壞?答:是,電力桿塔的柱身出現了裂紋。2.實驗數據設計實驗數據的目的是驗證通過仿真數據訓練的模型在真實電力圖像上的表現。數據采集:收集電力設施的圖像數據,包括電力桿塔、變電站、電力線路、設備故障等多種情況。實驗數據集:圖像數量應涵蓋各種電力設備與缺陷類型,確保多樣性和代表性。實驗任務:目標檢測任務:對標注數據進行目標檢測訓練,使用訓練好的模型在新數據上進行檢測和評估。多輪次問答任務:利用構建的多輪次問答數據集訓練問答模型,并在實驗數據上進行問答生成與準確性評估。實驗指標:目標檢測任務評估指標:采用常見的評估指標如map(mean?average?precision)、精確率、召回率等。問答任務評估指標:評估模型生成的問答準確性,可以使用bleu、rouge等文本生成評估指標,確保生成的回答與實際圖像內容一致。3.實驗結果目標檢測任務結果:假設通過yolo模型進行訓練,實驗數據的map值為85%,表現較為優秀。問答任務結果:基于預訓練的大語言模型(如gpt-3)訓練的多輪次問答系統,在圖像識別任務上達到80%以上的準確率,并且生成的問答內容具有較高的語言多樣性。因此,通過仿真和實驗數據的設計,能夠驗證提出的電力多模態樣本標注方法的有效性和可靠性。本發明方法能夠準確標注電力設備和缺陷,并通過多輪次問答對生成有效的訓練數據,提升語言模型的泛化能力,從而更好地服務于電力安全監測和設備維護任務。綜上所述,本發明一種電力多模態樣本標注方法及相關裝置,具備以下效果:1.提升數據質量和模型性能標準化的標注和全面性標注提高了數據質量,進而提升了模型的識別準確率和泛化能力,優化了模型訓練和應用效果。2.增強模型的上下文理解和適應性通過問答對模板和多輪次問答對數據集的構建,模型能夠更深入地理解圖像內容,同時,豐富的問答對表達增強了模型在面對新場景時的適應性和準確性。3.提高數據處理效率和模型泛化能力標注格式的轉換和自動化腳本的應用提高了數據處理的效率,而問答對的豐富表達則提升了模型的泛化能力,使得模型能夠更好地應對實際應用中的多樣性和復雜性。所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能單元、模塊完成,即將所述裝置的內部結構劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。另外,各功能單元、模塊的具體名稱也只是為了便于相互區分,并不用于限制本技術的保護范圍。上述系統中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述或記載的部分,可以參見其它實施例的相關描述。本領域普通技術人員可以意識到,結合本發明中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現。這些功能究竟以硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的范圍。在本發明所提供的實施例中,應該理解到,所揭露的裝置/終端和方法,可以通過其它的方式實現。例如,以上所描述的裝置/終端實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。所述集成的模塊/單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明實現上述實施例方法中的全部或部分流程,也可以通過計算機程序來指令相關的硬件來完成,所述的計算機程序可存儲于一計算機可讀存儲介質中,該計算機程序在被處理器執行時,可實現上述各個方法實施例的步驟。其中,所述計算機程序包括計算機程序代碼,所述計算機程序代碼可以為源代碼形式、對象代碼形式、可執行文件或某些中間形式等。所述計算機可讀介質可以包括:能夠攜帶所述計算機程序代碼的任何實體或裝置、記錄介質、u盤、移動硬盤、磁碟、光盤、計算機存儲器、只讀存儲器(read-only?memory,rom)、隨機存取存儲器(random-access?memory,ram)、電載波信號、電信信號以及軟件分發介質等,需要說明的是,所述計算機可讀介質包含的內容可以根據司法管轄區內立法和專利實踐的要求進行適當的增減,例如在某些司法管轄區,根據立法和專利實踐,計算機可讀介質不包括是電載波信號和電信信號。本技術是參照根據本技術實施例的方法、設備、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。以上內容僅為說明本發明的技術思想,不能以此限定本發明的保護范圍,凡是按照本發明提出的技術思想,在技術方案基礎上所做的任何改動,均落入本發明權利要求書的保護范圍之內。
背景技術:
1、圖文多模態大模型技術是一種結合了圖像和文本兩種模態信息的深度學習模型,它通過深度學習技術能夠準確地識別和理解圖像中的內容,無論是風景照、人物照還是產品照,都能迅速提取出關鍵信息,并給出相應的反饋。這種技術的發展,使得ai系統在復雜場景下的應用變得更加強大和靈活,能夠處理和理解多種類型的數據,如文本、圖像、音頻和視頻等。多模態大模型的技術演進遵循了預訓練-微調的整體方案。根據預訓練模型中圖文模態的交互方式,主要分為雙塔結構和單塔結構兩種。雙塔結構的代表架構是clip,它通過一個視覺encoder建模圖片信息,一個文本encoder建模文本信息,圖像和文本的特征向量可以預先計算和存儲,模態交互是通過圖像和文本特征向量的余弦相似度來處理。而單塔結構的代表架構是vilt,它使用transformer模型對圖像和文本特征進行交互,可以充分地將多模態的信息融合,更擅長做多模態分類任務。
2、隨著大模型技術的發展,人們逐漸意識到多模態將是大模型發展的必經之路。圖文多模態大模型在金融、醫療、教育、汽車、影視等多個領域實現初步應用,并產生明顯的經濟效益和社會效益。這些模型以強大的大語言模型(llm)為基礎,能夠處理和理解多種模態信息,如文本、圖像、視頻和音頻。多模態大模型通常由三個模塊組成:預訓練的模態編碼器、預訓練的llm和一個連接它們的模態接口。模態編碼器將原始信息(如圖像或音頻)壓縮成更緊湊的表示,而預訓練的llm則負責理解和推理處理過的信號。多模態大模型的研究和應用正在不斷擴展,從文本擴展至更多模態,并在多個領域展現出其強大的潛力。這些模型不僅能夠提升ai的理解和推理能力,還能夠在多模態數據的整合、算法的多模態統一建模與跨模態語義對齊、以及多模態ai在辦公、電商、娛樂、教育等領域的應用中發揮重要作用。隨著技術的不斷進步,多模態大模型對算力的高需求也推動了芯片制造和云服務產業的發展。總的來說,圖文多模態大模型技術是ai領域的一個重要發展方向,它通過結合圖像和文本信息,極大地擴展了ai的應用范圍和能力,為實現更加智能和靈活的ai系統提供了強有力的技術支持。
3、在當前的人工智能領域,圖像樣本標注工具的發展已經取得了顯著的進步,尤其是在傳統圖像識別任務中,如目標檢測和圖像分割等。然而,隨著多模態大模型的興起,這些工具在圖文對標注方面的支持顯得不足。現有的圖像樣本標注工具主要針對單一模態的數據,即圖像數據,而缺乏對圖文對(圖像與文本)這種多模態數據的標注支持。這些工具在目標檢測、圖像分割等任務中表現出色,但面對圖文對的標注需求時,它們的功能就顯得捉襟見肘。多模態大模型,能夠處理包括圖像和文本在內的多種類型的數據。這些模型在圖像標注、文本生成、圖文匹配等任務中展現出了強大的能力。然而,為了訓練這些模型,需要大量的圖文對標注數據,而現有的標注工具無法滿足這一需求。
技術實現思路
1、本發明所要解決的技術問題在于針對上述現有技術中的不足,提供一種電力多模態樣本標注方法及相關裝置,用于解決現有的圖像樣本標注方法無法滿足多模態數據處理要求的技術問題。
2、本發明采用以下技術方案:
3、一種電力多模態樣本標注方法,包括以下步驟:
4、統一圖像樣本對應標注文件的標簽;
5、基于得到的標注文件的標簽標注所有相關物體和缺陷,得到標注數據;
6、設計目標檢測任務問答對模板,將得到的標注數據轉換為問答對形式;
7、針對圖像理解任務,基于得到的問答對形式構建多輪次問答對數據集,利用構建的多輪次問答對數據集訓練大語言模型,用于識別和分析圖像中的安全行為;
8、s6、通過開源大語言模型豐富問答對的表達,保持語義等價的同時增加語言多樣性,提升大語言模型的泛化能力和適應性。
9、優選地,標注文件用于記錄圖像中所需識別的目標物體標簽及其精確坐標,標注文件中標簽的命名遵循相同的規則和標準。
10、優選地,標注數據具體為:
11、使用轉換腳本將標注完成的voc格式的圖像樣本xml文件轉換為coco格式的json文件,轉換圖像樣本標注格式,得到標注數據。
12、優選地,使用轉換腳本將標注完成的voc格式的圖像樣本xml文件轉換為coco格式的json文件具體為:
13、為每一張圖像創建一個json對象,包含圖像的文件名、id、寬度和高度等信息;對于圖像中的每個目標,轉換腳本生成一個標注對象,包含目標的類別id、邊界框坐標、面積以及是否屬于人群信息;
14、所有信息被組織成一個json文件,該json文件直接用于訓練支持coco格式的深度學習模型,使得為voc格式設計的標注數據得以適配到coco格式。
15、優選地,設計目標檢測任務問答對模板如下:
16、提問:請描述圖像中存在哪些電力設備并給出其坐標位置,若設備存在缺陷也請說明;
17、回答:圖中包含的設備共有x類,包括輸電桿塔、輸電線路,具體而言輸電桿塔1:坐標(x1,y1,x2,y2),輸電桿塔2:坐標(x3,y3,x4,y4;
18、經觀察圖中發現x個設備缺陷,具體為桿塔鳥巢:坐標(x5,y5,x6,y6)、防震錘滑移:坐標(x7,y7,x8,y8)。
19、優選地,根據設計的目標檢測任務問答對模板,通過腳本代碼方式,將coco格式的標注文件批量轉換,生成多個問答對用于多模態大模型的訓練。
20、優選地,采用開源的大語言模型對圖文問答對內容進行重新生成和組織,多模態大型模型通過自然語言處理技術,回答與圖像內容相關的問題,實現對圖像的深層次理解。
21、優選地,利用開源的大語言模型的自然語言理解和生成能力,對已有的問答對進行微調,生成新的、語義等價但表達方式不同的問答對;通過引入不同的語言表達方式,開源大語言模型能夠學習到更加泛化的特征表示,在面對新的場景和問題時,展現出更好的適應性和準確性。
22、第二方面,本發明實施例提供了一種電力多模態樣本標注系統,包括:
23、標簽模塊,統一圖像樣本對應標注文件的標簽;
24、標注模塊,基于得到的標注文件的標簽標注所有相關物體和缺陷,得到標注數據;
25、轉換模塊,設計目標檢測任務問答對模板,將得到的標注數據轉換為問答對形式;
26、識別模塊,針對圖像理解任務,基于得到的問答對形式構建多輪次問答對數據集,利用構建的多輪次問答對數據集訓練大語言模型,用于識別和分析圖像中的安全行為;
27、輸出模塊,通過開源大語言模型豐富問答對的表達,保持語義等價的同時增加語言多樣性,提升大語言模型的泛化能力和適應性。
28、第三方面,一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述電力多模態樣本標注方法的步驟。
29、第四方面,本發明實施例提供了一種計算機可讀存儲介質,包括計算機程序,所述計算機程序被處理器執行時實現上述電力多模態樣本標注方法的步驟。
30、第五方面,一種芯片,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述電力多模態樣本標注方法的步驟。
31、第六方面,本發明實施例提供了一種電子設備,包括計算機程序,所述計算機程序被電子設備執行時實現上述電力多模態樣本標注方法的步驟。
32、與現有技術相比,本發明至少具有以下有益效果:
33、一種電力多模態樣本標注方法,通過標準化的標簽和全面的標注提升數據質量,并通過問答對的形式為圖像理解任務和目標檢測任務提供深度的語義支持。通過多輪問答的數據集訓練大語言模型,不僅能夠實現更精確的目標識別和安全行為分析,還能通過增加語言多樣性和提升泛化能力,提高模型在實際電力領域中的應用效果。
34、進一步的,通過統一圖像樣本標簽和全面標注所有相關物體及缺陷,確保了數據的一致性和全面性,為模型訓練提供了高質量、標準化的數據基礎。
35、進一步的,通過將voc格式轉換為coco格式,以及設計問答對模板,本發明提高了數據的兼容性和可用性,同時增強了模型的上下文理解能力,為多模態大模型的訓練提供了結構化的數據支持。
36、進一步的,將voc格式的圖像標注數據轉換為coco格式,可以提高數據的標準化程度,增加數據的兼容性和可擴展性,便于深度學習模型的訓練,尤其是多任務學習、實例分割等復雜任務。這種轉換不僅能夠支持更高效的數據處理,還能利用coco格式的豐富特性,優化計算機視覺任務中的訓練效果。
37、進一步的,構建多輪次問答對數據集,并利用開源大語言模型豐富問答對的表達,本發明提升了模型的深度理解能力和泛化能力,使模型能夠更好地適應多變的實際應用場景。
38、進一步的,采用開源的大語言模型與多模態技術相結合,不僅使得圖像內容的理解更加精準和深刻,還增強了系統的靈活性、智能化、自動化和跨領域應用的能力。這為各行各業帶來了更多的應用潛力,從而提升了數據處理效率、用戶體驗和跨行業解決方案的可行性。
39、可以理解的是,上述第二方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。
40、綜上所述,本發明方法提升數據質量和模型性能,增強模型的上下文理解和適應性,提高數據處理效率和模型泛化能力。
41、下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。