本技術涉及人工智能,特別是涉及一種多模態大模型訓練方法、目標檢測方法、裝置及電子設備。
背景技術:
1、在一些應用場景(例如,圖像檢索或者視覺問答等)中,往往需要在圖像中定位用戶提供的自然語言描述文本中提到的特定對象(可以稱為描述性目標檢測)。例如,可以通過多種模型集成實現描述性目標檢測,如,當需要檢測“位于綠地上且穿著非白色長筒襪的運動員”時,可以利用用于檢測“人”的目標檢測模型定位圖像中的人,然后通過能夠確定“是否穿長筒襪”的分類模型進行篩選,最后借助場景識別模型確認目標是否處于綠地上。然而,此種集成多種模型的方式增加了實現描述性目標檢測的復雜性,檢測效率較低。
技術實現思路
1、本技術實施例的目的在于提供一種多模態大模型訓練方法、目標檢測方法、裝置及電子設備,以降低實現描述性目標檢測的復雜性,提高檢測效率。具體技術方案如下:
2、本技術實施的第一方面,提供了一種多模態大模型訓練方法,所述方法包括:
3、獲取多個樣本圖像和每一樣本圖像中指定類別的對象標注框的第一樣本描述文本;
4、針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本;其中,所述第一文本提示用于指示:提取輸入的描述文本所描述的對象的類別名稱以及該對象的屬性;
5、針對該樣本圖像中每一對象標注框,分別確定該對象標注框與用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性是否相匹配;
6、構建包含每一第二樣本描述文本的樣本問題,以及利用該第二樣本描述文本包含的每一屬性與每一對象標注框的匹配結果,構建該樣本問題對應的思維鏈形式的樣本回答,得到一個問答樣本對;其中,該樣本問題用于指示確定輸入的圖像中符合該第二樣本描述文本的圖像區域的位置;該樣本回答包含用于描述多模態大模型推理過程的第一推理過程文本;所述第一推理過程文本包括:各推理步驟和各推理步驟之間的第一執行順序;按照所述第一執行順序,各推理步驟分別為:提取輸入的問題包含的描述文本所描述的對象的類別名稱和該對象的屬性、檢測輸入的圖像中所有屬于提取到的類別名稱所表征的類別的對象所占圖像區域的位置、分別確定每一圖像區域與提取到的每一屬性的匹配結果,以及確定與提取到的每一屬性均匹配的圖像區域的位置;
7、將該樣本圖像以及每一問答樣本對中的樣本問題輸入初始結構的多模態大模型,得到預測回答;
8、基于得到的預測回答和對應的問答樣本對中的樣本回答之間的差異,對初始結構的多模態大模型的參數進行調整,直至達到預設收斂條件,得到訓練完成的多模態大模型。
9、可選的,在所述針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本之前,所述方法還包括:
10、針對每一樣本圖像,獲取該樣本圖像中指定類別的對象標注框中對象的類別名稱,作為預設類別名稱;
11、所述針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本,包括:
12、針對每一樣本圖像,將第一文本提示、該樣本圖像對應的第一樣本描述文本和所述預設類別名稱,輸入第一大語言模型,提取得到該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本;其中,得到的類別名稱與所述預設類別名稱所表征的類別一致。
13、可選的,所述獲取多個樣本圖像和每一樣本圖像中指定類別的對象標注框的第一樣本描述文本,包括:
14、獲取多個樣本圖像以及每一樣本圖像中指定類別的對象標注框的位置;
15、針對每一樣本圖像,將該樣本圖像和第二文本提示輸入第二大語言模型,得到該樣本圖像中指定類別的對象標注框的第一樣本描述文本;其中,所述第二文本提示用于指示:生成輸入的圖像中對象標注框的描述文本。
16、可選的,所述針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本,包括:
17、針對每一樣本圖像,將該樣本圖像對應的第一樣本描述文本和第一文本提示輸入第一大語言模型,提取得到該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性;
18、將提取到的類別名稱、提取到的屬性,以及第三文本提示輸入所述第一大語言模型,得到該樣本圖像對應的多個第二樣本描述文本;其中,所述第三文本提示用于指示:將輸入的類別名稱與輸入的屬性中的至少一個進行組合,得到多個描述文本。
19、可選的,所述針對該樣本圖像中每一對象標注框,分別確定該對象標注框與用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性是否相匹配,包括:
20、利用圖文匹配模型和第四文本提示,分別檢測該樣本圖像中每一指定類別的對象標注框與各待匹配描述文本是否相匹配;其中,所述各待匹配描述文本為:對用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性,與提取到的類別名稱分別組合得到的;所述第四文本提示用于指示:確定輸入的圖像中每一對象標注框和輸入的描述文本是否相匹配。
21、本技術實施的第二方面,還提供了一種目標檢測方法,所述方法包括:
22、獲取待檢測圖像以及包含待檢測描述文本的待利用文本提示;其中,所述待利用文本提示用于指示:確定所述待檢測圖像中符合所述待檢測描述文本的對象所占圖像區域的位置;
23、將所述待檢測圖像和所述待利用文本提示輸入預先訓練的多模態大模型,得到思維鏈形式的檢測結果;其中,所述多模態大模型為基于上述任一所述的多模態大模型訓練方法訓練得到的;所述檢測結果包括:用于描述所述多模態大模型推理過程的第二推理過程文本;所述第二推理過程文本包括:各推理步驟和各推理步驟之間的第二執行順序;按照所述第二執行順序,各推理步驟分別為:提取輸入的文本提示所描述的對象的類別名稱和該對象的屬性、檢測輸入的圖像中所有屬于提取到的類別名稱所表征的類別的對象所占圖像區域的位置、分別確定每一圖像區域與提取到的每一屬性的匹配結果,以及確定與提取到的每一屬性均匹配的圖像區域的位置。
24、本技術實施的第三方面,還提供了一種多模態大模型訓練裝置,所述裝置包括:
25、樣本獲取模塊,用于獲取多個樣本圖像和每一樣本圖像中指定類別的對象標注框的第一樣本描述文本;
26、描述文本生成模塊,用于針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本;其中,所述第一文本提示用于指示:提取輸入的描述文本所描述的對象的類別名稱以及該對象的屬性;
27、匹配結果確定模塊,用于針對該樣本圖像中每一對象標注框,分別確定該對象標注框與用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性是否相匹配;
28、問答樣本對構建模塊,用于構建包含每一第二樣本描述文本的樣本問題,以及利用該第二樣本描述文本包含的每一屬性與每一對象標注框的匹配結果,構建該樣本問題對應的思維鏈形式的樣本回答,得到一個問答樣本對;其中,該樣本問題用于指示確定輸入的圖像中符合該第二樣本描述文本的圖像區域的位置;該樣本回答包含用于描述多模態大模型推理過程的第一推理過程文本;所述第一推理過程文本包括:各推理步驟和各推理步驟之間的第一執行順序;按照所述第一執行順序,各推理步驟分別為:提取輸入的問題包含的描述文本所描述的對象的類別名稱和該對象的屬性、檢測輸入的圖像中所有屬于提取到的類別名稱所表征的類別的對象所占圖像區域的位置、分別確定每一圖像區域與提取到的每一屬性的匹配結果,以及確定與提取到的每一屬性均匹配的圖像區域的位置;
29、預測回答確定模塊,用于將該樣本圖像以及每一問答樣本對中的樣本問題輸入初始結構的多模態大模型,得到預測回答;
30、模型參數調整模塊,用于基于得到的預測回答和對應的問答樣本對中的樣本回答之間的差異,對初始結構的多模態大模型的參數進行調整,直至達到預設收斂條件,得到訓練完成的多模態大模型。
31、可選的,所述裝置還包括:
32、預設類別名稱獲取模塊,用于在所述針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本之前,針對每一樣本圖像,獲取該樣本圖像中指定類別的對象標注框中對象的類別名稱,作為預設類別名稱;
33、所述描述文本生成模塊,具體用于針對每一樣本圖像,將第一文本提示、該樣本圖像對應的第一樣本描述文本和所述預設類別名稱,輸入第一大語言模型,提取得到該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本;其中,得到的類別名稱與所述預設類別名稱所表征的類別一致。
34、可選的,所述樣本獲取模塊,具體用于獲取多個樣本圖像以及每一樣本圖像中指定類別的對象標注框的位置;針對每一樣本圖像,將該樣本圖像和第二文本提示輸入第二大語言模型,得到該樣本圖像中指定類別的對象標注框的第一樣本描述文本;其中,所述第二文本提示用于指示:生成輸入的圖像中對象標注框的描述文本。
35、可選的,所述描述文本生成模塊,具體用于針對每一樣本圖像,將該樣本圖像對應的第一樣本描述文本和第一文本提示輸入第一大語言模型,提取得到該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性;將提取到的類別名稱、提取到的屬性,以及第三文本提示輸入所述第一大語言模型,得到該樣本圖像對應的多個第二樣本描述文本;其中,所述第三文本提示用于指示:將輸入的類別名稱與輸入的屬性中的至少一個進行組合,得到多個描述文本。
36、可選的,所述匹配結果確定模塊,具體用于利用圖文匹配模型和第四文本提示,分別檢測該樣本圖像中每一指定類別的對象標注框與各待匹配描述文本是否相匹配;其中,所述各待匹配描述文本為:對用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性,與提取到的類別名稱分別組合得到的;所述第四文本提示用于指示:確定輸入的圖像中每一對象標注框和輸入的描述文本是否相匹配。
37、本技術實施的第四方面,還提供了一種目標檢測裝置,所述裝置包括:
38、數據獲取模塊,用于獲取待檢測圖像以及包含待檢測描述文本的待利用文本提示;其中,所述待利用文本提示用于指示:確定所述待檢測圖像中符合所述待檢測描述文本的對象所占圖像區域的位置;
39、檢測結果確定模塊,用于將所述待檢測圖像和所述待利用文本提示輸入預先訓練的多模態大模型,得到思維鏈形式的檢測結果;其中,所述多模態大模型為基于上述任一所述的多模態大模型訓練方法訓練得到的;所述檢測結果包括:用于描述所述多模態大模型推理過程的第二推理過程文本;所述第二推理過程文本包括:各推理步驟和各推理步驟之間的第二執行順序;按照所述第二執行順序,各推理步驟分別為:提取輸入的文本提示所描述的對象的類別名稱和該對象的屬性、檢測輸入的圖像中所有屬于提取到的類別名稱所表征的類別的對象所占圖像區域的位置、分別確定每一圖像區域與提取到的每一屬性的匹配結果,以及確定與提取到的每一屬性均匹配的圖像區域的位置。
40、本技術實施例還提供了一種電子設備,包括:
41、存儲器,用于存放計算機程序;
42、處理器,用于執行存儲器上所存放的程序時,實現上述任一所述的多模態大模型訓練方法或者目標檢測方法。
43、本技術實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質內存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一所述的多模態大模型訓練方法或者目標檢測方法。
44、本技術實施例還提供了一種包含指令的計算機程序產品,當其在計算機上運行時,使得計算機執行上述任一所述的多模態大模型訓練方法或者目標檢測方法。
45、本技術實施例有益效果:
46、本技術實施例提供的一種多模態大模型訓練方法,可以獲取多個樣本圖像和每一樣本圖像中指定類別的對象標注框的第一樣本描述文本;針對每一樣本圖像,利用第一大語言模型和第一文本提示,提取該樣本圖像對應的第一樣本描述文本所描述的對象的類別名稱以及該對象的多個屬性,并將得到的類別名稱與得到的屬性中的至少一個進行組合,得到該樣本圖像對應的多個第二樣本描述文本;其中,第一文本提示用于指示:提取輸入的描述文本所描述的對象的類別名稱以及該對象的屬性;針對該樣本圖像中每一對象標注框,分別確定該對象標注框與提取到的每一屬性是否相匹配;構建包含每一第二樣本描述文本的樣本問題,以及利用該第二樣本描述文本包含的每一屬性與每一對象標注框的匹配結果,構建該樣本問題對應的思維鏈形式的樣本回答,得到一個問答樣本對;其中,該樣本問題用于指示確定輸入的圖像中符合該第二樣本描述文本的圖像區域的位置;該樣本回答包含用于描述多模態大模型推理過程的第一推理過程文本;第一推理過程文本包括:各推理步驟和各推理步驟之間的第一執行順序;按照第一執行順序,各推理步驟分別為:提取輸入的問題包含的描述文本所描述的對象的類別名稱和該對象的屬性、檢測輸入的圖像中所有屬于提取到的類別名稱所表征的類別的對象所占圖像區域的位置、分別確定每一圖像區域與提取到的每一屬性的匹配結果,以及確定與提取到的每一屬性均匹配的圖像區域的位置;將該樣本圖像以及每一問答樣本對中的樣本問題輸入初始結構的多模態大模型,得到預測回答;基于得到的預測回答和對應的問答樣本對中的樣本回答之間的差異,對初始結構的多模態大模型的參數進行調整,直至達到預設收斂條件,得到訓練完成的多模態大模型。
47、基于上述處理,可以根據獲取到的樣本圖像和用于描述樣本圖像中指定類別的對象標注框的描述文本(即第一樣本描述文本),利用第一大語言模型生成第二樣本描述文本,以提高得到的第二樣本描述文本的數量,豐富第二樣本描述文本的多樣性。進而,可以構建包含每一第二樣本描述文本的樣本問題,以指示多模態大模型確定輸入的圖像中符合該第二樣本描述文本的圖像區域的位置。并可以結合每一樣本圖像中各對象標注框與用于組合得到該樣本圖像對應的多個第二樣本描述文本的每一屬性的匹配結果,構建思維鏈形式的樣本回答,也就能夠得到一個思維鏈形式的問答樣本對。思維鏈形式的樣本回答可以包括:推理得到該樣本圖像中與該第二樣本描述文本中每一屬性均匹配的圖像區域的位置的具體步驟。
48、相應的,基于思維鏈形式的問答樣本對進行多模態大模型的訓練,可以使多模態大模型學習到按照思維鏈形式進行推理,確定圖像中符合輸入的描述文本的對象所占圖像區域的位置,并生成思維鏈形式的回答的能力。后續,利用訓練完成的多模態大模型,可以實現端到端的描述性目標檢測,無需集成多個模型,能夠降低實現描述性目標檢測的復雜性,提高檢測效率。
49、當然,實施本技術的任一產品或方法并不一定需要同時達到以上所述的所有優點。