本技術涉及命令規劃設計,特別涉及一種基于大語言模型和微調優化的工具使用命令規劃方法。
背景技術:
1、目前大語言模型(large?language?models,llms)的發展在學術界廣受關注。依托以互聯網等為來源的龐大數據集和先進的硬件配套訓練設施,大語言模型在多個領域具有卓越的歸納、理解、推理等能力。因此,近兩年國內外對大模型的研究層出不窮,其中一個較受關注的方向是將大語言模型用于具身智能機器人,即致力于令大語言模型利用自身具有的豐富知識,針對人類的自然語言指令,給出機器人能夠執行的行動步驟,以便于機器人從物理層面完成人類的指令。
2、針對上述目標,目前學術界的主流實現思路為,先由人類向機器人給出未表達周圍環境信息的自然語言指令;再由大語言模型針對人類的自然語言指令,綜合考慮自身具有的豐富知識與周圍環境信息,給出相應的行動步驟。
3、目前,saycan模型可利用大語言模型的語義理解能力去處理人類給出的自然語言指令,并利用后者將接收到的指令分解為若干個小的可執行任務單元,進而通過大語言模型,評估某一具體行動步驟的對最終任務完成的貢獻率,以及通過強化學習的方式,評估該行動步驟在現實中能完成的概率,從而將貢獻率和完成概率相乘得到最終的價值函數,通過選取最大的價值函數取值來選取最合適的行動步驟。
4、其次,palm-e模型具有顯著的端到端多模態色彩,其可將人類給出的自然語言指令信息和外界環境中的信息通過某種方式編碼為相同格式的向量,同時輸入模型中進行訓練,在完成人類指令要求的同時,也能完成其他的多模態任務(如輸入圖片進行場景描述等),在ok-vqa上表現出色。
5、再次,lm-nav模型不需要有標簽數據以及微調大模型,可有效地遵從人類的自然語言指令,完成導航任務;其強調利用多個專用模型協同運作,包括視覺-導航模塊(vnm)、視覺-語言模塊(vlm)、大語言模型模塊(llm),通過利用vnm和vlm模塊,lm-nav模型可從人類的自然語言指令中提取導航地標,從而導航到指定位置。
6、此外,tapa(task?planning?agent)模型的目標是針對人類的自然指令通用任務,給出以自然語言表示的符合人類習慣的執行步驟,思路為利用clip方法識別具身智能機器人周圍環境的物體標簽;再將物體標簽以自然語言形式作為提示詞,結合到一個總體的經過設計的提示詞中,令gpt-3.5在該提示詞下,產生人類指令—執行步驟數據集;再使用該生成的數據集微調llama預訓練大模型,從而得到可實現預期效果的大模型。
7、然而,目前學術界對具身智能命令規劃任務的研究,很少兼顧場景指令的通用性與生成執行步驟的可執行性。現有若干有影響力的工作,在專注于命令規劃的精準與可執行性時,往往會對人類指令與任務場景進行嚴格的限制,如saycan模型對具身智能機器人的任務場景和行動內容有著嚴格的限制,且對于未訓練場景以及復雜的指令,效果較差;palm-e模型也對任務場景有較嚴格限制;而在致力于增強命令規劃在復雜人類指令和任務場景條件下的通用性時,有較大的可能性會由于難以從周圍環境中充分提取詳細信息,帶來命令規劃籠統、缺乏實際執行細節的問題,如tapa模型針對人類指令生成的行動步驟缺乏執行細節,只是符合人類的認知習慣,而不能被機器人真正執行。
8、綜上所述,現有技術難以有效兼顧場景指令的通用性與生成執行步驟的可執行性,亟待解決。
技術實現思路
1、本技術提供一種基于大語言模型和微調優化的工具使用命令規劃方法,以解決現有技術難以有效兼顧場景指令的通用性與生成執行步驟的可執行性等問題。
2、本技術第一方面實施例提供一種基于大語言模型和微調優化的工具使用命令規劃方法,應用于在線命令規劃階段,包括以下步驟:獲取目標人類指令,且基于預設的在線數據采集策略,生成目標周圍環境圖片,并根據預設的大語言模型、所述目標人類指令和所述目標周圍環境圖片執行命令規劃操作,以生成所述目標周圍環境圖片中的目標候選工具和第一命令規劃,并判斷所述第一命令規劃是否滿足預設合理要求,如果所述第一命令規劃滿足所述預設合理要求,則將所述第一命令規劃作為最終命令規劃;如果所述第一命令規劃不滿足所述預設合理要求,則對所述目標候選工具進行第一級可見探索操作,以生成第一局部探索區域和所述局部探索區域對應的第二命令規劃,并判斷所述第二命令規劃是否滿足所述預設合理要求,如果所述第二命令規劃滿足所述預設合理要求,則將所述第二命令規劃作為所述最終命令規劃;如果所述第二命令規劃不滿足所述預設合理要求,則對所述第一局部探索區域進行第二級可見探索操作,以得到第二局部探索區域,并對所述第二局部探索區域進行命令規劃操作,以生成所述第二局部探索區域對應的第三命令規劃,且判斷所述第三命令規劃是否滿足所述預設合理要求,如果所述第三命令規劃不滿足所述預設合理要求,則控制目標具身智能機器人執行不可見探索操作,以生成目標不可見區域,并通過所述目標具身智能機器人探索所述目標不可見區域,如果所述第三命令規劃滿足所述預設合理要求,則將所述第三命令規劃作為所述最終命令規劃,并獲取和存儲所述最終命令規劃對應的規劃信息,以利用所述規劃信息在離線命令規劃階段執行離線命令規劃生成操作。
3、可選地,在本技術的一個實施例中,所述獲取目標人類指令,且基于預設的在線數據采集策略,生成目標周圍環境圖片,并根據預設的大語言模型、所述目標人類指令和所述目標周圍環境圖片執行命令規劃操作,以生成所述目標周圍環境圖片中的目標候選工具和第一命令規劃,包括:基于所述目標人類指令和所述大語言模型,生成所述目標人類指令對應的目標工具標簽和目標工具外觀性質,并根據所述目標工具標簽在預設數據集中隨機選取一張初始圖片和多張干擾圖片,且對所述一張初始圖片和多張干擾圖片進行隨機拼接操作,以得到所述目標周圍環境圖片;將所述目標工具標簽輸入至預設的視覺目標檢測模型中,以生成不同的候選工具示意圖,并根據所述目標周圍環境圖片、所述不同的候選工具示意圖和所述視覺目標檢測模型獲取不同的候選工具對應的候選工具置信度;對所述候選工具置信度進行降序排序,以得到排序結果,并根據所述排序結果篩選出滿足預設置信度要求的多個目標候選工具置信度,且獲取所述多個目標候選工具置信度在所述排序結果中的排序標號和所述多個目標候選工具置信度對應的目標候選工具;對所述目標候選工具進行背景過濾和工具重組操作,以得到重組候選工具圖,并將所述重組候選工具圖、所述目標工具標簽和所述目標工具外觀性質輸入至所述大語言模型中,以篩選出所述目標人類指令對應的目標排序標號;基于預設的分割模型,對所述目標排序標號對應的目標候選工具進行分割和過濾操作,以得到對應的分割圖,并將所述分割圖輸入至所述大語言模型中,以生成所述第一命令規劃。
4、可選地,在本技術的一個實施例中,所述對所述目標候選工具進行第一級可見探索操作,以生成第一局部探索區域和所述局部探索區域對應的第二命令規劃,包括:根據所述排序結果篩選所述多個目標候選工具置信度中前n個目標候選工具置信度,并獲取所述前n個目標候選工具置信度對應的目標候選工具,其中,n為正整數;將所述目標排序標號對應的目標候選工具添加至所述前n個目標候選工具置信度對應的目標候選工具中,以得到多個待篩選目標候選工具;對所述多個待篩選目標候選工具進行拼接與背景過濾操作,以生成所述第一局部探索區域,并將所述第一局部探索區域輸入至所述大語言模型中,以生成所述第二命令規劃。
5、可選地,在本技術的一個實施例中,所述對所述第一局部探索區域進行第二級可見探索操作,以得到第二局部探索區域,并對所述第二局部探索區域進行命令規劃操作,以生成所述第二局部探索區域對應的第三命令規劃,包括:從所述排序結果中篩選出滿足預設排序標號要求的所述目標周圍環境圖片對應的多個候選工具置信度,并獲取所述多個候選工具置信度對應的多個目標候選工具;對所述多個目標候選工具中每個目標候選工具的目標區域的待檢測目標進行權重累加,以得到所述每個目標候選工具對應的權重累加結果,并對比所述每個目標候選工具的權重累加結果,以得到權重累加結果最大值;獲取所述權重累加結果最大值對應的目標候選工具,并將所述權重累加結果最大值對應的目標候選工具的目標區域作為所述第二局部探索區域;將所述第二局部探索區域輸入至所述大語言模型中,以生成所述第三命令規劃。
6、本技術第二方面實施例提供一種基于大語言模型和微調優化的工具使用命令規劃方法,應用于離線命令規劃階段,包括以下步驟:基于預設的離線數據采集策略和檢索增強生成策略,獲取預先存儲的規劃信息,并檢索所述規劃信息中的目標工具圖片,且分別計算所述目標工具圖片和預設的多個目標候選工具之間的第一相似度,并獲取所述第一相似度最高的最優目標候選工具;利用所述檢索增強生成策略檢索所述規劃信息中所述最優目標候選工具對應的目標操作區域圖片,并分別計算所述目標操作區域圖片和預設的多個候選區域之間的第二相似度,且篩選出所述第二相似度滿足預設的相似度要求的至少一個目標操作區域圖片,以使所述檢索增強生成策略根據所述至少一個目標操作區域圖片檢索所述規劃信息中對應第一命令規劃信息,并判斷所述第一命令規劃信息是否滿足預設合理要求,如果所述第一命令規劃信息滿足所述預設合理要求,則將所述第一命令規劃信息作為最終命令規劃;如果所述第一命令規劃信息不滿足所述預設合理要求,則通過所述檢索增強生成策略檢索所述規劃信息中所述最優目標候選工具對應的關鍵區域圖片,并分別計算所述關鍵區域圖片與所述多個目標候選工具對應的多個關鍵區域圖片之間的第三相似度,且基于所述第三相似度最高的目標關鍵區域圖片對應的目標候選工具,生成對應的第二命令規劃信息;基于所述第二命令規劃信息和所述預設合理要求,進行預設的第二級可見探索和/或不可見探索操作,以生成最終命令規劃。
7、本技術第三方面實施例提供一種基于大語言模型和微調優化的工具使用命令規劃裝置,應用于在線命令規劃階段,包括:命令規劃模塊,用于獲取目標人類指令,且基于預設的在線數據采集策略,生成目標周圍環境圖片,并根據預設的大語言模型、所述目標人類指令和所述目標周圍環境圖片執行命令規劃操作,以生成所述目標周圍環境圖片中的目標候選工具和第一命令規劃,并判斷所述第一命令規劃是否滿足預設合理要求,如果所述第一命令規劃滿足所述預設合理要求,則將所述第一命令規劃作為最終命令規劃;第一探索模塊,用于如果所述第一命令規劃不滿足所述預設合理要求,則對所述目標候選工具進行第一級可見探索操作,以生成第一局部探索區域和所述局部探索區域對應的第二命令規劃,并判斷所述第二命令規劃是否滿足所述預設合理要求,如果所述第二命令規劃滿足所述預設合理要求,則將所述第二命令規劃作為所述最終命令規劃;第二探索模塊,用于如果所述第二命令規劃不滿足所述預設合理要求,則對所述第一局部探索區域進行第二級可見探索操作,以得到第二局部探索區域,并對所述第二局部探索區域進行命令規劃操作,以生成所述第二局部探索區域對應的第三命令規劃,且判斷所述第三命令規劃是否滿足所述預設合理要求,如果所述第三命令規劃不滿足所述預設合理要求,則控制目標具身智能機器人執行不可見探索操作,以生成目標不可見區域,并通過所述目標具身智能機器人探索所述目標不可見區域,如果所述第三命令規劃滿足所述預設合理要求,則將所述第三命令規劃作為所述最終命令規劃,并獲取和存儲所述最終命令規劃對應的規劃信息,以利用所述規劃信息在離線命令規劃階段執行離線命令規劃生成操作。
8、可選地,在本技術的一個實施例中,所述命令規劃模塊包括:在線數據采集單元,用于基于所述目標人類指令和所述大語言模型,生成所述目標人類指令對應的目標工具標簽和目標工具外觀性質,并根據所述目標工具標簽在預設數據集中隨機選取一張初始圖片和多張干擾圖片,且對所述一張初始圖片和多張干擾圖片進行隨機拼接操作,以得到所述目標周圍環境圖片;第一獲取單元,用于將所述目標工具標簽輸入至預設的視覺目標檢測模型中,以生成不同的候選工具示意圖,并根據所述目標周圍環境圖片、所述不同的候選工具示意圖和所述視覺目標檢測模型獲取不同的候選工具對應的候選工具置信度;粗篩選單元,用于對所述候選工具置信度進行降序排序,以得到排序結果,并根據所述排序結果篩選出滿足預設置信度要求的多個目標候選工具置信度,且獲取所述多個目標候選工具置信度在所述排序結果中的排序標號和所述多個目標候選工具置信度對應的目標候選工具;細篩選單元,用于對所述目標候選工具進行背景過濾和工具重組操作,以得到重組候選工具圖,并將所述重組候選工具圖、所述目標工具標簽和所述目標工具外觀性質輸入至所述大語言模型中,以篩選出所述目標人類指令對應的目標排序標號;分割單元,用于基于預設的分割模型,對所述目標排序標號對應的目標候選工具進行分割和過濾操作,以得到對應的分割圖,并將所述分割圖輸入至所述大語言模型中,以生成所述第一命令規劃。
9、可選地,在本技術的一個實施例中,所述第一探索模塊包括:第二獲取單元,用于根據所述排序結果篩選所述多個目標候選工具置信度中前n個目標候選工具置信度,并獲取所述前n個目標候選工具置信度對應的目標候選工具,其中,n為正整數;添加單元,用于將所述目標排序標號對應的目標候選工具添加至所述前n個目標候選工具置信度對應的目標候選工具中,以得到多個待篩選目標候選工具;過濾單元,用于對所述多個待篩選目標候選工具進行拼接與背景過濾操作,以生成所述第一局部探索區域,并將所述第一局部探索區域輸入至所述大語言模型中,以生成所述第二命令規劃。
10、可選地,在本技術的一個實施例中,所述所述第二探索模塊包括:第三獲取單元,用于從所述排序結果中篩選出滿足預設排序標號要求的所述目標周圍環境圖片對應的多個候選工具置信度,并獲取所述多個候選工具置信度對應的多個目標候選工具;權重累加單元,用于對所述多個目標候選工具中每個目標候選工具的目標區域的待檢測目標進行權重累加,以得到所述每個目標候選工具對應的權重累加結果,并對比所述每個目標候選工具的權重累加結果,以得到權重累加結果最大值;第四獲取單元,用于獲取所述權重累加結果最大值對應的目標候選工具,并將所述權重累加結果最大值對應的目標候選工具的目標區域作為所述第二局部探索區域;生成單元,用于將所述第二局部探索區域輸入至所述大語言模型中,以生成所述第三命令規劃。
11、本技術第四方面實施例提供一種基于大語言模型和微調優化的工具使用命令規劃裝置,應用于離線命令規劃階段,包括:檢索模塊,用于基于預設的離線數據采集策略和檢索增強生成策略,獲取預先存儲的規劃信息,并檢索所述規劃信息中的目標工具圖片,且分別計算所述目標工具圖片和預設的多個目標候選工具之間的第一相似度,并獲取所述第一相似度最高的最優目標候選工具;第一計算模塊,用于利用所述檢索增強生成策略檢索所述規劃信息中所述最優目標候選工具對應的目標操作區域圖片,并分別計算所述目標操作區域圖片和預設的多個候選區域之間的第二相似度,且篩選出所述第二相似度滿足預設的相似度要求的至少一個目標操作區域圖片,以使所述檢索增強生成策略根據所述至少一個目標操作區域圖片檢索所述規劃信息中對應第一命令規劃信息,并判斷所述第一命令規劃信息是否滿足預設合理要求,如果所述第一命令規劃信息滿足所述預設合理要求,則將所述第一命令規劃信息作為最終命令規劃;第二計算模塊,用于如果所述第一命令規劃信息不滿足所述預設合理要求,則通過所述檢索增強生成策略檢索所述規劃信息中所述最優目標候選工具對應的關鍵區域圖片,并分別計算所述關鍵區域圖片與所述多個目標候選工具對應的多個關鍵區域圖片之間的第三相似度,且基于所述第三相似度最高的目標關鍵區域圖片對應的目標候選工具,生成對應的第二命令規劃信息;離線探索模塊,用于基于所述第二命令規劃信息和所述預設合理要求,進行預設的第二級可見探索和/或不可見探索操作,以生成最終命令規劃。
12、本技術第五方面實施例提供一種電子設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序,以實現如上述實施例所述的基于大語言模型和微調優化的工具使用命令規劃方法。
13、本技術第六方面實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲計算機程序,該程序被處理器執行時實現如上的基于大語言模型和微調優化的工具使用命令規劃方法。
14、本技術第七方面實施例提供一種計算機程序產品,包括計算機程序,所述計算機程序被執行,以用于實現上述的基于大語言模型和微調優化的工具使用命令規劃方法。
15、由此,本技術的實施例具有以下有益效果:
16、本技術的實施例可通過通過輸入人類指令與周圍環境圖片后,先經過命令規劃方法基本流程,生成對應的命令規劃,并詢問人類該命令規劃是否合理,如合理則將該命令規劃作為最終結果而結束任務;如不合理則進行第一級可見探索,對候選工具進行二次選擇并生成相應的命令規劃。此時繼續詢問人類命令規劃是否合理,如合理則作為最終結果而結束任務;如不合理則進行第二級可見探索,將探索得到的局部區域作為新的周圍場景圖片重新進行命令規劃。此時繼續詢問人類命令規劃是否合理,如合理則作為最終結果而結束任務;如不合理則進行不可見探索,生成完成人類指令所需工具可能存在的不可見區域,供具身智能機器人進行進一步探索,并結束任務。本技術使得機器人可在復雜未知場景中,針對人類的任何指令均可生成相應的執行步驟,并可高效合理加以執行。本技術使得機器人可在復雜未知場景中,針對人類的任何指令均可生成相應的執行步驟,并可高效合理加以執行。由此,解決了現有技術難以有效兼顧場景指令的通用性與生成執行步驟的可執行性等問題。
17、本技術附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術的實踐了解到。