本公開涉及人工智能,尤其涉及大模型、自然語言處理和圖像處理,具體涉及一種基于大模型的視頻交互方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
背景技術:
1、人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術:人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。
2、大模型(large?model,也稱基礎模型,foundation?model),是指具有大量參數和復雜結構的機器學習模型,其能夠處理海量數據、完成各種復雜的任務,如自然語言處理、計算機視覺和語音識別等。
3、在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現有技術中已被公認。
技術實現思路
1、本公開提供了一種基于大模型的視頻交互方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
2、根據本公開的一方面,提供了一種基于大模型的視頻交互方法,包括:在基于大模型的視頻交互過程中,獲取輸入的交互輸入數據和目標文件,其中,所述交互輸入數據包括語音數據、圖像數據和視頻數據中的任一項;通過所述大模型處理所述交互輸入數據和所述目標文件,以確定交互輸出數據;以及輸出所述交互輸出數據。
3、根據本公開的另一方面,提供了一種基于大模型的視頻交互裝置,包括:第一模塊,被配置為在基于大模型的視頻交互過程中,獲取輸入的交互輸入數據和目標文件,其中,所述交互輸入數據包括語音數據、圖像數據和視頻數據中的任一項;第二模塊,通過所述大模型處理所述交互輸入數據和所述目標文件,以確定交互輸出數據;以及第三模塊,被配置為輸出所述交互輸出數據。
4、根據本公開的另一方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述方法。
5、根據本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行上述方法。
6、根據本公開的另一方面,提供了一種計算機程序產品,包括計算機程序,其中,所述計算機程序在被處理器執行時實現上述方法。
7、根據本公開的一個或多個實施例,提供了一種基于大模型的視頻交互方法,通過在視頻交互過程中獲取除交互輸入數據(例如,實時視頻流或實時音頻流等)之外的目標文件作為補充信息,能夠輔助大模型更好地理解交互對象的當前交互意圖,有效提升大模型對交互對象的交互意圖的理解準確性,從而提升輸出信息的與交互意圖之間的匹配度,有效提升大模型在視頻交互過程中的交互意圖理解準確性。并且,目標文件相較于實時的交互輸入數據,對處理能力的要求相對較低,通常不會過多占用大模型的計算資源,能夠保證視頻交互功能的正常進行。
8、應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種基于大模型的視頻交互方法,包括:
2.根據權利要求1所述的方法,所述方法還包括:
3.根據權利要求1或2所述的方法,其中,所述目標文件包括文本文件、音頻文件、圖像文件和視頻文件中的至少一者。
4.根據權利要求3所述的方法,其中,在所述目標文件包括視頻文件的情況下,所述通過所述大模型處理所述交互輸入數據和所述目標文件,以確定交互輸出數據,包括:
5.根據權利要求2所述的方法,其中,所述不利影響與以下至少一項相關聯:所述大模型側的網絡狀況、所述視頻交互中與所述大模型進行交互的交互對象側的網絡狀況、以及所述交互輸入數據的狀況。
6.根據權利要求5所述的方法,其中,
7.根據權利要求5所述的方法,其中,響應于確定所述不利影響與所述交互輸入數據的狀況相關聯,所述預設情況至少包括以下一者:
8.根據權利要求1-7中任一項所述的方法,所述方法還包括:
9.根據權利要求2所述的方法,所述方法還包括:
10.一種基于大模型的視頻交互裝置,包括:
11.一種電子設備,包括:
12.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行根據權利要求1-9中任一項所述的方法。
13.一種計算機程序產品,包括計算機程序,其中,所述計算機程序在被處理器執行時實現權利要求1-9中任一項所述的方法。