基于大模型的視頻交互方法、裝置、電子設備和介質與流程

文檔序號：41751340發布日期：2025-04-25 17:44閱讀：10來源：國知局

本公開涉及人工智能，尤其涉及大模型、自然語言處理和圖像處理，具體涉及一種基于大模型的視頻交互方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。

背景技術：

1、人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科，既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術：人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。

2、大模型(large?model，也稱基礎模型，foundation?model)，是指具有大量參數和復雜結構的機器學習模型，其能夠處理海量數據、完成各種復雜的任務，如自然語言處理、計算機視覺和語音識別等。

3、在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明，否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地，除非另有指明，否則此部分中提及的問題不應認為在任何現有技術中已被公認。

技術實現思路

1、本公開提供了一種基于大模型的視頻交互方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。

2、根據本公開的一方面，提供了一種基于大模型的視頻交互方法，包括：在基于大模型的視頻交互過程中，獲取輸入的交互輸入數據和目標文件，其中，所述交互輸入數據包括語音數據、圖像數據和視頻數據中的任一項；通過所述大模型處理所述交互輸入數據和所述目標文件，以確定交互輸出數據；以及輸出所述交互輸出數據。

3、根據本公開的另一方面，提供了一種基于大模型的視頻交互裝置，包括：第一模塊，被配置為在基于大模型的視頻交互過程中，獲取輸入的交互輸入數據和目標文件，其中，所述交互輸入數據包括語音數據、圖像數據和視頻數據中的任一項；第二模塊，通過所述大模型處理所述交互輸入數據和所述目標文件，以確定交互輸出數據；以及第三模塊，被配置為輸出所述交互輸出數據。

4、根據本公開的另一方面，提供了一種電子設備，包括：至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠執行上述方法。

5、根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執行上述方法。

6、根據本公開的另一方面，提供了一種計算機程序產品，包括計算機程序，其中，所述計算機程序在被處理器執行時實現上述方法。

7、根據本公開的一個或多個實施例，提供了一種基于大模型的視頻交互方法，通過在視頻交互過程中獲取除交互輸入數據(例如，實時視頻流或實時音頻流等)之外的目標文件作為補充信息，能夠輔助大模型更好地理解交互對象的當前交互意圖，有效提升大模型對交互對象的交互意圖的理解準確性，從而提升輸出信息的與交互意圖之間的匹配度，有效提升大模型在視頻交互過程中的交互意圖理解準確性。并且，目標文件相較于實時的交互輸入數據，對處理能力的要求相對較低，通常不會過多占用大模型的計算資源，能夠保證視頻交互功能的正常進行。

8、應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術特征：

1.一種基于大模型的視頻交互方法，包括：

2.根據權利要求1所述的方法，所述方法還包括：

3.根據權利要求1或2所述的方法，其中，所述目標文件包括文本文件、音頻文件、圖像文件和視頻文件中的至少一者。

4.根據權利要求3所述的方法，其中，在所述目標文件包括視頻文件的情況下，所述通過所述大模型處理所述交互輸入數據和所述目標文件，以確定交互輸出數據，包括：

5.根據權利要求2所述的方法，其中，所述不利影響與以下至少一項相關聯：所述大模型側的網絡狀況、所述視頻交互中與所述大模型進行交互的交互對象側的網絡狀況、以及所述交互輸入數據的狀況。

6.根據權利要求5所述的方法，其中，

7.根據權利要求5所述的方法，其中，響應于確定所述不利影響與所述交互輸入數據的狀況相關聯，所述預設情況至少包括以下一者：

8.根據權利要求1-7中任一項所述的方法，所述方法還包括：

9.根據權利要求2所述的方法，所述方法還包括：

10.一種基于大模型的視頻交互裝置，包括：

11.一種電子設備，包括：

12.一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執行根據權利要求1-9中任一項所述的方法。

13.一種計算機程序產品，包括計算機程序，其中，所述計算機程序在被處理器執行時實現權利要求1-9中任一項所述的方法。

技術總結
本公開提供了一種基于大模型的視頻交互方法、裝置、電子設備和介質，涉及人工智能技術領域，尤其涉及大模型、自然語言處理和圖像處理技術領域。實現方案為：在基于大模型的視頻交互過程中，獲取輸入的交互輸入數據和目標文件，其中，交互輸入數據包括語音數據、圖像數據和視頻數據中的任一項；通過大模型處理交互輸入數據和目標文件，以確定交互輸出數據；以及輸出交互輸出數據。

技術研發人員：許志恒,鐘鵬飛,辛永正,張藝媛,任曉華,黃曉琳,趙慧斌
受保護的技術使用者：北京百度網訊科技有限公司
技術研發日：
技術公布日：2025/4/24

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：許志恒,鐘鵬飛,辛永正,張藝媛,任曉華,黃曉琳,趙慧斌
技術所有人：北京百度網訊科技有限公司
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統開發
3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯網
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

視頻交互技術相關技術

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于大模型的視頻交互方法、裝置、電子設備和介質與流程