基于生成式視覺大模型的行為預(yù)測(cè)方法與系統(tǒng)與流程

文檔序號(hào)：41750838發(fā)布日期：2025-04-25 17:42閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于人工智能，具體而言，涉及基于生成式視覺大模型的行為預(yù)測(cè)方法與系統(tǒng)。

背景技術(shù)：

1、人員行為預(yù)測(cè)是利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)旨在通過分析人體的動(dòng)態(tài)信息，預(yù)測(cè)其未來的動(dòng)作和行為。這項(xiàng)技術(shù)具有廣泛的應(yīng)用前景，包括智能監(jiān)控、健康監(jiān)測(cè)、人機(jī)交互與體育訓(xùn)練等多個(gè)領(lǐng)域。

2、人員行為預(yù)測(cè)在多個(gè)方面發(fā)揮重要作用。首先，可以利用人體行為預(yù)測(cè)進(jìn)行安全監(jiān)控，在機(jī)場(chǎng)、車站、商場(chǎng)和水站等場(chǎng)所，通過預(yù)測(cè)人員的行為，可以提前識(shí)別潛在的危險(xiǎn)或異常行為，提升公共安全水平。

3、現(xiàn)有人員行為預(yù)測(cè)方法存在以下缺陷：

4、（1）數(shù)據(jù)獲取和處理復(fù)雜：人體動(dòng)作數(shù)據(jù)的獲取需要高精度的傳感器設(shè)備，數(shù)據(jù)量大，處理復(fù)雜，特別是在多攝像頭和多傳感器環(huán)境下，數(shù)據(jù)同步和融合是一個(gè)難點(diǎn)；

5、（2）現(xiàn)有的算法的準(zhǔn)確性和實(shí)時(shí)性差，特別是在復(fù)雜的實(shí)際環(huán)境中，算法的魯棒性和適應(yīng)性仍需增強(qiáng)；

6、（3）多模態(tài)數(shù)據(jù)融合難度大：人體動(dòng)作行為預(yù)測(cè)往往需要融合視覺和紅外傳感器等多模態(tài)數(shù)據(jù)，如何有效地融合這些數(shù)據(jù)，以提高預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性，是一個(gè)重要挑戰(zhàn)；

7、（4）個(gè)性化預(yù)測(cè)難度大：不同個(gè)體的動(dòng)作行為存在顯著差異，如何進(jìn)行個(gè)性化的行為預(yù)測(cè)，以適應(yīng)不同個(gè)體的特點(diǎn)，是一個(gè)極待解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題，本發(fā)明提供基于生成式視覺大模型的行為預(yù)測(cè)方法與系統(tǒng)。

2、第一方面，本發(fā)明提供了基于生成式視覺大模型的行為預(yù)測(cè)方法，包括：

3、采集人體動(dòng)作視頻數(shù)據(jù)，提取人體行為動(dòng)作數(shù)據(jù)；人體行為動(dòng)作包括人體關(guān)鍵關(guān)節(jié)點(diǎn)位姿、行為動(dòng)作數(shù)據(jù)與交互對(duì)象；行為動(dòng)作數(shù)據(jù)包括運(yùn)動(dòng)數(shù)據(jù)與交互動(dòng)作數(shù)據(jù)；

4、對(duì)人體行為動(dòng)作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，構(gòu)建樣本數(shù)據(jù)集；

5、構(gòu)建生成式視覺大模型，使用生成式視覺大模型對(duì)樣本數(shù)據(jù)集中預(yù)處理后的視頻數(shù)據(jù)的視頻幀進(jìn)行特征提取，使用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征向量進(jìn)行時(shí)間序列分析，生成時(shí)間序列特征；

6、使用樣本數(shù)據(jù)集對(duì)生成式視覺大模型進(jìn)行端到端訓(xùn)練，計(jì)算生成式視覺大模型的損失函數(shù)，根據(jù)損失函數(shù)調(diào)整生成式視覺大模型的參數(shù)，得到目標(biāo)訓(xùn)練模型，并固定目標(biāo)訓(xùn)練模型中的特征提取網(wǎng)絡(luò)參數(shù)，得到人員行為預(yù)測(cè)模型；

7、將人員行為預(yù)測(cè)模型加載到在線預(yù)測(cè)系統(tǒng)中，將新的視頻數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后輸入到人員行為預(yù)測(cè)模型中進(jìn)行預(yù)測(cè)，輸出若干個(gè)未來時(shí)間幀的人體行為動(dòng)作的預(yù)測(cè)結(jié)果。

8、第二方面，本發(fā)明提供了基于生成式視覺大模型的行為預(yù)測(cè)系統(tǒng)，包括采集單元、預(yù)處理單元、模型構(gòu)建單元、模型訓(xùn)練單元與加載單元；

9、采集單元，用于采集人體動(dòng)作視頻數(shù)據(jù)，提取人體行為動(dòng)作數(shù)據(jù)；人體行為動(dòng)作包括人體關(guān)鍵關(guān)節(jié)點(diǎn)位姿、行為動(dòng)作數(shù)據(jù)與交互對(duì)象；行為動(dòng)作數(shù)據(jù)包括運(yùn)動(dòng)數(shù)據(jù)與交互動(dòng)作數(shù)據(jù)；

10、預(yù)處理單元，用于對(duì)人體行為動(dòng)作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，構(gòu)建樣本數(shù)據(jù)集；

11、模型構(gòu)建單元，用于構(gòu)建生成式視覺大模型，使用生成式視覺大模型對(duì)樣本數(shù)據(jù)集中預(yù)處理后的視頻數(shù)據(jù)的視頻幀進(jìn)行特征提取，使用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征向量進(jìn)行時(shí)間序列分析，生成時(shí)間序列特征；

12、模型訓(xùn)練單元，用于使用樣本數(shù)據(jù)集對(duì)生成式視覺大模型進(jìn)行端到端訓(xùn)練，計(jì)算生成式視覺大模型的損失函數(shù)，根據(jù)損失函數(shù)調(diào)整生成式視覺大模型的參數(shù)，得到目標(biāo)訓(xùn)練模型，并固定目標(biāo)訓(xùn)練模型中的特征提取網(wǎng)絡(luò)參數(shù)，得到人員行為預(yù)測(cè)模型；

13、加載單元，用于將人員行為預(yù)測(cè)模型加載到在線預(yù)測(cè)系統(tǒng)中，將新的視頻數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后輸入到人員行為預(yù)測(cè)模型中進(jìn)行預(yù)測(cè)，輸出若干個(gè)未來時(shí)間幀的人體行為動(dòng)作的預(yù)測(cè)結(jié)果。

14、在上述技術(shù)方案的基礎(chǔ)上，本發(fā)明還可以做如下改進(jìn)。

15、進(jìn)一步，對(duì)人體行為動(dòng)作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，構(gòu)建樣本數(shù)據(jù)集包括：

16、使用濾波算法對(duì)視頻數(shù)據(jù)進(jìn)行去噪處理，去除視頻中的噪聲；

17、根據(jù)動(dòng)作變化的關(guān)鍵時(shí)刻從視頻中抽取關(guān)鍵幀；

18、利用姿態(tài)估計(jì)算法檢測(cè)人體的關(guān)鍵關(guān)節(jié)點(diǎn)，利用檢測(cè)分割算法檢測(cè)環(huán)境物體信息，得到關(guān)鍵關(guān)節(jié)點(diǎn)坐標(biāo)信息和環(huán)境中物體坐標(biāo)信息；

19、根據(jù)關(guān)節(jié)點(diǎn)坐標(biāo)信息和環(huán)境中物體坐標(biāo)信息，計(jì)算人體和物體交互動(dòng)作的概率。

20、進(jìn)一步，交互對(duì)象為人體或環(huán)境物體；運(yùn)動(dòng)數(shù)據(jù)包括走路、跑步與跳躍；交互動(dòng)作數(shù)據(jù)包括抓取、提取與放下。

21、進(jìn)一步，生成式視覺大模型將輸入幀進(jìn)行圖像編碼然后分批圖像嵌入至卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，掩膜解碼后的掩膜輸出若干個(gè)未來時(shí)間幀的人體行為動(dòng)作的預(yù)測(cè)結(jié)果。

22、進(jìn)一步，生成式視覺大模型包括圖像標(biāo)記器、視頻標(biāo)記器、文本標(biāo)記器、圖像編碼器、視頻編碼器、文本編碼器、transformer網(wǎng)絡(luò)解碼器、生成器與輸出單元；圖像標(biāo)記器通過圖像編碼器連接transformer網(wǎng)絡(luò)解碼器；視頻標(biāo)記器通過視頻編碼器連接transformer網(wǎng)絡(luò)解碼器；文本標(biāo)記器通過文本編碼器連接transformer網(wǎng)絡(luò)解碼器；轉(zhuǎn)換器解碼器通過生成器連接輸出單元；生成式視覺大模型通過對(duì)圖像、視頻流和文本描述信息進(jìn)行編碼，然后進(jìn)行多模態(tài)信息融合，接著通過transformer網(wǎng)絡(luò)解碼器進(jìn)行解碼，最后通過生成器生成下一時(shí)刻的人體行為動(dòng)作以及對(duì)應(yīng)的文本描述。

23、進(jìn)一步，長(zhǎng)短期記憶網(wǎng)絡(luò)包括輸入門、遺忘門與輸出門；輸入門用于將存儲(chǔ)當(dāng)前信息至細(xì)胞狀態(tài)中；遺忘門用于從上一個(gè)時(shí)間步的隱藏狀態(tài)和當(dāng)前輸入中遺忘信息；輸出門用于決定將信息從當(dāng)前的細(xì)胞狀態(tài)中輸出到下一個(gè)隱藏狀態(tài)；細(xì)胞狀態(tài)通過遺忘門與輸入門進(jìn)行更新，通過雙曲正切激活函數(shù)調(diào)節(jié)細(xì)胞狀態(tài)的值。

24、進(jìn)一步，計(jì)算交叉熵?fù)p失函數(shù)值，當(dāng)交叉熵?fù)p失函數(shù)值小于設(shè)定閾值，得到目標(biāo)訓(xùn)練模型。

25、本發(fā)明的有益效果是：

26、（1）本發(fā)明采用生成式視覺模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練，具備強(qiáng)大的特征提取能力，能夠自動(dòng)從原始視頻數(shù)據(jù)中提取高層次的特征，避免了復(fù)雜的手工特征設(shè)計(jì)過程，提高了特征提取的效率和準(zhǔn)確性；

27、（2）采用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征向量進(jìn)行時(shí)間序列分析，捕捉動(dòng)作的時(shí)間依賴性，處理復(fù)雜的時(shí)間序列數(shù)據(jù)，提升了動(dòng)作預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性，并且通過對(duì)多個(gè)視頻幀的特征向量進(jìn)行時(shí)間序列建模，能夠捕捉動(dòng)作的動(dòng)態(tài)變化，預(yù)測(cè)未來的動(dòng)作趨勢(shì)；

28、（3）本發(fā)明通過生成式視覺模型訓(xùn)練，提高對(duì)不同個(gè)體動(dòng)作行為的預(yù)測(cè)精度，通過對(duì)個(gè)體數(shù)據(jù)的專門訓(xùn)練，生成式視覺模型可以提供個(gè)性化的預(yù)測(cè)和建議；

29、（4）采用端到端的訓(xùn)練方法能夠優(yōu)化整個(gè)模型的性能，提高了效率和魯棒性，適應(yīng)多變的實(shí)際應(yīng)用環(huán)境。

技術(shù)特征：

1.基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，對(duì)人體行為動(dòng)作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，構(gòu)建樣本數(shù)據(jù)集包括：

3.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，交互對(duì)象為人體或環(huán)境物體；運(yùn)動(dòng)數(shù)據(jù)包括走路、跑步與跳躍；交互動(dòng)作數(shù)據(jù)包括抓取、提取與放下。

4.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，生成式視覺大模型將輸入幀進(jìn)行圖像編碼然后分批圖像嵌入至卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，掩膜解碼后的掩膜輸出若干個(gè)未來時(shí)間幀的人體行為動(dòng)作的預(yù)測(cè)結(jié)果。

5.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，生成式視覺大模型包括圖像標(biāo)記器、視頻標(biāo)記器、文本標(biāo)記器、圖像編碼器、視頻編碼器、文本編碼器、transformer網(wǎng)絡(luò)解碼器、生成器與輸出單元；圖像標(biāo)記器通過圖像編碼器連接transformer網(wǎng)絡(luò)解碼器；視頻標(biāo)記器通過視頻編碼器連接transformer網(wǎng)絡(luò)解碼器；文本標(biāo)記器通過文本編碼器連接transformer網(wǎng)絡(luò)解碼器；轉(zhuǎn)換器解碼器通過生成器連接輸出單元；生成式視覺大模型通過對(duì)圖像、視頻流和文本描述信息進(jìn)行編碼，然后進(jìn)行多模態(tài)信息融合，接著通過transformer網(wǎng)絡(luò)解碼器進(jìn)行解碼，最后通過生成器生成下一時(shí)刻的人體行為動(dòng)作以及對(duì)應(yīng)的文本描述。

6.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，長(zhǎng)短期記憶網(wǎng)絡(luò)包括輸入門、遺忘門與輸出門；輸入門用于將存儲(chǔ)當(dāng)前信息至細(xì)胞狀態(tài)中；遺忘門用于從上一個(gè)時(shí)間步的隱藏狀態(tài)和當(dāng)前輸入中遺忘信息；輸出門用于決定將信息從當(dāng)前的細(xì)胞狀態(tài)中輸出到下一個(gè)隱藏狀態(tài)；細(xì)胞狀態(tài)通過遺忘門與輸入門進(jìn)行更新，通過雙曲正切激活函數(shù)調(diào)節(jié)細(xì)胞狀態(tài)的值。

7.根據(jù)權(quán)利要求1所述基于生成式視覺大模型的行為預(yù)測(cè)方法，其特征在于，計(jì)算交叉熵?fù)p失函數(shù)值，當(dāng)交叉熵?fù)p失函數(shù)值小于設(shè)定閾值，得到目標(biāo)訓(xùn)練模型。

8.基于生成式視覺大模型的行為預(yù)測(cè)系統(tǒng)，其特征在于，包括采集單元、預(yù)處理單元、模型構(gòu)建單元、模型訓(xùn)練單元與加載單元；

技術(shù)總結(jié)
本發(fā)明屬于人工智能技術(shù)領(lǐng)域，涉及基于生成式視覺大模型的行為預(yù)測(cè)方法與系統(tǒng)。該方法包括采集人體動(dòng)作視頻數(shù)據(jù)，提取人體行為動(dòng)作數(shù)據(jù)；數(shù)據(jù)預(yù)處理；構(gòu)建生成式視覺大模型，特征提取，使用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行時(shí)間序列分析；端到端訓(xùn)練，計(jì)算損失函數(shù)，得到人員行為預(yù)測(cè)模型；輸出若干個(gè)未來時(shí)間幀的人體行為動(dòng)作的預(yù)測(cè)結(jié)果。本發(fā)明采用生成式視覺模型能夠提取高層次的特征，提高了特征提取的效率和準(zhǔn)確性；采用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征向量進(jìn)行時(shí)間序列分析，提升了動(dòng)作預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性，能夠捕捉動(dòng)作的動(dòng)態(tài)變化，預(yù)測(cè)未來的動(dòng)作趨勢(shì)；采用端到端的訓(xùn)練方法能夠優(yōu)化整個(gè)模型的性能，提高了效率和魯棒性，適應(yīng)多變的實(shí)際應(yīng)用環(huán)境。

技術(shù)研發(fā)人員：張岱,張新,李蘆峰,吳霞
受保護(hù)的技術(shù)使用者：中國鐵塔股份有限公司四川省分公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/4/24

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張岱,張新,李蘆峰,吳霞
技術(shù)所有人：中國鐵塔股份有限公司四川省分公司
我是此專利的發(fā)明人

上一篇：一種提高冷軋板氟鋯酸鹽-硅烷膜質(zhì)量的方法與流程
上一篇：電性切換結(jié)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于生成式視覺大模型的行為預(yù)測(cè)方法與系統(tǒng)與流程