應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品

文檔序號：41374865發(fā)布日期：2025-03-21 15:30閱讀：24來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開總體說來涉及圖像處理，更具體地講，涉及一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品。

背景技術(shù)：

1、手術(shù)室場景理解對于手術(shù)有著重要的意義，人工智能算法通過解析手術(shù)室中醫(yī)生之間的空間占位關(guān)系、醫(yī)生和設(shè)備之間的空間關(guān)系、設(shè)備和設(shè)備之間的空間關(guān)系，實(shí)現(xiàn)對手術(shù)室場景的理解，從而在手術(shù)中對不正確的占位和環(huán)境提出預(yù)警，優(yōu)化手術(shù)流程，提高手術(shù)效率，實(shí)現(xiàn)手術(shù)治療質(zhì)量的提高。

2、相關(guān)技術(shù)中存在一種基于多模態(tài)大模型的手術(shù)室場景理解方案，該方案首先對三維點(diǎn)云與rgb圖像同時(shí)提取視覺特征，再將視覺特征與大語言模型進(jìn)行對齊和微調(diào)，從而完成對真實(shí)世界的手術(shù)室場景關(guān)系的理解。然而，在真實(shí)世界的應(yīng)用中，從多視角視頻流中完成場景點(diǎn)云的重建需要耗費(fèi)較長的時(shí)間，難以滿足手術(shù)中場景理解和解析的實(shí)時(shí)要求。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品，用于解決上述問題中的至少一個。

2、根據(jù)本公開實(shí)施例的第一方面，提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法，所述對象關(guān)系識別方法包括：獲取手術(shù)室的多個手術(shù)圖像，其中，所述多個手術(shù)圖像由多個圖像傳感器在同一時(shí)刻拍攝得到，所述多個圖像傳感器布置在所述手術(shù)室內(nèi)的不同方位并用于捕捉手術(shù)過程；按照預(yù)設(shè)網(wǎng)格模板，對所述多個手術(shù)圖像進(jìn)行拼接處理，得到一個手術(shù)室圖像；對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

3、可選地，所述對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息，包括：提取所述手術(shù)室圖像的圖像特征；獲取針對手術(shù)室中不同對象的關(guān)系的提問文本；使用大語言模型，處理所述圖像特征和所述提問文本，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

4、可選地，所述提取所述手術(shù)室圖像的圖像特征，包括：使用clip模型，提取所述手術(shù)室圖像的圖像特征。

5、可選地，所述大語言模型包括基于llama系列模型的llava模型。

6、可選地，所述使用大語言模型，處理所述圖像特征和所述提問文本，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息，包括：將所述圖像特征轉(zhuǎn)換為一維的圖像特征，并將所述一維的圖像特征映射到語言空間中，得到語言特征；將所述提問文本轉(zhuǎn)換為一維的分詞序列；將所述語言特征和所述分詞序列合并為一個序列，傳入所述大語言模型，得到所述大語言模型輸出的所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

7、可選地，所述大語言模型是針對手術(shù)室場景，采用有監(jiān)督方法訓(xùn)練得到的；所述clip模型是針對手術(shù)室場景，采用有監(jiān)督方法訓(xùn)練得到的。

8、根據(jù)本公開實(shí)施例的第二方面，提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別裝置，所述對象關(guān)系識別裝置包括：獲取單元，被配置為獲取手術(shù)室的多個手術(shù)圖像，其中，所述多個手術(shù)圖像由多個圖像傳感器在同一時(shí)刻拍攝得到，所述多個圖像傳感器布置在所述手術(shù)室內(nèi)的不同方位并用于捕捉手術(shù)過程；合并單元，被配置為按照預(yù)設(shè)網(wǎng)格模板，對多個手術(shù)圖像進(jìn)行拼接處理，得到一個手術(shù)室圖像；處理單元，被配置為對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

9、可選地，所述處理單元還被配置為：提取所述手術(shù)室圖像的圖像特征；獲取針對手術(shù)室中不同對象的關(guān)系的提問文本；使用大語言模型，處理所述圖像特征和所述提問文本，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

10、可選地，所述處理單元還被配置為使用clip模型，提取所述手術(shù)室圖像的圖像特征。

11、可選地，所述大語言模型包括基于llama系列模型的llava模型。

12、可選地，所述處理單元還被配置為：將所述圖像特征轉(zhuǎn)換為一維的圖像特征，并將所述一維的圖像特征映射到語言空間中，得到語言特征；將所述提問文本轉(zhuǎn)換為一維的分詞序列；將所述語言特征和所述分詞序列合并為一個序列，傳入所述大語言模型，得到所述大語言模型輸出的所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。

13、可選地，所述大語言模型是針對手術(shù)室場景，采用有監(jiān)督方法訓(xùn)練得到的；所述clip模型是針對手術(shù)室場景，采用有監(jiān)督方法訓(xùn)練得到的。

14、根據(jù)本公開實(shí)施例的第三方面，提供了一種電子設(shè)備，包括：至少一個處理器；至少一個存儲計(jì)算機(jī)可執(zhí)行指令的存儲器，其中，計(jì)算機(jī)可執(zhí)行指令在被至少一個處理器運(yùn)行時(shí)，促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。

15、根據(jù)本公開實(shí)施例的第四方面，提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，計(jì)算機(jī)可讀存儲介質(zhì)中的指令在被至少一個處理器運(yùn)行時(shí)，促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。

16、根據(jù)本公開實(shí)施例的第五方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)指令，計(jì)算機(jī)指令在被至少一個處理器運(yùn)行時(shí)，促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。

17、本公開的實(shí)施例提供的技術(shù)方案至少帶來以下有益效果：

18、根據(jù)本公開的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法及裝置、電子設(shè)備、存儲介質(zhì)，通過將多個視角的手術(shù)圖像按照預(yù)設(shè)網(wǎng)格模板拼接為一個手術(shù)室圖像，能夠便捷、集中地收集手術(shù)室內(nèi)的豐富細(xì)節(jié)，無需花費(fèi)大量時(shí)間來構(gòu)建三維點(diǎn)云，從而有效節(jié)約對象關(guān)系識別處理的時(shí)間，滿足手術(shù)中場景理解和解析的實(shí)時(shí)要求。

19、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開。

技術(shù)特征：

1.一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法，其特征在于，所述對象關(guān)系識別方法包括：

2.如權(quán)利要求1所述的對象關(guān)系識別方法，其特征在于，所述對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息，包括：

3.如權(quán)利要求2所述的對象關(guān)系識別方法，其特征在于，所述提取所述手術(shù)室圖像的圖像特征，包括：

4.如權(quán)利要求2所述的對象關(guān)系識別方法，其特征在于，所述大語言模型包括基于llama系列模型的llava模型。

5.如權(quán)利要求2所述的對象關(guān)系識別方法，其特征在于，所述使用大語言模型，處理所述圖像特征和所述提問文本，得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息，包括：

6.如權(quán)利要求3所述的對象關(guān)系識別方法，其特征在于，

7.一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別裝置，其特征在于，所述對象關(guān)系識別裝置包括：

8.一種電子設(shè)備，其特征在于，包括：

9.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲介質(zhì)中的指令在被至少一個處理器運(yùn)行時(shí)，促使所述至少一個處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)指令，其特征在于，所述計(jì)算機(jī)指令在被至少一個處理器運(yùn)行時(shí)，促使所述至少一個處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。

技術(shù)總結(jié)
本公開提供了一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品，該對象關(guān)系識別方法包括：獲取手術(shù)室的多個手術(shù)圖像，其中，多個手術(shù)圖像由多個圖像傳感器在同一時(shí)刻拍攝得到，多個圖像傳感器布置在手術(shù)室內(nèi)的不同方位并用于捕捉手術(shù)過程；按照預(yù)設(shè)網(wǎng)格模板，對多個手術(shù)圖像進(jìn)行拼接處理，得到一個手術(shù)室圖像；對手術(shù)室圖像進(jìn)行對象關(guān)系識別處理，得到手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。該方法通過將多個視角的手術(shù)圖像按照預(yù)設(shè)網(wǎng)格模板拼接為一個手術(shù)室圖像，能便捷、集中地收集手術(shù)室內(nèi)的豐富細(xì)節(jié)，無需花費(fèi)大量時(shí)間來構(gòu)建三維點(diǎn)云，可有效節(jié)約對象關(guān)系識別處理時(shí)間，滿足手術(shù)中場景理解和解析的實(shí)時(shí)要求。

技術(shù)研發(fā)人員：吳錦林,雷震
受保護(hù)的技術(shù)使用者：中國科學(xué)院自動化研究所
技術(shù)研發(fā)日：
技術(shù)公布日：2025/3/20

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳錦林,雷震
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品

應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品