本公開總體說來涉及圖像處理,更具體地講,涉及一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、手術(shù)室場景理解對于手術(shù)有著重要的意義,人工智能算法通過解析手術(shù)室中醫(yī)生之間的空間占位關(guān)系、醫(yī)生和設(shè)備之間的空間關(guān)系、設(shè)備和設(shè)備之間的空間關(guān)系,實(shí)現(xiàn)對手術(shù)室場景的理解,從而在手術(shù)中對不正確的占位和環(huán)境提出預(yù)警,優(yōu)化手術(shù)流程,提高手術(shù)效率,實(shí)現(xiàn)手術(shù)治療質(zhì)量的提高。
2、相關(guān)技術(shù)中存在一種基于多模態(tài)大模型的手術(shù)室場景理解方案,該方案首先對三維點(diǎn)云與rgb圖像同時(shí)提取視覺特征,再將視覺特征與大語言模型進(jìn)行對齊和微調(diào),從而完成對真實(shí)世界的手術(shù)室場景關(guān)系的理解。然而,在真實(shí)世界的應(yīng)用中,從多視角視頻流中完成場景點(diǎn)云的重建需要耗費(fèi)較長的時(shí)間,難以滿足手術(shù)中場景理解和解析的實(shí)時(shí)要求。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法、裝置、電子設(shè)備、存儲介質(zhì)和程序產(chǎn)品,用于解決上述問題中的至少一個。
2、根據(jù)本公開實(shí)施例的第一方面,提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法,所述對象關(guān)系識別方法包括:獲取手術(shù)室的多個手術(shù)圖像,其中,所述多個手術(shù)圖像由多個圖像傳感器在同一時(shí)刻拍攝得到,所述多個圖像傳感器布置在所述手術(shù)室內(nèi)的不同方位并用于捕捉手術(shù)過程;按照預(yù)設(shè)網(wǎng)格模板,對所述多個手術(shù)圖像進(jìn)行拼接處理,得到一個手術(shù)室圖像;對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
3、可選地,所述對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息,包括:提取所述手術(shù)室圖像的圖像特征;獲取針對手術(shù)室中不同對象的關(guān)系的提問文本;使用大語言模型,處理所述圖像特征和所述提問文本,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
4、可選地,所述提取所述手術(shù)室圖像的圖像特征,包括:使用clip模型,提取所述手術(shù)室圖像的圖像特征。
5、可選地,所述大語言模型包括基于llama系列模型的llava模型。
6、可選地,所述使用大語言模型,處理所述圖像特征和所述提問文本,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息,包括:將所述圖像特征轉(zhuǎn)換為一維的圖像特征,并將所述一維的圖像特征映射到語言空間中,得到語言特征;將所述提問文本轉(zhuǎn)換為一維的分詞序列;將所述語言特征和所述分詞序列合并為一個序列,傳入所述大語言模型,得到所述大語言模型輸出的所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
7、可選地,所述大語言模型是針對手術(shù)室場景,采用有監(jiān)督方法訓(xùn)練得到的;所述clip模型是針對手術(shù)室場景,采用有監(jiān)督方法訓(xùn)練得到的。
8、根據(jù)本公開實(shí)施例的第二方面,提供一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別裝置,所述對象關(guān)系識別裝置包括:獲取單元,被配置為獲取手術(shù)室的多個手術(shù)圖像,其中,所述多個手術(shù)圖像由多個圖像傳感器在同一時(shí)刻拍攝得到,所述多個圖像傳感器布置在所述手術(shù)室內(nèi)的不同方位并用于捕捉手術(shù)過程;合并單元,被配置為按照預(yù)設(shè)網(wǎng)格模板,對多個手術(shù)圖像進(jìn)行拼接處理,得到一個手術(shù)室圖像;處理單元,被配置為對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
9、可選地,所述處理單元還被配置為:提取所述手術(shù)室圖像的圖像特征;獲取針對手術(shù)室中不同對象的關(guān)系的提問文本;使用大語言模型,處理所述圖像特征和所述提問文本,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
10、可選地,所述處理單元還被配置為使用clip模型,提取所述手術(shù)室圖像的圖像特征。
11、可選地,所述大語言模型包括基于llama系列模型的llava模型。
12、可選地,所述處理單元還被配置為:將所述圖像特征轉(zhuǎn)換為一維的圖像特征,并將所述一維的圖像特征映射到語言空間中,得到語言特征;將所述提問文本轉(zhuǎn)換為一維的分詞序列;將所述語言特征和所述分詞序列合并為一個序列,傳入所述大語言模型,得到所述大語言模型輸出的所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息。
13、可選地,所述大語言模型是針對手術(shù)室場景,采用有監(jiān)督方法訓(xùn)練得到的;所述clip模型是針對手術(shù)室場景,采用有監(jiān)督方法訓(xùn)練得到的。
14、根據(jù)本公開實(shí)施例的第三方面,提供了一種電子設(shè)備,包括:至少一個處理器;至少一個存儲計(jì)算機(jī)可執(zhí)行指令的存儲器,其中,計(jì)算機(jī)可執(zhí)行指令在被至少一個處理器運(yùn)行時(shí),促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。
15、根據(jù)本公開實(shí)施例的第四方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)中的指令在被至少一個處理器運(yùn)行時(shí),促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。
16、根據(jù)本公開實(shí)施例的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,計(jì)算機(jī)指令在被至少一個處理器運(yùn)行時(shí),促使至少一個處理器執(zhí)行根據(jù)本公開的示例性實(shí)施例的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。
17、本公開的實(shí)施例提供的技術(shù)方案至少帶來以下有益效果:
18、根據(jù)本公開的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法及裝置、電子設(shè)備、存儲介質(zhì),通過將多個視角的手術(shù)圖像按照預(yù)設(shè)網(wǎng)格模板拼接為一個手術(shù)室圖像,能夠便捷、集中地收集手術(shù)室內(nèi)的豐富細(xì)節(jié),無需花費(fèi)大量時(shí)間來構(gòu)建三維點(diǎn)云,從而有效節(jié)約對象關(guān)系識別處理的時(shí)間,滿足手術(shù)中場景理解和解析的實(shí)時(shí)要求。
19、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法,其特征在于,所述對象關(guān)系識別方法包括:
2.如權(quán)利要求1所述的對象關(guān)系識別方法,其特征在于,所述對所述手術(shù)室圖像進(jìn)行對象關(guān)系識別處理,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息,包括:
3.如權(quán)利要求2所述的對象關(guān)系識別方法,其特征在于,所述提取所述手術(shù)室圖像的圖像特征,包括:
4.如權(quán)利要求2所述的對象關(guān)系識別方法,其特征在于,所述大語言模型包括基于llama系列模型的llava模型。
5.如權(quán)利要求2所述的對象關(guān)系識別方法,其特征在于,所述使用大語言模型,處理所述圖像特征和所述提問文本,得到所述手術(shù)室內(nèi)的不同對象之間的對象關(guān)系信息,包括:
6.如權(quán)利要求3所述的對象關(guān)系識別方法,其特征在于,
7.一種應(yīng)用于手術(shù)室場景的對象關(guān)系識別裝置,其特征在于,所述對象關(guān)系識別裝置包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)中的指令在被至少一個處理器運(yùn)行時(shí),促使所述至少一個處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,其特征在于,所述計(jì)算機(jī)指令在被至少一個處理器運(yùn)行時(shí),促使所述至少一個處理器執(zhí)行如權(quán)利要求1至6中任一項(xiàng)所述的應(yīng)用于手術(shù)室場景的對象關(guān)系識別方法。