本申請涉及智能醫療領域,具體涉及一種基于圖檢索的腎癌風險評估方法、設備程序產品及計算機可讀存儲介質。
背景技術:
1、腎癌作為泌尿系統常見的惡性腫瘤,其發病率逐年上升,且發病年齡有年輕化趨勢。目前,腎癌的風險評估主要依賴于臨床病理指標,但存在預測精度不高、易漏診或誤診等問題。隨著醫療大數據的積累和人工智能技術的發展,利用深度學習等先進算法進行腫瘤風險評估已成為研究熱點。然而,現有的風險評估模型多基于單一數據源或算法,難以全面捕捉腎癌發生發展的復雜機制。并且在現有的評估模型在建模過程?;谙嗨贫冗M行聚類建模,比如cn109924965a一種心腦血管康復訓練系統中針對心腦血管康復設計康復訓練系統,其中對患者數據進行采集后進行數據處理、特征提取,再基于特征之間的相似性進行聚類建模,當患者問診時,利用患者數據進行相似度計算找尋相似病例群組,并將相似病例群組中的診斷方案推薦給問診患者。然而,相似度計算中余弦相似度最為直觀簡潔,是最為常用的相似度計算方法,但針對不同的數據,各個數據都涉及多個維度,在計算時會耗費大量的計算資源。
技術實現思路
1、針對上述問題,本發明提出了一種基于圖檢索的腎癌風險評估模型,該模型通過整合多源醫療大數據(包括基因組學、影像學、臨床病歷),利用深度學習大模型進行特征提取和模式識別,同時結合圖檢索技術實現高效的數據關聯與檢索,從而構建出高精度的腎癌風險評估體系,并且在相似度計算上進行改進,在提高相似度計算準確的同時,降低計算量。具體包括:
2、獲取待測者的臨床數據;
3、將所述臨床數據輸至圖檢索模型中進行相似性檢索得到相似病例數據;
4、將所述臨床數據和所述相似病例數據輸至評估模型中得到發生腎癌的高風險、中風險、低風險的評估結果。
5、所述相似性檢索通過加權余弦相似度計算數據向量之間的加權相似度得到相似病例數據,所述加權余弦相似度是在計算不同維度數據向量之間的相似度時對不同維度的數據分配不同的權重得到加權相似度;
6、可選地,所述加權余弦相似度s_t的計算表示為:
7、
8、其中,wi是第i個維度的權重,p是查詢圖的嵌入向量,p是病歷圖的嵌入向量;
9、可選地,所述加權余弦相似度的權重基于數據的特性動態調整。
10、所述相似性檢索替換為通過非線性相似性度計算數據向量之間的非線性相似度得到相似病例數據,所述非線性相似度是先對向量進行相似度計算得到相似度,再通過非線性函數對相似度進行數據轉換得到非線性相似度;
11、可選地,所述非線性相似度s_l的計算表示為:
12、
13、其中,k和θ是控制非線性相似度的形狀和位置的參數,s_c表示余弦相似度;
14、可選地,所述非線性相似度通過相似度模型映射得到非線性相似度,所述相似度模型是通過學習原始相似度與非線性相似度之間的關系訓練得到的。
15、所述相似性檢索替換為先通過加權相似度計算得到加權相似度,再將加權相似度進行非線性相似度計算得到綜合相似度,基于綜合相似度檢索得到相似病例數據;
16、可選地,所述綜合相似度的計算公式為:
17、
18、其中,s_t表示為加權相似度,k和θ是控制非線性相似度的形狀和位置的參數。
19、所述圖檢索模型包括查詢圖模塊、索引模塊、計算模塊、圖數據庫模塊,所述臨床數據輸至所述查詢圖模塊中轉換為查詢圖,所述查詢圖輸至所述索引模塊中解析為檢索特征或檢索屬性,根據所述檢索特征或檢索屬性在所述圖數據庫模塊檢索圖數據并通過所述計算模塊計算相似度得到相似病例數據;
20、可選地,所述相似度計算通過圖嵌入方式計算,所述圖嵌入方式是將圖結構數據映射至低維空間的向量,在計算向量之間的距離得到相似度。
21、可選地,所述圖檢索模型的圖數據庫構建過程為:獲取病例數據集并將所述病例數據集轉換為圖數據得到圖數據集;所述圖數據集中包括數據實體、實體關系、數據屬性,基于圖數據集構建圖數據庫。
22、所述評估模型為大語言模型,包括下列的一種或幾種:gpt2.0、gpt-4、chatgpt、文心一言、通義千問、騰訊混元。
23、所述評估模型包括輸入層、編碼模塊、輸出層,所述編碼模塊由n個編碼層組成,n為大于1的自然數,所述編碼層中包括多頭注意力層、前饋神經網絡層,以及多頭注意力層和前饋神經網絡層之間的殘差連接和歸一化層,輸入數據通過輸入層后輸至多頭注意力層后得到注意力數據,所述注意力數據和輸入數據通過殘差連接后融合后得到注意融合數據,所述注意融合數據經過歸一化層后輸至前饋神經網絡中得到前饋數據,所述前饋數據與注意融合數據通過殘差連接后融合得到前饋融合數據,所述前饋融合數據通過歸一化層后通過輸出層輸出。
24、可選地,所述前饋神經網絡包括m個線性變換層、m-1個激活層,m為大于等于2的自然數。
25、本發明的目的在于提供一種計算機程序產品,其包括計算機程序或指令,包括:所述計算機程序或指令被處理器執行實現上述的基于圖檢索的腎癌風險評估方法。
26、本發明的目的在于提供一種計算機設備,其包括存儲器、處理器及存儲在所述存儲器上的計算機程序或指令,包括:所述計算機程序或指令被處理器執行實現上述的基于圖檢索的腎癌風險評估方法。
27、本發明的目的在于提供一種計算機可讀存儲介質,其上存儲有計算機程序或指令,包括:所述計算機程序或指令被處理器執行實現上述的基于圖檢索的腎癌風險評估方法。
28、本發明的優勢:
29、1.本發明提出了基于圖檢索的腎癌風險評估方法,其中圖檢索利用圖檢索模型進行相似度計算得到相似病例數據,相似度計算考慮到不同數據不同維度的重要性,對不同維度進行權重分配,提高重要性更高維度數據的計算,降低重要性低的維度數據的計算,節省計算資源,提高檢索到的文本的高相似度。
30、2.本發明考慮到傳統的相似度基本都是基于線性關系,而數據之間還包括其他更復雜的關系,為了捕捉更多的數據關系,本發明引入非線性映射函數進行相似度計算,用于提高數據檢索過程中的準確率,避免遺漏相關數據。
31、3.本發明進一步結合了加權相似度和非線性相似度進行相似數據的檢索,從權重和非線性關系提高檢索數據的高相似度,進而得到高相似度的病例信息,提高腎癌風險預估的準確率。
32、4.本發明結合圖檢索模型和大語言評估模型進行腎癌風險評估,通過圖檢索模型得到相似文本,并與檢測者當前的臨床信息融合輸至大語言評估模型中進行風險預測,能夠輔助醫生進行疾病預測預警,及時發現和治療,具有很好的臨床引用價值。
1.一種基于圖檢索的腎癌風險評估方法,其特征在于,包括:
2.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述相似性檢索通過加權余弦相似度計算數據向量之間的加權相似度得到相似病例數據,所述加權余弦相似度是在計算不同維度數據向量之間的相似度時對不同維度的數據分配不同的權重得到加權相似度;
3.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述相似性檢索通過非線性相似度計算數據向量之間的非線性相似度得到相似病例數據,所述非線性相似度是先對向量進行相似度計算得到相似度,再通過非線性函數對相似度進行數據轉換得到非線性相似度;
4.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述相似性檢索是先通過加權相似度計算得到加權相似度,再將加權相似度進行非線性相似度計算得到綜合相似度,基于綜合相似度檢索得到相似病例數據;
5.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述圖檢索模型包括查詢圖模塊、索引模塊、計算模塊、圖數據庫模塊,所述臨床數據輸至所述查詢圖模塊中轉換為查詢圖,所述查詢圖輸至所述索引模塊中解析為檢索特征或檢索屬性,根據所述檢索特征或檢索屬性在所述圖數據庫模塊檢索圖數據并通過所述計算模塊計算相似度得到相似病例數據;
6.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述評估模型為大語言模型,包括下列的一種或幾種:gpt2.0、gpt-4、chatgpt、文心一言、通義千問、騰訊混元。
7.根據權利要求1所述的基于圖檢索的腎癌風險評估方法,其特征在于,所述評估模型包括輸入層、編碼模塊、輸出層,所述編碼模塊由n個編碼層組成,n為大于1的自然數,所述編碼層中包括多頭注意力層、前饋神經網絡層,以及多頭注意力層和前饋神經網絡層之間的殘差連接和歸一化層,輸入數據通過輸入層后輸至多頭注意力層后得到注意力數據,所述注意力數據和輸入數據通過殘差連接后融合后得到注意融合數據,所述注意融合數據經過歸一化層后輸至前饋神經網絡中得到前饋數據,所述前饋數據與注意融合數據通過殘差連接后融合得到前饋融合數據,所述前饋融合數據通過歸一化層后通過輸出層輸出;
8.一種計算機程序產品,其包括計算機程序或指令,其特征在于,包括:所述計算機程序或指令被處理器執行實現權利要求1-7任意一項所述的基于圖檢索的腎癌風險評估方法。
9.一種計算機設備,其包括存儲器、處理器及存儲在所述存儲器上的計算機程序或指令,其特征在于,包括:所述計算機程序或指令被處理器執行實現權利要求1-7任意一項所述的基于圖檢索的腎癌風險評估方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序或指令,其特征在于,包括: