本發明涉及生物信息學與計算生物學、圖像處理,更具體的說是涉及一種基于擴散模型的三維空間測序插值方法及系統。
背景技術:
1、空間轉錄組學技術通過保留基因表達的空間位置信息,為解析組織異質性、腫瘤微環境等提供了重要手段?,F有的三維空間組學測序技術基于連續切片來刻畫基因等生物分子在三維空間中的表達情況。假設切片所在平面為xy平面,法向量與z軸平行。由于切片厚度的客觀影響,三維空間測序技術得到的數據,在xy平面上有十萬數量級的細胞,在z方向只有10~100張切片。因此,在z軸上組織的分辨率要遠遠小于其在xy軸上的分辨率,造成了分辨率沿不同方向的不均衡現象。
2、所以,現有三維測序技術因切片厚度限制,導致z軸方向分辨率顯著低于xy平面。
3、近年已有計算方法通過單純的空間相鄰的關系,為稀疏的z軸數據進行補全。
4、1、sparse?vector?field?consensus?(sparsevfc)?是一種用于稀疏矢量場(vector?field)估計的方法,特別適用于處理帶有噪聲和異常值的稀疏矢量場數據。它廣泛應用于生物信息學(例如單細胞軌跡推斷)、物理建模和計算機視覺中需要估計稀疏矢量場的任務。sparsevfc?的核心思想是通過優化一個稀疏表示模型,在保留數據結構的同時,有效排除異常值對矢量場估計的干擾。
5、然而,由于切片厚度的客觀影響,以及切片形狀隨著z軸發生變化,其插值結果經常伴有重影,無法體現器官的真實形狀與結構。
6、2、通過深度網絡回歸方法對三維空間組學z軸進行補全:
7、該方法通過深度神經網絡(deep?neural?networks)來學習空間坐標與基因表達的關系,利用稀疏的z軸數據觀察結果,對于未測序的z值處切片進行補全。
8、spateo利用了多層感知機(multilayer?perceptron,?mlp)來學習從三維坐標(x,y,z)與基因表達g的映射關系,并通過梯度下降法進行優化。同樣,由于觀測到的z坐標數量過于稀少,網絡難以將稀疏的觀測結果泛化到整個組織空間中,導致插值結果過于光滑模糊,無法體現器官的真實形狀與結構。
9、因此,上述兩種傳統插值方法(如sparsevfc或深度網絡回歸)存在重影、模糊等問題,都沒有利用生物器官本身在空間中的連續性以及細胞尺度的微環境信息,且在稀疏的z值觀測數據上無法有效進行插值,從而無法通過計算手段解決測序技術上z軸空間分辨率低的問題。
技術實現思路
1、有鑒于此,本發明提供一種基于擴散模型的三維空間測序插值方法及系統,通過結合擴散模型和圖神經網絡,提出一種自監督插值算法,突破現有技術瓶頸,可以解決空間轉錄組學的現有三維空間測序中z軸方向分辨率低的問題,可以實現高精度連續三維基因表達重建。
2、為了實現上述目的,本發明采用如下技術方案:
3、第一方面,本發明實施例提供一種基于擴散模型的三維空間測序插值方法,包括以下步驟:
4、1).構建三維空間測序數據的細胞微環境圖:對k張沿z軸分布的切片數據,利用knn算法確定每個細胞的空間鄰域關系,生成包含空間坐標和基因表達的圖結構數據集;
5、2).建立隨機微分方程模型:基于所述圖結構數據集建模細胞位置隨z軸深度連續變化的隨機微分方程模型,作為形狀漂移方程;并建模基因表達隨z軸深度連續變化的隨機微分方程模型,作為基因表達漂移方程;
6、3).訓練圖神經網絡:
7、a.構建并訓練形狀預測網絡:輸入當前切片的空間坐標及空間鄰域關系,輸出形狀漂移系數,代入形狀漂移方程,預測細胞在下一層切片的位置偏移;
8、b.構建并訓練表達預測網絡:輸入當前切片的空間坐標、基因表達及空間鄰域關系,輸出表達漂移系數,代入基因表達漂移方程,推測基因表達量的變化趨勢;
9、4).雙向插值優化:利用訓練好的圖神經網絡來進行插值預測,通過正向和反向插值生成中間切片,聯合優化形狀分布的wasserstein距離和基因表達的均方誤差損失;
10、5).構建三維轉錄連續體:整合插值切片數據,生成連續的三維基因表達圖譜。
11、進一步地,步驟1)具體包括:
12、在三維空間解析轉錄組學數據集中,一塊組織被分為k張平行切片進行測序;
13、對k張沿z軸分布的切片數據,將?(x,?y)?定義為每個切片內的方向,z?方向則表示組織深度,不同切片沿該方向排列;
14、對于深度為的二維切片,根據空間坐標計算k近鄰,生成連接矩陣a作為每個細胞的空間鄰域關系,并形成包含空間坐標和基因表達的圖結構數據集;其中,是該切片中的細胞或位置點的數量,表示位置?的基因表達值。
15、進一步地,步驟2)中:
16、形狀漂移方程如下:
17、????(1)
18、基因表達漂移方程如下:
19、???(2)
20、其中,和分別為已測量深度和預測深度的細胞或位置點位置,而和為其對應的表達特征;表示插值步長;漂移系數和是可學習的梯度函數,分別建?;虮磉_和組織形狀隨深度變化的空間變化,g為基因深度;擴散項和是白噪聲。
21、進一步地,步驟3)中,構建并訓練形狀預測網絡,包括:
22、采用圖神經網絡gnn構建形狀預測網絡,并進行訓練;
23、輸入在深度的xy平面的切片中所包含細胞的空間坐標數據以及對應的連接矩陣a,通過空間信息預測每個細胞的位置偏移系數,用于預測下一個深度下細胞的空間位置分布,從而重構出下一個深度下的切片形狀;
24、步驟3)中,構建并訓練表達預測網絡,包括:
25、采用圖神經網絡gnn構建表達預測網絡,并進行訓練;
26、輸入在深度?的xy平面的切片中所包含細胞的空間坐標數據、基因表達以及對應的連接矩陣a,通過空間信息預測每個細胞的基因表達偏移系數,用于預測下一個深度下細胞的在不同位置的基因表達,從而重構出下一個深度下的切片空間測序插值結果。
27、進一步地,步驟4)雙向插值優化的優化目標函數如下:
28、
29、單層損失:
30、
31、式中:,分別表示進行反向擴散時的形狀預測網絡和表達預測網絡;k表示沿z軸的切片總數;k為索引值,∈(1,k);整體表示正向損失項;表示從第?k層切片到第k+1層切片的正向推斷損失;整體表示反向損失項;表示從第?k層切片到第k-1層切片的反向推斷損失;
32、表示形狀對齊項;表示wasserstein距離,衡量預測切片與真實切片中細胞空間分布的差異;表示在深度處觀測與預測的細胞空間分布;
33、表示表達對齊項;表示將第i個預測的細胞映射至與其空間距離最近的觀測細胞的函數;表示超參數;表示真實切片中細胞的基因表達值;表示模型預測的基因表達值。
34、進一步地,步驟5)具體包括:
35、將插值切片數據映射至體素空間,每個體素的基因表達值為其包含的所有細胞表達值的平均值,生成連續的三維體積v。
36、第二方面,本發明實施例還提供一種基于擴散模型的三維空間測序插值系統,包括:
37、微環境圖構建模塊,用于構建三維空間測序數據的細胞微環境圖:對k張沿z軸分布的切片數據,利用knn算法確定每個細胞的空間鄰域關系,生成包含空間坐標和基因表達的圖結構數據集;
38、建立隨機微分方程模型模塊,基于所述圖結構數據集建模細胞位置隨z軸深度連續變化的隨機微分方程模型,作為形狀漂移方程;并建?;虮磉_隨z軸深度連續變化的隨機微分方程模型,作為基因表達漂移方程;
39、訓練圖神經網絡模塊,用于構建并訓練形狀預測網絡:輸入當前切片的空間坐標及空間鄰域關系,輸出形狀漂移系數,代入形狀漂移方程,預測細胞在下一層切片的位置偏移;以及用于構建并訓練表達預測網絡:輸入當前切片的空間坐標、基因表達及空間鄰域關系,輸出表達漂移系數,代入基因表達漂移方程,推測基因表達量的變化趨勢;
40、雙向插值優化模塊,利用訓練好的圖神經網絡來進行插值預測,通過正向和反向插值生成中間切片,聯合優化形狀分布的wasserstein距離和基因表達的均方誤差損失;
41、三維重建模塊,用于整合插值切片數據,生成連續的三維基因表達圖譜。
42、經由上述的技術方案可知,與現有技術相比,本發明具有如下技術優勢:
43、將結合三維空間組學的測序結果,充分利用生物器官本身的空間連續性與相關性,設計基于擴散模型的自監督插值算法,實現對z軸切片數據的連續性補全。利用連續性補全后的三維表達數據賦能精準醫療,可以輔助辨別正常-病變組織邊界,精細分析病變組織中不同位置基因表達梯度,分辨原始切片數量下無法解析的組織子類等。