本發(fā)明屬于空間轉(zhuǎn)錄組測序數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、隨著生物技術(shù)的發(fā)展,空間轉(zhuǎn)錄組學(xué)技術(shù)能夠在提供全面的基因表達(dá)譜的同時(shí)保留空間位置信息。這項(xiàng)技術(shù)為理解組織結(jié)構(gòu)、組織功能和疾病機(jī)制提供了新的視角??臻g域識別是空間轉(zhuǎn)錄組學(xué)最重要的研究內(nèi)容之一。然而,由于數(shù)據(jù)具有高度離散性、稀疏性和多模態(tài)等特點(diǎn),從這些測序數(shù)據(jù)中準(zhǔn)確識別空間域是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
3、傳統(tǒng)的空間域識別方法包括非空間聚類方法(如louvain),這些方法僅使用基因表達(dá)作為輸入,忽略了空間位置信息與組織學(xué)病理圖像信息,導(dǎo)致聚類結(jié)果缺乏空間連續(xù)性,無法準(zhǔn)確映射組織的真實(shí)結(jié)構(gòu)。雖然一些方法通過利用空間位置信息或進(jìn)一步整合組織學(xué)病理圖像在一定程度上提高了空間域識別的精度,但仍然存在特征捕捉不足導(dǎo)致的空間連續(xù)性不佳、算法空間復(fù)雜度和時(shí)間復(fù)雜度高等問題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述背景技術(shù)中存在的至少一項(xiàng)技術(shù)問題,本發(fā)明提供一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法及系統(tǒng),其基于空間轉(zhuǎn)錄組數(shù)據(jù)識別得到多尺度高度可變基因,基于多尺度高度可變基因提取空間嵌入特征和基因嵌入特征,充分利用空間特征,提高空間域識別的準(zhǔn)確性和效率。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明的第一方面提供一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,包括如下步驟:
4、獲取空間轉(zhuǎn)錄組數(shù)據(jù);
5、基于空間轉(zhuǎn)錄組數(shù)據(jù),構(gòu)建不同尺度鄰域的圖,計(jì)算不同尺度鄰域的圖對應(yīng)的高度可變基因;
6、基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成掩碼圖,基于掩碼圖提取得到多尺度空間嵌入特征,對多尺度空間嵌入特征進(jìn)行自適應(yīng)加權(quán)得到空間嵌入特征;
7、基于多尺度的高度可變基因,提取多尺度基因嵌入特征,對多尺度基因嵌入特征進(jìn)行自適應(yīng)加權(quán)得到基因嵌入特征;
8、將空間嵌入特征和基因嵌入特征進(jìn)行拼接,得到嵌入特征,對嵌入特征進(jìn)行迭代聚類得到空間域識別結(jié)果。
9、進(jìn)一步地,獲取空間轉(zhuǎn)錄組數(shù)據(jù)后,對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理,包括:對于基因表達(dá)譜數(shù)據(jù)進(jìn)行質(zhì)量控制,篩選出滿足條件的位點(diǎn)和基因,然后進(jìn)行歸一化、對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,得到預(yù)處理后的基因表達(dá)譜數(shù)據(jù)。
10、進(jìn)一步地,所述不同尺度鄰域的圖的構(gòu)建過程包括:
11、基于空間轉(zhuǎn)錄組數(shù)據(jù)中的空間位置信息,計(jì)算任意兩個(gè)位點(diǎn)之間的歐式距離以用于后續(xù)的最近鄰判斷;
12、設(shè)簡單圖,其中是個(gè)的集合,當(dāng)且僅當(dāng)是的最近鄰或是的最近鄰時(shí),與之間存在邊,由的集合構(gòu)成,將取、、,得到三個(gè)不同尺度的鄰域的圖和,圖、分辨率的大小關(guān)系為:, m為基因數(shù)目,為位點(diǎn)。
13、進(jìn)一步地,計(jì)算不同尺度鄰域的圖對應(yīng)的高度可變基因,包括:
14、基于不同尺度鄰域的圖構(gòu)建鄰接矩陣和對角陣;
15、基于鄰接矩陣和對角陣,計(jì)算得到傅里葉系數(shù)和傅里葉模式;
16、計(jì)算基因的,定義為:,,其中,為拉普拉斯矩陣的第個(gè)特征值,為標(biāo)準(zhǔn)化譜域中的第個(gè)分量,為未標(biāo)準(zhǔn)化的初始譜域中的第個(gè)分量,為基因表達(dá)量, n為位點(diǎn)的總數(shù), m為基因數(shù)目;
17、判斷每個(gè)基因是否為高度可變基因:當(dāng)一個(gè)基因滿足2個(gè)條件時(shí),將其視為高度可變基因,第一、其大于所有基因分布的拐點(diǎn),第二、其前個(gè)低頻的比其前個(gè)高頻的具有統(tǒng)計(jì)學(xué)差異。
18、進(jìn)一步地,基于鄰接矩陣和對角陣,計(jì)算得到傅里葉系數(shù)和傅里葉模式時(shí),結(jié)合鄰接矩陣和對角陣,計(jì)算拉普拉斯矩陣, n為位點(diǎn)數(shù)目,使用譜分解,,得特征值、特征向量,分別對應(yīng)傅里葉系數(shù)和傅里葉模式。
19、進(jìn)一步地,基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成的掩碼圖可替換為剪枝圖,基于剪枝圖和圖變分自編碼器得到對應(yīng)尺度的空間嵌入特征。
20、進(jìn)一步地,空間嵌入特征表示為:
21、,
22、其中,表示空間嵌入特征,表示第一尺度空間嵌入特征,表示第一尺度空間嵌入特征對空間域識別的重要性,表示第二尺度空間嵌入特征,表示第二尺度空間嵌入特征對空間域識別的重要性,表示第三尺度空間嵌入特征,表示第三尺度空間嵌入特征對空間域識別的重要性;
23、基因嵌入特征表示為:
24、,
25、其中,表示基因嵌入特征,表示第一尺度基因嵌入特征,表示第一尺度基因嵌入特征對空間域識別的重要性,表示第二尺度基因嵌入特征,表示第二尺度基因嵌入特征對空間域識別的重要性,表示第三尺度基因嵌入特征,表示第三尺度基因嵌入特征對空間域識別的重要性。
26、本發(fā)明的第二方面提供一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別系統(tǒng),包括:
27、數(shù)據(jù)獲取模塊,用于獲取空間轉(zhuǎn)錄組數(shù)據(jù);
28、多尺度高度可變基因識別模塊,用于基于空間轉(zhuǎn)錄組數(shù)據(jù),構(gòu)建不同尺度鄰域的圖,計(jì)算不同尺度鄰域的圖對應(yīng)的高度可變基因;
29、空間嵌入特征提取模塊,用于基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成掩碼圖,基于掩碼圖提取得到多尺度空間嵌入特征,對多尺度空間嵌入特征進(jìn)行自適應(yīng)加權(quán)得到空間嵌入特征;
30、基因嵌入特征提取模塊,用于基于多尺度的高度可變基因,提取多尺度基因嵌入特征,對多尺度基因嵌入特征進(jìn)行自適應(yīng)加權(quán)得到基因嵌入特征;
31、空間域識別模塊,用于將空間嵌入特征和基因嵌入特征進(jìn)行拼接,得到嵌入特征,對嵌入特征進(jìn)行迭代聚類得到空間域識別結(jié)果。
32、進(jìn)一步地,所述系統(tǒng)還包括數(shù)據(jù)預(yù)處理模塊,用于獲取空間轉(zhuǎn)錄組數(shù)據(jù)后,對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理,包括:對于基因表達(dá)譜數(shù)據(jù)進(jìn)行質(zhì)量控制,篩選出滿足條件的位點(diǎn)和基因,然后進(jìn)行歸一化、對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,得到預(yù)處理后的基因表達(dá)譜數(shù)據(jù)。
33、進(jìn)一步地,空間嵌入特征提取模塊中,基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成的掩碼圖可替換為剪枝圖,基于剪枝圖和圖變分自編碼器得到對應(yīng)尺度的空間嵌入特征。
34、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
35、本發(fā)明基于識別得到多尺度高度可變基因提取空間嵌入特征和基因嵌入特征,考慮空間的連續(xù)性,準(zhǔn)確映射組織的真實(shí)結(jié)構(gòu),解決了現(xiàn)有技術(shù)特征捕捉不足導(dǎo)致的空間連續(xù)性不佳,實(shí)現(xiàn)了空間域的準(zhǔn)確、高效識別。
36、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
1.一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,獲取空間轉(zhuǎn)錄組數(shù)據(jù)后,對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理,包括:對于基因表達(dá)譜數(shù)據(jù)進(jìn)行質(zhì)量控制,篩選出滿足條件的位點(diǎn)和基因,然后進(jìn)行歸一化、對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,得到預(yù)處理后的基因表達(dá)譜數(shù)據(jù)。
3.如權(quán)利要求1所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,所述不同尺度鄰域的圖的構(gòu)建過程包括:
4.如權(quán)利要求1所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,計(jì)算不同尺度鄰域的圖對應(yīng)的高度可變基因,包括:
5.如權(quán)利要求4所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,基于鄰接矩陣和對角陣,計(jì)算得到傅里葉系數(shù)和傅里葉模式時(shí),結(jié)合鄰接矩陣和對角陣,計(jì)算拉普拉斯矩陣,n為位點(diǎn)數(shù)目,使用譜分解,,得特征值、特征向量,分別對應(yīng)傅里葉系數(shù)和傅里葉模式。
6.如權(quán)利要求1所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成的掩碼圖可替換為剪枝圖,基于剪枝圖和圖變分自編碼器得到對應(yīng)尺度的空間嵌入特征。
7.如權(quán)利要求1所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別方法,其特征在于,空間嵌入特征表示為:
8.一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別系統(tǒng),其特征在于,包括:
9.如權(quán)利要求8所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別系統(tǒng),其特征在于,所述系統(tǒng)還包括數(shù)據(jù)預(yù)處理模塊,用于獲取空間轉(zhuǎn)錄組數(shù)據(jù)后,對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理,包括:對于基因表達(dá)譜數(shù)據(jù)進(jìn)行質(zhì)量控制,篩選出滿足條件的位點(diǎn)和基因,然后進(jìn)行歸一化、對數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,得到預(yù)處理后的基因表達(dá)譜數(shù)據(jù)。
10.如權(quán)利要求8所述的一種基于多尺度鄰域的空間轉(zhuǎn)錄組空間域識別系統(tǒng),其特征在于,空間嵌入特征提取模塊中,基于多尺度高度可變基因及其對應(yīng)的空間位置信息生成的掩碼圖可替換為剪枝圖,基于剪枝圖和圖變分自編碼器得到對應(yīng)尺度的空間嵌入特征。