本發(fā)明涉及人工智能,具體而言,涉及一種基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積方法及裝置。
背景技術(shù):
1、游離rna是指存在于體液中細(xì)胞外的內(nèi)源性或外源性rna,是來(lái)源于多種組織的轉(zhuǎn)錄本混合物,可反映相應(yīng)組織的健康狀況,為了解各種人體器官的健康、表型和發(fā)育提供了潛在的窗口。由于游離rna的高通量測(cè)序技術(shù)近年來(lái)才獲得突破,其研究包括已報(bào)道的細(xì)胞溯源工作相對(duì)較少。目前已有少數(shù)研究發(fā)現(xiàn),在妊娠疾病、癌癥和神經(jīng)退行性疾病中,相應(yīng)特定組織和細(xì)胞的游離rna成分存在改變,提示游離rna細(xì)胞溯源對(duì)疾病的無(wú)創(chuàng)監(jiān)測(cè)有所價(jià)值,其應(yīng)用潛力亟待開發(fā)。
2、相關(guān)技術(shù)中,進(jìn)行游離rna細(xì)胞溯源時(shí),多是基于細(xì)胞類型特異性進(jìn)行解析,但是這種方式,由于依賴每種細(xì)胞的特異性的基因,導(dǎo)致模型不夠魯棒,受測(cè)序得到表達(dá)譜的輸出穩(wěn)定性影響較大。
3、針對(duì)上述的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積方法及裝置,以至少解決相關(guān)技術(shù)中在進(jìn)行游離核酸表達(dá)譜解析時(shí),依賴于細(xì)胞類型特異性的基因,算法不穩(wěn)定的技術(shù)問題。
2、根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積方法,包括:獲取目標(biāo)對(duì)象的核酸表達(dá)譜,其中,所述核酸表達(dá)譜是通過(guò)預(yù)設(shè)測(cè)序技術(shù)獲取得到;將所述核酸表達(dá)譜輸入至目標(biāo)深度學(xué)習(xí)模型,由所述目標(biāo)深度學(xué)習(xí)模型對(duì)所述核酸表達(dá)譜進(jìn)行解卷積操作,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例,其中,所述細(xì)胞類型比例為對(duì)應(yīng)的細(xì)胞類型在游離核酸中的細(xì)胞貢獻(xiàn)分?jǐn)?shù),所述目標(biāo)深度學(xué)習(xí)模型包含通路掩膜矩陣以及可迭代更新的參數(shù)集合,n為大于1的正整數(shù)。
3、可選地,由所述目標(biāo)深度學(xué)習(xí)模型對(duì)所述核酸表達(dá)譜進(jìn)行解卷積操作,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例的步驟,包括:在將所述核酸表達(dá)譜輸入至目標(biāo)深度學(xué)習(xí)模型之后,由已更新完畢的所述目標(biāo)深度學(xué)習(xí)模型對(duì)所述核酸表達(dá)譜進(jìn)行解卷積操作,得到各細(xì)胞類型的占比集合,其中,在更新所述目標(biāo)深度學(xué)習(xí)模型過(guò)程中,通過(guò)損失函數(shù)得到的梯度對(duì)隨機(jī)初始化得到的初始令牌、目標(biāo)矩陣以及初始化的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,所述各細(xì)胞類型的占比集合結(jié)合模擬核酸表達(dá)譜更新初始深度神經(jīng)網(wǎng)絡(luò)中可訓(xùn)練的網(wǎng)絡(luò)參數(shù);采用所述目標(biāo)深度學(xué)習(xí)模型,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例。
4、可選地,在生成所述目標(biāo)矩陣時(shí),包括:采用單細(xì)胞測(cè)序數(shù)據(jù)集模擬生成核酸的表達(dá)譜,得到模擬核酸表達(dá)譜,其中,所述模擬核酸表達(dá)譜中包含:m種參考細(xì)胞類型的混合分?jǐn)?shù)向量集、所有所述參考細(xì)胞類型的混合物表達(dá)列表,所述混合物表達(dá)列表中記錄有每種所述參考細(xì)胞類型對(duì)應(yīng)的基因表達(dá)集合,m為大于1的正整數(shù);從所述模擬核酸表達(dá)譜中選取高變基因集合;基于所述高變基因集合以及預(yù)設(shè)通路數(shù)據(jù)集,生成所述通路掩膜矩陣,其中,所述預(yù)設(shè)通路數(shù)據(jù)集中包含m條通路,每條所述通路中包含有基因集;基于所述通路掩膜矩陣,對(duì)所述模擬核酸表達(dá)譜進(jìn)行嵌入處理,生成目標(biāo)矩陣。
5、可選地,采用單細(xì)胞測(cè)序數(shù)據(jù)集模擬生成核酸的表達(dá)譜,得到模擬核酸表達(dá)譜的步驟,包括:從細(xì)胞類型總集合中選取m種參考細(xì)胞類型;選擇每種所述參考細(xì)胞類型用于計(jì)算該類型細(xì)胞表達(dá)值的細(xì)胞總數(shù)t;隨機(jī)生成m種參考細(xì)胞類型的混合分?jǐn)?shù)向量集f,其中,所述混合分?jǐn)?shù)向量集f中包含m個(gè)分?jǐn)?shù)向量,m種所述參考細(xì)胞類型的混合分?jǐn)?shù)累加為1;對(duì)于每種參考細(xì)胞類型i,確定該參考細(xì)胞類型的混合分?jǐn)?shù)fi、該參考細(xì)胞類型的本次采樣細(xì)胞總數(shù)t的平均表達(dá)向量集ti,計(jì)算該細(xì)胞類型在游離rna中的混合物表達(dá)量fi*ti;累積所有所述細(xì)胞類型的混合物表達(dá)量fi*ti,得到混合物表達(dá)列表;將所述混合物表達(dá)列表和混合分?jǐn)?shù)向量集f保存在細(xì)胞分析庫(kù)中,得到所述模擬核酸表達(dá)譜。
6、可選地,從所述模擬核酸表達(dá)譜中選取高變基因集合的步驟,包括:從所述混合物表達(dá)列表的基因集中,按照預(yù)設(shè)數(shù)量選取方差大于預(yù)設(shè)方差閾值的基因,得到所述高變基因集合。
7、可選地,基于所述高變基因集合以及預(yù)設(shè)通路數(shù)據(jù)集,生成所述通路掩膜矩陣的步驟,包括:獲取預(yù)設(shè)通路數(shù)據(jù)集,其中,所述預(yù)設(shè)通路數(shù)據(jù)集中每條通路中包含有基因集;對(duì)于每條所述通路,計(jì)算該通路的基因集中的基因以及所述高變基因集合中所有高變基因的重合度;選取重合度大于預(yù)設(shè)重合度閾值的通路集合;對(duì)所述通路集合中的基因與所述高變基因集合所有基因進(jìn)行取交操作,得到矩陣列表的基因;以所述通路集合中的通路數(shù)量為行數(shù)量,以所述矩陣列表中的基因數(shù)量為列數(shù)量,構(gòu)建全零矩陣,其中,所述全零矩陣中每一行對(duì)應(yīng)一條通路;對(duì)于所述全零矩陣中每行,獲取該行對(duì)應(yīng)的通路中包含的基因集的基因位置;將所述全零矩陣中關(guān)聯(lián)該基因位置的數(shù)字0賦值為指定數(shù)值;在對(duì)所有所述全零矩陣中每行對(duì)應(yīng)的通路都進(jìn)行賦值處理后,生成所述通路掩膜矩陣。
8、可選地,基于所述通路掩膜矩陣,對(duì)所述模擬核酸表達(dá)譜進(jìn)行嵌入處理,生成目標(biāo)矩陣的步驟,包括:將所述混合物表達(dá)列表與所述矩陣列表取交集,得到混合基因交集;將所述通路掩膜矩陣的行數(shù)量作為復(fù)制次數(shù),多次復(fù)制所述混合物表達(dá)列表,生成第一矩陣;將所述第一矩陣和所述通路掩膜矩陣做點(diǎn)乘處理,生成第二矩陣;隨機(jī)初始化一個(gè)全連接權(quán)重矩陣,其中,所述全連接權(quán)重矩陣大小為所述矩陣列表中基因數(shù)與嵌入維度數(shù)的乘積;將所述第二矩陣與所述全連接權(quán)重矩陣進(jìn)行相乘,得到所述目標(biāo)矩陣。
9、可選地,所述可迭代更新的參數(shù)集合包括:深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)、深度神經(jīng)網(wǎng)絡(luò)的全連接層數(shù)量以及全連接權(quán)重矩陣。
10、可選地,所述目標(biāo)深度學(xué)習(xí)模型是預(yù)先訓(xùn)練的,在訓(xùn)練所述目標(biāo)深度學(xué)習(xí)模型時(shí),包括:構(gòu)建以transformer網(wǎng)絡(luò)為架構(gòu)的初始深度神經(jīng)網(wǎng)絡(luò);隨機(jī)初始化一個(gè)令牌,得到初始令牌;將目標(biāo)矩陣以及所述初始令牌輸入至所述初始深度神經(jīng)網(wǎng)絡(luò),得到各細(xì)胞類型的占比集合,其中,所述目標(biāo)矩陣每一行定義為令牌;對(duì)所述占比集合與模擬核酸表達(dá)譜中混合分?jǐn)?shù)向量集中非零位置的數(shù)值計(jì)算均方差,并將該均方差作為模型損失函數(shù),其中,所述模型損失函數(shù)用于確定模型梯度;基于所述模型梯度更新初始深度神經(jīng)網(wǎng)絡(luò)中可迭代更新的參數(shù)集合;采用預(yù)熱和余弦退火衰減策略訓(xùn)練所述初始深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練生成所述目標(biāo)深度學(xué)習(xí)模型。
11、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積裝置,包括:獲取單元,用于獲取目標(biāo)對(duì)象的核酸表達(dá)譜,其中,所述核酸表達(dá)譜是通過(guò)預(yù)設(shè)測(cè)序技術(shù)獲取得到;解卷積單元,用于將所述核酸表達(dá)譜輸入至目標(biāo)深度學(xué)習(xí)模型,由所述目標(biāo)深度學(xué)習(xí)模型對(duì)所述核酸表達(dá)譜進(jìn)行解卷積操作,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例,其中,所述細(xì)胞類型比例為對(duì)應(yīng)的細(xì)胞類型在游離核酸中的細(xì)胞貢獻(xiàn)分?jǐn)?shù),所述目標(biāo)深度學(xué)習(xí)模型包含通路掩膜矩陣以及可迭代更新的參數(shù)集合,n為大于1的正整數(shù)。
12、可選地,解卷積單元包括:解卷積模塊,用于在將所述核酸表達(dá)譜輸入至目標(biāo)深度學(xué)習(xí)模型之后,由已更新完畢的所述目標(biāo)深度學(xué)習(xí)模型對(duì)所述核酸表達(dá)譜進(jìn)行解卷積操作,得到各細(xì)胞類型的占比集合,其中,在更新所述目標(biāo)深度學(xué)習(xí)模型過(guò)程中,通過(guò)損失函數(shù)得到的梯度對(duì)隨機(jī)初始化得到的初始令牌、目標(biāo)矩陣以及初始化的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,所述各細(xì)胞類型的占比集合結(jié)合模擬核酸表達(dá)譜更新初始深度神經(jīng)網(wǎng)絡(luò)中可訓(xùn)練的網(wǎng)絡(luò)參數(shù);采用所述目標(biāo)深度學(xué)習(xí)模型,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例。
13、可選地,在生成所述目標(biāo)矩陣時(shí),基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積裝置包括:第一獲取模塊,用于采用單細(xì)胞測(cè)序數(shù)據(jù)集模擬生成核酸的表達(dá)譜,得到模擬核酸表達(dá)譜,其中,所述模擬核酸表達(dá)譜中包含:m種參考細(xì)胞類型的混合分?jǐn)?shù)向量集、所有所述參考細(xì)胞類型的混合物表達(dá)列表,所述混合物表達(dá)列表中記錄有每種所述參考細(xì)胞類型對(duì)應(yīng)的基因表達(dá)集合,m為大于1的正整數(shù);第一選取單元,用于從所述模擬核酸表達(dá)譜中選取高變基因集合;第二生成單元,用于基于所述高變基因集合以及預(yù)設(shè)通路數(shù)據(jù)集,生成所述通路掩膜矩陣,其中,所述預(yù)設(shè)通路數(shù)據(jù)集中包含m條通路,每條所述通路中包含有基因集;第三生成單元,用于基于所述通路掩膜矩陣,對(duì)所述模擬核酸表達(dá)譜進(jìn)行嵌入處理,生成目標(biāo)矩陣。
14、可選地,第一獲取模塊包括:第一選取子模塊,用于從細(xì)胞類型總集合中選取m種參考細(xì)胞類型;第二選取子模塊,用于選擇每種所述參考細(xì)胞類型用于計(jì)算該類型細(xì)胞表達(dá)值的細(xì)胞總數(shù)t;隨機(jī)生成模塊,用于隨機(jī)生成m種參考細(xì)胞類型的混合分?jǐn)?shù)向量集f,其中,所述混合分?jǐn)?shù)向量集f中包含m個(gè)分?jǐn)?shù)向量,m種所述參考細(xì)胞類型的混合分?jǐn)?shù)累加為1;第一確定模塊,用于對(duì)于每種參考細(xì)胞類型i,確定該參考細(xì)胞類型的混合分?jǐn)?shù)fi、該參考細(xì)胞類型的本次采樣細(xì)胞總數(shù)t的平均表達(dá)向量集ti,計(jì)算該細(xì)胞類型在游離rna中的混合物表達(dá)量fi*ti;累積模塊,用于累積所有所述細(xì)胞類型的混合物表達(dá)量fi*ti,得到混合物表達(dá)列表;保存模塊,用于將所述混合物表達(dá)列表和混合分?jǐn)?shù)向量集f保存在細(xì)胞分析庫(kù)中,得到所述模擬核酸表達(dá)譜。
15、可選地,第一選取單元包括:從所述混合物表達(dá)列表的基因集中,第三選取子模塊,用于按照預(yù)設(shè)數(shù)量選取方差大于預(yù)設(shè)方差閾值的基因,得到所述高變基因集合。
16、可選地,第二生成單元包括:第二獲取模塊,用于獲取預(yù)設(shè)通路數(shù)據(jù)集,其中,所述預(yù)設(shè)通路數(shù)據(jù)集中每條通路中包含有基因集;第一計(jì)算模塊,用于對(duì)于每條所述通路,計(jì)算該通路的基因集中的基因以及所述高變基因集合中所有高變基因的重合度;選取重合度大于預(yù)設(shè)重合度閾值的通路集合;第一取交模塊,用于對(duì)所述通路集合中的基因與所述高變基因集合所有基因進(jìn)行取交操作,得到矩陣列表的基因;構(gòu)建模塊,用于以所述通路集合中的通路數(shù)量為行數(shù)量,以所述矩陣列表中的基因數(shù)量為列數(shù)量,構(gòu)建全零矩陣,其中,所述全零矩陣中每一行對(duì)應(yīng)一條通路;第三獲取模塊,用于對(duì)于所述全零矩陣中每行,獲取該行對(duì)應(yīng)的通路中包含的基因集的基因位置;將所述全零矩陣中關(guān)聯(lián)該基因位置的數(shù)字0賦值為指定數(shù)值;第一生成模塊,用于在對(duì)所有所述全零矩陣中每行對(duì)應(yīng)的通路都進(jìn)行賦值處理后,生成所述通路掩膜矩陣。
17、可選地,第三生成單元包括:第二取交模塊,用于將所述混合物表達(dá)列表與所述矩陣列表取交集,得到混合基因交集;復(fù)制模塊,用于將所述通路掩膜矩陣的行數(shù)量作為復(fù)制次數(shù),多次復(fù)制所述混合物表達(dá)列表,生成第一矩陣;第二生成模塊,用于將所述第一矩陣和所述通路掩膜矩陣做點(diǎn)乘處理,生成第二矩陣;矩陣初始模塊,用于隨機(jī)初始化一個(gè)全連接權(quán)重矩陣,其中,所述全連接權(quán)重矩陣大小為所述矩陣列表中基因數(shù)與嵌入維度數(shù)的乘積;相乘模塊,用于將所述第二矩陣與所述全連接權(quán)重矩陣進(jìn)行相乘,得到所述目標(biāo)矩陣。
18、可選地,所述可迭代更新的參數(shù)集合包括:深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)、深度神經(jīng)網(wǎng)絡(luò)的全連接層數(shù)量以及全連接權(quán)重矩陣。
19、可選地,所述目標(biāo)深度學(xué)習(xí)模型是預(yù)先訓(xùn)練的,在訓(xùn)練所述目標(biāo)深度學(xué)習(xí)模型時(shí),基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積裝置包括:構(gòu)建單元,用于構(gòu)建以transformer網(wǎng)絡(luò)為架構(gòu)的初始深度神經(jīng)網(wǎng)絡(luò);初始化單元,用于隨機(jī)初始化一個(gè)令牌,得到初始令牌;第一輸入單元,用于將目標(biāo)矩陣以及所述初始令牌輸入至所述初始深度神經(jīng)網(wǎng)絡(luò),得到各細(xì)胞類型的占比集合,其中,所述目標(biāo)矩陣每一行定義為令牌;第一計(jì)算單元,用于對(duì)所述占比集合與模擬核酸表達(dá)譜中混合分?jǐn)?shù)向量集中非零位置的數(shù)值計(jì)算均方差,并將該均方差作為模型損失函數(shù),其中,所述模型損失函數(shù)用于確定模型梯度;第一更新單元,用于基于所述模型梯度更新初始深度神經(jīng)網(wǎng)絡(luò)中可迭代更新的參數(shù)集合;第一生成單元,用于采用預(yù)熱和余弦退火衰減策略訓(xùn)練所述初始深度神經(jīng)網(wǎng)絡(luò),訓(xùn)練生成所述目標(biāo)深度學(xué)習(xí)模型。
20、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種電子設(shè)備,包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來(lái)執(zhí)行上述任意一項(xiàng)所述的基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積方法。
21、根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述任意一項(xiàng)所述的基于深度學(xué)習(xí)的核酸細(xì)胞粒度反卷積方法。
22、本公開中,獲取目標(biāo)對(duì)象的核酸表達(dá)譜,其中,核酸表達(dá)譜是通過(guò)預(yù)設(shè)測(cè)序技術(shù)獲取得到,將核酸表達(dá)譜輸入至目標(biāo)深度學(xué)習(xí)模型,由目標(biāo)深度學(xué)習(xí)模型對(duì)核酸表達(dá)譜進(jìn)行解卷積操作,輸出所述目標(biāo)對(duì)象的n維細(xì)胞類型比例,其中,細(xì)胞類型比例為對(duì)應(yīng)的細(xì)胞類型在游離核酸中的細(xì)胞貢獻(xiàn)分?jǐn)?shù),目標(biāo)深度學(xué)習(xí)模型包含通路掩膜矩陣以及可迭代更新的參數(shù)集合。
23、本公開中,在反卷積的過(guò)程中,將通路信息嵌入到核酸表達(dá)譜,并使用深度學(xué)習(xí)模型的多頭自注意力機(jī)制的全局信息捕獲能力和過(guò)參數(shù)化的優(yōu)勢(shì),細(xì)胞反卷積過(guò)程不依賴任何細(xì)胞類型特異性基因,無(wú)需生成細(xì)胞類型特異性基因的矩陣或者列表,可以直接確定游離核酸中各細(xì)胞類型的來(lái)源分?jǐn)?shù),得到n維細(xì)胞類型在游離核酸的細(xì)胞貢獻(xiàn)分?jǐn)?shù),表達(dá)譜解析過(guò)程較為穩(wěn)定,從而解決相關(guān)技術(shù)中在進(jìn)行游離核酸表達(dá)譜解析時(shí),依賴于細(xì)胞類型特異性的基因,算法不穩(wěn)定的技術(shù)問題。