本發(fā)明涉及藥物反應(yīng)預(yù)測(cè),具體涉及一種基于圖神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的藥物反應(yīng)預(yù)測(cè)方法。
背景技術(shù):
1、癌癥的異質(zhì)性極大地影響了癌癥的治療結(jié)果。體外預(yù)測(cè)藥物反應(yīng)有望幫助制定個(gè)性化的治療方案。近年來(lái),人們提出了幾種基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的計(jì)算模型來(lái)預(yù)測(cè)體外藥物反應(yīng)。然而,這些方法中的大多數(shù)基于單一藥物描述(例如藥物結(jié)構(gòu))捕獲藥物特征,而沒(méi)有考慮藥物與生物實(shí)體之間的關(guān)系(例如靶點(diǎn)、疾病和副作用)。此外,這些方法大多分別收集藥物和細(xì)胞系的特征,而沒(méi)有考慮藥物和細(xì)胞系之間的成對(duì)相互作用。
2、因此,能夠在體外預(yù)測(cè)藥物反應(yīng)有望幫助醫(yī)生針對(duì)不同類型的腫瘤進(jìn)行特異性治療,同時(shí)最大限度地減少對(duì)患者的藥物毒性并節(jié)省醫(yī)療費(fèi)用。最近,高通量篩選技術(shù)為研究人員在體外分析癌癥基因組模式和測(cè)量候選藥物敏感性鋪平了道路。因此,基于患者臨床分子特征準(zhǔn)確穩(wěn)健地發(fā)現(xiàn)抗癌藥物反應(yīng)成為精準(zhǔn)醫(yī)學(xué)時(shí)代的重大挑戰(zhàn)。基于多患者的組學(xué)數(shù)據(jù)以及已知的藥物反應(yīng)數(shù)據(jù)對(duì)未知的細(xì)胞系或病例進(jìn)行精準(zhǔn)預(yù)測(cè)是解決這一挑戰(zhàn)的有效手段。此外,在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上引入圖神經(jīng)網(wǎng)絡(luò),提取不同結(jié)構(gòu)的特征,有利于提高對(duì)藥物反應(yīng)預(yù)測(cè)的精度,并且,在預(yù)測(cè)藥物反應(yīng)時(shí),引物多種與藥物相關(guān)或與細(xì)胞系相關(guān)的數(shù)據(jù)同樣有利于對(duì)于藥物反應(yīng)的預(yù)測(cè)。
3、綜上,使用體內(nèi)驗(yàn)證的實(shí)驗(yàn)室方法十分耗時(shí)耗力,僅使用藥物數(shù)據(jù)和細(xì)胞系數(shù)據(jù)卻又忽略了二者的信息交互,使用單一的卷積神經(jīng)網(wǎng)絡(luò)或者多層感知機(jī)網(wǎng)絡(luò)卻又忽略了藥物分子的結(jié)構(gòu)信息。為此,提出一種基于圖神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的藥物反應(yīng)預(yù)測(cè)方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題在于:如何提取到有關(guān)于藥物和細(xì)胞系的代表性特征,在得到代表性特征時(shí),如何使得兩種代表性特征可進(jìn)行特征交互,通過(guò)機(jī)器實(shí)現(xiàn)自動(dòng)預(yù)測(cè),降低實(shí)驗(yàn)室研究成本,提供了一種基于圖神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的藥物反應(yīng)預(yù)測(cè)方法。
2、本發(fā)明是通過(guò)以下技術(shù)方案解決上述技術(shù)問(wèn)題的,本發(fā)明包括以下步驟:
3、s1:數(shù)據(jù)預(yù)處理
4、獲取藥物的smiles序列所需細(xì)胞系的基準(zhǔn)數(shù)據(jù)集,并且根據(jù)任務(wù)需求對(duì)藥物的smiles序列以及缺失值進(jìn)行預(yù)處理;
5、s2:網(wǎng)絡(luò)構(gòu)建
6、構(gòu)建藥物反應(yīng)預(yù)測(cè)網(wǎng)絡(luò),藥物反應(yīng)預(yù)測(cè)網(wǎng)絡(luò)包括多個(gè)輸入分支、拼接模塊與回歸器,各輸入分支得到對(duì)應(yīng)的特征向量,通過(guò)拼接模塊拼接改后輸入回歸器中進(jìn)行預(yù)測(cè)工作,其中,輸入分支包括兩條信息交互融合分支、一條藥物分子圖提取分支,信息交互融合分支通過(guò)多層感知機(jī)與二維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行藥物信息自身的交互融合工作以及其與細(xì)胞系信息的交互融合工作,藥物分子圖提取分支通過(guò)圖同構(gòu)神經(jīng)網(wǎng)絡(luò)進(jìn)行藥物分子圖特征向量的提取工作;
7、s3:網(wǎng)絡(luò)訓(xùn)練
8、按照設(shè)定的比例對(duì)預(yù)處理后得到的數(shù)據(jù)集進(jìn)行劃分,并利用訓(xùn)練集對(duì)藥物反應(yīng)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練后且滿足性能指標(biāo)的藥物反應(yīng)預(yù)測(cè)模型;
9、s4:藥物反應(yīng)預(yù)測(cè)
10、將測(cè)試集中的細(xì)胞系數(shù)據(jù)與未知的藥物數(shù)據(jù)輸入藥物反應(yīng)預(yù)測(cè)模型進(jìn)行預(yù)測(cè),獲取預(yù)測(cè)結(jié)果。
11、更進(jìn)一步地,在所述步驟s1中,具體處理過(guò)程如下:
12、s11:對(duì)藥物的smiles序列進(jìn)行編碼,得到6個(gè)藥物分子指紋矩陣,并基于smiles序列自身的化學(xué)結(jié)構(gòu)構(gòu)建藥物分子圖,同時(shí)引入6個(gè)藥物與生物實(shí)體相關(guān)信息矩陣,結(jié)合4個(gè)細(xì)胞系矩陣,共得到16個(gè)數(shù)據(jù)矩陣,其中,6個(gè)藥物分子指紋矩陣、6個(gè)藥物與生物實(shí)體相關(guān)信息矩陣均為藥物矩陣,共12個(gè),藥物與生物實(shí)體相關(guān)信息矩陣也即藥物實(shí)體矩陣;
13、s12:將細(xì)胞系與藥物之間反應(yīng)數(shù)據(jù)具有缺失值的進(jìn)行剔除,獲取最終的數(shù)據(jù)集;
14、s13:對(duì)于上述的16個(gè)數(shù)據(jù)矩陣,使用切比雪夫距離進(jìn)行處理,得到對(duì)應(yīng)的16個(gè)相似性矩陣。
15、更進(jìn)一步地,在所述步驟s11中,6個(gè)藥物分子指紋矩陣分別為拓展連接指紋圖譜矩陣、pubchem子結(jié)構(gòu)指紋圖譜矩陣、日光指紋圖譜矩陣、rdkit?2d歸一化指紋圖譜矩陣、可解釋子結(jié)構(gòu)分區(qū)指紋圖譜矩陣和擴(kuò)展簡(jiǎn)圖指紋圖譜矩陣;6個(gè)藥物實(shí)體矩陣分別為藥物之間的聯(lián)合相互作用矩陣、藥物與靶標(biāo)相互作用矩陣、藥物與已知疾病之間的相互作用矩陣、藥物與mirna之間的相互作用矩陣、藥物與癌癥之間的相互作用矩陣、藥物與細(xì)胞系對(duì)的ic50值矩陣;4個(gè)細(xì)胞系矩陣分別為基因表達(dá)數(shù)據(jù)矩陣、拷貝數(shù)突變數(shù)據(jù)矩陣、基因突變數(shù)據(jù)矩陣、細(xì)胞系與藥物對(duì)的ic50值矩陣。
16、更進(jìn)一步地,在所述步驟s13中,相似性矩陣的計(jì)算公式如下:
17、
18、其中,vx和vy分別表示矩陣的第x行和第y行,分別表示vx和vy的第z個(gè)元素。
19、更進(jìn)一步地,在所述步驟s2中,第一條信息交互融合分支用于實(shí)現(xiàn)藥物信息自身的信息交互融合,包括第一內(nèi)積單元與第一外積單元;
20、在第一內(nèi)積單元中:
21、對(duì)6個(gè)藥物實(shí)體嵌入向量di與6個(gè)藥物分子指紋嵌入向量dj進(jìn)行內(nèi)積運(yùn)算:
22、
23、其中,⊙表示內(nèi)積運(yùn)算,i與j表示內(nèi)積運(yùn)算時(shí)藥物實(shí)體矩陣嵌入向量與藥物分子指紋嵌入向量的編號(hào);
24、經(jīng)過(guò)內(nèi)積運(yùn)算得到36個(gè)不同的交互向量來(lái)表示藥物實(shí)體矩陣嵌入向量與藥物分子指紋嵌入向量的內(nèi)積輸出;
25、使用多層感知機(jī)mlpinner1對(duì)上述得到的內(nèi)積輸出進(jìn)行特征提取操作,得到第一內(nèi)積特征向量,其中,多層感知機(jī)mlpinner1包括4個(gè)全連接層,4個(gè)全連接層的神經(jīng)元數(shù)量分別為1024、1024、512、128;
26、在第一外積單元中:
27、對(duì)6個(gè)藥物實(shí)體嵌入向量di與6個(gè)藥物分子指紋嵌入向量dj進(jìn)行外積運(yùn)算:
28、
29、其中,表示外積運(yùn)算;
30、經(jīng)過(guò)外積運(yùn)算得到一組通道數(shù)為36的特征交互圖來(lái)表示藥物實(shí)體矩陣嵌入向量與藥物分子指紋嵌入向量的外積輸出;
31、使用二維卷積神經(jīng)網(wǎng)絡(luò)cnn1對(duì)上述得到的外積輸出進(jìn)行特征提取操作,得到第一外積特征向量,其中,二維卷積神經(jīng)網(wǎng)絡(luò)cnn1包括兩組殘差塊,對(duì)應(yīng)的特征提取的過(guò)程如下:
32、gi+1=triplet?attention(γ(gi))+triplet?attention(δ(gi,wi′))
33、其中,殘差塊包括直接映射部分γ(gi)與殘差部分δ(gi,wi′),在直接映射部分、殘差部分的最后加入了三重注意力機(jī)制triplet?attention。
34、更進(jìn)一步地,在所述步驟s2中,第二條信息交互融合分支用于實(shí)現(xiàn)細(xì)胞系與藥物之間的信息交互融合,包括第二內(nèi)積單元與第二外積單元;
35、在第二內(nèi)積單元中:
36、對(duì)12個(gè)藥物嵌入向量d′x與4個(gè)細(xì)胞系嵌入向量c′y進(jìn)行內(nèi)積運(yùn)算:
37、
38、其中,⊙表示內(nèi)積運(yùn)算,x與y表示內(nèi)積運(yùn)算時(shí)藥物嵌入向量與細(xì)胞系嵌入向量的編號(hào);
39、經(jīng)過(guò)內(nèi)積運(yùn)算得到48個(gè)不同的交互向量來(lái)表示藥物嵌入向量與細(xì)胞系嵌入向量的內(nèi)積輸出;
40、使用多層感知機(jī)mlpinner2對(duì)上述得到的內(nèi)積輸出進(jìn)行特征提取操作,獲取第二內(nèi)積特征向量,其中,多層感知機(jī)mlpinner2包括4個(gè)全連接層,4個(gè)全連接層的神經(jīng)元數(shù)量分別為1024、1024、512、128;
41、在第二外積單元中:
42、對(duì)12個(gè)藥物嵌入向量d′x與4個(gè)細(xì)胞系嵌入向量c′y進(jìn)行外積運(yùn)算:
43、
44、其中,表示外積運(yùn)算;
45、經(jīng)過(guò)外積運(yùn)算得到一組通道數(shù)為48的特征交互圖來(lái)表示藥物嵌入向量與細(xì)胞系嵌入向量的外積輸出;
46、使用二維卷積神經(jīng)網(wǎng)絡(luò)cnn2對(duì)上述得到的外積輸出進(jìn)行特征提取操作,獲取第二外積特征向量,其中,二維卷積神經(jīng)網(wǎng)絡(luò)cnn2包括兩組殘差塊,對(duì)應(yīng)的特征提取的過(guò)程如下:
47、fi+1=triplet?attention(α(fi))+triplet?attention(β(fi,wi))
48、其中,殘差塊包括直接映射部分α(fi)與殘差部分β(fi,wi),在直接映射部分、殘差部分的最后加入了三重注意力機(jī)制triplet?attention。
49、更進(jìn)一步地,所述藥物嵌入向量包括藥物實(shí)體嵌入向量、藥物分子指紋嵌入向量,所述藥物嵌入向量的獲取方式如下:對(duì)藥物矩陣對(duì)應(yīng)的相似性矩陣按照設(shè)定的batchsize進(jìn)行處理,即得到初步嵌入向量,將初步嵌入向量與對(duì)應(yīng)的藥物特征變換矩陣相乘,即可得到藥物嵌入向量;
50、所述細(xì)胞系嵌入向量的獲取方式如下:對(duì)細(xì)胞系矩陣對(duì)應(yīng)的相似性矩陣按照設(shè)定的batchsize進(jìn)行處理,即得到初步嵌入向量,將初步嵌入向量與對(duì)應(yīng)的細(xì)胞系特征變換矩陣相乘,即可得到細(xì)胞系嵌入向量。
51、更進(jìn)一步地,在所述步驟s2中,所述藥物反應(yīng)預(yù)測(cè)網(wǎng)絡(luò)還包括融合特征提取分支、藥物實(shí)體矩陣全局特征提取分支、藥物分子指紋矩陣全局特征提取分支與細(xì)胞系矩陣全局特征提取分支;
52、在所述融合特征提取分支中,使用snf算法對(duì)12個(gè)藥物矩陣進(jìn)行融合,得到一個(gè)融合矩陣fuse?feature,利用多層感知機(jī)mlpfuse對(duì)其進(jìn)行特征提取,得到融合特征向量,其中,多層感知機(jī)mlpfuse包括2個(gè)全連接層,2個(gè)全連接層的神經(jīng)元數(shù)量分別為128、128;
53、在所述藥物實(shí)體矩陣全局特征提取分支中,對(duì)于藥物實(shí)體總矩陣dtotal,使用多層感知機(jī)mlpdrug進(jìn)行整體特征的提取,得到第一藥物全局特征向量,其中,多層感知機(jī)mlpdrug包括2個(gè)全連接層,2個(gè)全連接層的神經(jīng)元數(shù)量分別為128、128,藥物實(shí)體總矩陣dtotal通過(guò)6個(gè)藥物實(shí)體矩陣對(duì)應(yīng)的相似性矩陣經(jīng)過(guò)拼接得到;
54、在所述藥物分子指紋矩陣全局特征提取分支中,在藥物分子指紋矩陣全局特征提取分支中,對(duì)編碼后得到的6個(gè)藥物分子指紋矩陣對(duì)應(yīng)的相似性矩陣進(jìn)行拼接,得到拼接后的藥物分子指紋總矩陣,使用三次堆疊的一維卷積模塊進(jìn)行特征提取,得到第二藥物全局特征向量;
55、在所述細(xì)胞系矩陣全局特征提取分支中,對(duì)于細(xì)胞系總矩陣ctotal,使用多層感知機(jī)mlpcell進(jìn)行整體特征的提取,得到細(xì)胞系全局特征向量,其中,多層感知機(jī)mlpcell包括2個(gè)全連接層,2個(gè)全連接層的神經(jīng)元數(shù)量分別為128、128,細(xì)胞系總矩陣ctotal通過(guò)4個(gè)細(xì)胞系矩陣對(duì)應(yīng)的相似性矩陣經(jīng)過(guò)拼接得到。
56、更進(jìn)一步地,在所述步驟s2中,使用三層結(jié)構(gòu)的圖同構(gòu)神經(jīng)網(wǎng)絡(luò)提取藥物分子圖數(shù)據(jù),并把每一層的輸出進(jìn)行拼接,在網(wǎng)絡(luò)中加入跳躍連接以及全局最大池化層進(jìn)行處理。
57、更進(jìn)一步地,在所述步驟s3中,采用均方誤差損失函數(shù)作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù):
58、
59、其中,f(x)代表預(yù)測(cè)值,y代表真實(shí)值,n表示為樣本的個(gè)數(shù)。
60、本發(fā)明相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):該基于圖神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的藥物反應(yīng)預(yù)測(cè)方法,采用了卷積神經(jīng)網(wǎng)絡(luò)與圖神經(jīng)網(wǎng)絡(luò)結(jié)合的方法,加入了藥物分子圖數(shù)據(jù),引入了藥物分子的結(jié)構(gòu)特征,使得最終的回歸預(yù)測(cè)更佳精準(zhǔn);對(duì)于來(lái)源于序列的藥物分子指紋全局特征使用堆疊的一維卷積模塊進(jìn)行特征提取,強(qiáng)化了鄰域信息;通過(guò)設(shè)計(jì)的信息交互融合分支,不僅實(shí)現(xiàn)了對(duì)藥物特征與細(xì)胞系特征的信息交互,同樣實(shí)現(xiàn)了藥物反應(yīng)信息與藥物smiles序列信息之間的交互,得到的新特征向量提高了模型的預(yù)測(cè)性能。