專利名稱:一種基于通路的特異性組合藥物靶標(biāo)檢測方法
一種基于通路的特異性組合藥物靶標(biāo)檢測方法所屬領(lǐng)域本發(fā)明涉及一種藥物靶標(biāo)檢測方法,特別涉及一種基于通路的特異性組合藥物靶標(biāo)檢測方法。
背景技術(shù):
研制創(chuàng)新藥物增強藥物療效有賴于特異性藥物靶標(biāo)檢測。由于歷史、 經(jīng)濟(jì)及社會觀念等原因所造成的研發(fā)投入的不足,我國創(chuàng)新藥物研制水平相比國外總體比較落后,藥品的來源長期依賴于仿制和進(jìn)口,比如有關(guān)統(tǒng)計表明我國每年需進(jìn)口藥品達(dá)40 億美元以上。更加糟糕的是,在我國加入WTO以后,受低關(guān)稅的驅(qū)使,大量的國外藥品開始紛紛涌入我國的藥品市場,不僅嚴(yán)重影響到了我國人民的健康和用藥安全問題,也對我國醫(yī)藥產(chǎn)業(yè)的生存和發(fā)展提出了嚴(yán)峻挑戰(zhàn)。受知識產(chǎn)權(quán)的限制,如何檢測出具有較好特異性的藥物靶標(biāo)嚴(yán)重制約著我國制藥業(yè)發(fā)展。發(fā)展高效的藥物靶標(biāo)檢測方法促進(jìn)創(chuàng)新藥物的研制已經(jīng)成為我國醫(yī)藥產(chǎn)業(yè)發(fā)展的面臨的首要問題之一。傳統(tǒng)的藥物靶標(biāo)檢測方法通常借助具有顯著藥理作用的藥物,通過在分子水平上的藥理學(xué)分析,最終篩選出藥物靶標(biāo)。比如在專利數(shù)據(jù)庫檢索中,我們就找到一條這樣的藥物靶標(biāo)檢測方法,它是由同濟(jì)大學(xué)的儲茂泉發(fā)明,被稱作“量子點納米熒光探針聯(lián)合生物芯片尋找中藥靶點的方法”(授權(quán)專利號為ZL200610024566. 3)。然而,這種基于藥理的藥物靶標(biāo)方法受現(xiàn)有藥物種類和數(shù)量嚴(yán)重制約。隨后,人們考慮使用具有藥理作用的化合物替代已知藥物進(jìn)行基于藥理的藥物靶標(biāo)檢測。但總的來說,由于受規(guī)模、速度和耗費等因素的限制,這種基于藥理的藥物靶標(biāo)檢測方法很難實現(xiàn)藥物靶標(biāo)的大規(guī)模和高效率檢測。20世紀(jì)90年代出現(xiàn)的基因芯片技術(shù)使得人類獲得了檢測生物體內(nèi)成千上萬條基因表達(dá)含量的能力。最近幾年,基因芯片技術(shù)日臻成熟,已經(jīng)成為醫(yī)學(xué)、藥學(xué)等學(xué)科的基本科研工具和手段,有力地推動了生物科技、醫(yī)療等產(chǎn)業(yè)發(fā)展與創(chuàng)新。特別地,基因芯片技術(shù)也使得基于機理的藥物靶標(biāo)發(fā)現(xiàn)成為現(xiàn)實。很多國內(nèi)外的制藥公司已紛紛投入巨資開展基于基因芯片的藥物靶標(biāo)檢測方法研究。一個著名的案例是史克公司通過發(fā)展一種基于基因芯片的方法發(fā)現(xiàn)了一個治療骨質(zhì)疏松的藥物祀標(biāo),即Cathepsin K。早期的,由于認(rèn)識的不足,人們主要側(cè)重于單分子藥物靶標(biāo)的檢測。近年來,生命現(xiàn)象的復(fù)雜性使得人們逐漸認(rèn)識到一種生物表型的出現(xiàn)往往涉及到多個基因,直至多個具有不同生物功能的通路。作為一種基本生物功能模塊,通路協(xié)同工作,共同驅(qū)動了生物表型的實現(xiàn)。人們開始采用通路的方式進(jìn)行特異性組合藥物靶標(biāo)檢測。當(dāng)前,基于通路的特異性組合藥物靶標(biāo)檢測已經(jīng)成為藥物靶標(biāo)檢測方法的研究焦點,其主要思路可簡述如下首先利用基因芯片技術(shù)獲得生物體內(nèi)基因表達(dá)圖譜;然后通過研究通路的活動行為與表型間關(guān)聯(lián)關(guān)系來進(jìn)行特異性組合藥物靶標(biāo)的檢測。在國內(nèi)、國際論文數(shù)據(jù)庫中,可以檢索到近100篇相關(guān)論文。總的來說,現(xiàn)有的方法可以劃分為下面三種類型(I)基于差異表達(dá)基因計數(shù)的方法該類方法屬于最早的一類方法,其主要工作過程如下首先對通路中各單個基因隨表型的表達(dá)差異顯著性進(jìn)行判別,統(tǒng)計出通路中的差異表達(dá)基因的數(shù)目,然后使用 Fisher’ s exact (FE)或x 2等假設(shè)檢驗方法估計該數(shù)目相對于隨機背景下的統(tǒng)計顯著性。該類方法的主要缺點在于其需要首先人為給定一個基因差異表達(dá)的閾值以確定通路中差異表達(dá)基因的數(shù)目。可想而知,不同閾值的選擇將導(dǎo)致不同的特異性組合藥物靶標(biāo)檢測結(jié)果。這種檢測的不確定性難以從生物學(xué)上進(jìn)行解釋,以至于該類方法實際應(yīng)用性不強。(2)基于單基因差異性組合的方法該類方法不需要對通路中差異表達(dá)基因進(jìn)行判別,而只是在統(tǒng)計出每個基因的表達(dá)差異統(tǒng)計量之后,通過組合這些統(tǒng)計量檢測通路作為特異性組合藥物靶標(biāo)的特異性信號。因此,該類方法能夠克服第一類方法中單基因閾值難以選擇的缺陷。較早的,Subramanian等人使用通路中基因秩統(tǒng)計量,結(jié)合加權(quán)KS變換方法檢測通路的特異性信號[Subramanian et al, Gene Set enrichment analysis A knowledge-based approach for interpreting genome-wide expression profiles, PNAS,vol.102, no. 43, pp. 15545-15550, 2005] o Efron等人采用通路基因t-statistics的均值組合方式構(gòu)建了 maxmean組合差異統(tǒng)計量,實現(xiàn)了同時從Shift和Scale兩個方面對特異性組合藥物革巴標(biāo)檢測[Efron Bradley and Tibshirani Robert, On testing the significance of sets of genes, The Annals of Applied Statistics, vol. 1,no. 1,pp. 107-129,2007]。特別的,在該類方法中最具代表性的是Oron等人提出的GSEAlm方法[Oron et al. , Gene set enrichment analysis using linear models and diagnostics,Bioinformatics, vol. 24, no. 22, pp. 2586-2591,2008] 0該方法采用了著名的J-G統(tǒng)計量組合方式對通路中每個基因的t-statistics值進(jìn)行組合,進(jìn)而建立了更為有效的基于通路的特異性組合藥物靶標(biāo)檢測方法。上述三個方法有一個共同點是都隱含地將基因劃分為通路內(nèi)和外兩個組別。最近, Sartor 等人[Sator et al. , LRpath a logistic regression approach for identifying enriched biological groups in gene expression data,Bioinformatics,vol. 25,no. 2, pp. 211-217,2009]提出對這種基因劃分進(jìn)行顯式地標(biāo)記,然后在通過建立一種廣義線性回歸模型進(jìn)行特異性組合藥物靶標(biāo)檢測。該方法被稱作LRpath方法。(3)基于基因整合效應(yīng)的方法該類方法強調(diào)如何利用基因間的關(guān)聯(lián)關(guān)系信息來刻畫通路的差異表達(dá)特性,在建模通路中基因整合效應(yīng)的基礎(chǔ)上來進(jìn)行基于通路的特異性組合藥物靶標(biāo)檢測。比如,Nettleton等人提出的基于非參數(shù)多變量分析的檢測方法 [Nettleton et al. ,Identification of differentially expressed gene categories in microarray studies using nonparametric multivariate analysis. Bioinformatics, vol. 24, no. 2,PP. 192-201,2008]。該類方法中最具代表性的是Geoman等人提出的 Globaltest 方法[Goeman et al. , A global test for groups of genes testing association with a clinical outcome, vol. 20, no. I, pp. 93-99, 2004]。該方法首先使用一種廣義線性回歸模型來建模通路中基因的整合效應(yīng),然后基于該整合效應(yīng)定義通路特異性信號,最后根據(jù)通路的特異性信號的強度檢測出特異性組合藥物靶標(biāo)。在以上三類方法中,第一類方法屬于最早的一類方法,簡單直觀,但其檢測效果受很多因素的影響,并且在實際應(yīng)用中的穩(wěn)定性和可靠性不好。相比第一類方法,第二類方法不需要預(yù)先選擇一個單基因閾值,同時由于能夠進(jìn)一步考慮基因的差異表達(dá)細(xì)節(jié),獲得了較第一類方法更好的特異性組合藥物靶標(biāo)檢測性能。相比第一、二類方法,第三類方法將整個通路中的基因作為一個整體,通過利用基因間廣泛存在的關(guān)聯(lián)關(guān)系建模通路中基因的整合效應(yīng),提高了特異性組合藥物靶標(biāo)的檢測3/10 頁
性能。然而,第三類方法的一個主要缺陷是難以克服通路中少數(shù)弱特異性基因所帶來的噪聲問題。從生物學(xué)上來看,由于一個基因可能具有多種功能,并參與多個基因通路,因此,即使是同一條特異性基因通路,也并不是其中所有的基因都被具有較強的特異性。另外,每個基因的特異性也受到包括基因表達(dá)檢測信號強度以及檢測過程系統(tǒng)性的誤差等多種不可預(yù)見因素的影響。第三類方法往往強制假設(shè)通路中所有基因都具有顯著的特異性。顯然這種假設(shè)是不合理的,忽略了非顯著性基因或檢測誤差等有關(guān)因素所引起的噪聲問題,削弱了特異性組合藥物靶標(biāo)檢測能力。特別針對第三類檢測方法的缺陷,本發(fā)明基于通路的特異性組合藥物靶標(biāo)檢測方法發(fā)明并應(yīng)用一種 gbLR(generalization-based Logistic regression)模型來進(jìn)行特異性組合藥物靶標(biāo)的檢測,較好地克服了特異性組合藥物靶標(biāo)檢測的小樣本問題,具有更好的穩(wěn)定性和實用性。發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有藥物靶標(biāo)檢測方法中的不足,通過構(gòu)建一種基于推廣性反饋的通路特異性信號檢測模型(gbLR),提出了一種新的基于通路的特異性組合藥物靶標(biāo)檢測方法。本發(fā)明的方法不僅具有處理小樣本問題的能力,而且檢測精度也有大幅提高。相比現(xiàn)有方法,該方法提高了藥物靶標(biāo)檢測的可靠性、實用性和精度。本發(fā)明的目的是這樣實現(xiàn)的,一種基于通路的特異性組合藥物靶標(biāo)檢測方法,包括A、使用基因芯片進(jìn)行基因表達(dá)數(shù)據(jù)采集用戶使用基因芯片進(jìn)行組織樣本的基因表達(dá)含量檢測,通過對基因芯片上基因雜交信號的掃描,得到進(jìn)一步處理的基因表達(dá)譜數(shù)據(jù);基因表達(dá)數(shù)據(jù)包括標(biāo)準(zhǔn)基因表達(dá)譜數(shù)據(jù)和陽性基因表達(dá)譜數(shù)據(jù),其中,標(biāo)準(zhǔn)基因表達(dá)數(shù)據(jù)為正常組織樣本的基因表達(dá)譜數(shù)據(jù),相應(yīng)的組織樣本標(biāo)簽為O的數(shù)值;陽性基因表達(dá)譜數(shù)據(jù)為陽性組織樣本的基因表達(dá)譜數(shù)據(jù),相應(yīng)的組織樣本標(biāo)簽為大于O的數(shù)值;B、通路數(shù)據(jù)庫構(gòu)建從KEGG、文本文獻(xiàn)等生物知識資源中收集通路信息,建立通路數(shù)據(jù)庫,其中的每一條通路給出了一個潛在的特異性組合藥物靶標(biāo);C、通路表達(dá)譜構(gòu)建從所采集的基因表達(dá)譜數(shù)據(jù)中提取通路中每個基因的表達(dá)水平,建立組織樣本的通路表達(dá)譜;D、構(gòu)建特異性組合藥物靶標(biāo)檢測訓(xùn)練集和測試集將組織樣本的標(biāo)簽歸一化為一個分布在
上的變量,并以k(k彡2) I的比例分割所有組織樣本為訓(xùn)練集和測試集,為了保證不同標(biāo)簽下的組織樣本在訓(xùn)練集和測試集中均衡分布,要求具有相同標(biāo)簽的組織樣本在訓(xùn)練集和測試集中的比例也為k I ;E、基于gbLR的通路特異性信號檢測模塊通路表達(dá)譜對包括陽性組織樣本在內(nèi)的所有組織樣本標(biāo)簽的回歸顯著性反映了通路作為特異性組合藥物祀標(biāo)的特異性。gbLR (generalization-based Logitic Regression)通路特異性模型使用通路表達(dá)譜回歸組織樣本標(biāo)簽并引入回歸推廣性反饋來檢測通路的特異性信號,具有更可靠的檢測性能。gbLR方法描述如下首先,依據(jù)IRWLS (Iteratively Reweight Least Square)方法,從通路表達(dá)譜中
6隨機抽取P個基因作為預(yù)測因子,使用訓(xùn)練集組織樣本構(gòu)建L = 100個如下羅切斯特回歸模型,j) = e^/(l + e^),其中,e = 2. 718為數(shù)學(xué)常數(shù),x為組織樣本的ρ個基因的表達(dá)譜,
3為羅切斯特回歸模型的線性回歸系數(shù)J為組織樣本的標(biāo)簽估計;假設(shè)訓(xùn)練樣本的數(shù)目為N,通路表達(dá)譜中的基因數(shù)目為m,在每個羅切斯特回歸模型構(gòu)建中,隨機抽取通路表達(dá)譜中的P個基因作為預(yù)測因子,P可取為O. 5Xmin(N,m),其中 min表示取最小值函數(shù)。然后,采用下式迭代求解羅切斯特回歸模型的線性回歸系數(shù),
權(quán)利要求
1.一種基于通路的特異性組合藥物靶標(biāo)檢測方法,其特征在于所述方法采用基于 gbLR的通路特異性信號檢測模塊檢測特異性組合藥物靶標(biāo),方法的步驟是A、使用基因芯片進(jìn)行基因表達(dá)數(shù)據(jù)采集使用基因芯片進(jìn)行組織樣本的基因表達(dá)含量檢測,通過掃描基因芯片上基因雜交信號,得到進(jìn)一步處理的基因表達(dá)譜數(shù)據(jù),基因表達(dá)數(shù)據(jù)包括標(biāo)準(zhǔn)基因表達(dá)譜數(shù)據(jù)和陽性基因表達(dá)譜數(shù)據(jù);B、通路數(shù)據(jù)庫構(gòu)建從KEGG生物知識資源中收集通路信息,建立通路數(shù)據(jù)庫,其中的每一條通路給出了一個潛在的特異性組合藥物靶標(biāo);C、通路表達(dá)譜構(gòu)建從采集的基因表達(dá)譜數(shù)據(jù)中提取通路中每個基因的表達(dá)水平,建立組織樣本的通路表達(dá)譜;D、構(gòu)建特異性組合藥物靶標(biāo)檢測訓(xùn)練集和測試集將組織樣本的標(biāo)簽歸一化為一個分布在
上的變量,并以k I的比例分割所有組織樣本為訓(xùn)練集和測試集,為了保證不同標(biāo)簽下的組織樣本在訓(xùn)練集和測試集中均衡分布,要求具有相同標(biāo)簽的組織樣本在訓(xùn)練集和測試集中的比例也為k I ;E、基于gbLR的通路特異性信號檢測模塊使用通路表達(dá)譜回歸組織樣本標(biāo)簽并引入回歸推廣性反饋來檢測通路的特異性信號, 包括基于gbLR的通路特異性信號檢測模塊中,對每一個通路給出一個潛在的特異性組合藥物靶標(biāo),循環(huán)執(zhí)行下面例程a、構(gòu)建組織樣本標(biāo)簽的羅切斯特回歸模型,從通路中隨機抽取P個基因作為預(yù)測因子,在訓(xùn)練集上建立組織樣本標(biāo)簽的羅切斯特回歸模型,其中,P取為O. 5Xmin (N, m),N為訓(xùn)練樣本的數(shù)目、m為通路表達(dá)譜中的基因數(shù)目、min表示取最小值函數(shù),重復(fù)L次,構(gòu)建L 個組織樣本標(biāo)簽的羅切斯特回歸模型j) = /(I+ ^x),其中,X為組織樣本的P個基因表達(dá)譜、#為羅切斯特回歸模型的線性回歸系數(shù)、j)為組織樣本的標(biāo)簽估計、e為數(shù)學(xué)常數(shù);b、估計所有組織樣本的標(biāo)簽,基于所建立的組織樣本標(biāo)簽的羅切斯特回歸模型 j) = ^x/(l + ^x),對所有訓(xùn)練集和測試集中的組織樣本的標(biāo)簽進(jìn)行回歸估計;C、計算羅切斯特回歸模型負(fù)對數(shù)顯著性,基于訓(xùn)練集和測試集中組織樣本的標(biāo)簽真實值與估計值計算羅切斯特回歸模型的P-Value負(fù)對數(shù)顯著性,是對每一個羅切斯特回歸模型,用所有組織樣本估計其F統(tǒng)計量的p-Value值pV,然后依據(jù)pV計算羅切斯特回歸模型的p-Value負(fù)對數(shù)顯著性為Iv = -IoglO (pV);d、獲取通路特異性信號,L次循環(huán)結(jié)束后,通過基于L個組織樣本標(biāo)簽羅切斯特回歸模型的通路特異性檢測,對所獲得L個p-Value負(fù)對數(shù)顯著性取中值,作為通路的特異性信號;F、特異性組合藥物靶標(biāo)辨識采用羅切斯特回歸模型p-value負(fù)對數(shù)顯著性閾值t,將步驟E所得到的通路特異性信號與該閾值t進(jìn)行比較當(dāng)通路特異性信號大于閾值t時,則判定通路為特異性組合藥物靶標(biāo),否則拒絕作為特異性組合藥物祀標(biāo)。
2.根據(jù)權(quán)利要求I所述一種基于通路的特異性組合藥物靶標(biāo)檢測方法,其特征是A步驟中,所述基因表達(dá)數(shù)據(jù)包括標(biāo)準(zhǔn)基因表達(dá)譜數(shù)據(jù)和陽性基因表達(dá)譜數(shù)據(jù),其中,標(biāo)準(zhǔn)基因表達(dá)譜數(shù)據(jù)為正常組織樣本的基因表達(dá)譜數(shù)據(jù),相應(yīng)的組織樣本標(biāo)簽為O的數(shù)值,陽性基因表達(dá)譜數(shù)據(jù)為陽性組織樣本的基因表達(dá)譜數(shù)據(jù),相應(yīng)的組織樣本標(biāo)簽為大于O的數(shù)值。
3.根據(jù)權(quán)利要求I所述一種基于通路的特異性組合藥物靶標(biāo)檢測方法,其特征是D步驟中,所述將組織樣本的標(biāo)簽歸一化為一個分布在
上的變量,并以k I的比例分割所有組織樣本為訓(xùn)練集和測試集,其中k > 2。
4.根據(jù)權(quán)利要求I所述的一種基于通路的特異性組合藥物靶標(biāo)檢測方法,其特征是E 步驟中,所述重復(fù)L次,構(gòu)建L個組織樣本標(biāo)簽的羅切斯特回歸模型,j) = /(I+ x),是使用IRWLS方法構(gòu)建,其中的L >50,羅切斯特回歸模型的線性回歸系數(shù)^通過反復(fù)迭代進(jìn)行估計,直至赤池信息量不再減少。
5.根據(jù)權(quán)利要求I所述的一種基于通路的特異性組合藥物靶標(biāo)檢測方法,其特征是F步驟中,所述采用羅切斯特回歸模型p-value負(fù)對數(shù)顯著性閾值t,其中的t為.1.3( = -IoglO (O. 05)) O
全文摘要
本發(fā)明公開了一種基于通路的特異性組合藥物靶標(biāo)檢測方法,該方法由五個執(zhí)行過程和一個核心檢測模塊所組成,即使用基因芯片進(jìn)行基因表達(dá)數(shù)據(jù)采集、通路數(shù)據(jù)庫構(gòu)建、通路表達(dá)譜構(gòu)建、特異性組合藥靶檢測訓(xùn)練集和測試集構(gòu)建、基于gbLR的通路特異性信號檢測模塊、以及特異性組合藥靶辨識。在基于gbLR的通路特異性信號檢測模塊中,使用gbLR模型引入回歸推廣性反饋,并融合多次的局部特異性信號檢測結(jié)果來避免非顯著特異性噪聲干擾,提高了通路特異性信號檢測精度和可靠性。相比現(xiàn)有方法,本發(fā)明方法使用gbLR模型,克服了通路特異性信號檢測中的小樣本問題,并不受現(xiàn)有藥物的限制,提供了一種較為可靠、精確、實用的藥物靶標(biāo)檢測方法。
文檔編號C12Q1/68GK102586418SQ20111039628
公開日2012年7月18日 申請日期2011年12月2日 優(yōu)先權(quán)日2011年12月2日
發(fā)明者王紅強, 鄭春厚, 陳鵬 申請人:中國科學(xué)院合肥物質(zhì)科學(xué)研究院