麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種篩選基因芯片差異表達基因的方法

文檔序號:436087閱讀:521來源:國知局
專利名稱:一種篩選基因芯片差異表達基因的方法
一種篩選基因芯片差異表達基因的方法技術領域本專利涉及一種基因芯片數據分析中差異表達基因篩選的 一種 算法。該算法適用于缺乏重復的小樣本的基因芯片實驗設計。
背景技術
基因芯片,又稱基因微陣列(microarray),是指將許多已知序列 寡核苷酸或cDNA片段有規律地排列在基片上,將待測的樣品標記后 與芯片上的核酸序列按堿基互補配對原則進行雜交。通過焚光檢測系 統對芯片進行掃描,并配以計算機系統對每一探針上的熒光信號做出 檢測和比較,可以迅速得出實驗結果。利用基因芯片可以在一次實驗 中對上萬種基因的表達水平進行快速、準確、高效地檢測,并且樣本 的需要量可以大大減少。基因芯片技術是目前基因研究方面最先進、 也是最有效的方法之一,在生命科學研究及實踐、醫學科研及臨床、 藥物設計、環境保護、農業、軍事等各個領域有著廣泛的應用。差異表達基因的篩選A&因芯片分析最為關鍵的一步。對于兩樣 本的無重復的芯片數據,可以使用倍數法(Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rushmore T. Monitoring expression of genes involved in drug metabolism and toxicology using DM microarrays. Physiol Genomics 2001; 5:161-170) 或 z-score (Cheadle C, Vawter MP, Freed WJ and Becker KG. Analysis of microarray data using z score transformation. J Mol Diagn 2003: 5, 73-81)的方法;對于兩樣本的有重復的芯片數據則可以使用 倍數法或t檢驗(Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t -test and statistical inferences of gene changes. Bioinformatics 2001; 17: 509-519 )等方法。對于多個分組的有重復的芯片數據則 可以使用方差 分析(Pavlidis P. Using A麗A for gene selection from microarray studies of the nervous system. Methods 2003: 31 (4): 282-9 )。對于長的時間序列一般會使用曲線擬合(StoreyJD, Xiao W, Leek JT, Tompkins RG, Davis RW. Significance analysis of time course microarray experiments. Proc Natl Acad Sci USA. 2005, 102 (36): 12837-4 )的方法。但是在實際應用中,由于基因芯片的費用昂貴,研究者往往只能 負擔少量樣本的芯片設計(樣本量<6),并且每個樣本的也只是進行 單次或兩次技術重復,這種缺乏重復的小樣本基因芯片實驗i殳計目前 非常很普遍。這類芯片數據目前并沒有很好的分析方法,主要是采用 倍數法,而倍數法是一種經驗算法,算法本身的敏感性與特異性是很 難估計的,會引起較大的實驗誤差。為了彌補這一技術空白,本專利 我們提出一種基于統計模型的新算法,來對小樣本,無重復的基因芯 片產生的差異基因進行篩選。發明內容本發明提供一種通過建立統計模型來篩選基因的方法。 本發明是這樣實現的,主要包括如下流程步驟l,對芯片數據 進行歸一化處理;步驟2,建立對數比值x,^戸+ A+f線性模型;步 驟3,計算出全局均值;/,列效應A和方差cT的值;步驟4,利用^、 A和a,計算每個基因的2xlnOWm"o);步驟5,設定域值 , 當步驟4中的2xln(oWra,/o)值大于;r2—, 的基因定為差異表達基因。注ln(.)為以e為底的自然對數。本發明的優點在于通過建立統計模型,設計適當的統計量,最 后使用假設檢驗的方法賦予每個基因一個顯著性的概率數值,作為篩 選基因的標準。該方法克服了常規的倍數法缺乏統計學基礎和對算法 本身敏感性與特異性難以估計的弱點。


圖l是本發明所述篩選基因芯片差異表達基因的方法的流程圖。
具體實施方式
具體方法描述如下首先使用芯片掃描圖像處理軟件(例如GenePix pro 4.0)獲得 基因水平的表達值數據。接著對芯片數據進行芯片間的歸一化處理。 然后將芯片結果的信號值轉換成相對于對照實驗的比值。取比值的對 數(取以e為底為佳)。我們將此對數比值(In ratio)作為分析的 基礎。假設我們有"張基因芯片(對應M個樣本,典型的,1<"5),每張芯片有w個基因。這樣我們獲得一個數值矩陣<formula>formula see original document page 5</formula>①其中、為第/(1^/《^)個基因在第7(1"")張芯片中的In ratio 數值。接著我們建立一個線性模型其中z/為全局的均值,為列效應,s為殘差。我們假設s W(0,a2)。即假設在不同的芯片中殘差s符合均值為0,方差為cr的正態分布。作為方差a,它體現的是所有芯片"芯片內"方差的平均。 A作為列效應,表示的是不同芯片之間差異的參數。//是全局的均值, 由于一般情況下芯片中大部分基因的表達值是不變的,所以/z是接近 于0的。該模型即是將一個基因在一張芯片上的表達值分解為全局效 應,列(芯片)效應和殘差。對模型的參數進行估計利用最大似然估計,々的估計值為全局的均值,即細A為列效應,即每列(即每張芯片)的平均值(上式中/i接近于0<formula>formula see original document page 6</formula>④
附 附w a的估計值取"組內"方差:
<formula>formula see original document page 6</formula> 5
建立檢驗假設:對于每個基因z,<formula>formula see original document page 6</formula>是上述線性模型的 一個實例。 <formula>formula see original document page 6</formula>與上述線性模型完全獨立。我們用<formula>formula see original document page 6</formula>表示基因/是該線性模型(即總體分布)的 一個實例的概率,用<formula>formula see original document page 6</formula>表示基因,'不是來自于該線性模型,而是來自于任何一種其它模型(分布)的概率。 習慣上,我們用優勢比odd ratio來表示數據對模型的偏離程度,<formula>formula see original document page 6</formula>可見優勢比odd ratio的值越大,說明基因/偏離總體分布越明 顯,越有可能是我們要尋找的差異基因。對于基因<formula>formula see original document page 6</formula>則可以寫作上面的公式中,使用聯合概率計算優勢比odd ratio的值。從最 終的結果我們可以看出統計量0《符合自由度為"的;r2分布。因此,用2x ln(oW r加'o)來作為基因的差異表達的度量是合理的,其顯著性結 果可以使用f檢驗來給出,即設定一定的閾值(cutoff), cutoff最優值為0.01,若 潔,>/— ,即P〈0. 01,那么則可以認為第冷基因是差異表達基因。通過計算每個基因的0《值,與?分布的閾值;^,"相比較,即可篩選出所有的差異表達基因。一,以無重復4個樣本的Affymetrix公司的表達譜基因芯片數 據為例獲得基因水平表達數據。將芯片結果的信號值轉換成相對于對照 實驗的比值。取比值的對數。建立線性才莫型x,, + j=1...4。
A為全局的均值,//,為列效應,s為殘差,f ,,o"2)。計算出上述線性模型參數//,A和CT的估計值/i,A和6。這些估計值將用于統計量2xln(o必rato)的計算。對于每一個基因/,利用公式力卜—"'丫,計算每個基因的2 x ln(。W 值。該值反映了基因/表達數據與總體分布的偏離程度, 同時該值符合自由度為"=4的/分布。<formula>formula see original document page 7</formula>設定cutoff-O. 01,查f分布表,得到義2, 4=13. 28。即當統計 量大于13. 28時,p<o.01。篩選2xln(o必raf/。)值大于13. 28 (相當于/ <0.01)的基因,即為差異表達基因。二、以2次重復5個樣本的基因芯片數據為例獲得基因水平表達數據。將芯片結果的信號值轉換成相對于對照 實驗的比值。取比值的對數。 建立線性模型計算出上述線性模型參數一,A和CT的估計值。對于每一個基因/,利用公式tP"1 — A丫,計算每個基因的產l 、 °" J<formula>formula see original document page 8</formula>值。設定cutoff=0.01,查f分布表,得到^。。, ,。=23. 21。篩選2xln(o必ra^)值大于23. 21的基因,即為差異表達基因。以上是對本發明的描述而非限定,基于本發明思想的其它實施方 式,均在本發明的保護范圍之中。
權利要求
1.一種篩選基因芯片差異表達基因的方法,其特征在于該方法包括有如下步驟步驟1,對芯片數據進行歸一化處理;步驟2,建立對數比值xij=μ+μj+ε線性模型;步驟3,計算出全局均值μ,列效應μj和方差σ的值;步驟4,利用μ、μj和σ,計算每個基因的2×ln(odd ratio);步驟5,設定域值χ2cutoff,n,當步驟4中的2×ln(odd ratio)值大于χ2cutoff,n的基因定為差異表達基因。
2. 根據權利要求1所述的一種篩選基因芯片差異表達基因的方 法,其特征在于在步驟l中,進行基因芯片數據的歸一化處理時的 樣本數,在1 ~ 5例之間。
3. 根據權利要求1所述的一種篩選基因芯片差異表達基因的方 法,其特征在于在步驟3或步驟4中,o必ra加=--。
全文摘要
本發明提供一種篩選基因芯片差異表達基因的方法,涉及一種基因芯片數據分析中差異表達基因篩選的一種算法。本發明實施起來,包括如下步驟步驟1,芯片數據的歸一化處理;步驟2,建立對數比值x<sub>ij</sub>=μ+μ<sub>j</sub>+ε線性模型;步驟3,計算出全局均值μ,列效應μ<sub>j</sub>和方差σ的值;步驟4,利用μ、μ<sub>j</sub>和σ,計算每個基因的2×ln(odd ratio);步驟5,設定域值x<sup>2</sup> <sub>cutoff,n</sub>,當步驟4中的2×ln(odd ratio)值大于x<sup>2</sup> <sub>cutoff,n</sub>的基因定為差異表達基因。本發明通過建立統計模型,設計適當的統計量,最后使用假設檢驗的方法賦予每個基因一個顯著性的概率數值,作為篩選基因的標準。該方法克服了常規的倍數法缺乏統計學基礎和對算法本身敏感性與特異性難以估計的弱點。
文檔編號C12Q1/68GK101215602SQ20071017358
公開日2008年7月9日 申請日期2007年12月28日 優先權日2007年12月28日
發明者劉極龍, 曾華宗 申請人:上海敏芯信息科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 内乡县| 海兴县| 穆棱市| 渭南市| 读书| 望奎县| 临湘市| 宁陕县| 乐亭县| 金溪县| 湘阴县| 文山县| 平安县| 红安县| 阳朔县| 得荣县| 察雅县| 芮城县| 武陟县| 孟津县| 永福县| 南乐县| 兴山县| 永德县| 和田县| 榆林市| 丹巴县| 揭阳市| 内乡县| 安泽县| 云阳县| 隆安县| 桐城市| 合肥市| 桦甸市| 桦南县| 晋中市| 陆良县| 定陶县| 通河县| 万全县|