專利名稱:中國(guó)人群連鎖分析snp標(biāo)記集合及其使用方法與應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及含有3000和6001中、高密度兩套連鎖分析用的SNP標(biāo)記集合,屬于遺 傳學(xué)和基因組學(xué)中的連鎖分析領(lǐng)域。此兩套標(biāo)記位點(diǎn)集合完全基于中國(guó)人的遺傳背景,具 有高多態(tài)性,全基因組均勻覆蓋,高基因分型檢測(cè)性等多個(gè)特點(diǎn)。適用于中國(guó)人群特別是漢 族人群的全基因組連鎖分析,可以達(dá)到高效定位所檢測(cè)家系遺傳病的致病基因的目的。
背景技術(shù):
在復(fù)雜疾病的基因定位研究中,常常需要對(duì)研究樣品進(jìn)行全基因組掃描以確定目 標(biāo)基因在染色體上的位置。目前主要有兩個(gè)手段,基于病例對(duì)照樣本的關(guān)聯(lián)分析和基于家 系樣品的連鎖分析[1]。連鎖分析使用含有患者和健康成員的家系樣本,利用具有多態(tài)性 的遺傳標(biāo)記進(jìn)行所有樣本的分型(Genotyping),以鑒定經(jīng)多代傳遞仍完整遺傳標(biāo)記的單 體(倍)型為基礎(chǔ),通過(guò)數(shù)學(xué)手段計(jì)算遺傳標(biāo)記在家系中是否與疾病產(chǎn)生共分離(連鎖分 析),從而確定致病基因或所在區(qū)域與參考位點(diǎn)(遺傳標(biāo)記)的關(guān)系,達(dá)到定位疾病相關(guān)基 因或區(qū)域的目的。關(guān)聯(lián)研究和連鎖分析的原理與假說(shuō)基本類似,均以相鄰近的DNA變異共 分離為基礎(chǔ)。連鎖分析檢測(cè)在一個(gè)家系中等位基因與疾病的傳遞是否相關(guān)。而關(guān)聯(lián)分析研 究在一個(gè)群體中疾病和等位基因的相關(guān)性的存在與否。以往的連鎖或關(guān)聯(lián)分析都是以微衛(wèi)星即短片段重復(fù)序列作為遺傳多態(tài)標(biāo)記。基因 組學(xué)研究使SNP(Single Nucleotide Polymorphism)即單核苷酸多態(tài)位點(diǎn)成為廣泛應(yīng)用的 分子遺傳標(biāo)記。SNP指在單條染色體或DNA序列的同一位置上所具有的不同核苷酸形式, 是形成個(gè)體差異的主要原因,也是基因組上最常見(jiàn)的遺傳變異形式。特別是針對(duì)常見(jiàn)SNP 基因分型的人類基因組國(guó)際HapMap計(jì)劃(International Haplotype Map Project)的完 成,使采用SNP標(biāo)記全基因組高通量掃描已經(jīng)成為新的趨勢(shì)。HapMap使用的樣本來(lái)自亞歐 非三大人群的270個(gè)人類個(gè)體,其中亞洲,歐洲和非洲各90人。HapMap項(xiàng)目針對(duì)全基因組 300多萬(wàn)個(gè)常見(jiàn)SNPs進(jìn)行了基因分型,獲得了這270個(gè)個(gè)體的全基因組SNP多態(tài)信息,為研 究人類的進(jìn)化和基因組變異提供了豐富的遺傳資源,所產(chǎn)出的全部數(shù)據(jù)免費(fèi)公布于HapMap 官方網(wǎng)站http://WWW. hapmap. org。在HapMap計(jì)劃的促進(jìn)下,關(guān)聯(lián)研究定位疾病基因的方 法在近年得到迅速發(fā)展,并因?yàn)槎嗷蚣膊⊙芯康膹?fù)雜性而具有規(guī)模越來(lái)越大的趨勢(shì)。同 時(shí)在發(fā)達(dá)國(guó)家中,相對(duì)人口少,人員流動(dòng)大而親情聯(lián)系少,使得家系資料難以收集,所以和 關(guān)聯(lián)分析相比,基于家系樣本的連鎖研究只能占很小比例。雖然具有以上優(yōu)勢(shì),但關(guān)聯(lián)分析 通常需要根據(jù)嚴(yán)格指標(biāo)采集大規(guī)模研究樣品和分型大量的全基因組標(biāo)記位點(diǎn),費(fèi)用較高。 因?yàn)榇嬖谌后w樣本的遺傳背景分層[2]等因素,容易造成假陽(yáng)性的結(jié)果,而且關(guān)聯(lián)分析對(duì) 低頻率,低外顯率,低相對(duì)風(fēng)險(xiǎn)的等位基因以及異質(zhì)性較高的致病基因的定位準(zhǔn)確度不夠。和關(guān)聯(lián)分析相比,連鎖分析的定位結(jié)果具有較高的準(zhǔn)確度。由于家系樣本的重組 較少,使用少量遺傳標(biāo)記全基因組掃描分析即可定位致病基因所在區(qū)域,在成本上具有很 大優(yōu)勢(shì)。同時(shí),在研究的可行性和樣本資源上,相對(duì)不發(fā)達(dá)國(guó)家(如我國(guó),亞洲各國(guó)以及中 東一些國(guó)家)和發(fā)達(dá)國(guó)家相比面臨不同的情況。一是大規(guī)模關(guān)聯(lián)研究耗費(fèi)過(guò)高,經(jīng)濟(jì)上的
3負(fù)擔(dān)較重,因此大樣本量的研究無(wú)法廣泛開(kāi)展;二是不發(fā)達(dá)國(guó)家具有大家庭傳統(tǒng)和相對(duì)隔 離區(qū)域,擁有多代家系的豐富遺傳資源,使得連鎖分析在這些國(guó)家和地區(qū)仍保持重要地位。 另外,伴隨著新分型技術(shù)的出現(xiàn)和HapMap項(xiàng)目的成果,近年來(lái)連鎖分析方法自身也有了很 大的改變和進(jìn)步。用于連鎖分析的遺傳標(biāo)記主要有兩種,傳統(tǒng)的微衛(wèi)星即STR (short tandem repeat)和SNP標(biāo)記。STR連鎖分析曾定位了大量疾病相關(guān)區(qū)域,但由于解析度不夠高,通 常所定區(qū)域長(zhǎng)達(dá)十?dāng)?shù)個(gè)厘摩。特別是家系代數(shù)太少或連鎖分析標(biāo)記密度過(guò)低時(shí)還可能造 成定位區(qū)域的漏查或定位分辨率過(guò)低。另外STR的實(shí)驗(yàn)操作也比較繁瑣,很難實(shí)現(xiàn)高成功 率的全基因組高通量分型。隨著HapMap計(jì)劃的完成,海量SNP分型數(shù)據(jù)得以利用,同時(shí)基 因分型技術(shù)也有了極大的發(fā)展。HapMap計(jì)劃之后,SNP具有成為新一代連鎖分析遺傳標(biāo)記 的優(yōu)勢(shì),它具有高密度、易于自動(dòng)化和高通量操作、遺傳特性更為穩(wěn)定等特點(diǎn)。但目前用于 連鎖分析的SNP探針?lè)N類少費(fèi)用高,而且都是基于歐裔白種人的基因組背景,在以漢族人 群為主的中國(guó)的應(yīng)用性不高。如Illumina設(shè)計(jì)的SNP芯片Linkage PanelIV比STR的分 型密度高出約10倍,但一套產(chǎn)品的起始價(jià)格超過(guò)3萬(wàn)美元,使很多中國(guó)的研究項(xiàng)目從經(jīng)濟(jì) 上考慮STR幾乎是唯一的選擇。另一方面,這套SNP產(chǎn)品在設(shè)計(jì)上也是以歐裔優(yōu)先。分析 表明在亞洲群體內(nèi)超過(guò)30%的位點(diǎn)處在低多態(tài)區(qū)(MAF 0-0. 2,Minor Allele Frequency), 高多態(tài)位點(diǎn)(MAF 0.3-0.5)的比例也僅是歐裔樣本的一半,所以不能很好地適用和滿足亞 裔樣本的連鎖分析。總之,在疾病基因定位的研究中,發(fā)達(dá)國(guó)家以高密度SNP芯片為主打,以進(jìn)行病例 對(duì)照的大樣品關(guān)聯(lián)分析為主要趨勢(shì),已有多種全基因組芯片更新問(wèn)世。然而連鎖分析更加 適合我國(guó)家系資源豐富而科研經(jīng)費(fèi)較少的特點(diǎn)。另外,由于在發(fā)達(dá)國(guó)家市場(chǎng)需求較小,連鎖 分析產(chǎn)品的發(fā)展遠(yuǎn)不如關(guān)聯(lián)分析產(chǎn)品,僅有的一種在我國(guó)的應(yīng)用上也存在兩大主要問(wèn)題或 難點(diǎn)。一是人群設(shè)計(jì)上商用標(biāo)記是基于歐裔遺傳背景,不能滿足亞裔人群的遺傳分析;二是 出于價(jià)格的原因,產(chǎn)品的應(yīng)用在中國(guó)較難。為了解決這些問(wèn)題,我們以HapMap中國(guó)人群的 基因型數(shù)據(jù)為基礎(chǔ),通過(guò)連鎖不平衡(linkage disequilibrium, LD),高多態(tài)性,高分型性 能和均勻覆蓋全基因組等指標(biāo),建立了適合中國(guó)人遺傳背景的3000和6001中、高密度兩套 連鎖分析用SNP標(biāo)記集合。最后,在本發(fā)明的實(shí)施例中,選用了視網(wǎng)膜色素變性(Retinitis Pigmentosa,RP) 疾病家系對(duì)中、高密度兩套SNP標(biāo)記集合的效率進(jìn)行了驗(yàn)證。RP是眾多遺傳眼病中的一種, RP有很高的致盲性,目前中國(guó)有上百萬(wàn)人患病,嚴(yán)重影響了他們的正常工作和生活。它是以 視網(wǎng)膜感光細(xì)胞受損為特點(diǎn)的一組疾病。患者從“夜盲”,發(fā)展至周邊視野缺損,最終導(dǎo)致中 心視力喪失。RP的發(fā)病有多種表現(xiàn)型,是一類視網(wǎng)膜色素病變導(dǎo)致的夜盲癥狀的總稱,發(fā)病 率約為1/4000 [3],可表現(xiàn)為家族性常染色體顯性或隱性遺傳,性連鎖遺傳,散發(fā)病例等多 種形式[4,5]。不斷發(fā)現(xiàn)的與此疾病相關(guān)的多種基因表明其發(fā)病機(jī)制非常復(fù)雜,不同病例間 具有很強(qiáng)的遺傳異質(zhì)性。
發(fā)明內(nèi)容
本發(fā)明為適用于中國(guó)人遺傳背景的含有3000和6001中、高密度兩套連鎖分析用 SNP標(biāo)記集合。本發(fā)明的兩套SNP標(biāo)記集合的構(gòu)建是基于HapMap項(xiàng)目產(chǎn)生的亞洲人群的基因型數(shù)據(jù)。連鎖分析定位遺傳病致病基因的基本方法是使用基因組上的具有多態(tài)性的標(biāo)記 位點(diǎn)(SNP,STR等)作為探針,尋找標(biāo)記位點(diǎn)與疾病的連鎖情況,研究對(duì)象是具有家系結(jié)構(gòu) 的樣本。基本原理是當(dāng)標(biāo)記位點(diǎn)和致病基因在染色體上的分布距離很近時(shí),它們被重組事 件打斷的概率將會(huì)非常小,標(biāo)記位點(diǎn)和致病基因因?yàn)榫o密連鎖的關(guān)系而在不同代數(shù)的家系 患病成員之間共同傳遞。在疾病完全外顯的情況下,帶有致病基因的個(gè)體表現(xiàn)出疾病的癥 狀,即致病基因和疾病癥狀的連鎖關(guān)系。通過(guò)分析特定類型的標(biāo)記位點(diǎn)和疾病表型(即致 病基因的外顯)的連鎖關(guān)系,借助標(biāo)記位點(diǎn)的位置間接地獲得致病基因在染色體上的位置 從而定位致病基因。以往連鎖分析使用低密度的STR探針。STR是存在于人類基因組上的短串連重復(fù) 片段,通常為兩個(gè)堿基的簡(jiǎn)單重復(fù)。由于STR在同源染色體上的重復(fù)次數(shù)有一定差異,同時(shí) 在傳代時(shí)具有一定的穩(wěn)定性,所以可以用作基因組標(biāo)記來(lái)分離致病基因。近年大量發(fā)現(xiàn)的 SNP比STR具有更多的優(yōu)勢(shì)。SNP在世代傳遞時(shí)更加穩(wěn)定,不產(chǎn)生像傳統(tǒng)低密度STR探針中 常見(jiàn)的插入/缺失等突變[8,9,10]。SNP在全基因上的覆蓋密度遠(yuǎn)高于STR,可以更高的 分辨率定位致病基因。另外SNP多是二態(tài)性的,更適用于大規(guī)模高通量的操作。另外SNP 的易分型性還使那些來(lái)自非血樣DNA (SNP基因分型可適用于微量的樣本DNA或部分降解的 DNA等,如從口腔樣品中提取的基因組DNA)而不適合進(jìn)行STR分析的“困難”樣品的分析成 為可能,擴(kuò)大了連鎖分析樣本的應(yīng)用范圍。本發(fā)明的成員參與了國(guó)際人類單體型計(jì)劃,完成了 HapMap計(jì)劃的中國(guó)卷部分,熟 悉掌握SNP的多種特性和算法工具,特別是對(duì)于亞洲和漢族人群的SNP數(shù)據(jù)進(jìn)行了多種群 體遺傳學(xué)和基因組學(xué)分析研究,并且在使用SNP基因分型的方法在疾病易感基因定位的研 究中取得了較好的成果[11]。在以上基礎(chǔ)上,使用HapMap海量SNP數(shù)據(jù),結(jié)合多個(gè)參量,構(gòu) 建出適用于連鎖分析定位致病基因的中、高密度兩套SNP標(biāo)記集合。這兩套標(biāo)記位點(diǎn)的挑 選是基于HapMap項(xiàng)目中的亞洲人(中國(guó)人和日本人)特別是中國(guó)漢族人的300多萬(wàn)SNP數(shù) 據(jù),經(jīng)過(guò)反復(fù)比較和計(jì)算后獲得,更符合亞洲特別是中國(guó)漢族人的遺傳背景。如圖1所示, Illumina公司的商用連鎖標(biāo)記位點(diǎn)的在歐裔中有很好的多態(tài)性,但在亞裔和非裔中則多態(tài) 性很差。與之相反,本發(fā)明中的標(biāo)記位點(diǎn)的多態(tài)性在亞洲和中國(guó)人中則非常突出。挑選SNP標(biāo)記集合時(shí),采用多種算法和指標(biāo)對(duì)HapMap計(jì)劃產(chǎn)生的3百多萬(wàn)SNP在 三大群體特別是亞洲人群的分型數(shù)據(jù)進(jìn)行多參量的統(tǒng)計(jì)比較。包括LD,高多態(tài)性(MAF),基 因組均勻分布,非基因功能區(qū)等指標(biāo)。連鎖不平衡,是對(duì)相鄰SNP位點(diǎn)在單體型上共同出現(xiàn) 和傳代的概率衡量,可用參數(shù)r2來(lái)計(jì)算,r2可估算兩個(gè)SNP位點(diǎn)之間的連鎖關(guān)系[12]。LD 可以檢驗(yàn)SNP位點(diǎn)的可靠性和對(duì)附近序列的代表性,連鎖不平衡過(guò)低的SNP位點(diǎn)不能作為 標(biāo)記位點(diǎn)(和周圍50kb范圍內(nèi)所有SNP的r2全低于0. 8的SNP位點(diǎn)被剔出)。MAF(Minor Allele Frequency)即小等位基因頻率,是一個(gè)SNP位點(diǎn)上出現(xiàn)的頻率較低的等位基因型 的頻率。MAF值可以衡量SNP位點(diǎn)的多態(tài)情況。本發(fā)明的SNP標(biāo)記位點(diǎn)在HapMap中國(guó)人的 數(shù)據(jù)中,MAF值在0.2以上的高多態(tài)性位點(diǎn)占95%以上。基因組均勻分布是指所挑選相鄰 標(biāo)記位點(diǎn)之間的距離盡可能均勻一致,同時(shí)完全覆蓋人類基因組。非基因功能區(qū)是指挑選 的標(biāo)記位點(diǎn)位于基因組上的非基因區(qū),即分布于基因及其上下游5kb的區(qū)域之外,目的是 避免基因區(qū)受到自然選擇而引起標(biāo)記位點(diǎn)偏離中性原則。
根據(jù)以上指標(biāo),本發(fā)明以HapMap 二期三百多萬(wàn)SNP基因型數(shù)據(jù)集作為基礎(chǔ),開(kāi)發(fā) 和編寫相應(yīng)算法程序,去除功能區(qū)SNP,以LDdinkage disequilibrium)特性,高多態(tài)性, 高確信度,均勻覆蓋全基因組等條件反復(fù)篩選和驗(yàn)證,首先挑選出約10萬(wàn)候選位點(diǎn)。所挑 選的候選位點(diǎn)經(jīng)過(guò)兩側(cè)序列及其分型反應(yīng)性和成功率(call rate)打分等過(guò)程進(jìn)一步評(píng) 估。在分型系統(tǒng)評(píng)估的基礎(chǔ)上,衡量所挑選SNP的實(shí)驗(yàn)可分型性。在分型性能的基礎(chǔ)上,再 次結(jié)合多態(tài)程度高,分布均勻,LD特性等指標(biāo),最終確定含有3000和6001位點(diǎn)的中、高密度 兩套“中國(guó)型”連鎖分析用SNP標(biāo)記集合,其中中密度的SNP相鄰標(biāo)記位點(diǎn)之間的平均距離 是1Mb,高密度SNP位點(diǎn)集合平均距離為500kb。中密度的3000SNP包含于高密度的6001SNP 集合之中。在HapMap中國(guó)漢族人群基因型數(shù)據(jù)中,這兩套集合內(nèi)多于95 %的位點(diǎn)的MAF值 在0.2以上,具有很高的多態(tài)性。所有標(biāo)記位點(diǎn)都可以被成功分型。在家系實(shí)施例中85% 以上的標(biāo)記位點(diǎn)具有多態(tài)。本發(fā)明的所有6001SNP標(biāo)記集合呈列于附表中,其中索引號(hào)為偶數(shù)的為3000SNP 標(biāo)記集合。標(biāo)記位點(diǎn)的參數(shù)如附圖所示,附圖1顯示標(biāo)記位點(diǎn)在漢族人群中的高度多態(tài)性 (95%以上的點(diǎn)MAF大于0. 2)。圖2顯示所有6001標(biāo)記位點(diǎn)的均勻分布情況。,圖3為標(biāo)記 位點(diǎn)在全基因組上的覆蓋情況。圖4-7分別為實(shí)施例中兩個(gè)家系的結(jié)構(gòu)及其所發(fā)明的標(biāo)記 位點(diǎn)在這些樣品中的分布。本發(fā)明的有益效果是,構(gòu)建了符合中國(guó)人遺傳背景的SNP標(biāo)記集合,這些SNP的高 多態(tài)性保證了其作為連鎖分析標(biāo)記的有效性。同時(shí)標(biāo)記的高可分型性為高通量分型實(shí)驗(yàn) 的成功率提供了保障。最后,中性且均勻覆蓋全基因組的SNP標(biāo)記確保了分析結(jié)果的可靠 性和全面性。另外,在家系分析中,該SNP集合以家系重組信息為基礎(chǔ),能夠獲得和家系結(jié) 構(gòu)相匹配的定位精度,從而最大限度地滿足基因定位的需求。可以在此基礎(chǔ)上定制或開(kāi)發(fā) 出中、高兩套連鎖分析用試劑盒或芯片。本發(fā)明可以適用于任何能夠檢測(cè)出基因型的實(shí)驗(yàn) 平臺(tái),尤其是 Illumina,Sequenom, Affymetrix, Agilent, Nimblegen 等公司的基因分型系 統(tǒng)。這些是提供SNP分型技術(shù)、產(chǎn)品、探針和設(shè)備體系的主要公司。產(chǎn)品中包含用于SNP標(biāo) 記位點(diǎn)基因分型的核苷酸探針,有試劑盒或者芯片等多種形式。分型設(shè)備體系指和分型產(chǎn) 品對(duì)應(yīng)的用來(lái)進(jìn)行核苷酸片段擴(kuò)增和探針雜交以及雜交結(jié)果掃描的儀器或平臺(tái)。這些公司 的主要分型原理類似但技術(shù)手段不同。主要通過(guò)原位合成二態(tài)的SNP位點(diǎn)及其上下游幾十 個(gè)核苷酸的序列片段作為探針,或?qū)⒁后w中合成好的探針固定在玻片或者磁珠上,用來(lái)和 樣品核苷酸片段雜交,根據(jù)雜交后發(fā)出的熒光信號(hào)或質(zhì)譜性質(zhì)來(lái)判斷某一 SNP位點(diǎn)的基因 型。在定制基因分型產(chǎn)品后,使用相應(yīng)分型系統(tǒng)對(duì)研究樣本的標(biāo)記位點(diǎn)進(jìn)行基因分型。得到 SNP標(biāo)記的分型結(jié)果后,通過(guò)不同的分析手段或工具可實(shí)現(xiàn)致病基因的定位。該發(fā)明的兩套 SNP標(biāo)記可以充分地挖掘家系的重組信息,對(duì)一般的三代家系來(lái)說(shuō),可以達(dá)到把致病基因定 位到以Mb為單位的染色體區(qū)域上去的目的。這一構(gòu)建的最重要意義在于標(biāo)記位點(diǎn)的高效和覆蓋人類全基因組,以及高度適用 于亞洲特別是中國(guó)人的遺傳背景。這些分布于人類基因組中的SNP是經(jīng)過(guò)統(tǒng)計(jì)分析挑選 而后在實(shí)施例中驗(yàn)證過(guò)的標(biāo)記位點(diǎn),在亞洲特別是中國(guó)漢族人遺傳背景的應(yīng)用上具有重要 優(yōu)勢(shì),具有更高的多態(tài)。在全基因組幾百萬(wàn)SNP數(shù)據(jù)中,僅挑選這些少量且高效的3000和 6001SNP標(biāo)記集合就可以滿足連鎖分析的需求。。另外,在常見(jiàn)復(fù)雜性疾病易感基因研究的 戰(zhàn)略上,如背景技術(shù)中所述,大樣本量的全基因組規(guī)模關(guān)聯(lián)分析雖然是目前國(guó)際流行的趨勢(shì),在我國(guó)因成本等各方面因素而不易廣泛開(kāi)展。而這類疾病的一個(gè)多代遺傳家系,如同復(fù) 雜性疾病的分子遺傳機(jī)制的一種分解,代表了其中一個(gè)易感基因的突出表現(xiàn)型,可以用相 對(duì)較少的費(fèi)用將其定至某一位置。家系越多,則越可能找到更多致病或易感基因。本發(fā)明 的SNP標(biāo)記集合可以為我國(guó)乃至亞洲人群疾病相關(guān)基因定位的連鎖分析提供經(jīng)濟(jì)可行、高 解析度和高效力的重要工具。總之,本發(fā)明構(gòu)建的中國(guó)型連鎖分析用SNP不但使大量家系研究成為可能,而且 可以提高實(shí)驗(yàn)的高通量性,簡(jiǎn)并性以及定位的分辨率和降低研究成本,比傳統(tǒng)方法具有更 高的操作和分析效力,可望在數(shù)年內(nèi)促成大量致病相關(guān)基因的精細(xì)定位,使我國(guó)在常見(jiàn)的 復(fù)雜性疾病的研究領(lǐng)域有重要突破。
以下是對(duì)附圖的說(shuō)明。圖1是6001SNP位點(diǎn)中兩兩相鄰位點(diǎn)之間的距離頻數(shù)圖,大部分相鄰位點(diǎn)之間的 距離為500kb。圖2是6001SNP位點(diǎn)在HapMap亞洲人群數(shù)據(jù)中的MAF值頻率圖,顯示標(biāo)記位點(diǎn)集 合具有很高的多態(tài)性(95%以上的點(diǎn)MAF大于0. 2)。圖3是6001SNP位點(diǎn)在全基因組上的覆蓋情況,黑色為標(biāo)記位點(diǎn),灰色為所有 HapMap 二期分型SNP位點(diǎn)。圖4是實(shí)施例RP家系1,其中**標(biāo)記為該家系的同一個(gè)個(gè)體,X為死亡個(gè)體,黑 色標(biāo)記為患病個(gè)體。圖5是實(shí)施例中的RP家系2,其中**標(biāo)記為該家系的同一個(gè)個(gè)體,X為死亡個(gè) 體,黑色標(biāo)記為患病個(gè)體。圖6是RP家系1中的600ISNP位點(diǎn)的MAF值分布頻率圖。圖7是RP家系2中的600ISNP位點(diǎn)的MAF值分布頻率圖。
具體實(shí)施例方式1.探針制備選擇3000或6001SNP標(biāo)記集合,在基因分型公司如Illumina、Sequenom或 Affymetrix或其他可以進(jìn)行寡聚核苷酸合成的公司定制含有檢測(cè)SNP標(biāo)記的寡核苷酸探 針的試劑盒。2.疾病家系樣本收集和DNA提取收集遺傳病家系,一個(gè)家系中必須含有兩代以上(含兩代)以及多于三個(gè)的患病 者。收集所有或主要家系成員的血樣,即至少收集到患病個(gè)體及其兄妹,以及和患病個(gè)體有 血緣關(guān)系的上下各一代成員的樣本。以真空抗凝管低溫保存。根據(jù)所定制基因分型試劑盒 的需求,提取并獲得特定濃度的樣本基因組DNA,低溫保存。3. SNP標(biāo)記位點(diǎn)的基因分型根據(jù)定制的分型試劑盒的要求,在相應(yīng)的分型系統(tǒng)進(jìn)行家系基因組DNA和SNP標(biāo) 記的寡核苷酸探針的雜交反應(yīng),并最終得到SNP標(biāo)記位點(diǎn)的基因型。4.連鎖分析和單體型分析
將SNP標(biāo)記位點(diǎn)的基因型和家系信息相結(jié)合,選擇連鎖分析和單體型分析軟件進(jìn) 行數(shù)據(jù)分析,得到致病基因的所在基因組定位。連鎖分析是基于家系樣本定位致病基因的一種方法。在考慮染色體減數(shù)分裂存在 重組的情況下,觀察遺傳標(biāo)記在家系中是否與疾病產(chǎn)生共分離和共傳代,利用連鎖的原理 確定致病基因與參考位點(diǎn)(遺傳標(biāo)記)的位置關(guān)系。根據(jù)孟德?tīng)柗蛛x規(guī)律,當(dāng)同一染色體 上的位點(diǎn)不連鎖時(shí),遺傳標(biāo)記標(biāo)將獨(dú)立于致病基因而分離傳代,這個(gè)時(shí)候其與致病基因位 于同一染色體和不同染色體的機(jī)會(huì)各占一半,反之則表明連鎖的存在并獲得致病基因的位 置。連鎖分析得到致病基因所在的候選區(qū)域之后,對(duì)候選區(qū)域做單體型分析。根據(jù)父母以 及子代的傳代關(guān)系,把位于兩條同源染色體上的核苷酸類型推導(dǎo)區(qū)分開(kāi)來(lái),由位于同一條 染色體上不同SNP位點(diǎn)的核苷酸類型組成一條單體型,這個(gè)單體型可以代表相應(yīng)染色體區(qū) 段所攜帶的信息。基于這些單體型的傳遞分析稱為單體型分析。單體型分析的優(yōu)勢(shì)在于可 以彌補(bǔ)二態(tài)性的SNP做連鎖分析時(shí)雜合度不高的不足之處。5.致病基因的精密定位和測(cè)序驗(yàn)證必要時(shí),還可進(jìn)一步進(jìn)行致病基因所在區(qū)域的精密定位。可以選擇高密度SNP分 型、候選基因測(cè)序、對(duì)于定位區(qū)域設(shè)計(jì)探針進(jìn)行富集后再通過(guò)第二代測(cè)序直接定位易感基 因等方法。實(shí)施例1. SNP標(biāo)記位點(diǎn)的使用方法探針制備定制合成所有6001SNP位點(diǎn)的寡核苷酸探針(IIlumina分型體系)。寡 核苷酸探針為含有SNP位點(diǎn)及其上下游幾十bp的核苷酸序列,在SNP位點(diǎn)上含有和SNP 二 態(tài)堿基對(duì)應(yīng)互補(bǔ)的兩種堿基。因此對(duì)應(yīng)于一個(gè)SNP位點(diǎn),存在兩種單核苷酸探針。不同的 核苷酸探針制備公司對(duì)探針的處理有細(xì)微不同,通常是把合成的帶有SNP多態(tài)位點(diǎn)的寡核 苷酸探針固定在微小的磁珠上,并附著于特殊硅質(zhì)玻片的微孔中,或者直接固定于玻片上, 極小的空間可以放置大量探針,以此達(dá)到微芯片的高通量基因分型效率。家系樣本的采集和保藏嚴(yán)格記錄每個(gè)家系成員的表型癥狀,每個(gè)家系成員取外 周血5ml,用含有EDTA等抗血凝物質(zhì)的一次性真空抗凝采血管保存。為防止細(xì)胞破裂導(dǎo)致 DNA的降解等損失,用低溫保溫箱收集。取回的血液樣本如不及時(shí)提取DNA,應(yīng)暫時(shí)凍存保 藏于-80°C冰箱。基因組DNA提取使用血液樣本DNA提取商品試劑盒,提取所有樣本全基因組DNA 并測(cè)量DNA的終濃度。根據(jù)下一步基因分型實(shí)驗(yàn)的需要,提取的DNA濃度優(yōu)選在50ng/ μ 1 以上,總體積在20 μ 1以上。提取的DNA樣本保存于-20°C冰箱供下一步基因分型等實(shí)驗(yàn)用。基因分型采用核苷酸探針配套的基因分型相關(guān)試劑對(duì)樣本DNA進(jìn)行全基因組片 段擴(kuò)增,擴(kuò)增時(shí)間較長(zhǎng),可放置于穩(wěn)定環(huán)境過(guò)夜,獲得大量的全基因組DNA片段。擴(kuò)增得到 的DNA片段加至寡核苷酸探針?biāo)诘男酒d體上,使含有互補(bǔ)序列的核苷酸片段和探針充 分雜交結(jié)合,雜交過(guò)程過(guò)夜。雜交結(jié)束后,用洗脫試劑清除未結(jié)合到探針上的DNA片段。洗 脫之后進(jìn)行雜交結(jié)果的固定理。最后把芯片置于掃描儀器中讀取SNP位點(diǎn)的基因型。掃描 原理是在和寡核苷酸探針結(jié)合的DNA片段上加入了一種發(fā)光染料,當(dāng)激光探頭掃描時(shí),染 料發(fā)出的光被掃描儀記錄下來(lái),光信號(hào)經(jīng)過(guò)軟件的處理得到相應(yīng)SNP位點(diǎn)的堿基基因型。 實(shí)施例中采用Illumina公司的基因分型系統(tǒng),在Illumina BeadArray芯片平臺(tái)上進(jìn)行核苷酸擴(kuò)增,探針雜交和芯片掃描,最后獲得樣本DNA的基因分型信號(hào)。分型實(shí)驗(yàn)步驟如下UDNA樣品擴(kuò)增前的準(zhǔn)備將200ng的DNA樣品先進(jìn)行預(yù)變性使之變成單鏈,然后 中和變性劑,最后加入酶擴(kuò)增反應(yīng)混合液。2、DNA樣品37度孵育擴(kuò)增將加入擴(kuò)增反應(yīng)液的DNA樣品放入孵育箱中,37度反 應(yīng)20-24小時(shí)進(jìn)行全基因組擴(kuò)增。3、擴(kuò)增產(chǎn)物進(jìn)行酶切在全基因組擴(kuò)增的產(chǎn)物中加入酶切反應(yīng)物,使之變成幾百 堿基大小的片段。由于所用的酶具有非常好的特異性,因此該酶切過(guò)程不需要電泳來(lái)控制 酶切的反應(yīng)速度。4、酶切產(chǎn)物沉淀將酶切后的產(chǎn)物用異丙醇在高速離心作用下進(jìn)行沉淀,棄廢液, 并室溫干燥。5、溶解沉淀物加入雜交液,48度孵育1小時(shí),然后稍微震蕩使沉淀DNA充分溶 解、混勻。6、DNA樣品與芯片雜交將充分溶解后的DNA樣品在95度變性,然后加到芯片上, 使其均勻覆蓋在芯片表面,這樣能使樣品與芯片上的探針充分結(jié)合。最后將加好樣品的芯 片放入密閉的金屬盒,在雜交爐中48度雜交16-24小時(shí)。7、芯片洗脫雜交后的芯片放入洗盒中清洗,洗脫掉沒(méi)有雜交上或者雜交特異性 不好的樣品。8、單堿基延伸和染色以與芯片上探針雜交的基因組DNA為模板,進(jìn)行單堿基延 伸,延伸的堿基即為要檢測(cè)的堿基。由于延伸的堿基已經(jīng)提前進(jìn)行過(guò)修飾,因此只要加入染 料對(duì)其進(jìn)行標(biāo)記即可。9、芯片掃描結(jié)果分析標(biāo)記后的芯片經(jīng)過(guò)洗脫、固定、干燥即可進(jìn)行激光共聚焦掃 描,掃描后軟件分析得到分型結(jié)果。得到的6001SNP標(biāo)記位點(diǎn)的基因分型數(shù)據(jù)用來(lái)進(jìn)行連鎖分析定位致病基因。實(shí)施例2.使用標(biāo)記位點(diǎn)基因型進(jìn)行連鎖分析兩個(gè)視網(wǎng)膜色素變性家系致病因素的定位研究。實(shí)驗(yàn)對(duì)象兩個(gè)家系分別如圖4和圖5所示。第一個(gè)家系來(lái)自河北永清縣,包括 77個(gè)人,其中14人患病,共取到43個(gè)人的血樣,其中36人進(jìn)入實(shí)驗(yàn)和連鎖分析;第二個(gè)家 系在山東菏澤,包括59個(gè)人,其中12人患病,取到23人血樣,其中16人參與實(shí)驗(yàn)和分析過(guò) 程。兩個(gè)家系都沒(méi)有近親結(jié)婚的情況。根據(jù)家系特點(diǎn),兩個(gè)RP家系判定為常染色體顯性遺傳,有部分家系成員為疾病因 素的攜帶者,RP在兩個(gè)家系都表現(xiàn)為不完全外顯(incomplete penetrance) 0樣本DNA的制備如使用方式中所述,使用全血提取基因組DNA的試劑盒,提取所 有樣本的基因組DNA。電泳檢測(cè)DNA質(zhì)量,檢查DNA破碎和降解的程度。測(cè)量DNA的濃度, 對(duì)沒(méi)有達(dá)到50ng/y 1的樣本重新提取或者使用DNA濃縮試劑盒,DNA濃縮試劑盒可以提高 樣本DNA的濃度。提取好的樣本用雙蒸水稀釋到50ng/y 1,按照實(shí)施例1中所述的基因分 型方法可得到6001SNP標(biāo)記位點(diǎn)的基因型。得到6001SNP標(biāo)記位點(diǎn)的基因型數(shù)據(jù)之后,進(jìn)行數(shù)據(jù)處理和連鎖分析。數(shù)據(jù)質(zhì)量控制每個(gè)樣本的分型成功率(Call Rate)均在97%以上,絕大部分SNP
9位點(diǎn)被成功分型。去除在所有樣本中分型成功率低于95%的SNP位點(diǎn),成功率低的位點(diǎn),由 于數(shù)據(jù)的損失無(wú)法參與進(jìn)一步的數(shù)據(jù)分析過(guò)程。兩個(gè)RP家系的疾病表現(xiàn)為常染色體遺傳, 去掉X和Y性染色體上的標(biāo)記位點(diǎn),最后分別得到5619和5481個(gè)標(biāo)記SNP的分型數(shù)據(jù)。在統(tǒng)計(jì)和篩選基因分型數(shù)據(jù)之后,對(duì)家系基因型數(shù)據(jù)進(jìn)行初步分析,兩個(gè)家系標(biāo) 記位點(diǎn)的多態(tài)性分別如圖6和圖7所示,標(biāo)記SNP的MAF值大于0. 2的比率分別達(dá)到77. 0 % 和73. 2%。因?yàn)榧蚁禈颖驹谶z傳上的同質(zhì)性要顯著高于群體樣本,所以上述數(shù)據(jù)證明所挑 選的標(biāo)記位點(diǎn)集合在漢族人群中具有非常高的多態(tài)性,為后續(xù)數(shù)據(jù)分析提供了極為有效的 信息。所獲標(biāo)記位點(diǎn)基因型用于下一步連鎖分析。根據(jù)連鎖分析原理,使用SNP標(biāo)記集合的基因型和家系結(jié)構(gòu)信息,選擇連鎖分析 軟件分析分型數(shù)據(jù),獲得和疾病緊密連鎖的致病基因所在染色體片段。目前有很多軟件可 以完成這一計(jì)算過(guò)程,這里選擇Merlin軟件包做連鎖分析。根據(jù)軟件的輸入格式,使用字 符編程工具或文本編輯器把基因型數(shù)據(jù)和家系信息編輯為軟件可讀的形式。打開(kāi)Merlin 連鎖分析軟件包對(duì)3000和6001標(biāo)記SNP分別進(jìn)行全基因組連鎖分析[13]。根據(jù)Merlin 命令格式結(jié)合家系結(jié)構(gòu)特征,參數(shù)設(shè)置為多點(diǎn)連鎖分析,用1Mb大小的網(wǎng)格分割基因組,遺 傳模式為顯性遺傳。提取Merlin連鎖分析結(jié)果中LOD值為正的染色體區(qū)域并列于表1。LOD值 (Likelyhood ofOdds ratio)是公認(rèn)和廣泛采用的連鎖分析結(jié)果報(bào)告形式。如表1所示,兩 套SNP標(biāo)記位點(diǎn)集合都成功定位了染色體上有限的幾個(gè)疾病基因候選區(qū)域。候選區(qū)域的大 小范圍在幾至幾十Mb。在家系結(jié)構(gòu)不同的情況下,3000和6001SNP標(biāo)記集合的分析結(jié)果差 異大小有所不同,家系1的差異大于家系2。主要表現(xiàn)為6001比3000SNP位點(diǎn)排除掉更多 的和疾病連鎖的區(qū)域,得到更少的候選致病基因區(qū)域。另外在定位區(qū)域的大小上,6001位點(diǎn) 定位的候選區(qū)域包含在3000位點(diǎn)得到的候選區(qū)域之內(nèi),具有比3000SNP集合更好的定位效 率。表 權(quán)利要求
1.一種用于連鎖分析的SNP集合,包括至少100個(gè)SNP位點(diǎn),其特征在于所述的至少 100個(gè)SNP位點(diǎn)選自人類基因組。
2.根據(jù)權(quán)利要求1所述的用于連鎖分析的SNP集合,其特征在于所述的至少100個(gè) SNP位點(diǎn)位于人類基因組中的非基因區(qū)。
3.根據(jù)權(quán)利要求2所述的用于連鎖分析的SNP集合,其特征在于所述的人類基因組 為中國(guó)人基因組。
4.根據(jù)權(quán)利要求3所述的用于連鎖分析的SNP集合,其特征在于所述的中國(guó)人基因 組為漢族人基因組。
5.根據(jù)權(quán)利要求4所述的用于連鎖分析的SNP集合,其特征在于所述的至少100個(gè) SNP位點(diǎn)集合為選自說(shuō)明書附表所示的SNP位點(diǎn)組成的組。
6.根據(jù)權(quán)利要求4所述的用于連鎖分析的SNP集合,其特征在于所述的至少100個(gè) SNP位點(diǎn)的個(gè)數(shù)為6001,為說(shuō)明書附表中的所有SNP位點(diǎn)。
7.根據(jù)權(quán)利要求4所述的用于連鎖分析的SNP集合,其特征在于所述的至少100個(gè) SNP位點(diǎn)的個(gè)數(shù)為3000。
8.根據(jù)權(quán)利要求7所述的用于連鎖分析的SNP集合,其特征在于所述的用于連鎖分 析的SNP集合在人類基因組上的平均覆蓋密度為ISNP/IMb。
9.根據(jù)權(quán)利要求7所述的用于連鎖分析的SNP集合,其特征在于所述的3000個(gè)SNP 位點(diǎn)集合是指說(shuō)明書附表中索引是偶數(shù)的所有位點(diǎn)。
10.一種用于檢測(cè)權(quán)利要求1-9所述的SNP集合的芯片,其特征在于所述的芯片可以 用于相應(yīng)SNP位點(diǎn)的基因分型。
11.一種用于檢測(cè)權(quán)利要求1-9所述的SNP集合的試劑盒,其特征在于所述的試劑盒 可以用于所述的SNP位點(diǎn)的基因分型。
12.根據(jù)權(quán)利要求1-9所述的SNP集合的應(yīng)用。
13.根據(jù)權(quán)利要求12所述的應(yīng)用,其特征在于所述的應(yīng)用包含針對(duì)所述的SNP集合 進(jìn)行基因分型實(shí)驗(yàn)的步驟。
14.根據(jù)權(quán)利要求13所述的應(yīng)用,其特征在于所述的基因分型實(shí)驗(yàn)的步驟包括a) 制作基因分型用核苷酸探針和試劑;b)在基因分型系統(tǒng)上把探針和樣本雜交并掃描,獲得 所分析樣本在所述SNP位點(diǎn)處的基因型。
15.根據(jù)權(quán)利要求12-14所述的應(yīng)用,其特征在于被檢測(cè)的樣品為中國(guó)漢族人樣本。
16.根據(jù)權(quán)利要求1-9所述的SNP集合在人類疾病基因定位中的用途。
17.根據(jù)權(quán)利要求16所述的用途,其特征在于所述的用途是用于人類遺傳疾病研究 中的致病基因定位的連鎖分析過(guò)程。
全文摘要
中國(guó)人群連鎖分析SNP標(biāo)記集合及其使用方法與應(yīng)用在國(guó)際人類基因組單體型計(jì)劃產(chǎn)生的海量數(shù)據(jù)中有上億份涉及中國(guó)漢族人群的數(shù)據(jù)成果基礎(chǔ)上,根據(jù)連鎖不平衡性質(zhì)、多態(tài)性程度、分型成功率、基因組分布位置與密度、功能特性等多參量的統(tǒng)計(jì)比較和多層次挑選與實(shí)驗(yàn)驗(yàn)證,構(gòu)建并優(yōu)化了分別含有3000和6001位點(diǎn)的中、高密度兩套連鎖分析用SNP標(biāo)記集合。其中3000位點(diǎn)包含于6001位點(diǎn)中。該SNP集合在設(shè)計(jì)上強(qiáng)調(diào)針對(duì)漢族的遺傳背景,使其在中國(guó)人中具有高多態(tài)性,從而達(dá)到具有我國(guó)家系樣本基因組標(biāo)記的高效性這一目標(biāo)。多態(tài)位點(diǎn)的選擇基于中性進(jìn)化原則,全部位點(diǎn)位于非基因功能區(qū)以避免進(jìn)化對(duì)于基因功能的影響。同時(shí),標(biāo)記位點(diǎn)的高可分型檢測(cè)性、均勻覆蓋全基因組等特點(diǎn)為完整篩查整個(gè)基因組進(jìn)而定位和發(fā)現(xiàn)新的致病基因提供了可靠保障。用這兩套SNP標(biāo)記訂制探針或芯片針對(duì)家系樣本進(jìn)行全基因組基因分型,并用分型數(shù)據(jù)做連鎖分析,輔以連鎖候選區(qū)域的單體型分析和精細(xì)定位,能夠以較低的費(fèi)用和較快的速度得到比傳統(tǒng)方法更為精細(xì)的定位結(jié)果。附圖為6001 SNP標(biāo)記集合在人類染色體上的分布和覆蓋情況。
文檔編號(hào)C12Q1/68GK102121046SQ20091008746
公開(kāi)日2011年7月13日 申請(qǐng)日期2009年6月25日 優(yōu)先權(quán)日2009年6月25日
發(fā)明者不公告發(fā)明人 申請(qǐng)人:中國(guó)科學(xué)院北京基因組研究所, 首都醫(yī)科大學(xué)