一種高通量核酸分析方法及其應(yīng)用的制作方法
【專利摘要】本發(fā)明涉及一種高通量基因分析方法及其應(yīng)用,具體地,包括步驟:對于待分析的n種目的核酸片段,針對每個(gè)目的核酸片段,提供結(jié)合于所述目的核酸片段的不同結(jié)合區(qū)的至少2個(gè)特異探針,所述的各特異探針具有特異結(jié)合區(qū)和通用序列區(qū),并且所述的特異結(jié)合區(qū)的序列與目的核酸片段的結(jié)合區(qū)的序列互補(bǔ),而所述通用序列區(qū)的序列對應(yīng)于高通量單分子或單分子擴(kuò)增簇測序平臺(tái)的測序引物序列,其中n為≥40的正整數(shù);將含待分析的目的核酸片段的核酸樣本與所述探針雜交,并連接所述探針,從而獲得探針連接產(chǎn)物的混合物;用所述測序引物對探針連接產(chǎn)物混合物或其擴(kuò)增產(chǎn)物進(jìn)行測序,并進(jìn)行分析,從而實(shí)現(xiàn)高通量目的基因片段的定量分析的目的。
【專利說明】—種高通量核酸分析方法及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物【技術(shù)領(lǐng)域】和分子診斷領(lǐng)域,具體地,本發(fā)明涉及一種高通量核酸分析方法及其應(yīng)用。
【背景技術(shù)】
[0002]基因是遺傳的物質(zhì)基礎(chǔ),是DNA或RNA分子上具有遺傳信息的特定核苷酸序列。除了部分病毒遺傳物質(zhì)是RNA外,幾乎所有非病毒生物的遺傳物質(zhì)是DNA。不同物種都有其特異的基因序列,因此通過檢測樣品中的基因序列可以判斷樣品中存在的生物種性。
[0003]生命過程中,基因通過DNA轉(zhuǎn)錄成mRNA,然后以mRNA為模板,翻譯出有生物活性的蛋白質(zhì)分子,從而將貯存在DNA序列中遺傳信息表現(xiàn)出來。通過分析不同組織中各mRNA的量,并結(jié)合不同組織的生理功能差異,可以了解基因的功能,因此基因的表達(dá)分析是分子生物學(xué)研究基因功能最基本的研究手段之一。
[0004]基因的表達(dá)受到多種調(diào)控因子的共同協(xié)調(diào)作用,其中DNA的甲基化是調(diào)控基因表達(dá)的重要方式之一。DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變,從而達(dá)到控制基因表達(dá)的目的。絕大多數(shù)情況下,甲基化主要發(fā)生在CpG序列中的胞喃唳核苷酸的胞喃唳環(huán)的5位碳原子上。
[0005]另外,基因在復(fù)制過程中也會(huì)出現(xiàn)差錯(cuò)產(chǎn)生“突變”,這種突變包括點(diǎn)突變、大片段缺失/重復(fù)(稱為拷貝數(shù)多態(tài),CNV)、基因倒位或基因易位等。有的突變會(huì)嚴(yán)重影響關(guān)鍵基因的功能從而導(dǎo)致疾病,由于受到選擇作用,盡管這類突變在群體中的頻率非常低,相當(dāng)一部分突變由于并未嚴(yán)重影響基因功能或影響的基因并不對個(gè)體造成生存壓力,它們在群體中會(huì)保留下來并由于受到隨機(jī)漂變以及奠基者效應(yīng)發(fā)生頻率的改變,從而成為群體中的一種遺傳多態(tài),對于單堿基或寡堿基改變的多態(tài)被稱之為單核苷酸多態(tài)(SNP),而對于大區(qū)段的缺失或重復(fù)多態(tài)被稱之為拷貝數(shù)多態(tài)(CNP)。遺傳多態(tài)以及基因突變分析是研究基因功能以及遺傳性疾病的致病機(jī)理最常見的遺傳分析方法。
[0006]因此,基因鑒定、基因表達(dá)分析、DNA甲基化分析、突變篩查、SNP分型、CNP分型以及CNV檢測是重要的分子遺傳學(xué)研究手段,而且在臨床分子診斷上也有著廣泛的應(yīng)用。正因?yàn)檫@些遺傳分析的重要性,對于每一種分析,科學(xué)家及工程師們都開發(fā)出了多種檢測方法。
[0007]早期的檢測方法主要針對有限的目的片段分析。采用PCR擴(kuò)增對目標(biāo)基因鑒定,或采用實(shí)時(shí)熒光定量PCR進(jìn)行基因表達(dá)水平、病毒含量、基因拷貝數(shù)以及甲基化水平的鑒定。常見的DNA甲基化分析主要針對亞硫酸處理后的DNA進(jìn)行甲基化測序或甲基化特異PCR分析。突變篩查主要是采用PCR擴(kuò)增和Sanger法測序,然后通過比較測序序列與參照序列獲得突變情況。用于SNP檢測的方法也很多,如TaqMan探針等位基因檢測技術(shù)、限制性內(nèi)切酶反應(yīng)(RFLP)、高分辨率融解曲線反應(yīng)、單堿基延伸技術(shù)(飛行時(shí)間質(zhì)譜平臺(tái)、MultiplexSNaPshot)、高溫 連接酶檢測技術(shù)(LDR,SNPscan)等。中小通量CNV的檢測方法主要包括實(shí)時(shí)定量PCR、FISH、多重連接探針擴(kuò)增技術(shù)(MLPA)、多重?zé)晒飧偁嶱CR技術(shù)(AccuCopy)等。上述方法靈活性很高,但最大的缺陷是通量太低,對于需要檢測大量基因位點(diǎn)的研究項(xiàng)目或診斷需求時(shí)顯得無能為力。
[0008]微陣列芯片(Microarray)以高密度探針陣列為特征,這些微陣列上〃印〃有大量已知部分序列的DNA探針,利用分子雜交原理,將各種處理過的熒光標(biāo)記樣本與微陣列探針進(jìn)行雜交,然后經(jīng)過洗滌去除非特異雜交信號,最后用掃描儀進(jìn)行熒光檢測,根據(jù)熒光信號的強(qiáng)弱以及熒光信號所在的陣列位置確認(rèn)目的基因相關(guān)的信號量。該芯片能夠同時(shí)實(shí)現(xiàn)成千上萬甚至是數(shù)百萬基因片段或多態(tài)位點(diǎn)的分析,被廣泛應(yīng)用于物種鑒定、表達(dá)譜分析、高通量SNP分析、全基因組甲基化水平分析以及全基因組拷貝數(shù)分析等等。微陣列芯片最大的優(yōu)勢就是高通量,能夠在整個(gè)基因組水平上分析基因的變化,但其缺陷是由于普遍存在非特異性雜交,定量的準(zhǔn)確性較差,同時(shí)需要昂貴的雜交及掃描儀器,成本高而且定制芯片時(shí)間長費(fèi)用高,對未知基因無法實(shí)現(xiàn)檢測。
[0009]第二代測序技術(shù)的出現(xiàn)給基因檢測領(lǐng)域帶來個(gè)革命性的變化。第二代測序技術(shù)的主要原理為芯片單分子PCR擴(kuò)增后測序,如Illumina公司的MiSeq、GAIIx、Hiseq2000測序儀、ABI公司的1n PGM、Solid測序儀、Roche公司的454 GSFLX測序儀等。第二代測序技術(shù)能夠同時(shí)實(shí)現(xiàn)數(shù)百萬個(gè)甚至是數(shù)億個(gè)單分子擴(kuò)增產(chǎn)物的測序,它廣泛應(yīng)用于基因組重測序快速鑒定致病基因、轉(zhuǎn)錄組分析、甲基化譜、miCToRNA鑒定、全基因組水平的蛋白-DNA相互作用研究以及新物種的基因組測序等等。
[0010]新一代以單分子直接測序的技術(shù)也在快熟研究發(fā)展中,主要代表公司為PacificBiosciences及Helicos。這種高通量測序技術(shù)的最大的優(yōu)勢就是通量很大,而且能夠同時(shí)實(shí)現(xiàn)對已知或未知基因進(jìn)行鑒定并定量,應(yīng)此特異性及效率都非常高。但也存在一些不足之處,主要是相對于常規(guī)測序,下一代測序的準(zhǔn)確性稍差,單分子擴(kuò)增引入的突變對最后的結(jié)果分析會(huì)造成影響,再則該技術(shù)平臺(tái)適合整個(gè)基因組或轉(zhuǎn)錄組的檢測,如果要實(shí)現(xiàn)對目的區(qū)域或一組基因的檢測分析,需要事先對樣本進(jìn)行目的基因區(qū)段的富集。目前采用的富集方法有針對有限基因區(qū)域的多重PCR及微流體數(shù)字PCR等技術(shù),而針對大量基因區(qū)域方法主要是利用覆蓋目的區(qū)域的高密度探針序列與樣本進(jìn)行固相或液相雜交將目的區(qū)域富集。這些富集技術(shù)主要用于候選基因的突變檢測,但由于這些富集過程在一定程度上消除了產(chǎn)物與原始模板量的正比關(guān)系,因此不能準(zhǔn)確實(shí)現(xiàn)對富集的候選基因片段進(jìn)行定量分析,如表達(dá)量以及拷貝數(shù)分析。
[0011]因此目前本領(lǐng)域?qū)τ诨虻臋z測,特別是基因鑒定、基因表達(dá)分析、DNA甲基化分析、突變篩查、SNP分型、CNP分型以及CNV檢測中,尚缺乏有效的檢測方法,因此迫切需要開發(fā)一種有效的高通量基因分析方法。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的主要目的就是提供一種高通量基因分析方法及其應(yīng)用。
[0013]在本發(fā)明的第一方面,提供了一種高通量核酸分析方法,包括步驟:
[0014](I)對于待分析的η種目的核酸片段,針對每個(gè)目的核酸片段,提供結(jié)合于所述目的核酸片段的不同結(jié)合區(qū)的至少2個(gè)特異探針,所述的各特異探針具有特異結(jié)合區(qū)和通用序列區(qū),并且所述的特異結(jié)合區(qū)的序列與目的核酸片段的結(jié)合區(qū)的序列互補(bǔ),而所述通用序列區(qū)的序列對應(yīng)于測序引物的序列,其中η為> 40的正整數(shù);[0015](2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產(chǎn)物的混合物,其中各探針連接產(chǎn)物的3’和5’端都是序列對應(yīng)于測序引物序列的通用序列區(qū);
[0016](3)對步驟(2)的探針連接產(chǎn)物的混合物進(jìn)行測序,和/或分析,從而獲得目的核酸的信息。
[0017]在另一優(yōu)選例中,所述的測序引物為高通量單分子或單分子擴(kuò)增簇測序平臺(tái)的測序引物。
[0018]在另一優(yōu)選例中,η為≤100的正整數(shù),較佳地為:選自1000-10000的正整數(shù)。
[0019]在另一優(yōu)選例中,所述通用序列區(qū)的序列對應(yīng)于測序引物序列表示:通用序列區(qū)的序列與測序引物序列完全相同或至少8bp相同,或通用序列區(qū)的序列與測序引物序列完全互補(bǔ)或至少8bp互補(bǔ)。
[0020]在另一優(yōu)選例中,所述特異探針還具有選自下組的一個(gè)或多個(gè)特征:
[0021](I)所述特異探針的長度< lOObp,優(yōu)選地為30_70bp,更優(yōu)選為40_50bp。
[0022](2)所述特異探針的特異結(jié)合區(qū)的長度為≤50bp,優(yōu)選地為15_35bp,更優(yōu)選為20_25bpo
[0023](3)特異探針的通用序列區(qū)長度為≥8bp,優(yōu)選地為15-35bp,更優(yōu)選為20_25bp。
[0024](4)所述特異探針的通用序列區(qū)的序列還對應(yīng)于擴(kuò)增引物序列;
[0025]( 5 )所述特異探針包括標(biāo)簽序列。
[0026]在另一優(yōu)選例中,所述的標(biāo)簽序列為一段(優(yōu)選3個(gè)一30個(gè),更優(yōu)選6個(gè)-9個(gè))特異堿基組成的序列,用于區(qū)別不同樣本來源的探針連接產(chǎn)物。
[0027]在另一優(yōu)選例中,每個(gè)目的核酸片段對應(yīng)的2個(gè)探針為:5’端探針和3’端探針,所述的5’端探針能夠與位于待分析的目的核酸片段3’端的結(jié)合區(qū)互補(bǔ),所述的3’端探針能夠與位于待分析的目的核酸片段5’端的結(jié)合區(qū)互補(bǔ)。
[0028]在另一優(yōu)選例中,所述5’端探針或3’端探針的結(jié)構(gòu)如式I所示:
[0029]5’ -A—L—B-3,
[0030]式I
[0031]在式I中,
[0032]A代表通用序列區(qū);
[0033]B代表特異結(jié)合區(qū);
[0034]L代表A與B的核酸連接序列;
[0035]其中,A與B位置可以互換。
[0036]在另一優(yōu)選例中,所述的L為O個(gè)堿基。
[0037]在另一優(yōu)選例中,5’端探針和3’端探針之間的連接關(guān)系選自以下其中一組或多組:
[0038](a) 5’端探針和3’端探針為緊鄰探針:即所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,二者之間距離O個(gè)堿基,在連接酶的作用下進(jìn)行連接,從而獲得探針連接產(chǎn)物;
[0039](b) 5’端探針和3’端探針距離1-500個(gè)堿基:所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,在DNA聚合酶和連接酶的作用下進(jìn)行間隙聚合和連接,從而獲得探針連接產(chǎn)物;
[0040](c)雜交體系除了 5’端探針和3’端探針外,還包括探針3,探針3分別與5’端探針和3’端探針緊鄰,所述的三個(gè)探針與待分析的目的核酸片段雜交后,在連接酶的作用下連接,從而獲得探針連接產(chǎn)物。
[0041 ] 在另一優(yōu)選例中,所述探針3長度為l_500bp,優(yōu)選地15_35bp,更佳地為20_25bp。
[0042]在另一優(yōu)選例中,對(a)中所述的3’端探針的5’端進(jìn)行磷酸化修飾。
[0043]在另一優(yōu)選例中,對(a)中所述的3’端探針的3’端和5’端探針的5’端進(jìn)行抗核酸外切酶的修飾保護(hù)。
[0044]在另一優(yōu)選例中,所述的抗核酸外切酶修飾為硫代修飾。
[0045]在另一優(yōu)選例中,在(b)中,5’端探針和3’端探針優(yōu)選距離為1-10個(gè)堿基。
[0046]在另一優(yōu)選例中,在(b)中,所述的DNA聚合酶沒有5’ -3’外切酶活性。
[0047]在另一優(yōu)選例中,步驟(2)和步驟(3)之間還包括步驟:對步驟(2)的獲得的探針連接產(chǎn)物進(jìn)行擴(kuò)增。
[0048]在另一優(yōu)選例中,在步驟(3)中,對步驟(2)獲得的探針連接產(chǎn)物的混合物,直接利用高通量單分子或單分子擴(kuò)增簇測序平臺(tái)進(jìn)行測序;或?qū)μ结樳B接產(chǎn)物的混合物的擴(kuò)增產(chǎn)物,利用高通量單分子或單分子擴(kuò)增簇測序平臺(tái)進(jìn)行測序。
[0049]在另一優(yōu)選例中,在步驟(3)中,用第三代測序技術(shù)或第二代測序技術(shù)對探針連接產(chǎn)物的混合物或其擴(kuò)增產(chǎn)物進(jìn)行測序和分析。
[0050]在另一優(yōu)選例中,步驟(3)中,所述的獲得目的核酸的信息是指任選自下組的一個(gè)或多個(gè)信息=SNP分型信息、DNA甲基化信息、突變篩查信息、CNP分型信息、CNV信息、病原微生物基因信息、轉(zhuǎn)基因動(dòng)植物產(chǎn)品基因信息、基因表達(dá)水平。
[0051]在本發(fā)明的第二方面,提供了一種高通量SNP分型方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和SNP分析,獲得目的核酸的SNP分型信息。
[0052]在另一優(yōu)選例中,所述的高通量SNP分型方法包括步驟:
[0053](1)對于待分析的η種目的核酸片段,針對每個(gè)目的核酸片段,提供結(jié)合于所述目的核酸片段的不同結(jié)合區(qū)的3個(gè)特異探針:2個(gè)5’端探針和1個(gè)3’端探針,所述的5’端探針為等位基因特異性探針,并且最后一個(gè)喊基對應(yīng)相應(yīng)的等位基因喊基,所述的3’端探針為共用探針,其中η為> 40的正整數(shù);
[0054](2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產(chǎn)物的混合物,其中各探針連接產(chǎn)物的3’和5’端都是序列對應(yīng)于測序引物序列的通用序列區(qū);
[0055](3)用所述測序引物,對步驟(2)的探針連接產(chǎn)物的混合物進(jìn)行測序和分析,獲得目的核酸的SNP分型信息。
[0056]在本發(fā)明的第三方面,提供了一種檢測CNV的方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和CNV分析,獲得目的核酸的CNV信息。
[0057]在另一優(yōu)選例中,所述的檢測CNV的方法包括步驟:[0058](I)每個(gè)目的基因片段設(shè)計(jì)特異性探針(優(yōu)選地設(shè)計(jì)2條探針,I個(gè)5’端探針以及I個(gè)3’端探針);
[0059](2)將所有目的基因片段的連接探針與DNA模板變性_復(fù)性_連接(優(yōu)選進(jìn)行多次變性-復(fù)性-連接循環(huán));
[0060](3)連接產(chǎn)物PCR擴(kuò)增或不擴(kuò)增直接用核酸酶消化,將不同樣本的擴(kuò)增產(chǎn)物混合后進(jìn)行下一代高通量芯片測序;
[0061](4)測序數(shù)據(jù)分析,獲得樣本的目的基因拷貝數(shù)。
[0062]在本發(fā)明的第四方面,提供了一種高通量甲基化分析方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和甲基化分析,獲得目的核酸的甲基化信息。
[0063]在另一優(yōu)選例中,所述高通量甲基化分析方法包括步驟:對基因組DNA采用甲基化敏感的限制性內(nèi)切酶進(jìn)行處理,針對切點(diǎn)處設(shè)計(jì)探針,用權(quán)利要求1所述的方法檢測未被切斷的基因組DNA量。
[0064]在另一優(yōu)選例中,所述高通量甲基化分析方法包括步驟:對基因組DNA進(jìn)行亞硫酸鹽處理,針對目的基因片段分別設(shè)計(jì)甲基化特異探針及非甲基化特異探針,通過檢測兩種探針的連接產(chǎn)物量,獲得基目的基因區(qū)段的甲基化水平。
[0065]在本發(fā)明的第五方面,提供了一種基因表達(dá)檢測方法,包括步驟:使用第一方面所述的方法進(jìn)行檢測。
[0066]應(yīng)理解,在本發(fā)明范圍內(nèi)中,本發(fā)明的上述各技術(shù)特征和在下文(如實(shí)施例)中具體描述的各技術(shù)特征之間都可以互相組合,從而構(gòu)成新的或優(yōu)選的技術(shù)方案。限于篇幅,在
此不再一一累述。
【專利附圖】
【附圖說明】
[0067]下列附圖用于說明本發(fā)明的具體實(shí)施方案,而不用于限定由權(quán)利要求書所界定的本發(fā)明范圍。
[0068]圖1顯示了本發(fā)明一個(gè)具體實(shí)施例中高通量測定的技術(shù)思路I。
[0069]圖2顯示了本發(fā)明一個(gè)具體實(shí)施例中高通量測定的技術(shù)思路2。
[0070]圖3顯示基于單分子直接或擴(kuò)增后測序的高通量連接產(chǎn)物檢測技術(shù)用于高通量SNP分型的流程。
[0071]圖4顯示基于單分子直接或擴(kuò)增后測序的高通量連接產(chǎn)物檢測技術(shù)用于高通量CNV檢測的流程。
[0072]圖5顯示基于單分子直接或擴(kuò)增后測序的高通量連接產(chǎn)物檢測技術(shù)用于高通量目的基因突變篩查的流程。
[0073]圖6顯示基于單分子直接或擴(kuò)增后測序的高通量連接產(chǎn)物檢測技術(shù)用于高通量候選基因表達(dá)分析的流程。
[0074]圖7顯示基于單分子直接或擴(kuò)增后測序的高通量連接產(chǎn)物檢測技術(shù)用于高通量基因甲基化水平分析的流程。
[0075]圖8顯示實(shí)施例2中DMD基因外顯子缺失重復(fù)的檢測結(jié)果。【具體實(shí)施方式】
[0076]本發(fā)明人經(jīng)過廣泛而深入的研究,首次利用多重連接探針擴(kuò)增技術(shù)的高特異性以及對目的片段的數(shù)量信息的良好保存特性,利用下一代高通量測序技術(shù)平臺(tái)對連接探針擴(kuò)增產(chǎn)物進(jìn)行測序鑒定并定量,從而實(shí)現(xiàn)高通量目的基因片段的定量分析。在此基礎(chǔ)上完成了本發(fā)明。
[0077]具體地,包括步驟:對于待分析的η種目的核酸片段,針對每個(gè)目的核酸片段,提供結(jié)合于所述目的核酸片段的不同結(jié)合區(qū)的至少2個(gè)特異探針,所述的各特異探針具有特異結(jié)合區(qū)和通用序列區(qū),并且所述的特異結(jié)合區(qū)的序列與目的核酸片段的結(jié)合區(qū)的序列互補(bǔ),而所述通用序列區(qū)的序列對應(yīng)于測序引物序列,其中η為>40的正整數(shù);將含待分析的目的核酸片段的核酸樣本與所述探針雜交,并連接所述探針,從而獲得探針連接產(chǎn)物的混合物,其中各探針連接產(chǎn)物的3’和5’端都是序列對應(yīng)于測序引物序列的通用序列區(qū);用所述測序引物,對探針連接產(chǎn)物的混合物進(jìn)行測序,并進(jìn)行分析,從而實(shí)現(xiàn)高通量目的基因片段的定量分析。
[0078]多重連接探針擴(kuò)增(MLPA )
[0079]多重連接探針擴(kuò)增是一種能準(zhǔn)確檢測目的基因片段分子數(shù)目的技術(shù),其基本流程包括探針和靶核酸序列進(jìn)行雜交,之后通過連接、PCR擴(kuò)增,產(chǎn)物毛細(xì)管電泳并收集數(shù)據(jù),分析軟件對收集的數(shù)據(jù)進(jìn)行分析最后得出結(jié)論。
[0080]MLPA探針是一條包括一段引物序列和一段特異性序列的寡核苷酸片段。在MLPA反應(yīng)中,這兩者都與靶序列進(jìn)行雜交,之后使用連接酶連接兩部分探針。連接反應(yīng)高度特異,只有當(dāng)兩個(gè)探針與靶序列完全雜交,即靶序列與探針特異性序列完全互補(bǔ),連接酶才能將兩段探針連接成一條完整的核酸單鏈;反之,如果靶序列與探針序列不完全互補(bǔ),即使只有一個(gè)堿基的差別,就會(huì)導(dǎo)致雜交不完全,使連接反應(yīng)無法進(jìn)行或連接效率大大下降。
[0081]連接反應(yīng)完成后,用一對通用引物擴(kuò)增連接好的探針,每個(gè)探針的擴(kuò)增產(chǎn)物的長度都是唯一的,范圍在100~480個(gè)堿基對,然后通過毛細(xì)管電泳分離擴(kuò)增產(chǎn)物,專用軟件分析,得出結(jié)論。
[0082]只有當(dāng)連接反應(yīng)完成,才能進(jìn)行隨后的PCR擴(kuò)增,并收集到相應(yīng)探針的擴(kuò)增峰,如果檢測的靶序列發(fā)生點(diǎn)突變或缺失、擴(kuò)增突變,那么相應(yīng)探針的擴(kuò)增峰便會(huì)缺失、降低或增加,因此,根據(jù)擴(kuò)增峰的改變就可判斷靶序列是否有拷貝數(shù)的異常或點(diǎn)突變存在。
[0083]多重連接探針擴(kuò)增技術(shù)的優(yōu)點(diǎn)是探針連接的特異性很高,因此在一個(gè)體系中能同時(shí)實(shí)現(xiàn)多個(gè)目的基因片段的分析,而且連接產(chǎn)物的量與原始模板量之間存在正比關(guān)系,同時(shí)由于不同基因片段的連接產(chǎn)物采用通用引物擴(kuò)增,因此擴(kuò)增產(chǎn)物的量很好地保留了原始模板的量的信息,利用該方法能夠通過連接PCR產(chǎn)物終端分析檢測原始模板目的基因的量。
[0084]多重連接探針擴(kuò)增已經(jīng)應(yīng)用于多個(gè)領(lǐng)域研究,包括染色體非整倍體改變,SNP、點(diǎn)突變、染色體亞端粒的基因重排,以及常見的兒童遺傳性疾病的檢測。
[0085]該方法的不足之處主要在于:1、連接產(chǎn)物通常長度不同,而且采用一對通用PCR熒光引物進(jìn)行擴(kuò)增,根據(jù)熒光標(biāo)記PCR產(chǎn)物長度不同采用電泳技術(shù)進(jìn)行不同位點(diǎn)的擴(kuò)增量進(jìn)行確定,這樣大大限制了一個(gè)反應(yīng)體系檢測位點(diǎn)的數(shù)量,同時(shí)只能檢測40-50個(gè)核苷酸序列,通量較低;2、連接探針序列通常很長OlOObp),不能直接合成,只能利用Μ13克隆制備,比較繁瑣;3、連接探針序列很長,而且不同位點(diǎn)的連接探針及連接產(chǎn)物長度差別可達(dá)數(shù)百個(gè)堿基,這樣不同位點(diǎn)間的連接效率及擴(kuò)增效率都會(huì)存在較大差異和波動(dòng),從而影響檢測準(zhǔn)確性。
[0086]高通量基因分析方法
[0087]本發(fā)明提供了一種高通量基因分析方法。該方法的技術(shù)思路如下:
[0088]思路1 (圖1):以分析兩個(gè)目的基因片段(Fl和F2)為例,包括下述步驟:
[0089]1.針對目的核酸片段設(shè)計(jì)特異性DNA探針,探針的設(shè)計(jì)有三種可選方法:
[0090]第一種方法是針對每一個(gè)目的片段設(shè)計(jì)兩個(gè)緊鄰探針(探針I(yè)和探針2),一個(gè)是5’端探針(即探針1),另一個(gè)是3’端探針(即探針2)。5’端探針前半部分序列(探針I(yè)的a)是后續(xù)PCR擴(kuò)增引物相一致的通用序列,而后半部分(探針I(yè)的bl)為與目的核酸片段雜交的特異序列。3’端探針的5’端進(jìn)行磷酸化修飾,前半部分(探針2的bl)為與目的核酸片段雜交的特異序列,后半部分(探針2的a)是后續(xù)PCR擴(kuò)增引物相一致的通用序列。這兩個(gè)探針與模板DNA雜交后,在連接酶作用下進(jìn)行連接。
[0091]第二種方法同樣設(shè)計(jì)兩個(gè)探針(探針I(yè)和探針2),探針的結(jié)構(gòu)同方法一,但這兩個(gè)探針之間有數(shù)個(gè)至數(shù)十個(gè)堿基距離(該距離可選l_500bp,較佳地Ι-lObp),探針與模板DNA雜交后,在沒有5’->3’外切酶活性的聚合酶作用下延伸,將兩個(gè)探針之間的間隙補(bǔ)上,并連接酶作用下進(jìn)行連接。
[0092]第三種方法是設(shè)計(jì)3對探針(探針1、探針2和探針3),5’端及3’端探針(探針I(yè)和探針2)的結(jié)構(gòu)同方法一,但這兩個(gè)探針之間有數(shù)十個(gè)至數(shù)百個(gè)堿基距離(較佳地20-25bp),中間探針(探針3)的5’端磷酸化,正好與5’端及3’端探針的間隙匹配,三個(gè)探針與模板DNA雜交后在連接酶作用下進(jìn)行連接。為了增加連接產(chǎn)物的量,優(yōu)選利用高溫耐熱聚合酶如Taq DNA Iigase進(jìn)行變性-復(fù)性-連接多次循環(huán)。
[0093]2.利用一對與下一代測序平臺(tái)擴(kuò)增引物或測序引物相匹配的PCR引物,對連接產(chǎn)物進(jìn)行擴(kuò)增,獲得含有完整特異序列的目的基因片段。
[0094]優(yōu)選地,PCR引物具有一段數(shù)個(gè)至數(shù)十個(gè)堿基長度的標(biāo)簽序列(即index),不同樣本的連接產(chǎn)物可以用帶有不同標(biāo)簽序列的PCR引物進(jìn)行擴(kuò)增,這樣不同樣本的擴(kuò)增產(chǎn)物可以混合在一起,在后續(xù)測序數(shù)據(jù)中根據(jù)該標(biāo)簽序列將測序序列歸類到不同樣本中去。
[0095]3.連接探針擴(kuò)增產(chǎn)物利用下一代高通量芯片測序平臺(tái)進(jìn)行單分子擴(kuò)增測序或直接單分子測序;
[0096]4.對測序數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)測序序列的樣本歸類,基因位點(diǎn)歸類以及各個(gè)基因片段對應(yīng)連接產(chǎn)物定量。
[0097]首先根據(jù)標(biāo)簽序列將測序獲得的序列歸到相應(yīng)的樣本上,然后根據(jù)每個(gè)序列的堿基組成將其歸到相應(yīng)基因片段的連接產(chǎn)物上,統(tǒng)計(jì)每個(gè)連接產(chǎn)物的測序序列數(shù)目可以估計(jì)該基因片段連接產(chǎn)物的相對量。
[0098]思路2 (圖2):以分析兩個(gè)目的基因片段(Fl和F2)為例,包括下述步驟:
[0099]1.針對目的核酸片段設(shè)計(jì)特異性DNA探針,探針的設(shè)計(jì)有三種可選方法:
[0100]第一種方法是設(shè)計(jì)兩個(gè)緊鄰探針(探針I(yè)和探針2),一個(gè)是5’端探針(探針1),另一個(gè)3’端探針(探針2)。5’端探針前半部分序列是與下一代測序平臺(tái)擴(kuò)增引物或測序引物相匹配的通用序列,而后半部分為與目的核酸片段雜交的特異序列,3’端探針的5’端進(jìn)行磷酸化修飾,前半部分為與目的核酸片段雜交的特異序列,后半部分是與下一代測序平臺(tái)擴(kuò)增引物或測序引物相匹配的通用序列,5’端探針的5’末端幾個(gè)堿基進(jìn)行硫代修飾或其它保護(hù)基團(tuán)修飾免受核算外切酶降解,3’端探針的3’末端幾個(gè)堿基進(jìn)行硫代修飾或其它保護(hù)基團(tuán)修飾免受核算外切酶降解,這兩個(gè)探針與模板DNA雜交后在連接酶作用下進(jìn)行連接。
[0101]第二種方法同樣設(shè)計(jì)兩個(gè)探針,探針結(jié)構(gòu)同方法一,但這兩個(gè)探針之間有數(shù)個(gè)至數(shù)十個(gè)堿基距離(該距離可選l_500bp,較佳地Ι-lObp)),探針與模板DNA雜交后,在沒有5’ ->3’外切酶活性的聚合酶作用下延伸,將兩個(gè)探針間隙補(bǔ)上,然后在連接酶作用下進(jìn)行連接。
[0102]第三種方法是設(shè)計(jì)3對探針,5’端及3’端探針結(jié)構(gòu)同方法一,但這兩個(gè)探針之間有數(shù)十個(gè)至數(shù)百個(gè)堿基距離(較佳地20-25bp),中間探針5’端磷酸化,正好與5’端及3’端探針的間隙匹配。通常情況下,5’端或3’端探針會(huì)加上一段數(shù)個(gè)至數(shù)十個(gè)堿基長度的標(biāo)簽序列,不同樣本的連接產(chǎn)物帶不同標(biāo)簽序列,這樣不同樣本的連接產(chǎn)物可以混合在一起,在后續(xù)測序數(shù)據(jù)中可以根據(jù)該標(biāo)簽序列將測序序列歸類到不同樣本中去。三個(gè)探針與模板DNA雜交后在連接酶作用下進(jìn)行連接,為了增加連接產(chǎn)物的量,可以利用高溫耐熱聚合酶如Taq DNA Iigase進(jìn)行變性_復(fù)性_連接多次循環(huán)。
[0103]2.連接反應(yīng)產(chǎn)物用各種核酸外切酶聯(lián)合作用如核酸外切酶I (exonucleasel)、核酸外切酶III (exonuclease III)及λ核酸外切酶(lamda exonuclease)共同消化處理,將所有非連接產(chǎn)物的單鏈或雙鏈DNA去除后純化(去除非連接產(chǎn)物的所有核酸序列,可不需要連接產(chǎn)物PCR擴(kuò)增的步驟,測序結(jié)果能夠更真實(shí)反應(yīng)連接產(chǎn)物信息)。
[0104]3.非擴(kuò)增連接產(chǎn)物直接用下一代高通量芯片測序平臺(tái)進(jìn)行單分子擴(kuò)增測序或直接單分子測序。
[0105]4.對測序數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)測序序列的樣本歸類,基因位點(diǎn)歸類以及各個(gè)基因片段對應(yīng)連接產(chǎn)物定量:首先根據(jù)標(biāo)簽序列將測序獲得的序列歸到相應(yīng)的樣本上,然后根據(jù)每個(gè)序列的堿基組成將其歸到相應(yīng)基因片段的連接產(chǎn)物上,統(tǒng)計(jì)每個(gè)連接產(chǎn)物的測序序列數(shù)目可以估計(jì)該基因片段連接產(chǎn)物的相對量。
[0106]引物
[0107]如本文所用,術(shù)語“引物”指的是能與模板互補(bǔ)配對,在DNA聚合酶的作用合成與模板互補(bǔ)的DNA鏈的寡聚核苷酸的總稱。引物可以是天然的RNA、DNA,也可以是任何形式的天然核苷酸,引物甚至可以是非天然的核苷酸如LNA或ZNA等。
[0108]引物“大致上”(或“基本上”)與模板上一條鏈上的一個(gè)特殊的序列互補(bǔ)。引物必須與模板上的一條鏈充分互補(bǔ)才能開始延伸,但引物的序列不必與模板的序列完全互補(bǔ)。t匕如,在一個(gè)3’端與模板互補(bǔ)的引物的5’端加上一段與模板不互補(bǔ)的序列,這樣的引物仍大致上與模板互補(bǔ)。只要有足夠長的引物能與模板充分的結(jié)合,非完全互補(bǔ)的引物也可以與模板形成引物-模板復(fù)合物,從而進(jìn)行擴(kuò)增。
[0109]在本發(fā)明中,引物包括(但不限于):簡并引物、測序引物、接頭引物等。本領(lǐng)域的普通技術(shù)人員可以使用常規(guī)方法進(jìn)行引物的設(shè)計(jì)和優(yōu)化。
[0110]高通量測序
[0111]基因組的“再測序”使得人類能夠盡早地發(fā)現(xiàn)與疾病相關(guān)基因的異常變化,有助于對個(gè)體疾病的診斷和治療進(jìn)行深入的研究。
[0112]本領(lǐng)域技術(shù)人員通常可以采用三種第二代測序平臺(tái)進(jìn)行高通量測序:454FLX(Roche 公司)、Solexa Genome Analyzer (Illumina 公司)和 Applied Biosystems公司的SOLID等。這些平臺(tái)共同的特點(diǎn)是極高的測序通量,相對于傳統(tǒng)測序的96道毛細(xì)管測序,高通量測序一次實(shí)驗(yàn)可以讀取40萬到30億條序列,根據(jù)平臺(tái)的不同,讀取長度從25bp到450bp不等,因此不同的測序平臺(tái)在一次實(shí)驗(yàn)中,可以讀取IG到300G不等的堿基數(shù)。
[0113]Solexa高通量測序包括DNA簇形成和上機(jī)測序兩個(gè)步驟:PCR擴(kuò)增產(chǎn)物的混合物與固相載體上固定的測序探針進(jìn)行雜交,并進(jìn)行固相橋式PCR擴(kuò)增,形成測序簇;對所述測序簇用“邊合成-邊測序法”進(jìn)行測序,從而得到樣本中疾病相關(guān)核酸分子的核苷酸序列。
[0114]DNA簇的形成是使用表面連有一層單鏈引物(primer)的測序芯片(flow cell),單鏈狀態(tài)的DNA片段通過接頭序列與芯片表面的引物通過堿基互補(bǔ)配對的原理被固定在芯片的表面,通過擴(kuò)增反應(yīng),固定的單鏈DNA變?yōu)殡p鏈DNA,雙鏈再次變性成為單鏈,其一端錨定在測序芯片上,另一端隨機(jī)和附近的另一個(gè)引物互補(bǔ)從而被錨定,形成“橋”;在測序芯片上同時(shí)有上千萬個(gè)DNA單分子發(fā)生以上的反應(yīng);形成的單鏈橋,以周圍的引物為擴(kuò)增引物,在擴(kuò)增芯片的表面再次擴(kuò)增,形成雙鏈,雙鏈經(jīng)變性成單鏈,再次成為橋,稱為下一輪擴(kuò)增的模板繼續(xù)擴(kuò)增;反復(fù)進(jìn)行了 30輪擴(kuò)增后,每個(gè)單分子得到1000倍擴(kuò)增,稱為單克隆的DNA 簇。
[0115]DNA簇在Solexa測序儀上進(jìn)行邊合成邊測序,測序反應(yīng)中,四種堿基分別標(biāo)記不同的熒光,每個(gè)堿基末端被保護(hù)堿基封閉,單次反應(yīng)只能加入一個(gè)堿基,經(jīng)過掃描,讀取該次反應(yīng)的顏色后,該保護(hù)集團(tuán)被除去,下一個(gè)反應(yīng)可以繼續(xù)進(jìn)行,如此反復(fù),即得到堿基的精確序列。在Solexa多重測序(MultiplexedSequencing)過程中會(huì)使用Index(標(biāo)簽orbarcode)來區(qū)分樣品,并在常規(guī)測序完成后,針對Index部分額外進(jìn)行7個(gè)循環(huán)的測序,通過Index的識別,可以在I條測序甬道中區(qū)分高達(dá)1000種以上不同的樣品。
[0116]應(yīng)用
[0117]本發(fā)明還提供了所述高通量基因分析方法的應(yīng)用。
[0118]SNP 分型
[0119]使用本發(fā)明的方法檢測SNP,每個(gè)反應(yīng)可檢測成百上千甚至是成千上萬個(gè)SNP位點(diǎn)。在一個(gè)具體的實(shí)施例中,步驟如下(圖3):
[0120]1.每個(gè)SNP位點(diǎn)優(yōu)選地設(shè)計(jì)3條探針,2個(gè)5’端等位基因特異性探針以及I個(gè)3’端共用探針,每個(gè)等位基因特異性探針的最后一個(gè)堿基對應(yīng)相應(yīng)的等位基因堿基,為了增加連接的特異性,在該探針的倒數(shù)第2-4位中的某一處改變堿基引入額外的不匹配增加連接的特異性;
[0121 ] 2.將所有SNP位點(diǎn)的連接探針與DNA模板進(jìn)行變性-復(fù)性-連接,為了增加連接產(chǎn)物的量,可進(jìn)行多次變性-復(fù)性-連接循環(huán);
[0122]3.連接產(chǎn)物PCR進(jìn)行擴(kuò) 增,或不擴(kuò)增直接用核算酶消化純化,不同樣本的擴(kuò)增產(chǎn)物混合后進(jìn)行下一代高通量芯片測序;
[0123]4.測序數(shù)據(jù)分析,根據(jù)兩個(gè)等位基因連接產(chǎn)物的比例進(jìn)行基因型判讀,或者在出現(xiàn)非特異連接情況下,可取多個(gè)樣本的兩個(gè)連接產(chǎn)物數(shù)量數(shù)據(jù)進(jìn)行聚類分析(預(yù)計(jì)會(huì)有3個(gè)聚集區(qū),對應(yīng)三種基因型),根據(jù)聚類結(jié)果進(jìn)行基因型判讀。
[0124]CNV 檢測
[0125]使用本發(fā)明的方法檢測CNV,每個(gè)反應(yīng)可檢測成百上千甚至是成千上萬個(gè)目的基因片段。在一個(gè)具體的實(shí)施例中,步驟如下(圖4):
[0126]1.每個(gè)反應(yīng)體系至少包含I個(gè)參照基因片段,參照基因片段是認(rèn)為在檢測物種群體中不存在拷貝數(shù)多態(tài)的基因片段,用于校正不同樣本的取樣差異;
[0127]2.每個(gè)目的基因或參照基因片段優(yōu)選地設(shè)計(jì)2條探針,I個(gè)5’端探針以及I個(gè)3’端探針;
[0128]3.將所有目的基因或參照基因片段的連接探針與DNA模板變性-復(fù)性-連接,為了增加連接產(chǎn)物的量,可進(jìn)行多次變性-復(fù)性-連接循環(huán);
[0129]4.連接產(chǎn)物PCR擴(kuò)增或不擴(kuò)增直接用核酸酶消化,不同樣本的擴(kuò)增產(chǎn)物混合后進(jìn)行下一代高通量芯片測序;
[0130]5.測序數(shù)據(jù)分析:將每個(gè)目的基因?qū)?yīng)連接產(chǎn)物的檢測數(shù)量除以參照基因片段連接產(chǎn)物的檢測數(shù)量獲得校正值R如圖中NT1/NK1,然后將該R值除以參照樣本的R值后獲得校正值RR,如果參照基因多于I個(gè),則對每個(gè)參照基因片段都計(jì)算一個(gè)RR值,然后取其中位數(shù)即為該目的基因的相對拷貝數(shù)值,將該數(shù)值乘以參照樣本的拷貝數(shù)即獲得該樣本的目的基因拷貝數(shù)如圖中CNT1。
[0131]目的基因突變篩查
[0132]使用本發(fā)明的方法篩查目的基因突變(圖5),在一個(gè)具體的實(shí)施例中,步驟如下:由于連接探針對應(yīng)DNA模板如果出現(xiàn)顯突變會(huì)嚴(yán)重降低連接效率,針對目的區(qū)域設(shè)計(jì)高密度平鋪探針,采用CNV檢測的檢測步驟與數(shù)據(jù)分析方法獲得每個(gè)探針區(qū)域的拷貝數(shù),對于拷貝數(shù)偏離正常值的探針區(qū)域可作為存在突變位點(diǎn)的候選區(qū)域,該區(qū)域可用常規(guī)測序進(jìn)行驗(yàn)證。
[0133]多重候選基因表達(dá)水平分析
[0134]使用本發(fā)明的方法分析多重候選基因表達(dá)水平(圖6),每個(gè)反應(yīng)可檢測成百上千甚至是成千上萬個(gè)目的基因的表達(dá)水平。在一個(gè)具體的實(shí)施例中,步驟如下:針對每個(gè)基因可設(shè)計(jì)多個(gè)探針,可區(qū)分不同剪切體的表達(dá)比例,以反轉(zhuǎn)錄獲得的cDNA或直接以RNA為模板進(jìn)行探針連接,連接產(chǎn)物擴(kuò)增后進(jìn)行進(jìn)行下一代高通量芯片測序。測序結(jié)果進(jìn)行分析,每個(gè)基因目的區(qū)域的連接產(chǎn)物數(shù)量經(jīng)多個(gè)參照基因校正后可取中位數(shù)作為該基因相對表達(dá)水平,用于不同樣本間該基因表達(dá)水平的差異分析。
[0135]高通量甲基化分析
[0136]使用本發(fā)明的方法分析甲基化平,每個(gè)反應(yīng)可檢測成百上千甚至是成千上萬個(gè)CpG島的甲基化水平。在一個(gè)具體的實(shí)施例中,方法如下(圖7):
[0137]一種方法是將基因組DNA采用甲基化敏感的限制性內(nèi)切酶進(jìn)行處理,針對切點(diǎn)處設(shè)計(jì)探針檢測未被切斷的基因組DNA量;另一種方法是將基因組DNA進(jìn)行亞硫酸鹽處理后,針對目的基因片段分別設(shè)計(jì)甲基化特異探針及非甲基化特異探針,通過檢測兩種探針的連接產(chǎn)物量估計(jì)基目的基因區(qū)段的甲基化水平。
[0138]探針連接產(chǎn)物進(jìn)行下一代高通量芯片測序,獲取每個(gè)探針連接產(chǎn)物的量。采用第一種方法是,需要選取基因組中存在的全部甲基化或半甲基化區(qū)域作為參照DNA片段,同時(shí)選取未進(jìn)行限制性內(nèi)切酶處理的樣本作為參照樣本。采用第二種方法是,需要選取一個(gè)參照DNA樣本,該DNA樣本在所有目標(biāo)基因區(qū)域的甲基化比例已知,該樣本的制備可采用全基因擴(kuò)增產(chǎn)物與甲基化修飾后的全基因組擴(kuò)增產(chǎn)物按一定比例混合,通常為1:1混合獲取50%甲基化比例的參照樣本。
[0139]病原微生物或轉(zhuǎn)基因動(dòng)植物鑒定
[0140]使用本發(fā)明的方法鑒定病原微生物或轉(zhuǎn)基因動(dòng)植物,每個(gè)反應(yīng)可檢測成百上千甚至是成千上萬個(gè)物種特異基因片段。
[0141]針對每種微生物或轉(zhuǎn)入基因設(shè)計(jì)多個(gè)特異探針,同時(shí)也針對摻入?yún)⒄栈蚱卧O(shè)計(jì)探針。探針連接產(chǎn)物進(jìn)行下一代高通量芯片測序。對于每個(gè)探針連接產(chǎn)物量進(jìn)行摻入?yún)⒄栈蚱涡U蟠_認(rèn)檢測樣本所含的病原微生物種類以及轉(zhuǎn)基因作物的種類。
[0142]本發(fā)明的主要優(yōu)點(diǎn)在于:
[0143](I) 一個(gè)反應(yīng)可同時(shí)檢測成千上萬個(gè)基因片段信息,檢測通量提高;在非專有檢測平臺(tái)上應(yīng)用,不需額外設(shè)備投入,同時(shí)一個(gè)檢測反應(yīng)能夠完成成千上萬個(gè)基因片段的分析,因此單個(gè)基因片段的檢測成本大大降低;針對任意需要檢測的目的基因片段能夠快速建立檢測體系,應(yīng)用靈活:
[0144](2)相對傳統(tǒng)的芯片雜交而言,本發(fā)明采用測序進(jìn)行連接產(chǎn)物的鑒定,采用數(shù)字計(jì)數(shù)進(jìn)行定量,不存在非特異雜交以及檢測背景影響,因此大大提高準(zhǔn)確性;
[0145](3)本發(fā)明所有連接產(chǎn)物長度都比較一致,采用通用引物進(jìn)行擴(kuò)增時(shí)不同片段之間擴(kuò)增效率差異比較小,相對于采用不同長度區(qū)分連接產(chǎn)物的毛細(xì)管電泳來說,在該技術(shù)中,擴(kuò)增產(chǎn)物中各連接產(chǎn)物比例與擴(kuò)增前的比例更傾向于一致;
[0146](4)采用連接產(chǎn)物經(jīng)各種核酸外切酶處理純化后直接進(jìn)行高通量芯片測序,不經(jīng)過PCR擴(kuò)增,減少了由于不同連接產(chǎn)物的PCR擴(kuò)增效率差異引入的各連接產(chǎn)物彼此相關(guān)比例的偏差;
[0147](5)采用單分子擴(kuò)增產(chǎn)物測序的序列鑒定以及數(shù)字計(jì)數(shù)定量方法,大大提供靈敏度。
[0148]下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件如 Sambrook 等人,分子克隆:實(shí)驗(yàn)室手冊(New York: ColdSpring Harbor LaboratoryPress, 1989)中所述的條件,或按照制造廠商所建議的條件。
[0149]實(shí)施例1
[0150]檢測48個(gè)SNP位點(diǎn)的分型
[0151]針對48個(gè)SNP位點(diǎn)設(shè)計(jì)連接探針,每個(gè)位點(diǎn)各設(shè)計(jì)3條探針,2個(gè)5’端等位基因特異性探針以及I個(gè)3’端共有序列,5’端探針的前半部分加接與illumina 二代測序平臺(tái)兼容的通用PCR序列,而5’端探針的后半部分加接與illumina 二代測序平臺(tái)兼容的另一通用PCR序列。探針在與模板配對良好情況下在TaqDNA Iigase作用下進(jìn)行連接,連接產(chǎn)物利用與illumina 二代測序平臺(tái)兼容通用PCR引物擴(kuò)增,不同樣本分別用帶有不同標(biāo)簽序列的通用引物進(jìn)行擴(kuò)增,然后均勻混合純化后上Illumina GAIIx測序儀上進(jìn)行1x72測序。Sequencing reads用軟件讀出后根據(jù)標(biāo)簽序列區(qū)分不同樣本來源,然后確定每個(gè)Sequencing read來源與哪個(gè)連接產(chǎn)物,并對每個(gè)連接產(chǎn)物進(jìn)行那個(gè)READS統(tǒng)計(jì)。根據(jù)兩個(gè)等位基因特異連接產(chǎn)物的Sequencing reads數(shù)目比例進(jìn)行基因型判讀。
[0152]實(shí)驗(yàn)流程:
[0153]樣本來自上海瑞金醫(yī)院常規(guī)體檢正常個(gè)體全血樣本,全血樣本呢采用酚氯仿抽提出DNA后用IXTE溶解。
[0154]取100-200ng DNA,用IxTE稀釋到10μ 1,98°C溫浴5分鐘后,立即冰置;
[0155]用IxTE配置探針混合液(ProbeMix),每個(gè)探針0.005 μ M ;
[0156]配置2xLigation Premix, 10 μ 1:2 μ I 10*Taq ligase buffer, I μ I 40U/ μ I TaqLigase, I μ I ProbeMix, 6 μ I ddH20 ;
[0157]將ΙΟμΙ 2xLigation Premix加入到變性后的10 μ I DNA樣本中,輕微振蕩混勻;
[0158]用以下程序進(jìn)行連接反應(yīng):4X (95°C 30s,58°C 4h),連接反應(yīng)結(jié)束后立即冰置待用或?qū)⑵浯娣庞赺20°C以下備用;
[0159]配置PCR 引物混合液 Pmixl、Pmix2 及 Pmix3,分別由 NGMPCRF 和 NGMPCRR001,NGMPCRF 和 NGMPCRR002,NGMPCRF 和 NGMPCRR003 組成,各引物濃度均為 2 μ M ;
[0160]取連接產(chǎn)物1μ I作為模板進(jìn)行PCR反應(yīng),反應(yīng)體系20μ 1,包含2μ I IOxPCRbuffer, 2 μ I 2.5mM dNTP mix, 2 μ I Pmixl for SI(或Pmix2 for S2,或Pmix3 for S3),
Iμ I Ligation product,0.2 μ I 5U/μ I Taq DNA polymerase,12.8 μ I Mill1-Q water ;其 PCR 程序?yàn)?95°C 5min ;8x(94°C 20s,54。。40s, 72°C lmin);26x(94°C 20s, 68°C 1.5min);hold at 4°C ;
[0161]電泳檢測擴(kuò)增效率,然后根據(jù)產(chǎn)物濃度將3個(gè)PCR產(chǎn)物均勻混合,電泳分離割膠用QIAquick Gel Extraction Kit 純化 100bp_150bp 之間的片段;
[0162]純化產(chǎn)物OD定量后估計(jì)分子數(shù),然后與其它項(xiàng)目樣本混和后根據(jù)TruSeqSRCluster Kit v2要求進(jìn)行芯片上的橋式擴(kuò)增;
[0163]擴(kuò)增產(chǎn)物用TruSeq SBS Kit v5在Illumina GAIIX進(jìn)行1x72+7測序,儀器控制及數(shù)據(jù)米集米用 Genome Analyzer Data Collection Software SCS2.8,測序選擇的 recipe為 GA2-PEM_MP_72+7Cycle_v〈#> ;
[0164]根據(jù)標(biāo)簽序列將測序的讀序分到不同樣本中,然后同expected Iigationproductlibraries對照連接產(chǎn)物庫進(jìn)行比對;每個(gè)讀序作為等位基因連接產(chǎn)物進(jìn)行鑒定,計(jì)算每個(gè)等位基因連接產(chǎn)物的數(shù)目;
[0165]根據(jù)每個(gè)位點(diǎn)兩個(gè)連接產(chǎn)物測序讀序數(shù)目比例以及不同樣本的比例分布來確定該位點(diǎn)基因型:如果連接特異性很強(qiáng),某個(gè)allele連接產(chǎn)物是另外一個(gè)的10倍以上或1/10以下,通常可直接判定為優(yōu)勢Allele的純合子,如果不是可在多個(gè)樣本中進(jìn)行比較看是否存在聚類現(xiàn)象(如分成3類,即對應(yīng)3種基因型)。
[0166]本實(shí)施例中使用的通用引物序列如下:
[0167]NGMPCRF (SEQ ID NO:1)
[0168]AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACNGMPCRR001 (SEQ ID NO:2)
[0169]CAAGCAGAAGACGGCATACGAGATAAACTTGTGACTGGAGTTCAGACGTG
[0170]NGMPCRR002 (SEQ ID NO:3)
[0171]CAAGCAGAAGACGGCAT ACGAGATTCCGGTGTGACTGGAGTTCAGACGTG
[0172]NGMPCRR003 (SEQ ID NO:4)[0173]CAAGCAGAAGACGGCATACGAGATCCAACTGTGACTGGAGTTCAGACGTG
[0174]三個(gè)樣本SNP位點(diǎn)和genotype calling (基因型判讀)測序深度結(jié)果見表1。
[0175]表1
【權(quán)利要求】
1.一種高通量核酸分析方法,其特征在于,包括步驟: (1)對于待分析的η種目的核酸片段,針對每個(gè)目的核酸片段,提供結(jié)合于所述目的核酸片段的不同結(jié)合區(qū)的至少2個(gè)特異探針,所述的各特異探針具有特異結(jié)合區(qū)和通用序列區(qū),并且所述的特異結(jié)合區(qū)的序列與目的核酸片段的結(jié)合區(qū)的序列互補(bǔ),而所述通用序列區(qū)的序列對應(yīng)于測序引物的序列,其中η為> 40的正整數(shù); (2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產(chǎn)物的混合物,其中各探針連接產(chǎn)物的3’和5’端都是序列對應(yīng)于測序引物序列的通用序列區(qū); (3)對步驟(2)的探針連接產(chǎn)物的混合物進(jìn)行測序,和/或分析,從而獲得目的核酸的信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述特異探針還具有選自下組的一個(gè)或多個(gè)特征: (1)所述特異探針的長度≤lOObp,優(yōu)選地為30-70bp,更優(yōu)選為40-50bp ; (2)所述特異探針的特異結(jié)合區(qū)的長度為≤50bp,優(yōu)選地為15-35bp,更優(yōu)選為20_25bp ; (3)特異探針的通用序列區(qū)長度為≥8bp,優(yōu)選地為15-35bp,更優(yōu)選為20-25bp ; (4)所述特異探針的通用序列區(qū)的序列還對應(yīng)于擴(kuò)增引物序列; (5)所述特異探針包括標(biāo)簽序列。
3.如權(quán)利要求1所述的方法,其特征在于,每個(gè)目的核酸片段對應(yīng)的2個(gè)探針為:5’端探針和3’端探針,所述的5’端探針能夠與位于待分析的目的核酸片段3’端的結(jié)合區(qū)互補(bǔ),所述的3’端探針能夠與位于待分析的目的核酸片段5’端的結(jié)合區(qū)互補(bǔ)。
4.如權(quán)利要求3所述的方法,其特征在于,所述5’端探針或3’端探針的結(jié)構(gòu)如式I所示: 5,-A—L—B-3, 式I 在式I中, A代表通用序列區(qū); B代表特異結(jié)合區(qū); L代表A與B的核酸連接序列; 其中,A與B位置可以互換。
5.如權(quán)利要求3或4所述的方法,其特征在于,5’端探針和3’端探針之間的連接關(guān)系選自以下其中一組或多組: (a)5’端探針和3’端探針為緊鄰探針:即所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,二者之間距離O個(gè)堿基,在連接酶的作用下進(jìn)行連接,從而獲得探針連接產(chǎn)物; (b)5’端探針和3’端探針距離1-500個(gè)堿基:所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,在DNA聚合酶和連接酶的作用下進(jìn)行間隙聚合和連接,從而獲得探針連接產(chǎn)物; (c)雜交體系除了5’端探針和3’端探針外,還包括探針3,探針3分別與5’端探針和3’端探針緊鄰,所述的三個(gè)探針與待分析的目的核酸片段雜交后,在連接酶的作用下連接,從而獲得探針連接產(chǎn)物。
6.如權(quán)利要求1所述的方法,其特征在于,步驟⑵和步驟(3)之間還包括步驟:對步驟(2)的獲得的探針連接產(chǎn)物進(jìn)行擴(kuò)增。
7.如權(quán)利要求1所述的方法,其特征在于,在步驟(3)中,用第三代測序技術(shù)或第二代測序技術(shù)對探針連接產(chǎn)物的混合物或其擴(kuò)增產(chǎn)物進(jìn)行測序和分析。
8.如權(quán)利要求1所述的方法,其特征在于,在步驟(3)中,所述的獲得目的核酸的信息是指任選自下組的一個(gè)或多個(gè)信息=SNP分型信息、DNA甲基化信息、突變篩查信息、CNP分型信息、CNV信息、病原微生物基因信息、轉(zhuǎn)基因動(dòng)植物產(chǎn)品基因信息、基因表達(dá)水平。
9.一種高通量SNP分型方法,其特征在于,包括步驟:使用權(quán)利要求1所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和SNP分析,獲得目的核酸的SNP分型信息。
10.一種檢測CNV的方法,其特征在于,包括步驟:使用權(quán)利要求1所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和CNV分析,獲得目的核酸的CNV信息。
11.一種高通量甲基化分析方法,其特征在于,包括步驟:使用權(quán)利要求1所述的方法對來源于待測樣本的探針連接產(chǎn)物的混合物進(jìn)行測序和甲基化分析,獲得目的核酸的甲基化信息。
【文檔編號】C12Q1/68GK103898199SQ201210581830
【公開日】2014年7月2日 申請日期:2012年12月27日 優(yōu)先權(quán)日:2012年12月27日
【發(fā)明者】姜正文, 楊鋒 申請人:上海天昊生物科技有限公司, 天昊生物醫(yī)藥科技(蘇州)有限公司