專利名稱:一種dna文庫及其制備方法、一種dna測序方法和裝置的制作方法
一種DNA文庫及其制備方法、一種DNA測序方法和裝置技術領域
本發明屬于分子生物學領域,涉及一種DNA文庫及其制備方法、一種DNA測序方法和裝置。
背景技術:
新一代測序技術(Next Generation kquencing,NGS)又稱為高通量測序技術,可一次同時對數百萬條DNA進行測序,是DNA測序技術的一次革命。目前應用較廣泛的主要有Illumina公司的GenomeAnalyzer系統(即Solexa測序儀,后又發展為HKeq 2000系統)、ABI公司的SOLiD系統以及Roche 454公司的GS-FLX系統三大測序平臺。
新一代測序技術產生的數據通量大,使得大規模基因組測序成為可能。但是目前高通量測序技術產生的序列讀長與傳統的Sanger法測序(如ABI 3730x1)比相對短很多, 只有不到200bp,這對基于鳥槍法(S1Otgim)測序的基因組組裝來說是不利的。鳥槍法測序的原理是將基因組DNA片段化,產生一系列短的DNA片段,并對這些片段進行測序,獲得序列信息后通過相互重疊關系將這些“碎片”序列組裝成相對完整的序列。但是如果這些 “碎片”序列是由重復片段(串聯重復或反向重復)組成,則會因無法精確定位到基因組的某一位置,對序列組裝造成困難,如此便導致基因組組裝過程中重復序列區域形成“空洞”, 更可能增加前后片段連接、組裝的不確定性。
解決這一問題需要借助長片段測序。然而受測序技術所限,11Λ以上的長片段測序難以實現,但是可以利用新一代測序技術高通量的特點,通過構建具有較大跨度的末端配對文庫來解決這一問題。這種文庫的特點是測序得到的序列是由一段較長插入片段的兩個末端的序列組成,其間距和方向均為已知,由于這兩段末端序列在基因組上具有較大的跨度,可以跨過上述重復序列區域,從而輔助組裝的進行。這種測序策略即為配對末端測序,這一類型文庫稱為末端配對測序文庫(Michael W. Smith et al. ,Genomic sequence sampling -.a strategy for high resolution sequence-based physical mapping of complex genomes. Nature Genetics 1994,7 :40-47.)。末端配對文庫對于短讀長測序技術來說,其重要性在于能夠有效將短的序列重疊群(contig)組裝成較大的架構(scaffold), 這對于像人或果蠅這種相對較大而復雜的基因組組裝來說是一關鍵突破(Myers Eff, et al :A whole-genome assembly of Drosophila. Science 2000,287 (5461) :2196-2204.)。
但是構建長插入片段,尤其是片段達到201Λ甚至401Λ以上時,末端配對文庫的構建顯得比較困難。一種方法是通過構建fosmid克隆,獲得401Λ左右的插入片段,然后對其末端進行測序。Tuzim等人即是利用這種方法,從高密度fosmid文庫得到的110萬個配對末端序列(paired-end sequences)與人類參考基因組(human genome reference assembly)進行比對,在長度或方向上不一致的區域被確定為插入、缺失和倒置(Tuzim E et al,2005. Fine—scale structural variaton of the human genome. Nat Genet 37: 727-732.)。但是通過構建fosmid克隆實現這種大跨度序列的末端測序具有明顯的局限性,宿主細胞中fosmid載體拷貝數很低,這將限制微生物宿主細胞中特定基因序列擴繁的合成,重置等,同時在高通量測序平臺的背景下,完成數十萬乃至上百萬fosmid克隆的制備,耗時長、成本高,不利于大規模文庫的制備和測序。
WO 2007 145612A1中公開了另一種大片段末端的測序方法,其利用IIS型內切酶 Mmel,在大片段末端產生出大約20個堿基的標簽,環化之后,分離出含有雙末端的片段,可以利用第二代測序技術進行測序。但是20個堿基對于復雜基因組來說太短,不能特異性的定位在基因組中,增加了數據處理的難度。
2007年,Korbel等人提出了一種新的大規模高通量的分析方法-配對末端圖譜法 (paired end mapping,PEM),先將基因組DNA剪切成長度約為31Λ的片段,片段兩端與生物素標記的接頭連接后環化,對環化產物隨機切割,通過親和素篩選帶有生物素的剪切片段, 該片段包括了原來31Λ片段的兩個末端。然后采用羅氏GS FLX站4測序得到配對末端的序列信息(Kobel Kff et al. ,Paired-end mapping reveals extensive structure variation in the Human genome. Science2007, 318 :420-426.)。
但是上述方法對于構建插入片段達到201Λ甚至501Λ的文庫來說難度大,較適合 IOkb以下的片段,而且借助酶切位點或帶有生物素標記的中間接頭,在酶切效率、接頭連接效率等存在不確定因素,難以保證成功率。
WO 2010003316A1中公開了一種稱為并列序列標簽(GVTs)的方法,通過甲基化敏感的限制性內切酶切割不同位點產生不同的序列標簽從而研究一個DNA種群的甲基化, 此時目標DNA種群要么隨機片段化要么在特定位點打斷,該發明生成的雙向GVT是靠近一種或多種限制性內切酶的可切割位點的標簽,片段目的DNA克隆到新型粘質粒載體中,如 pSLGVT-28, pSLGVT-35, pSLGVT-36, pSLGVT-37 或者 pSLGVT_38,用于雙向 GVT 產物,使用新一代SOLEXA,SOLiD或者454DNA測序儀用決定序列的45-501Λ分離長度,但是這個方法會因為所使用的FspB I和Csp6 I的酶切位點并不是完全平均分布在基因組中,導致有一些含有特定區域的fosmid克隆的末端無法得到,另外也同時存在構建fosmid克隆所遇到的局限性。
illumina公司推出了配對末端文庫構建試劑盒(Mate Pair Library Kit V2),但是該方法只適于構建5-101Λ插入片段的配對末端文庫。發明內容
本發明的一個方面涉及一種DNA文庫的制備方法,包括如下步驟
1)將樣本基因組DNA隨機打斷為20-501Λ的DNA片段;
2)下述的步驟A或B:
A.將打斷的DNA片段兩個末端進行補平,并加上捕獲標記,然后分離20-501Λ的 DNA片段;或
B.分離打斷的20-501Λ的DNA片段,然后將DNA片段兩個末端進行補平,并加上捕獲標記;
3)將分離的DNA片段進行環化,得到環狀DNA,并除去未環化的DNA片段;
4)將環狀DNA打斷為100-2,OOObp的DNA片段;
5)從步驟4)中得到的DNA片段中分離帶有捕獲標記的DNA片段,得到捕獲片段;
優選地,還包括
6)將捕獲片段進行末端補平;
優選地,還包括
7)將步驟6)中末端補平后的DNA片段進行末端加堿基A和連接測序接頭的步驟;
優選地,還包括
8)將步驟7)中得到的DNA片段進行PCR擴增的步驟。
上述方法的流程可以參考圖1。
在本發明的具體的實施方案中,
關于步驟1),
將基因組DNA打斷為25-501Λ的DNA片段;具體地,可以打斷為20-401Λ的DNA片段、30-501Λ 的 DNA 片段、35-501Λ 的 DNA 片段、40-501Λ 的 DNA 片段、或者 40-451Λ 的 DNA 片段。
樣本基因組DNA可以是任意物種的基因組DNA,所述物種包括但不限于哺乳動物、 鳥類、或植物(如雙子葉植物),具體地包括靈長目、企鵝目、或薔薇目,更具體地包括人科、 企鵝科、或薔薇科(如李屬)。在本發明的一個實施方案中,所述樣本基因組DNA為人、企鵝 (例如阿德里企鵝,即Pygoscelis adeliae)、或梅花(例如野梅花,即Prunus mume)的基因組DNA。
對基因組DNA進行物理方法打斷,例如霧化、超聲片或使用HydroShear儀,將基因組DNA打斷為20-501Λ大小的片段。優選地,使用HydroShear儀進行打斷,通過調節流過收縮孔的速度和收縮孔的孔徑大小,可以控制基因組DNA被打斷后的片段大小,使基因組DNA 被打斷成大小較均一的片段。
在本發明的一個實施方案中,使用HydroShear儀進行打斷進行打斷,可以使用大片段打斷配件,速度參數設置為14-16,循環數設置為30-40(根據片段大小選取不同數值),通過這一改變,可以將基因組DNA的打斷片段范圍提高至20-501Λ。
關于步驟2),
所述分離為凝膠電泳分離;具體地,為瓊脂糖瓊脂糖凝膠電泳分離,可采用普通瓊脂糖凝膠電泳或者脈沖場凝膠電泳,利用切膠回收,將目的大小的DNA片段分離純化出來。
所述捕獲標記為生物素,并且步驟幻中所述分離通過使用帶有鏈酶親和素的磁珠進行。也可以選用基于類似抗體-抗原反應的結合系統。
由于經過物理打斷的DNA片段,可能形成5’或3’端突出,需要進行末端補平,利用聚合酶如Klenow大片段酶、T4DNA聚合酶和T4多聚核苷酸激酶以及dNTP補平末端,以產生平端化的DNA。其中T4DNA聚合酶可以使3,突出末端平滑化,5,末端補平,Klenow大片段酶可以補平5’突出端或切除3’突出端,而T4多聚核苷酸激酶則是將5’端磷酸化并去除3’端磷酸基團,以便進行連接反應。
然后對這些末端補平的DNA片段進行生物素(Biotin)標記,標記的反應體系和條件與末端補平的反應相似,只是將普通dNTP換成Biotin-dNTP與普通dNTP的混合物,利用 Klenow大片段酶、T4DNA聚合酶所具有的3,-5,外切酶活性和5,-3,聚合酶活性,在DNA 片段的3’末端發生替換反應,將普通dNTP替換成Biotin-dNTP,從而在保證DNA片段維持平末端的條件下使其標記上生物素。
也可以直接利用標記有生物素的堿基進行末端補平。這些方法均在本領域技術人員的知識和技能之內。
關于步驟3),
對分離得到的目的大小的DNA片段進行環化,例如采用T4DNA連接酶及T3DNA連接酶聯合作用的形式使目的片段DNA兩個末端形成連接,使該片段成環。也可單獨使用 T4DNA連接酶或T3DNA連接酶進行連接。但是優選使用T3DNA連接酶和T4DNA連接酶聯合作用,取代單獨使用T3DNA連接酶或T4DNA連接酶,例如,在含有PEG的連接緩沖液中,16°C 孵育16小時,這一改變使得環化效率(指片段化的線性DNA自連成環狀DNA的比例)從 1% -3%提高至 5% -10%。
優選地,在進行環化反應之前,增加一步將DNA混合液置于50_75°C孵育1_30分鐘后立即進行冰浴的步驟。這一步驟可以降低不同DNA片段連接在一起的幾率,確保每個環化的DNA分子均為單一片段。具體地,所述孵育的溫度為60-70°C,例如61、62、63、64、65、 66、67、68、69、或70°C ;具體地,所述孵育的時間為5-25分鐘,更具體地,為10-20分鐘,例如10、11、12、13、14、15、16、17、18、19、或20分鐘。在本發明的一個實施方案中,在65°C孵育15分鐘后立即冰浴。
未連接的片段化DNA需要去除,否則會影響配對末端文庫的測序,采用已知的消化線性DNA的方法進行,例如使用不降解質粒的ATP依賴DNA酶(Plasmid-^ife ATP-dependent DNase)、或核酸外切酶I (Exonuclease I)等降解未成環的雙鏈或單鏈DNA。 優選地,改變單一使用DNA核酸外切酶的方法(該方法只針對雙鏈線性DNA),替換為不降解質粒的ATP依賴DNA酶(Plasmid-&ifeATP-d印endent DNase)和核酸外切酶 I (Exonuclease I),這一改變能夠達到更徹底的消化雙鏈線性DNA和單鏈線性DNA,使得未環化的線性DNA 對文庫的影響降至最低。
本發明利用DNA片段平末端的高效自連接環化,省略了使用外來載體需要設計酶切位點或引入中間接頭實現環化連接等步驟,配合隨機打斷使環狀DNA片段化的操作,大大提高配對末端測序數據的可用度,因為使用酶切法打斷如前文所述得到的配對末端序列讀長太短(每一端僅得到25bp左右有效數據),而使用中間接頭進行環化,在打斷過程中容易因斷裂位置處于中間接頭區間而使得文庫丟失某一端序列,無法形成配對末端,限制了其數據的豐富度。而本發明使用DNA片段的高效自連接,連接點兩端即為基因組序列信息,不存在其他外來序列或中間接頭,最大限度的利用數據信息(每一端有效數據可以達到IOObp或以上)。
關于步驟4),
將環狀DNA打斷為100-1,OOObp的DNA片段;優選地,打斷為200_800bp的片段; 具體地,打斷為200-700bp的片段,更具體地,打斷為200-600bp的片段;進一步具體地,打斷為200-500bp的片段。
由于環狀DNA不能直接用于測序,需要通過片段化恢復成線性DNA,同時釋放出配對末端序列。環狀DNA的片段可以使用已知的各種打斷方式,如霧化法、超聲破碎法或 HydroShear等,在本發明中優選采用Covaris S2儀器超聲打斷法,將20-401Λ的環狀DNA 打斷成例如200-800bp的線性DNA片段。這些打斷獲得的線性DNA片段并非全部都是測序需要的配對末端片段。在步驟幻中進行的捕獲標記(生物素標記),是對片段末端幾個堿基進行替換標記,因此只有片段末端帶有生物素,經過環化之后這些帶有生物素標記的末端被連接起來,通過帶有鏈霉親和素的磁珠(Sti^ptavidin magnetic beads),可以將這些帶有生物素標記的配對末端片段特異捕獲,而那些不帶生物素標記的中間片段則因無法與磁珠結合而被去除。
關于步驟6)-8),
被捕獲到磁珠上的DNA片段需要經過末端補平,同樣利用聚合酶如Klenow大片段酶、T4DNA聚合酶和T4多聚核苷酸激酶以及dNTP補平末端,以產生平端化的DNA,然后利用 Klenow (3,-5,exo)聚合酶和 dATP,在 DNA 片段 3,末端加上一個 A 堿基,Klenow (3,-5,exo, 聚合酶保留了 DNA聚合酶活性,但是失去了 5’ -3’和3’ -5’外切酶活性。加A之后再利用 T4DNA連接酶將測序接頭連接到DNA片段末端,利用接頭末端的T堿基突出和DNA片段末端的A堿基突出互補配對實現連接,接頭可選擇Illumina、SOLiD或妨4測序接頭,以適應不同測序平臺測序使用。之后通過特異引物PCR擴增富集配對末端片段,形成測序文庫。
完成PCR擴增后生成測序文庫,可以在IllumimuSOLiD或妨4等第二代測序平臺上進行單向或雙向測序,獲得兩個配對末端的序列信息后用于基因組圖譜的組裝或比對。
本發明的另一方面涉及一種DNA文庫,其根據上述的任一項的制備方法制得。該 DNA文庫為(配對)末端文庫,可用于DNA測序或者DNA輔助測序。
本發明的再一方面涉及一種DNA測序方法,包括將本發明的DNA文庫進行測序的步驟;優選地,使用高通量測序平臺進行測序;具體地,所述高通量測序平臺包括但不限于第二代測序平臺或者是單分子測序平臺。
所述第二代測序平臺包括但不限于Illumina-Solexa測序平臺、ABI-Solid測序平臺、和Roche-454(焦磷酸測序)測序平臺;所述單分子測序平臺(技術)包括但不限于 Helicos公司的真實單分子測序平臺、Pacific Biosciences公司的單分子實時測序平臺、 以及Oxford Nanopore ^Technologies公司的納米孔測序平臺等。
具體地,所述測序方法為DNA末端測序方法。
本發明的再一方面涉及一種DNA測序方法,包括如下步驟
(1)使用本發明的DNA測序方法對樣本基因組DNA進行測序;
(2)使用高通量測序技術對樣本基因組進行測序;
(3)將步驟⑴和⑵中得到的測序結果進行組裝和/或拼接。
本發明的再一方面涉及一種DNA測序裝置,包括DNA文庫制備單元和測序單元;具體地,所述DNA文庫制備單元包括隨機打斷單元、補平標記單元、分離單元、環化單元,所述測序單元為高通量測序平臺。所述DNA文庫制備單元為制備本發明的DNA文庫的單元。該 DNA測序裝置能夠實現本發明的DNA測序方法。
在本發明中,術語“高通量測序技術”和“高通量測序平臺,,具有相同的含義,均指包括但不限于第二代測序平臺或者是單分子測序平臺。所述第二代測序平臺(Metzker ML.Sequencing technologies-the next generation. Nat Rev Genet. 2010Jan ;11 (1) 31-46)包括但不限于 Illumina-Solexa 測序平臺(GA , HiSeq2000 等)、ABI-Solid 測序平臺、和Roche-454(焦磷酸測序)測序平臺;單分子測序平臺(技術)包括但不限于 Helicos 公司的真實單分子測序技術(True Single Molecule DNA sequencing)、Pacific Biosciences 公司單分子實時測序(single molecule real-time (SMRT ))、以及 Oxford Nanopore ^Technologies 公司的納米孔測序技術等(Rusk,Nicole (2009-04-01). CheapThird-Generation Sequencing. Nature Methods 6(4) :244-245)。
在本發明中,關于術語“contig N50”或“scaffold N50” 在基因組圖譜的繪制過程(或組裝過程)中,scaffold N50是評價組裝水平高低的一個重要指標,如前文所述,基因組組裝首先通過相互重疊關系將DNA片段序列拼接成較長的序列,這些重疊群即為contig,若干個contig通過酶切位點信息或其他能夠確定排列或順序關系的“標記”信息而拼接,可以形成各個contig在染色體上的線性排列或是相對位置關系,即形成 scaffold。N50即覆蓋50%所有核苷酸的最大序列重疊群長度,把contig或scaffold從大到小排序,并對其長度進行累加,當累加長度達到全部contig或scaffold長度一半時, 最后一個 contig 或 scaffold 長度即為 contig N50 或 scaffold N50。
發明的有益效果
本發明通過構建末端配對文庫實現基因組上大跨度序列的末端測序,整個實驗過程簡單快速,一個文庫的構建周期僅為3天,對比利用fosmid克隆末端測序具有十分明顯的時間優勢,避免了繁瑣的實驗步驟,降低文庫構建失敗的風險。通過對本發明所構建的20-501Λ插入長度的配對末端文庫進行測序,得到的有效數據用于組裝,能夠有效增加 scaffold N50的長度,促進基因組組裝水平達到精細圖甚至完成圖的標準。
圖1 本發明的DNA文庫制備方法的流程示意圖。
圖2 實施例1中企鵝基因組DNA打斷為20-501Λ的電泳圖。各泳道上樣如下 泳道1:分子量標準λ-Hind III digest (Takara公司,貨號D3403A);泳道2 原始基因組 DNA,上樣150ng ;泳道3 分子量標準Low Range PFG Marker (NEB公司,貨號M0350S);泳道 4 速度參數為14,循環數為40的打斷效果,上樣量200ng ;泳道5 速度參數為14,循環數為 30的打斷效果,上樣量200ng ;泳道6 分子量標準11Λ DNA Extension Ladder (Invitrogen 公司,貨號10511-012);泳道7 速度參數為15,循環數為40的打斷效果,上樣量200ng ;泳道8 速度參數為15,循環數為30的打斷效果,上樣量200ng ;泳道9 分子量標準Low Range PFG Marker (NEB公司,貨號M0350S);泳道10 速度參數為16,循環數為40的打斷效果,上樣量200ng ;泳道11 速度參數為16,循環數為30的打斷效果,上樣量200ng ;泳道12 分子量標準 Ikb DNA Extension Ladder (Invitrogen 公司,貨號 10511-012);泳道 13:原始基因組 DNA,上樣 150ng。
圖3 實施例1中生物素標記后分離回收40-451Λ片段的電泳圖。各泳道上樣如下泳道1 分子量標準Ikb DNA Extension Ladder (Invitrogen公司,貨號 10511-012);泳道2 進行電泳分離的DNA,上樣約50 μ g ;泳道3 分子量標準11Λ DNA Extension Ladder (Invitrogen 公司,貨號 10511-012);泳道 4 分子量標準 Low Range PFG Marker (NEB 公司,貨號 M0350S)。
圖4 實施例1中配對末端序列比對到基因組上的插入范圍驗證。
圖5 實施例2中配對末端序列比對到基因組上的插入范圍驗證。
圖6 實施例3中配對末端序列比對到基因組上的插入范圍驗證。
具體實施方式
CN 102534811 A
下面將結合實施例對本發明的實施方案進行詳細描述。本領域技術人員將會理解,下面的實施例僅用于說明本發明,而不應視為限定本發明的范圍。實施例中未注明具體技術或條件者,按照本領域內的文獻所描述的技術或條件(例如參考J.薩姆布魯克等著, 黃培堂等譯的《分子克隆實驗指南》,第三版,科學出版社)或者按照產品說明書進行。所用試劑或儀器未注明生產廠商者,均為可以通過市購獲得的常規產品。
實施例1 企鵝基因組的DNA文庫構津和測序
1.企鵝基因組的DNA文庫的構建
1)樣品基因組DNA的隨機打斷
以阿德里企鵝(Pygoscelis adeliae)基因組DNA作為建庫樣品,按照50 μ g起始構建一個插入片段為40-451Λ的末端配對文庫,使用標準Hydroshear儀(GeneMachine,San Carlos, CA.,USA)進行打斷,設置打斷參數為速度(speed code) 15,循環數(cycles) 30,打斷反應體系為100 μ 1。
打斷完成后回收到EP 管中,使用 Agencourt AMPure Beads (BECKMAN COULTER) 對打斷后的DNA片段進行純化,在打斷反應體系中加入1. 8倍體積的Agencourt AMPure Beads,顛倒混勻,室溫放置10分鐘使DNA與磁珠充分結合,之后將EP管置于磁力架上靜置2分鐘使磁珠被充分吸附到管壁,去除上清,加入500 μ 1 70 %乙醇,顛倒數次,去除上清,再加入500 μ 1 70%乙醇,顛倒數次,去除上清,將EP管置于37°C干燥,直至磁珠出現干裂,加入200 μ 1 Elution Buffer (QIAGEN)重懸磁珠,室溫放置10分鐘使DNA充分溶解于Elution Buffer,將EP管置于磁力架上靜置2分鐘,將上清轉入新的EP管,再原管中再加入185 μ 1 Elution Buffer重懸磁珠,同樣室溫放置10分鐘使DNA充分溶解于Elution Buffer,將EP管置于磁力架上靜置2分鐘,將上清轉入新的EP管,此舉的目的是最大限度回收結合于磁珠上的DNA片段。
取部分打斷片段進行電泳,電泳結果如圖2所示,符合打斷要求。
2)末端補平和生物素標記
向385 μ 1 DNA溶液中加入50 μ 1 10ΧΤ4多聚核苷酸激酶緩沖液,8 μ 1 25mM dNTP,25y 1 T4DNA 聚合酶(3000 單位/ml,Enzymatics, Beverly, MA.,USA), 5 μ 1 Klenow 聚合酶(5000單位/ml,Enzymatics)和25 μ 1 !"4多聚核苷酸激酶(10000單位/ml, Enzymatics),20°C溫育30分鐘,對片段化的DNA進行末端補平。
反應結束后同樣使用Agencourt AMPure Beads進行純化,得到345 μ 1 DNA,加入 50 μ 1 10ΧΤ4多聚核苷酸激酶緩沖液,50 μ IBiotin-dNTP, 25 μ 1 T4DNA聚合酶(3000單位 /ml,Enzymatics,Beverly,ΜΑ. ,USA), 5 μ 1 Klenow 聚合醇(5000 單位/ml,Enzymatics)禾口 25μ 1T4多聚核苷酸激酶(10000單位/ml,Enzymatics),20°C溫育30分鐘,進行末端生物素標記。
3)電泳分離
對生物素標記后的DNA進行電泳,在500 μ 1反應體系中加入5 μ 120 % SDS和 50 μ 1 10Χ溴酚藍,混勻,65°C孵育10分鐘,然后置于冰上冷卻3分鐘再上樣電泳,使用 0. 6%的Megebase瓊脂糖膠以電壓3. 5V/CM, switch time I-IOs脈沖場電泳16小時,溴化乙啶(EB)染色后,在 Darkreader 下切取 40-45kb 片段(圖 3),使用 QIAEX IIPurification Kit進行膠回收純化。
4)環化
對回收的40-45kb DNA片段進行環化,在IOOOng DNA溶液中加入2000 μ 1 2X連接酶緩沖液、100 μ 1 T4DNA連接酶(400,000 單位/ml,NEB)、100 μ 1 T3DNA連接酶(300,000 單位/111^11巧111站化8),超純水補平反應體系至細1,分裝至8個1. 5ml EP管,每管500 μ 1, 使得反應體系中DNA濃度為0. 25ng/y 1,16°C溫育18小時。
然后向每管500μ 1 體系中加入 5μ 1 IOOmM 的 ΑΤΡ,60 μ 110 X Plasmid-Saf e ATP-d印endent DNase 緩沖液,25 μ 1 Plasmid-SafeATP-dependent DNase (10,000 單位 / ml, Epicentre)和 15 μ IExonuclease I (20,000 單位/ml,NEB),將反應體系 37°C放置 30 分鐘,消化去除沒有環化的雙鏈或單鏈線性DNA,然后在75°C放置20分鐘使酶失活,冰浴3 分鐘使DNA復性,可加入16 μ 1 0. 5Μ EDTA抑制酶活性。
5)打斷成200_800bp的線性DNA片段
使用Covaris將環狀DNA打斷成200_800bp的線性DNA片段,使用QIAGEN Mini Elute PCR purification Kit 進行回收純化,最后溶于 50 μ 1 Elution Buffer。取 20 μ 1 Dynabeads M-280Streptavidinmagnetic beads (Invitrogen) T Non-stick RNase-Free 1. 5ml Microfuge Tube (Ambion,AMl^5O 不粘管)中,置于磁力架上靜置 1 分鐘,去上清,用50 μ 1磁珠結合緩沖液(Bead Binding Buffer)洗滌磁珠兩次。小心的重懸沉淀,將離心管放置在磁分離架上,等待1分鐘,棄上清。重復此步驟一次。用50μ1磁珠結合緩沖液(Bead Binding Buffer)重懸磁珠。將純化好的DNA與重懸的磁珠等體積混合均勻,20°C在Thermomixer上溫浴15分鐘(每2min震蕩15s,500rpm)。此時帶有Biotin 標記的配對末端片段被特異結合到磁珠上,而不帶有Biotin標記的DNA片段則無法結合到磁珠上。將離心管放置在磁分離架上,靜置1分鐘,舍棄上清,用200 μ 1的磁珠洗滌緩沖液(Bead Wash Buffer I)洗滌磁珠,每次洗滌輕輕吹打重懸磁珠五次,去上清,再用Bead Wash Buffer I重復洗兩次,將離心管放置在磁分離架上,靜置1分鐘,舍棄上清,用200 μ 1 的Elution Buffer洗滌磁珠兩次,每次洗滌輕輕吹打重懸磁珠五次。移去最后一次洗滌的 Elution Buffer,力口入 50 μ 1 的 Elution Buffer 重懸磁珠。
6)末端序列捕獲
50 μ 1重懸的磁珠DNA溶液中加入10 μ 1 10ΧΤ4多聚核苷酸激酶緩沖液,1.6μ 1 25mM dNTP, 5 μ 1 T4DNA 聚合酶(3000 單位 /ml,Enzymatics, Beverly, ΜΑ.,USA),1 μ 1 Klenow聚合酶(5000單位/ml,Enzymatics)和5 μ 1 Τ4多聚核苷酸激酶(10000單位/ ml, Enzymatics),20°C溫育30分鐘,對結合到磁珠的DNA進行末端補平。然后在磁分離架上用Bead Wash Buffer I和Elution Buffer對磁珠進行純化,步驟同上,最后加入32 μ 1 的Elution Buffer重懸磁珠,轉移到新的不粘管,加入5μ 1 IOXBlue BufferUOy 1 ImM dATP以及3 μ 1 Klenow (3‘ -5,exo-),混勻,置于37°C溫育30分鐘進行末端加A堿基。然后在磁分離架上用Bead Wash Buffer I和Elution Buffer對磁珠進行純化,步驟同上,最后加入19μ 1的Elution Buffer重懸磁珠,轉移到新的不粘管。
7)加接頭和擴增
加入25μ1 2XRapid ligation BufferU μ 1 Illumina PE Adapter Oligo 以及5 μ 1 T4DNA連接酶(600,000單位/mL,Enzymatics),置于20°C溫育15分鐘進行測序接頭連接,然后在磁分離架上用Bead Wash Buffer I和Elution Buffer對磁珠進行純化,步驟同上,最后加入23μ 1的Elution Buffer重懸磁珠,轉移到0. ^il PCR管,加入 25 μ IPhusion DNA Polymerase和上下游引物各1 μ 1,混勻,使用以下反應程序為進行PCR (a) 980C 30 秒;(b)98°C 10 秒;(c)65°C 30 秒;(d)72°C 40 秒;其中步驟(b)到(d)進行 18 個循環,(e)72°C 5分鐘,此后將反應物保持在4°C。
2.上機測序
前面步驟7)中的PCR完成后將PCR管置于磁分離架上靜置1分鐘,取出上清轉入新的1. 5ml EP管,使用2. 0%的Low Range Ultra瓊脂糖膠以電壓15V/CM電泳2小時,EB 染色后,在 Darkreader 下切取 400bp_700bp 片段大小的 DNA,使用 Qiagen MinElute Gel Purification Kit 進行純化。對純化后的產物在 Illumina GA(Solexa)或 Hiseq 2000 上機測序,50個循環。
3.測序結果及分析
對得到的企鵝末端配對DNA文庫在Illumina HiSeq 2000測序平臺上進行測序,得到插入片段為401Λ的配對末端序列信息,將這些數據用于企鵝基因組組裝,使用 SOAPdenovo 軟件(該軟件可從例如 http://soap. genomics, org. cn/soapdenovo. html 下載),將這些數據比對到企鵝基因組序列上,驗證該文庫測序得到的配對末端序列距離跨度為401Λ,符合片段范圍預期(圖4)。使用SOAPdenovo軟件進行企鵝基因組組裝(例如可以參考 Li, R, et al. The sequence and de novo assembly of the giant panda genome. Nature 463,311-317(2010) ;Li, R, et al. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 20 :265-272 (2010)),在 scaffoldN50達到8901Λ時,再結合使用企鵝401Λ末端配對DNA文庫數據對組裝的結果為scaffold N50顯著提高到7500kb ;而在企鵝基因組組裝scaffold N50達到5000kb時, 再結合使用企鵝401Λ末端配對DNA文庫數據對組裝的結果為scaffold N50顯著提高到 12000kb。
實施例2 梅花基因組的DNA文庫構建和測序
按照與實施例1中相同的方法進行野梅花(Primus mume)基因組的DNA文庫構建和測序,除了所用基因組DNA樣本為梅花的基因組DNA。得到梅花基因組的DNA文庫(401Λ 末端配對DNA文庫)序結果。
測序結果及分析
對得到的梅花末端配對DNA文庫在Illumina HiSeq 2000測序平臺上進行測序,得到插入片段為401Λ的配對末端序列信息,將這些數據用于梅花基因組組裝,使用 SOAPdenovo軟件,將這些數據比對到梅花基因組序列上,驗證該文庫測序得到的配對末端序列距離跨度為401Λ,符合片段范圍預期(圖幻。使用SOAPdenovo軟件進行梅花基因組組裝,在梅花基因組組裝scaffold N50達到5701Λ時,再結合使用梅花401Λ末端配對DNA 文庫數據對組裝的結果為sCaffoldN50顯著提高到9701Λ。
實施例3 人基因組的DNA文庫構建和測序
按照與實施例1中相同的方法進行梅花基因組的DNA文庫構建和測序,除了所用基因組DNA樣本為人的基因組DNA。得到人基因組的DNA文庫(401Λ末端配對DNA文庫)序結果。
測序結果及分析
對得到的人末端配對DNA文庫在Illumina HiSeq 2000測序平臺上進行測序,得到插入片段為401Λ的配對末端序列信息,將這些數據用于人基因組組裝,使用SOAPdenovo 軟件,將這些數據比對到人基因組序列上,驗證該文庫測序得到的配對末端序列距離跨度為401Λ,符合片段范圍預期(圖6)。使用SOAPdenovo軟件進行人基因組組裝,在人基因組組裝scaffold N50達到10001Λ時,再結合使用人401Λ末端配對DNA文庫數據對組裝的結果為scaffold N50顯著提高到20001Λ。
盡管本發明的具體實施方式
已經得到詳細的描述,本領域技術人員將會理解。根據已經公開的所有教導,可以對那些細節進行各種修改和替換,這些改變均在本發明的保護范圍之內。本發明的全部范圍由所附權利要求及其任何等同物給出。
權利要求
1.一種DNA文庫的制備方法,包括如下步驟1)將樣本基因組DNA隨機打斷為20-501Λ的DNA片段;2)下述的步驟A或B:A.將打斷的DNA片段兩個末端進行補平,并加上捕獲標記,然后分離20-501Λ的DNA片段;或B.分離打斷的20-501Λ的DNA片段,然后將DNA片段兩個末端進行補平,并加上捕獲標記;3)將分離的DNA片段進行環化,得到環狀DNA,并除去未環化的DNA片段;4)將環狀DNA打斷為100-2,OOObp的DNA片段;5)從步驟4)中得到的DNA片段中分離帶有捕獲標記的DNA片段,得到捕獲片段;優選地,還包括6)將捕獲片段進行末端補平;優選地,還包括7)將步驟6)中末端補平后的DNA片段進行末端加堿基A和連接測序接頭的步驟;優選地,還包括8)將步驟7)中得到的DNA片段進行PCR擴增的步驟。
2.根據權利要求1所述的方法,其中,步驟1)中,將基因組DNA打斷為25-501Λ的DNA 片段。
3.根據權利要求1所述的方法,其中,步驟2)中,所述分離為凝膠電泳分離。
4.根據權利要求1所述的方法,其中,步驟幻中,所述捕獲標記為生物素,步驟幻中所述分離通過使用帶有鏈酶親和素的磁珠進行。
5.根據權利要求1所述的方法,其中,步驟3)中,在環化之前,將步驟2)中得到DNA樣品置于50-75°C孵育1-30分鐘后立即冰浴。
6.根據權利要求1所述的方法,其中,步驟幻中,聯合使用T3DNA連接酶和T4DNA連接酶進行環化。
7.根據權利要求1所述的方法,其中,步驟幻中,通過使用不降解質粒的ATP依賴DNA 酶和/或核酸外切酶I除去未環化的DNA片段。
8.根據權利要求1所述的方法,其中,步驟4)中,將環狀DNA打斷為100-1,OOObp的 DNA片段;優選地,打斷為200-800bp的片段。
9.一種DNA文庫,其根據權利要求1至8中任一項所述的制備方法制得。
10.一種DNA測序方法,包括將權利要求9所述的DNA文庫進行測序的步驟;優選地,使用高通量測序平臺進行測序;具體地,所述高通量測序平臺為第二代測序平臺或者是單分子測序平臺;更具體地,所述第二代測序平臺選自Illumina-Solexa測序平臺、ABI-Solid 測序平臺、以及Roche-4M測序平臺;所述單分子測序平臺選自Helicos公司的真實單分子測序平臺、Pacific Biosciences公司的單分子實時測序平臺、以及Oxford Nanopore Technologies公司的納米孔測序平臺。
11.一種DNA測序方法,包括如下步驟(1)使用權利要求10所述的方法對樣本基因組DNA進行測序;(2)使用高通量測序技術對樣本基因組進行測序;(3)將步驟⑴和(2)中得到的測序結果進行組裝和/或拼接。
12. —種DNA測序裝置,包括DNA文庫制備單元和測序單元;具體地,所述DNA文庫制備單元包括隨機打斷單元、補平標記單元、分離單元、環化單元,所述測序單元為高通量測序平臺。
全文摘要
本發明屬于分子生物學領域,涉及一種DNA文庫及其制備方法、一種DNA測序方法和裝置。具體地,所述DNA文庫的制備方法包括如下步驟一種DNA文庫的制備方法,包括如下步驟1)將樣本基因組DNA隨機打斷為20-50kb的DNA片段;2)下述的步驟A或BA.將打斷的DNA片段兩個末端進行補平,并加上捕獲標記,然后分離20-50kb的DNA片段;或B.分離打斷的20-50kb的DNA片段,然后將DNA片段兩個末端進行補平,并加上捕獲標記;3)將分離的DNA片段進行環化,得到環狀DNA,并除去未環化的DNA片段;4)將環狀DNA打斷為100-2,000bp的DNA片段;5)從步驟4)中得到的DNA片段中分離帶有捕獲標記的DNA片段,得到捕獲片段。本發明具有簡單快速等優點。
文檔編號C40B50/06GK102534811SQ201010591448
公開日2012年7月4日 申請日期2010年12月16日 優先權日2010年12月16日
發明者吳逵, 張秀清, 楊煥明, 耿春雨, 阿叁 申請人:深圳華大基因研究院, 深圳華大基因科技有限公司