專利名稱:3-d目的基因組區域的測序策略的制作方法
技術領域:
本發明涉及分子生物學領域,尤其涉及DNA技術。本發明更詳細地涉及DNA測序。本發明涉及測定目的基因組區域的(部分)DNA序列的策略。具體地,本發明涉及測定互為立體構型的基因組部分的序列。本發明進一步涉及本發明方法在研發個性化診斷和醫療、篩選存在惡性腫瘤和其他病癥的組織中的應用。
背景技術:
已投入相當大的努力來研發用于測序的“靶向富集”策略,其中選擇性捕獲和/或選擇性擴增DNA樣品中基因組區域,隨后進行測序(綜述于Mamanova等,自然方法(NatureMethods), 2010, (2): 111-118)。基因組富集策略很重要,因為與全基因組分析相比,它們可以集中關注于特定基因組區域,其更具有時間和成本效益,并且分析難度更小。存在不同的基因組富集策略。例如,利用單個引物對進行PCR反應可擴增基因組區域,并因此富集基因組區域。然而,可產生的 PCR產物的大小是有限的。目前可擴增的長PCR方案的上限是10-40kB (Cheng 等,Proc Natl Acad Sci USA, 1994; 91 (12): 5695-5699),但這些方法易于缺少穩定性,每個PCR都需要優化和驗證,并且大小限度仍然有限。為了增加可擴增區域的大小和分析的穩定性,開發了使用特別針對目的基因組區域設計的多個PCR引物對的平鋪方法(tiled approaches)。這些引物可用于例如多重PCR方法或RainDance PCR。各種酶方法(例如靶向環化)與該靶向擴增策略相匹配。其他方法涉及在陣列上或溶液中應用捕獲探針,其中60-120bp長度的探針用于通過雜交捕獲目的基因組區域。上述實例明確地表明,為了富集目的基因組區域,前提是需要整個目的基因組區域的序列信息,因為需要用其設計探針和/或引物以捕獲和/或擴增目的基因組區域。例如,為了富集30Mb序列,通常需要6000個單獨的PCR。對于捕獲探針,甚至需要更多的序列信息,因為至少需要多達250,000個120bp的探針并必須進行設計以捕獲30Mb序列。通過使用覆蓋大部分目的基因組區域的探針和/或引物的序列數據,這些分析是有偏倚的。它們不會選取與設計的模板序列偏離太多的序列,從而不會檢測例如插入。另外,通常這些方法需要在分析前將DNA分段成一些IOObp的序列。這意味著將目的基因組區域破碎成多段,造成信息丟失,尤其是(a.ο.)關于目的區域內的重排。因此,需要偏倚更少的改進的基因組富集策略,其不需要幾千個短序列并使中性假說能夠完成目的區域的測序。在哺乳動物核結構研究中,已開發了染色體構象捕獲(3C/4C)分析法,用它可以分析基因組區域的結構組織(W02007/004057,W02008/08845)。這些技術涉及體內細胞交聯(例如用甲醛),從而將包括DNA的染色質結構固定在其三維結構中。下一步,將染色質分段,例如使用限制性內切酶,隨后連接交聯的DNA片段。結果是連接相互接近的DNA片段。隨后PCR擴增連接產物并分析連接的DNA片段的相互作用頻率,其可表示片段的接近性。PCR擴增可基于目的基因組區域內的靶序列。與目的基因組的高頻率相互作用表示接近的距離近,低頻率相互作用表示接近的距離遠。為了鑒定DNA片段,需要序列信息。該序列信息可通過用微陣列(包括探針)檢測擴增的片段或通過對擴增片段的一小部分(通常,最少20-30bp足以鑒定基因組的相應位置)進行測序來提供。在任何情況下,鑒定的DNA片段的數量,即相互作用頻率,表示片段與觀察點的接近性,此信息可用于測定染色體內和染色體間的相互作用。發明概述目前發現將細胞內的DNA交聯和分段,隨后連接交聯的DNA片段的方法,可為分析包括靶核苷酸序列的目的基因組區域,即靶核苷酸序列周圍的線性染色體模板提供理想的起始點。本發明基于的構思是DNA的交聯優選在線性染色體模板上與靶核苷酸序列接近的那些序列交聯。例如,可用甲醛作為交聯劑。交聯之后,對DNA進行(酶)處理,即分段和連接,而DNA保持其交聯狀態。只有相互接近的交聯片段可以連接。與包括靶核苷酸序列的DNA片段連接的DNA片段實際上代表包括所述靶核苷酸序列的目的基因組區域。這是因為染色體內交聯的機會平均總是高于染色體間交聯的頻率。通常,不同片段交聯的機會與線性距離反向關聯。作為估計并取決于實際的交聯狀況,與目的靶核苷酸連接的20-30%片段位于靶核苷酸序列0.5Mb以內,而與目的靶核苷酸連接的50-80%片段來自包括所述靶核苷酸序列的染色體。通過使用一個或多個能識別靶核苷酸序列的寡核苷酸引物,可以擴增即富集包括靶核苷酸序列因而包括目的基因組區域的連接的DNA片段。隨后用本領域公知的(高通量)測序技術測定目的基因組區域的序列。該方法偏倚不大,因為不需要大量的序列信息以集中關注目的基因組區域。例如,目的基因組區域可以包括目的等位基因。可選擇不在目的等位基因序列內的靶核苷酸序列。然后用靶核苷酸序列擴增目的基因組區域,而不需要目的等位基因的序列信息。因此可富集目的等位基因,而不需要來自等位基因的任何序列。其效果是通過使用覆蓋目的等位基因序列的寡核苷酸和/或探針,該富集方法是無偏倚的。另外,由于連接步驟涉及相互接近的片段的連接,該方法也可以對單獨的等位基因做序列分析。例如,當交聯的DNA樣品包括多個等位基因(例如由于DNA樣品來自異質細胞群,或由于倍性大于1),每個等位基因可有不同的基因組鄰區。包括靶核苷酸序列的DNA片段將只與處于相同空間的DNA片段相互作用。因此連接的DNA片段代表了片段所來自的基因組環境。通過測定所有不同的DNA片段的至少部分序列,隨后使用不同的連接的DNA片段的序列信息,可將DNA片段序列連在一起,并建立單獨的目的基因組區域的序列。
定義在以下的說明書和實施例中,用到許多術語。為了對說明書和權利要求書,包括這些術語的給定范圍提供清楚和一致的理解,提供以下定義。除另有規定外,所有使用的技術和科學術語具有與本發明所屬領域技術人員通常理解的相同的含義。所有出版物、專利申請、專利和其他參考文獻以參閱的方式全文并入于此。實施本發明方法所用的常規技術的方法對技術人員是顯然的。分子生物學、生物化學、計算化學、細胞培養、重組DNA、生物信息學、基因組學、測序和相關領域的常規技術實踐是本領域技術人員熟知的,并在例如以下引用文獻中討論:Sambrook等,分子克隆,實驗室手冊,第2版,冷泉港實驗室出版社,冷泉港,N.Y., 1989 (Sambrook et al., MolecularCloning.A Laboratory Manual,2ndEdition, Cold Spring Harbor LaboratoryPress, Cold Spring Harbor, N.Y., 1989) ;Ausubel 等,現代分子生物學實驗指南,JohnWiley&Sons,紐約,1987 和定期更新(Ausubel et al., Current Protocols in MolecularBiology, John ffiley&Sons, New York, 1987and periodic updates);酶學方法系列,學術出版社,圣地亞哥(the series Methods in Enzymology, Academic Press, San Diego)。除非上下文另有清晰表示,本文所用單數形式“一個”、“一種”和“所述”包括復數指示物。例如,如上所用,分離“一種” DNA分子的方法包括分離多個分子(例如,十、百、千、萬、十萬、百萬或更多分子)。本發明的“目的基因組區域”是生物體的DNA序列,需要測定至少部分DNA序列。例如,疑似包括與疾病有關的等位基因的基因組區域可以是目的基因組區域。本文所用術語“等位基因”是指特定基因座上基因的任何一個或多個替換形式。在生物體的二倍體細胞中,給定基因的等位基因位于特定位置,或染色體的基因座(多位點)。一個等位基因位于同源染色體對的每個染色體上。因此,在二倍體細胞中,可能存在兩個等位基因和兩個單獨的(不同的)目的基因組區域。本發明的“核酸”包括嘧啶和嘌呤堿基的任何聚合物或寡聚物,分別優選胞嘧啶、胸腺嘧啶和尿嘧啶,以及腺嘌呤和鳥嘌呤(參見Albert L.Lehninger,生物化學原理,793-800 (Worth 出版社 1982) (Albert L.Lehninger, Principles ofBiochemistry, at793_800 (Worth Pub.1982)),為全部目的以參閱的方式全文并入于此)。本發明考慮任何脫氧核糖核苷酸、核糖核苷酸或肽核酸組分及其任何化學變體,例如這些堿基的甲基化、羥甲基化或糖基化形式等。這些聚合物或寡聚物在組成上可以是異源的或同源的,可以從天然存在的來源中分離也可人工或合成生產。另外,核酸可以是DNA或RNA,及其混合物,可以永久地或過渡地以單鏈或雙鏈形式存在,包括同源雙鏈、異源雙鏈和雜化狀態。“樣品DNA”是從生物體或生物體組織,或從組織和/或細胞培養中獲得的樣品,其包括DNA。來自生物體的樣品DNA可從任何類型生物體中獲得,例如微生物、病毒、植物、真菌、動物、人類和細菌或其結合。例如,來自疑似有細菌和/或病毒感染的人類患者中的組織樣品可包括人類細胞,也包括病毒和/或細菌。樣品可包括細胞和/或細胞核。樣品DNA可來自患者或高危人群或疑似患有特定疾病的人,例如癌癥或任何其他病癥,以保證生物體DNA的研究。本發明的“交聯”是指DNA在兩個不同的位置反應,從而這兩個不同的位置可能會連接。兩個不同位置的連接可以是直接地,在DNA鏈間形成共價鍵。兩個DNA鏈可使用紫外線輻射直接交聯,直接在DNA鏈間形成共價鍵。兩個不同位置間的連接可以是經試劑例如交聯劑分子間接地連接。第一 DNA部分(section)可與包括兩個反應基團的交聯劑分子的第一反應基團連接,交聯劑分子的第二反應基團可與第二 DNA部分連接,從而將第一和第二DNA部分經交聯劑分子間接地交聯。也可經一個以上分子在兩條DNA鏈間間接形成交聯。例如,可用的典型的交聯劑分子為甲醛。甲醛誘導蛋白質-蛋白質和DNA-蛋白質交聯。因此甲醛可使不同的DNA鏈經它們的相關蛋白質相互交聯。例如,甲醛可與蛋白質和DNA反應,經交聯劑分子連接蛋白質和DNA。因此,用甲醛可使兩個DNA部分交聯,在第一 DNA部分和蛋白質間形成連接,該蛋白質可與連接第二 DNA部分的另一甲醛分子形成第二連接,因此形成交聯,其可描述為DNAl-交聯劑-蛋白質-交聯劑-DNA2。在任何情況下,應當理解本發明的交聯涉及在物理上相 互接近的DNA鏈間形成的連接(直接或間接)。因為DNA是高度組織化的,所以細胞內的DNA鏈在物理上是相互接近的,然而與觀察點的序列分離,例如100kb。只要交聯方法適合隨后的分段和連接步驟,這樣的交聯就可為本發明目的所考慮。
“交聯的DNA樣品”是經交聯的DNA樣品。交聯樣品DNA的效果是樣品中DNA的三維狀態保持基本完整。這樣,物理上相互接近的DNA鏈保持相互鄰近。本發明的“解除交聯”包括破壞交聯以使已交聯的DNA不再交聯,并適用于隨后的擴增和/或測序步驟。例如,對用甲醛交聯的樣品DNA進行蛋白酶K處理,將消化樣品中存在的蛋白質。由于交聯的DNA經蛋白質間接連接,蛋白酶處理本身就可以解除DNA間的交聯。然而,保持與DNA連接的蛋白質片段會阻礙隨后的測序和/或擴增。因此,解除DNA和蛋白質之間的連接可造成“解除交聯”。可通過加熱步驟解除DNA-交聯劑-蛋白質連接,例如在70°C孵育。由于在樣品DNA中存在大量蛋白質,通常需要另外用蛋白酶來消化蛋白。因此,可考慮任何“解除交聯”的方法,即其中在交聯樣品中連接的DNA鏈可適用于測序和/或擴增。“將DNA分段”包括任何應用于DNA時,產生DNA片段的技術,所述DNA可以是交聯的或不交聯的DNA,或任何其他DNA。本領域公知的技術是聲波降解,剪切和/或限制性酶切,但其他技術也可以考慮。“限制性內切核酸酶”或“限制性內切酶”是識別雙鏈DNA分子中特異性核苷酸序列(識別位點)的酶,并可在每個識別位點或附近切割DNA分子雙鏈,留下平頭末端或3’-或5’_突出端。識別的特異性核苷酸序列可決定切割的頻率,例如平均每4096個核苷酸會存在6個核苷酸的核苷酸序列,而平均每256個核苷酸上4個核苷酸的核苷酸序列存在的頻
率更高。本發明的“連接”涉及單獨的DNA片段的連接。DNA片段可以是平頭末端,或有匹配的突出(粘性突出)以使突出能相互雜交。DNA片段可用連接酶、DNA連接酶進行酶法連接。然而,也可用非-酶連接,只要DNA片段被連接,即形成共價鍵。通常在單獨鏈的羥基和磷酸基團之間形成磷酸二酯鍵。`通常,“寡核苷酸引物”是指可引導DNA合成的核苷酸鏈。沒有引物則DNA聚合酶不能從頭合成DNA。引物與DNA雜交,即形成堿基對。能形成堿基對的核苷酸是互補的,例如是胞嘧啶和鳥嘌呤、胸腺嘧啶和腺嘌呤、腺嘌呤和尿嘧啶、鳥嘌呤和尿嘧啶。引物和存在的DNA鏈之間的互補不需要是100%,即不是所有的引物堿基都必須與存在的DNA鏈形成堿基對。從引物的3’端與存在的DNA鏈雜交,用存在的鏈為模板整合核苷酸(模板定向DNA合成)。我們也可涉及在擴增反應中用作“引物”的合成的寡核苷酸分子。“擴增”涉及多聚核苷酸擴增反應,也就是,從一個或多個起始序列復制的多聚核苷酸群。擴增可涉及多種擴增反應,包括但不限于聚合酶鏈反應(PCR)、線性聚合酶反應、依賴核酸序列的擴增,滾環擴增等反應。“測序”涉及測定核酸樣品中的核苷酸(堿基序列)順序,例如DNA或RNA。許多技術是可行的,例如Sanger測序和高通量測序技術如由羅氏、11 Iumina和Appl ied Biosystems提供的。所用術語“重疊群”與DNA序列分析相關聯,涉及從兩個或多個具有相鄰核苷酸序列的DNA片段得到的重新組成的相鄰DNA段。因此,重疊群可為一組重疊的DNA片段,其提供目的基因組區域的(部分)連續序列。當與參考序列比對時,重疊群也可以是形成連續核苷酸序列的一組DNA片段。例如,術語“重疊群”包括一系列(連接的)DNA片段,其排列方式為每個(連接的)DNA片段與至少一個相鄰者有序列重疊。連接的或配對的(連接的)DNA片段可以用人工方式排列,或優選地用適當的計算機程序,例如FPC、PHRAP, CAP3等,也可分組為單獨的重疊群。“接頭”是具有有限數目堿基對的短雙鏈寡核苷酸分子,例如長度為約10至約30個堿基對(bp),所述接頭被設計為能夠與片段末端相連。接頭通常由兩個合成的寡核苷酸組成,其具有部分互補的核苷酸序列。在合適的條件下將兩個合成的寡核苷酸在溶液中混合,它們會相互復性形成雙鏈結構。復性后,可設計接頭分子的一個末端以使其與限制性片段匹配,并能夠與其連接;可設計接頭分子的另一末端以使其不能連接,但并不需要是下述情況,例如當接頭在DNA片段間連接時。“標識”是可加入到接頭或引物或包含它的序列或其他用作標簽的以提供唯一標識的短序列。該序列標識(或標簽)可以是唯一的可變的堿基序列但限定長度,用于鑒定特定核酸樣品的長度通常為4-16bp。例如4bp標簽可有4 (4次方)=256個不同的標簽。典型的實例是ZIP序列,其是本領域公知的通常用作標簽以通過雜交進行專門檢測(Iannone等,細胞計數(Cytometry )39:131-140,2000)。標識在本發明中很有用,因為通過使用這種標識,可通過進一步處理測定(PCR)樣品的來源。對于結合來源于不同核酸樣品的處理產物,用不同的標識可鑒定不同的核酸樣品。例如,本發明使用高通量測序進行測序,可結合多個樣品。標識有助于鑒定不同樣品對應的序列。標識可包含在用于連接DNA片段的接頭中,有助于DNA片段序列的鑒定。標識優選地彼此至少兩個堿基對不同,并優選地不包括兩個相同的連續堿基以避免錯讀。標識的功能有時可與其他功能物(例如接頭或引物)結合。本發明的“大小選擇”涉及選擇特定范圍大小的分子,例如(連接的)DNA片段或擴增的(連接的)DNA片段的技術。所用的技術例如是凝膠電泳、分子排阻、凝膠提取色譜,但并不限于此,只要可以選擇具有特定大小的分子的技術即可。術語“進行比對”和“比對”是指基于存在短的或長的相同或相似的核苷酸段,比較兩個或多個核苷酸序列。用于比對的方法和計算機程序是本領域公知的。可用于或適合比對的計算機程序是“Align2”,Genentech, Inc.等創制,其在美國版權局(華盛頓,D.C.20559)自1991年12月10日起以用戶文檔申請。
圖1顯示本發明中測定目的基因組區域序列的方法示意圖。該方法涉及:(a)交聯,其中例如通過它們的相關蛋白(例如組蛋白)而由甲醛固定來交聯細胞核(N)內空間上鄰近的DNA序列(通常是染色體(Ch)上接近的序列,例如相同基因的序列)。A、B、C、D和E表示目的基因組區域的5個假定的片段;(b)下一步,將交聯的樣品DNA分段,例如用限制性內切酶進行消化(例如,常見的(4個)切割子(例如NlaIII);(C)連接交聯的限制性片段以形成DNA環;(d)解除交聯后,用靠近或在目的基因組區域內的觀察點的(反向)PCR引物集(primerset)進行擴增步驟,例如PCR。擴增并在基因組的殘留物中富集與該觀察點交聯的片段(A、B、C、D 和 E)。對擴增的片段測序,例如通過測序整個環(長讀數),也可先將PCR擴增的材料分段以建立例如與Illumina或SOLiD測序匹配的測序庫。
(e)下一步從讀數中建立重疊群,將序列與參考基因組比對以鑒定基因變異。圖2顯示有5個不同觀察點(A、B、C、D和E)的BRCAl基因的示意圖。黑色箭頭表示正向。圓圈內箭頭和數字表示基因序列上的位置。觀察點E在基因的起點,觀察點A在終點。觀察點之間的間隔為大約15-25kB。圖3顯示在制備用于BRCAl基因測序的交聯的樣品DNA過程中的DNA樣品的凝膠電泳,如實施例所述。(A)泳道M表示λ (lambda) DNA Pstl標志物DNA,泳道I顯示無消化的對照,泳道2顯示NlaIII第一次消化的對照,泳道3為NlaIII第一次消化后連接的連接對照,泳道4顯示用Nspl第二次消化。(B)泳道M表示λ DNA Pstl標志物。泳道Α、B、C、D和E顯示不同DNA擴增的擴增產物,對應于實施例部分步驟67中的樣品,并且對應圖2所述的觀察點。發明詳述根據本發明的一個方面,提供測定包括靶核苷酸序列的目的基因組區域的序列的方法,所述方法包括將交聯的DNA分段,連接分段的交聯的DNA,解除交聯并測定包括所述靶核苷酸序列的連接的DNA片段的至少部分序列,用測定的序列建立目的基因組區域的序列。
交聯的DNA樣品包括經過交聯的樣品DNA。交聯存在于樣品中的樣品DNA結果是大部分保持DNA的三維結構。例如,可用的標準DNA交聯劑是甲醛。可從患者和/或疾病組織中取得樣品,也可從其他生物體或相同生物體的單獨部分獲得,如來自患者的樣品、來自健康組織的樣品和來自患病組織的樣品。從而根據本發明分析樣品,并與參考樣品比較,或者分析不同的樣品并相互比較。例如,從疑似患有乳腺癌的患者中獲得疑似腫瘤的活組織檢查。從非患病組織中獲得另一活組織檢查。根據本發明,對兩個組織活檢都進行分析。目的基因組區域可以是BRCAl和BRCA2基因,其基因長度為83和86kb (綜述于Mazoyer,2005,人類突變(Human Mutation) 25:415-422)。根據本發明通過測定目的基因組區域序列并將不同的活組織檢查的基因組區域序列互相比較和/或與參考BRCA基因序列比較,可發現基因組突變,其有助于診斷患者和/或測定患者的治療和/或預測疾病進展的預后。通過將交聯的DNA樣品分段,由于它們是交聯的,來源于目的基因組區域的DNA片段保持相互接近。隨后連接這些交聯的DNA片段時,將由于交聯而相互接近的目的基因組區域的DNA片段被連接。該連接類型也稱為接近連接。包括靶核苷酸序列的DNA片段可以和序列水平上在大線性距離內的DNA片段連接。通過測定包括含有靶核苷酸序列的片段的連接片段的(至少部分)序列,獲得了目的基因組區域周圍空間內的DNA片段的序列。每個單獨靶核苷酸序列可能和多個其他的DNA片段交聯。結果經常是一個以上的DNA片段與包括靶核苷酸序列的片段連接。通過與連接包括靶核苷酸序列的片段的(擴增的)連接的DNA片段的(部分)序列結合,可建立目的基因組區域的序列。連接包括靶核苷酸序列的片段的DNA片段可包括存在于連接的DNA片段中的任何片段。涉及交聯DNA,以及將DNA片段分段和連接的方法是本領域公知的(例如,W02007/004057或W02008/08845)。這些方法目的是鑒定不同DNA片段之間的相互作用頻率,而不是鑒定與靶核苷酸序列相鄰的片段的一級核苷酸序列。用4C檢測相互作用頻率的最初觀點是僅僅需要短序列讀數。根據染色體位置讀數,繪制相互作用的短序列讀數的頻率。該繪圖模式表示特定目的基因組區域是否可與基因組中的其他區域相互作用,或例如染色體間發生易位。例如,如果除包括靶核苷酸的序列外,還發現染色體上的高頻率讀數,則表示易位。本發明中,不測定相互作用的頻率。本發明中目前認為事實上,通過將交聯的DNA分段并隨后連接DNA片段,捕獲了靶核苷酸序列周圍的基因組區域,測序時,可以重建基因組區域的重疊群。然而本領域公知的方法中,一直集中關注的是測定與靶核苷酸序列相互作用的短序列讀數的頻率,本發明集中關注的是測定整個或至少大部分連接的DNA片段的序列(包括靶核苷酸的DNA片段),由此從DNA片段序列和連接的DNA片段的結合中,可建立目的基因組區域的重疊群。線性化的連接的片段本發明的一個實施方案中,提供一種測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括步驟:a)提供交聯的DNA樣品;b )將所述交聯的DNA分段;c)連接分段的交聯DNA ;d)解除交聯;e)任選地將步驟d)的DNA分段,優選地用限制性內切酶分段;f)任選地,將步驟d)或e)的分段的DNA與至少一個接頭連接;g)任選地,用與靶核苷酸序列雜交的至少一個寡核苷酸引物擴增步驟d)或e)的包括靶核苷酸序列的DNA,或用與至少一個接頭雜交的至少一個另外的引物擴增步驟f)的DNA ;h)測定步驟d)、e)、f )或g)的包括靶核苷酸序列的(擴增的)連接的DNA片段的至少部分序列,優選用高通量測序;i)從測定的序列中建立目的基因組區域的重疊群。步驟a)中提供的交聯的DNA的樣品在本文別處概述。步驟b)中將交聯的DNA的樣品分段。通過將交聯的DNA分段,產生DNA片段,其通過交聯結合在一起。分段步驟b)可包括聲波降解,隨后是酶法DNA末端修復。聲波降解使DNA在隨機位點分段,可以是平頭末端,或有3’ -或5’ -突出,由于那些DNA斷裂點隨機產生,可進行DNA修復(酶法),填平可能的3’ -或5’ -突出,從而獲得具有平頭末端的DNA片段,可以使片段連接至接頭和/或在隨后的步驟c)中相互連接。可選地,可通過去除突出的核苷酸將突出制成平頭末端,例如用外切核酸酶。分段步驟b)還可包括用一個或以上限制性內切酶及其組合進行分段。用限制性內切酶分段是有利的,因為它可以控制片段的平均大小。形成的片段具有匹配的突出或平頭末端,其可以在隨后的步驟c)中進行片段的連接。此外,將交聯的DNA的樣品分為多個子樣品時,每個子樣品中所用的限制性內切酶具有不同的識別位點。這是有利的,因為通過使用具有不同識別位點的不同限制性內切酶,可從每個子樣品中獲得不同的DNA片段。在下一個步驟c)中,將片段連接。由于包括靶核苷酸序列的片段可以和多個其他的DNA片段交聯,一個以上的DNA片段可與包括靶核苷酸序列的片段連接。由于它們通過交聯結合在一起,這 會造成相互接近的DNA片段的結合。在連接的DNA片段中形成不同結合和/或順序的DNA片段。如果DNA片段是經限制性酶切獲得的,限制性內切酶的識別位點是已知的,使鑒定殘留的片段成為可能或重組的限制性內切酶識別位點可表明不同DNA片段之間的分離。如果DNA片段是經隨機分段例如聲波降解和隨后的酶法DNA末端修復而獲得的,可能更難將一個片段與另一個片段進行區分。無論應用什么分段方法,連接步驟c)可在接頭存在下進行,連接片段之間的接頭序列。可選地,可在單獨的步驟中連接接頭。這是有利的,因為通過鑒定位于片段之間的接頭序列,能夠很容易地鑒定不同的片段。例如,如果DNA片段末端是平頭末端,接頭序列會鄰近每個DNA片段末端,表明單獨的DNA片段之間的邊界。之后,在步驟d)中解除交聯,生成包括兩個或多個片段的連接的DNA片段庫。連接的DNA片段庫的亞群包括含有靶核苷酸序列的DNA片段。由于交聯的DNA可能不適用于這些步驟的底物,通過解除交聯,釋放了 DNA在結構上/空間上的固定并使DNA序列可用于后續步驟,例如擴增和/或測序。可在交聯解除后進行后續步驟e)和/或f),然而,步驟
e)和/或f)也可在連接的DNA片段仍處于交聯狀態時進行。任選地,步驟e)中將連接的DNA片段分段,優選用限制性內切酶。第一分段步驟和任選的第二分段步驟的目的是獲得一定大小的在后續擴增步驟和/或序列測定步驟中匹配的連接的DNA片段。另外,第二分段步驟,優選使用酶,會產生連接的片段末端,其與步驟f)中任選的連接接頭相匹配。可在交聯解除后進行第二分段步驟,然而,也可在連接的DNA片段仍處于交聯狀態時進行第二分段步驟e)和/或連接步驟f )。在分段步驟b)和e)包括限制性內切酶的情況下,優選步驟e)的限制性內切酶識別位點比步驟b)的識別位點長。因此e)的酶切割的頻率低于步驟b)。這意味著限制DNA后步驟b)的平均DNA片段大小小于步驟e)的平均片段大小。這樣一來,在第一分段步驟,形成相對小的片段,隨后連接。由于步驟e)的第二限制性內切酶切割的頻率少于步驟b),大多數DNA片段不包括步驟e)中的限制性識別位點。因此連接的DNA片段在隨后第二步驟中分段時,步驟b)中的許多DNA片段保持完整。這是有用的,因為步驟b)中DNA片段的結合序列可用于建立目的基因組區域的重疊群。如果步驟b)的分段頻率少于步驟c)的分段,結果是將步驟b)中的片段分段,其會造成用于建立重疊群的相對大的DNA序列的丟失。因此,無論步驟b)和e)中用哪種方法,`優選地,與步驟e)相比步驟b)的分段更頻繁,從而步驟b)中的DNA片段大部分保持完整,即大部分不會被步驟e)分段。為了獲得步驟d)或e)中連接的DNA片段,任選連接至少一個接頭。連接的DNA片段的末端需要與該接頭的連接匹配。由于步驟d)或e)的連接的DNA片段可為線性DNA,接頭的連接可提供引物雜交序列。與包括靶核苷酸序列的連接的DNA片段連接的接頭序列將提供可用PCR擴增的DNA分子。在下一個步驟g)中,可用至少一個與靶核苷酸序列雜交的寡核苷酸引物和與至少一個接頭雜交的至少一個另外的引物擴增步驟f)的包括靶核苷酸序列的DNA。由于連接接頭的步驟f)是任選的,用至少一個與靶核苷酸序列雜交的寡核苷酸引物,也可在步驟g)中擴增步驟d)或e)的包括靶核苷酸的DNA。之后,測定步驟d)、e)、f)或g)中獲得的包括靶核苷酸序列的(擴增的)連接的DNA片段的序列。優選使用高通量測序技術測定序列,因為這更方便并可以測定大量序列以覆蓋全部的基因組區域。從這些測定的序列中可建立目的基因組區域的重疊群。當測定DNA片段序列時,可從建立的目的基因組區域中獲得重疊讀數。如果DNA片段從隨機分段中獲得,分段步驟的隨機性會造成測序時重疊讀數的DNA片段。通過增加樣品大小,例如增加分析細胞的數目,建立的目的基因組區域的可靠性會增加。可選地,當步驟b)中用不同的限制性內切酶分析大量子樣品時,也會獲得重疊讀數。通過增加子樣品數量,重疊片段的數目會增加,這可增加建立的目的基因組區域的重疊群的可靠性。從這些重疊的測定的序列中可建立重疊群。可選地,如果序列不重疊,例如,步驟b)中使用單個限制性內切酶,(連接的)DNA片段與參考序列的比對可以建立目的基因組區域的重疊群。環化的連接的片段在一個可選的實施方案中,提供一種測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括步驟:a)提供交聯的DNA樣品;b )將所述交聯的DNA分段;c)連接分段的交聯DNA ;d)解除交聯;e)任選地將步驟d)的DNA分段,優選地用限制性內切酶分段;f)將步驟d)或e)的DNA環化;g)任選地和優選地,用優選的與靶核苷酸序列雜交的至少一個引物擴增包括靶核苷酸序列的環化DNA;
h)用高通量測序測定包括靶核苷酸序列的(擴增的)連接的DNA片段的至少部分序列;i)從測定的序列中建立目的基因組區域的重疊群。步驟a)中提供的交聯的DNA的樣品在本文別處概述。步驟b)中將交聯的DNA的樣品分段。通過將交聯的DNA分段,制備DNA片段,其通過交聯結合在一起。分段步驟b)可包括聲波降解,隨后是酶法DNA末端修復。聲波降解使DNA在隨機位點分段,可以是平頭末端,或有3’ -或5’ -突出,由于那些DNA斷裂點隨機產生,可進行DNA修復(酶法),填平可能的3’ -或5’ -突出,從而獲得具有平頭末端的DNA片段,可以使片段連接至接頭或在隨后的步驟c)中相互連接。可選地,可通過去除突出的核苷酸將突出制成平頭末端,例如用外切核酸酶。分段步驟b)還可包括用一種限制性內切酶及其組合進行分段。用限制性內切酶分段是有利的,因為它可以控制片段的平均大小。此夕卜,形成的片段將具有匹配的突出或平頭末端,其可以在隨后的步驟c)中進行片段的連接而無需進一步修飾。此外,將交聯的DNA的樣品分為多個子樣品時,每個子樣品中所用的限制性內切酶具有不同的識別位點。這是有利的,因為通過使用具有不同識別位點的不同的限制性內切酶,可從每個子樣品中獲得不同的DNA片段。在下一個步驟c)中,將片段連接。如果DNA片段是經限制性酶切獲得的,限制性內切酶的識別位點是已知的,使鑒定殘留的片段成為可能或重組的限制性內切酶識別位點可表明不同DNA片段之間的分離。如果DNA片段是經隨機分段例如聲波裂解和隨后的酶法DNA末端修復而獲得的,可能更難將一個片段與另一個片段進行區分。無論應用什么分段方法,連接步驟c)可在接頭存在下進行,連接片段之間的接頭序列。可選地,可在單獨的步驟中連接接頭。這是有利的,因為通過鑒定位于片段之間的接頭序列,能夠很容易地鑒定不同的片段。例如,如果DNA片段末端是平頭末端,接頭序列會鄰近DNA片段末端,表明了單獨的DNA片段。
之后,在步驟d)中解除交聯,產生包括兩個或多個片段的連接的DNA片段庫。連接的DNA片段庫的亞群包括含有靶核苷酸序列的DNA片段。由于交聯的DNA可能不適用于這些步驟的底物,通過解除交聯,釋放了 DNA在結構上/空間上的固定并使DNA序列可用于后續步驟,例如擴增和/或測序。可在交聯解除后進行后續步驟e)和/或f),然而,步驟
e)和/或f)也可在連接的DNA片段仍處于交聯狀態時進行。任選地,步驟e)中將連接的DNA片段分段,優選用限制性內切酶。在解除交聯后進行分段,但也可設想在解除交聯前進行第二分段。由于限制性內切酶可以控制分段步驟和結果,優選用限制性內切酶分段,如果選擇合適的限制性內切酶,使得連接的DNA片段的匹配末端有利于匹配末端的 連接,產生如步驟f)中獲得的環化連接的DNA片段。然而,用其他方法分段,例如,剪切和/或聲波降解和隨后酶法DNA末端修復,從而形成平頭末端雙鏈DNA也可連接形成環化DNA。第一分段步驟和任選的第二分段步驟的目的是獲得在后續環化、擴增步驟和/或序列測定步驟中匹配的連接的DNA片段。如果分段步驟b)和e)包括限制性內切酶,優選地,相比分段步驟b)獲得的片段,分段步驟e)可產生平均更長的片段。在分段步驟b )和e )包括限制性內切酶的情況下,優選步驟e )的限制性內切酶識別位點比步驟b)的識別位點長。因此e)的酶切割的頻率低于步驟b)。這意味著限制DNA后的步驟b)的平均DNA片段大小小于步驟e)的平均片段大小。這樣一來,在第一分段步驟,形成相對小的片段,隨后連接。由于步驟e)的第二限制性內切酶切割的頻率少于步驟
b),大多數DNA片段不包括步驟e)中的限制性識別位點。因此連接的DNA片段在隨后第二步驟中分段時,步驟b)中的許多DNA片段保持完整。這是有用的,因為步驟b)中DNA片段的結合序列可用于建立目的基因組區域的重疊群。如果步驟b)的分段頻率少于步驟c)的分段,結果是將步驟b)中的片段分段,其會造成用于建立重疊群的相對大的DNA序列的丟失。因此,無論步驟b)和e)中用哪種方法,優選地,與步驟e)相比,步驟b)的分段更頻繁,從而步驟b)中的DNA片段大部分保持完整,即大部分不會被步驟e)分段。之后將步驟d)或e)獲得的已經解除交聯的連接的DNA片段在步驟f)中環化。在環化前解除交聯是有利的,因為在交聯時環化交聯的DNA是不利的。然而,在連接的DNA片段進行交聯時,也可進行環化。也可能不需要另外的環化步驟,因為在連接步驟中,已經形成環化的連接的DNA片段,從而環化步驟f)和步驟c)可能同時發生。然而,優選進行另外的環化步驟。環化涉及連接的DNA片段末端的連接,從而形成閉合的環。隨后可用至少一個與靶核苷酸序列雜交的引物擴增包括靶核苷酸序列的連接的DNA片段的環化DNA。對于擴增步驟,需要解除交聯,因為交聯的DNA會妨礙或阻止擴增。優選使用兩種在反向PCR反應中與靶核苷酸序列雜交的引物。這樣,可擴增與包括靶核苷酸序列的DNA片段連接的環化DNA的DNA片段。之后,測定步驟d)、e)、f)或g)中獲得的包括靶核苷酸序列的(擴增的)連接的DNA片段的序列。優選使用高通量測序技術測定序列,因為這更方便并可以測定大量序列以覆蓋全部的基因組區域。從這些測定的序列中可建立目的基因組區域的重疊群。當測定DNA片段序列時,可從建立的目的基因組區域中獲得重疊讀數。如果DNA片段從隨機分段中獲得,分段步驟的隨機性會造成測序時重疊讀數的DNA片段。通過增加樣品大小,例如增加分析細胞的數目,可增加建立的目的基因組區域的可靠性。可選地,當步驟b)中用不同的限制性內切酶分析大量子樣品時,也會獲得重疊讀數。通過增加子樣品數量,重疊片段的數目會增加,這可增加建立的目的基因組區域的重疊群的可靠性。從這些重疊的測定的序列中可建立重疊群。可選地,如果序列不重疊,例如,步驟b)中用單個限制性內切酶,(連接的)DNA片段與參考序列的比對可建立目的基因組區域的重疊群。多個靶序列在一個實施方案中,提供一種測定包括兩個靶核苷酸序列的目的基因組區域的序列的方法。該方法涉及與上述概述同樣的步驟直至擴增步驟。該擴增步驟不是用一個靶核苷酸序列,而是兩個。對于兩個靶核苷酸序列,在PCR反應中用兩個不同的引物,一個引物對應各自的靶核苷酸序列。當兩個靶核苷酸序列的兩個引物結合位點存在于連接的DNA片段時,假如弓I物結合位點有正確的方向,兩個引物將在兩個引物結合位點之間的位置內擴增序列。具有環化的連接的DNA片段是有利的,因為具有正確的方向的兩個引物結合位點的幾率比線性連接的DNA片段更高(與線性連接的DNA片段中四個中的一個相比,四個方向中兩個將擴增)。在另一實施方案中,除了兩個靶核苷酸序列,目的基因組區域包括進一步的靶核苷酸序列,在PCR擴增反應中,每個靶核苷酸使用一種引物。通過結合多個靶核苷酸和單個擴增中對應的引物將增加引物結合產生擴增子的幾率。例如,如實施例部分所述,5個不同的靶核苷酸用于BRCAl基因(參見例如圖2)。通過選擇一個靶核苷酸序列的一種引物進行PCR擴增(也指觀察點),例如A和另一個B。也可用每個靶核苷酸序列A、B、C、D和E的引物進行PCR。由于這些靶核苷酸在物理上是相互接近的,進行此擴增會富集目的基因組區域,假如引物結合位點在連接的DNA片段終止,這樣會產生擴增子。因此,本發明提供測定目的基因組區域的序列的方法,其中目的基因組區域包括另外一個或多個靶核苷酸序列,并且其中在擴增步驟提供與靶核苷酸序列雜交的引物和提供與一個或多個的另外 的靶核苷酸對應的一個或多個的引物,其中使用引物擴增線性DNA片段或擴增環化DNA。測定連接的DNA片段的序列測定連接的DNA片段的序列的步驟,優選包括高通量測序。高通量測序方法是本領域公知的,原則上可考慮任何方法應用于本發明。可根據廠商說明書(例如由羅氏、Illumina和Applied Biosystems提供的)進行高通量測序技術。通常,將測序接頭連接至(擴增的)連接的DNA片段。在用例如本文所述的PCR擴增線性或環化片段的情況下,擴增的產物是線性的,使得接頭可以連接。可提供合適的末端(例如平頭,互補的粘性末端)用于連接接頭序列。可選地,用于PCR或其他擴增方法的引物可包括接頭序列,從而在擴增步驟
g)中形成具有接頭序列的擴增產物。如果環化的片段沒有被擴增,可將環化片段分段,優選通過使用例如反向PCR反應中引物結合位點之間的限制性內切酶分段,這樣與包括靶核苷酸序列的DNA片段連接的DNA片段保持完整。測序接頭可包含在本發明方法的步驟c)和
f)中。這些測序接頭可以是包含在任選的已用于這些步驟的接頭中的部分接頭序列和/或在這些步驟中另外提供的單獨序列接頭。優選在高通量方法中產生長讀數。長讀數可讀取連接的DNA片段的多個DNA片段。這樣,可鑒定步驟b)的DNA片段。將DNA片段序列與參考序列比較和/或相互比較。例如,也在后文說明,該DNA片段序列可用于測定帶有基因突變的細胞的片段的幾率。通過對鄰近該序列的DNA片段的DNA片段序列進行測序,可鑒定唯一的連接的DNA片段。尤其是步驟b)中由隨機分段獲得的DNA片段的情況。兩個細胞將提供完全一樣的DNA片段的幾率非常小,更不必說該片段連接的DNA片段的末端將是相同的。因此通過這種方式鑒定DNA片段,可測定包括特定突變的細胞和/或基因組區域的比率。
因此,不需要提供連接的DNA片段的全序列。優選至少測序(多個)DNA片段,由此測定DNA片段序列。也可考慮讀取更短序列,例如50-100個核苷酸的短讀數。在此方案中,優選將(擴增的)連接的DNA分段成更小的片段,其隨后與適合于高通量測序方法的適當的接頭相連。如果用標準測序方法,意味著可能丟失關于連接的DNA片段的信息。以短讀數不可能鑒定全DNA片段序列。如果考慮該短讀數,可設想提供另外的處理步驟這樣分段時單獨的DNA片段與標識連接或裝配,由此從短讀數中為連接的DNA片段建立重疊群。這種涉及短序列讀數的高通量測序技術會涉及成對的末端測序。通過使用成對的末端測序和短序列讀數,來自用于測序的DNA分子的兩個末端的短讀數可使連接的DNA片段結合,所述DNA分子可包括不同的DNA片段。這是因為相對于來自兩末端測定序列,兩個序列讀數可結合生成相對大的DNA序列。這樣,可為(擴增的)連接的DNA片段建立重疊群。然而,不鑒定DNA片段時應考慮短讀數,因為可從短序列讀數中建立目的基因組區域,尤其是已擴增了目的基因組區域時。關于DNA片段和/或單獨的目的基因組區域(例如二倍體細胞的)的信息可能會丟失,但仍可鑒定DNA突變。因此,測定(擴增的)連接的DNA序列的至少部分序列的步驟包括短序列讀數,優選測定長序列讀數從而可鑒定DNA片段序列。另外,對于(擴增的)連接的DNA片段,可考慮用不同的高通量測序策略,例如,將具有相對遠離的末端的成對末端測序的短序列讀數與更長序列讀數結合,這樣,可為(擴增的)連接的DNA片段建立重疊群。在一個實施方案中,本發明用于提供對產生的序列信息的質量控制。由高通量測序方法提供的序列分析中,會發生測序誤差。例如測序誤差可發生在DNA鏈延伸中,其中錯誤的(即與模板非互補)堿基合并入DNA鏈中。測序誤差與突變不同,因為進行擴增和/或測序的原始DNA不包括突變。根據本發明,可測定連接有DNA片段的(至少部分)序列的DNA片段序列,其序列是唯一的。步驟c)中形成的連接的DNA片段的唯一性可為測定步驟
h)中的序列提供質量控制。在以足夠深度擴增和測序連接的DNA片段時,將會對相同的唯一的(連接的)DNA片段的多個拷貝進行測序。比較來源于相同的原始的連接DNA片段的拷貝序列并鑒定擴增和/或測序誤差。進一步的實施方案此外,根據本發明的方法,從交聯的DNA樣品中測定多個目的基因組區域的序列。每個目的基因組區域提供一種靶核苷酸序列,并設計對應的引物。多個目的基因組區域可以是重疊的目的基因組區域,從而增加測定的序列的大小。例如,如果包括靶核苷酸序列的目的基因組區域的序列通常包括1MB,將部分重疊的目的基因組區域例如0.1MB的重疊結合,每個都具有對應的靶核苷酸序列,將5個目的基因組區域結合會產生4.6MB的序列(0.9+3X (0.1+0.8)+0.1+0.9=4.6MB),從而延長目的基因組區域的測定的或分析的序列的大小。目的基因組區域中限定距離內的多個靶核苷酸序列也可用于增加基因組區域內的平均覆蓋和/或均勻覆蓋。
另外,步驟g)的至少一個寡核苷酸引物可包含標識。在所述連接步驟c)中用于連接片段間的接頭序列也可包含標識。通過在寡核苷酸引物內引入標識,在同時分析交聯DNA的多個樣品或多個子樣品時,可很容易地測定每個樣品的來源。當交聯的DNA的原始樣品相同時,和/或例如從不同的生物體或患者獲得DNA樣品,可對交聯DNA的(子)樣品進行不同處理。集中處理樣品時,標識可以結合不同處理的樣品,例如,進行相同的程序步驟。測序步驟h)涉及高通量測序時,該集中處理是特別有利的。根據本發明,在擴增步驟g)之前或之后,可進行大小選擇步驟。用凝膠提取色譜、凝膠電泳或密度梯度離心進行該大小選擇步驟,這些方法是本領域公知的。優選地,選擇DNA的大小在20-200000bp(bas印air)之間,優選地在50_100000bp之間,更有選地在100-3000bp之間。大小分離步驟可以選擇一定大小范圍內的(擴增的)連接的DNA片段,其對PCR擴增和/或下一步測序中的長讀數測序是最佳的。目前500個核苷酸的測序讀數是商業化的,一些公 司已有最新進展,例如太平洋生物科學公司(http://WWW.pacificbiosciences.com/)開發的單分子實時(SMRT ) DNA測序技術表明可以達到1.000至10,000核苷酸讀數。如果細胞中目的基因組區域的倍性大于1,在本發明方法的步驟h)中為每個倍性建立重疊群。由于基因組中給定靶點的基因組環境主要由線性染色體模板上物理上接近靶序列的DNA基因組序列組成,它可允許每個特定染色體模板重構。如果目的基因組區域的倍性大于1,細胞內(或其等價物)存在多個目的染色體區域。通常這些多個目的基因組區域不占用共同的空間,即它們在空間內是分離的。將該細胞的交聯DNA樣品分段時,從細胞內每個目的基因組區域中形成包括靶核苷酸序列的對應的DNA片段。這些DNA片段各自連接和它們接近的DNA片段。連接的DNA片段代表不同的目的基因組區域。例如,如果倍性是2,會發現各自具有唯一突變并分離成IMB的兩個片段在DNA片段中連接在一起,可得出結論,這兩個片段來自相同的目的基因組區域。因此,在該方案中,鑒定了兩個片段,它們分配在相同的基因組區域。因此,從相同的片段序列建立重疊群時,這兩個帶有突變的片段可為特定基因組區域建立重疊群,而為另一基因組區域建立的重疊群不帶有突變。因此,根據本發明方法,建立重疊群的步驟h)包括以下步驟:I)鑒定步驟b)的片段;2)將片段分配至基因組區域;3)從片段的序列中為基因組區域建立重疊群。同樣,當存在三個包括唯一突變的片段(A*、B*和C*),并且目的基因組的倍性是
2。此次,鑒定包括兩個突變片段的連接產物,一個連接產物包括A*B*,一個為A*C*。同樣,包括非突變的連接產物,片段鑒定為BC和AC。在該方案中,連接的DNA片段A*B*和A*C*由片段A*連結,連接的DNA片段BC和AC由片段C連結。在該方案中,將DNA片段A*、B*和C*分配至相同的基因組區域,A、B和C分配至另一個基因組區域。因此,相應地,將片段分配至基因組區域的步驟2)包括鑒定不同的連接產物并連結包括DNA片段的不同連接產物。同樣,其可應用于異質細胞群。例如,提供包括異質細胞群(例如,不同來源的細胞或源自包括正常細胞和基因突變細胞(如癌細胞)的生物體細胞)的交聯DNA的樣品,為每個對應不同基因組環境(例如其可為細胞內的不同基因組環境或不同細胞的不同基因組環境)的目的基因組區域建立重疊群。鑒定突變在一個可選的實施方案中,提供用于鑒定存在或不存在基因突變的方法。在第一個實施方案中,提供用于鑒定存在或不存在基因突變的方法,包括本發明上述任何方法的步驟a) _h),其中為多個樣品建立重疊群,還包括以下步驟:i)比對多個樣品的重疊群;j)鑒定多個樣品的目的基因組區域中存在或不存在基因突變。可選地,提供用于鑒定存在或不存在基因突變的方法,包括本發明上述任何方法的步驟a) -g),還包括以下步驟:i )比對重置群和參考序列;j)鑒定目的基因組區域中存在或不存在基因突變。例如,通過比較多個樣品的重疊群鑒定基因突變,如果一個(或多個)樣品包括基因突變,則可觀察到,因為在與另一樣品序列比較時,重疊群的序列是不同的,即鑒定存在基因突變。如果觀察到樣品的重疊群之間沒有不同的序列,則鑒定不存在基因突變。可選地,可用參考序列比對重疊群的序列。如果樣品的重疊群的序列與參考序列的序列不同,可觀察到基因突變,即鑒定存在基因突變。如果觀察到樣品的重疊群和參考序列之間沒有不同的序列,鑒定不存在基因突變。不需要為鑒定存在或不存在基因突變建立重疊群。只要DNA片段序列可相互或與參考序列比對,就可鑒定存在或不存在基因突變。因此,在本發明可選的實施方案中,根據上述任何方法,提供鑒定存在或不存在基因突變的方法,無需建立重疊群的步驟h)。該方法包括上述任何方法的步驟a) _g),還包括以下步驟:h)比對測定的(擴增的)連接的DNA片段序列和參考序列;i)鑒定測定的序列中存在或不存在基因突變。可選地,提供鑒定存在或不存在基因突變的方法,其中測定大量的(擴增的)連接的DNA的樣品序列,包括上述任何方法的步驟a) _g),還包括以下步驟:h)比對大量樣品的(擴增的)連接的DNA片段的測定的序列;i)鑒定測定的序列中存在或不存在基因突變。帶有基因突變的等位基因或細胞的比率如上所述,提供來自異質細胞群(例如,不同來源的細胞或源自包括正常細胞和基因突變細胞(如癌細胞)的生物體細胞)的交聯DNA的樣品,為每個對應不同基因組環境(例如細胞內的不同基因組環境或不同細胞的不同基因組環境)的目的基因組區域建立重疊群。另外,可測定帶有基因突變的片段或連接的DNA片段的比率,其與帶有基因突變的等位基因或細胞的比率相關聯。DNA片段的連接是隨機的過程,連接的DNA片段的部分DNA片段的收集和順序是唯一的并代表單個細胞和/或細胞的單個目的基因組區域。而且,如果分段步驟b)包括隨機的分段過程,例如聲波降解,DNA的斷裂點可提供另外的唯一的特征,尤其是在與其連接的另一個DNA片段的背景中(其也有唯一的片段末端)。因此,鑒定包括基因突變片段的連接的DNA片段也包括鑒定有唯一順序的連接的DNA片段和DNA片段的收集。帶有基因突變的等位基因或細胞的比率在評價治療中是重要的,例如,患者正經歷癌癥 治療的情況。癌細胞帶有特定的基因突變。帶有該突變的細胞的百分比可測量治療的成功或失敗。在可選的實施方案中,提供測定帶有基因突變的片段的比率和/或帶有基因突變的連接的DNA片段的比率。在該實施方案中,基因突變限定為特定基因突變或特定基因突變的選擇。在第一個實施方案中,提供測定帶有源自疑似異質細胞群的基因突變的片段的比率的方法,包括上述任何方法的步驟a) _h),還包括以下步驟:i)鑒定步驟b)的片段;j)鑒定片段中存在或不存在基因突變;k)測定帶有基因突變的片段的數目;I)測定不帶有基因突變的片段的數目;m)計算帶有基因突變的片段的比率。在可選的實施方案中,提供測定帶有包含源自疑似異質細胞群的基因突變的片段的連接產物的比率的方法,包括上述任何方法的步驟a) _h),還包括以下步驟:
i)鑒定步驟b)的片段;j)鑒定片段中存在或不存在基因突變;k)鑒定步驟f)的帶有包含或不包含基因突變的片段的連接產物;I)測定帶有包含基因突變的片段的連接產物的數目;m)測定帶有不包含基因突變的片段的連接產物的數目;η)計算帶有基因突變的連接產物的比率。在這些實施方案的方法中,在步驟j)中通過比對參考序列和/或比較大量樣品中的DNA片段序列,鑒定存在或不存在基因突變。本發明方法中,鑒定的基因突變可為SNP、單核苷酸多態性、插入、倒位和/或易位。如果觀察到缺失和/或插入,將帶有缺失和/或插入的樣品的片段和/或連接產物的數目和參考樣品進行比較以鑒定缺失和/或插入。也可基于在分析的片段中染色體斷裂點的存在鑒定缺失、插入、倒位和/或易位。在另一實施方案中,在上述方法中,在DNA片段、連接的DNA片段和/或目的基因組區域中測定存在或不存在甲基化的核苷酸。例如,用亞硫酸氫鹽處理步驟a)-f)的DNA。用亞硫酸氫鹽處理DNA可將胞嘧啶殘基轉化為尿嘧啶,但5-甲基胞嘧啶殘基不受影響。因此,亞硫酸氫鹽處理會在DNA序列中引入特定的改變,這取決于各自胞嘧啶殘基的甲基化狀態,產生關于DNA片段的甲基化狀態的單-核苷酸分辨信息。將樣品分為子樣品,其中處理一個樣品,不處理另外一個,測定甲基化的核苷酸。可選地,亞硫酸氫鹽處理的大量樣品的序列也可進行比對,或將亞硫酸氫鹽處理的樣品的序列與參考序列進行比對。分析(短)序列讀數時,要注意阻止對引物進行測序。因此,在可選的方法中,在高通量測序步驟前去除引物序列。因此,在可選的實施方案中,提供包括靶核苷酸序列的目的基因組區域的序列的下述方法,包括以下步驟:a)提供交聯的DNA樣品;b)將交聯的DNA分段;c)連接分段的交聯DNA ;d)解除交聯;e)任選地將步驟d)的DNA分段,優選用限制性內切酶分段;
f)任選地,將步驟d)或e)的分段的DNA與至少一個接頭連接;g)用至少一個(I)優選含有5’突出的帶有III型限制性內切酶識別位點和(2)與靶核苷酸序列雜交的引物擴增步驟d)或e)的包括靶核苷酸序列的連接的DNA片段,或用至少一個(I)優選含有5’突出的帶有III型限制性內切酶識別位點和(2)與靶核苷酸序列雜交的引物,以及至少一個與至少一個接頭雜交的引物擴增步驟f )的連接的DNA片段;h)用III型限制性內切酶消化擴增的目的核苷酸序列,隨后是大小選擇步驟以去除釋放的雙鏈引物序列;i)將DNA分段,優選用聲波降解;j)任選地,連接用于下一步測序的雙鏈接頭序列;k)測定步驟d)、e)、f)或g)的包括靶核苷酸序列的(擴增的)連接的DNA片段的至少部分序列,優選用高通量測序;I)鑒定測定的序列中基因組區域的基因變異和建立目重疊群。在可選的實施方案中,本文所述的任何方法中,步驟g)中所用的引物帶有基團,例如生物素,任選地用于通過結合固體載體來純化(擴增的)連接的DNA片段。在一個實施方案中,包括靶核苷酸序列的連接的DNA片段可用與靶核苷酸序列雜交的雜交探針(或捕獲探針)來捕獲。靶向探針可直接附著在固相載體上或包括基團,例如生物素,可與適于捕獲生物素基團的固相載體(例如抗生物素蛋白鏈菌素包被的磁珠)結合。在任何情況下,捕獲包括靶核苷酸序列的連接的DNA片段可以將包括靶核苷酸序列的連接的DNA片段與不包括靶核苷酸序列的連接的DNA片段分離。因此,該捕獲步驟可以富集包括靶核苷酸序列的連接 的DNA片段。因此,整個發明中,進行擴增的步驟,其也是富集步驟,可選地,進行定向靶核苷酸序列的探針的捕獲步驟。對于目的基因組區域,可將至少一個捕獲探針用于靶核苷酸序列的捕獲。對于目的基因組區域,可將一個以上的探針用于多個靶核苷酸序列。例如,與所述的BRCAl基因類似,5個靶核苷酸序列之一的I個引物可用作捕獲探針(A、B、C、D或E)。可選地,以結合方式(A、B、C、D或E)用5個引物捕獲目的基因組區域。在一個實施方案中,將擴增步驟和捕獲步驟結合,例如,先進行捕獲步驟再進行擴增步驟或反之亦然。在一個實施方案中,使用與包括(擴增的)連接的DNA片段的接頭序列雜交的捕獲探針。
實施例以下是本發明的整個基因測序方法的實施例,用于測定全Brcal基因序列。所用細胞為SUM149PT細胞、乳腺癌貼壁細胞系,其在Brcal基因座的2288位置缺失T(Elstrodt等,癌癥研究(Cancer Res),2006)。圖1為本發明的示意圖。細胞培養在150cm2培養皿中用RPMI/10%FCS/鏈霉素將SUM149PT細胞培養至全皿。分裂前,培養皿計數顯示150cm2全培養皿包含20 X IO6個SUM149PT細胞。固定和細胞裂解用PBS洗滌培養的細胞,并用PBS/10%FCS/2%甲醛在常溫下固定IOmin。隨后洗滌和收集細胞,從裂解緩沖液(50mM Tris-HClpH7.5,150mM NaCl, 5mMEDTA, 0.5%NP-40, 1%TX_100和 I XComplete 蛋白酶抑制劑(Roche#l 1245200))中獲取細胞,冰上孵育IOmin。隨后洗滌并在MilliQ中獲取。分段1:消化用NlaIII (紐英倫生物技術公司#R0125)消化固定的裂解細胞。連接1:熱滅活NlaIII酶,隨后用T4DNA連接酶(羅氏,#799009)進行連接步驟。解除交聯樣品中加入Prot K (10mg/ml)并在65°C孵育。隨后加入RNaseA (10mg/ml,羅氏#10109169001),樣品在37°C孵育。下一步,進行酚-氯仿提取,使包括DNA的上清沉淀并形成小球(pellet)。將小球狀沉淀物溶于IOmM Tris-HCl ρΗ7.5。分段2:第二消化用Nspl (紐英倫生物技術公司#R0602S)消化和連接樣品。連接2:第二連接和純化樣品中加入Prot K (10mg/ml)并在65°C孵育。隨后加入RNaseA (10mg/ml,羅氏#10109169001),樣品在37°C孵育。下一步,進行酚-氯仿提取,使包括DNA的上清沉淀并形成小球(pellet)。將 小球狀沉淀物溶于IOmM Tris-HCl pH7.5。完成富集模板并保存或直
接繼續。擴增連接的DNA片段:PCR設計用于Brcal基因座的PCR富集的引物作為NlaIII限制性片段的限制性位點附近(<50bp)的反向唯一引物,引物集,即“觀察點”的空間約20kb (參考圖2和表I)表1.所用引物序列的概況
權利要求
1.測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括將交聯的DNA分段,連接分段的交聯DNA,解除交聯并測定包括所述靶核苷酸序列的連接的DNA片段的至少部分序列,用測定的序列建立目的基因組區域的序列。
2.測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括以下步驟: a)提供交聯的DNA樣品; b)將所述交聯的DNA分段; c)連接分段的交聯DNA; d)解除交聯; e)任選地將步驟d)的DNA分段,優選地用限制性內切酶分段; f)任選地,將步驟d)或e)的分段的DNA與至少一個接頭連接; g)任選地和優選地,用至少一個與所述靶核苷酸序列雜交的引物擴增步驟d)或e)的包括所述靶核苷酸序列的連接的DNA片段,或用至少一個與所述靶核苷酸序列雜交的引物和至少一個與至少一個接頭雜交的引物擴增步驟f)的連接的DNA片段; h)測定步驟d)、e)、f)或g)的包括所述靶核苷酸序列的所述(擴增的)連接的DNA片段的至少部分序列,優選地用高通量進行測序; i )從測定的序列中建立目的基因組區域的重疊群。
3.測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括以下步驟: a)提供交聯的DNA樣品; b)將所述交聯的DNA分段; c)連接分段的交聯DNA; d)解除交聯; e)任選地將步驟d)的DNA分段,優選地用限制性內切酶分段; f)將步驟d)或e)的DNA環化; g)任選地和優選地,用優選的至少一個與所述靶核苷酸序列雜交的引物擴增包括所述靶核苷酸序列的環化的DNA; h)用高通量測序測定包括所述靶核苷酸序列的所述(擴增的)連接的DNA片段的至少部分序列; i )從測定的序列中建立目的基因組區域的重疊群。
4.根據權利要求2或3所述的測定目的基因組區域的序列的方法,其中所述目的基因組區域包括另外的一個或多個靶核苷酸序列,其中在擴增步驟(g)中提供與所述靶核苷酸序列雜交的引物以及提供與一個或多個另外的靶核苷酸對應的一個或多個引物,其中用所述引物擴增連接的DNA片段或擴增環化的DNA。
5.根據權利要求2-4所述的方法,其中分段步驟b)包括聲波降解,隨后是酶法DNA末端修復。
6.根據權利要求2-4所述的方法,其中分段步驟b)包括用限制性內切酶分段。
7.根據權 利要求5或6所述的方法,其中連接步驟c)在接頭存在下進行,將接頭序列連接于片段之間。
8.根據權利要求6或7所述的方法,其中在步驟b)中處理大量子樣品,對于每個子樣品,使用具有不同識別位點的限制性內切酶。
9.根據權利要求8所述的方法,其中分段步驟e)包括限制性內切酶,其具有比步驟b)的限制性內切酶識別序列更長的識別序列。
10.根據前述任一項權利要求所述的方法,其中測定多個目的基因組區域的序列。
11.根據前述任一項權利要求所述的方法,其中步驟g)的至少一個寡核苷酸引物中包含標識。
12.根據前述任一項權利要求所述的方法,其中在擴增步驟g)之前或之后,進行大小選擇步驟。
13.根據權利要求12所述的方法,其中用凝膠提取色譜、凝膠電泳或密度梯度離心進行所述大小選擇步驟。
14.根據權利要求12-13所述的方法,其中選擇大小在20-200000bp之間,優選地50-100000bp,更有選地在 100-3000bp 之間的 DNA。
15.根據權利要求1-14所述的方法,其中如果細胞中目的基因組區域的倍性大于1,在步驟i)中為每個倍性建立重疊群。
16.根據前述任一項權利要求所述的方法,其中建立重疊群的步驟i)包括以下步驟: 1)鑒定步驟b)的片段; 2)將片段分配至基因組區域; 3)為基因組區域建立重疊群。
17.根據權利要求16所述的方法,其中將片段分配至基因組區域的步驟2)包括鑒定步驟f)的不同連接產物,將不同連接產物與鑒定的片段結合。
18.鑒定存在或不存在基因突變的方法,包括權利要求1-17任一項的步驟a)-1),其中為多個樣品建立重疊群,還包括以下步驟: i)比對多個樣品的重疊群; j)鑒定多個樣品的目的基因組區域中存在或不存在基因突變。
19.鑒定存在或不存在基因突變的方法,包括權利要求1-17任一項的步驟a)-1),還包括以下步驟: j)比對重置群和參考序列; k)鑒定目的基因組區域中存在或不存在基因突變。
20.鑒定存在或不存在基因突變的方法,包括權利要求1-14任一項的步驟a)-h),還包括以下步驟: i)比對測定的所述(擴增的)連接的DNA片段序列和參考序列; j)鑒定所述測定的序列中存在或不存在基因突變。
21.鑒定存在或不存在基因突變的方法,包括權利要求1-14任一項的步驟a)-h),其中在測定(擴增的)連接的DNA片段的大量樣品序列中,還包括以下步驟: i)比對所述測定的大量樣品的(擴增的)連接的DNA片段序列。
j)鑒定所述測定的序列中存在或不存在基因突變。
22.測定帶有源自疑似異質細胞群的基因突變的片段的比率的方法,包括權利要求1-14任一項的步驟a)-h),還包括以下步驟: i)鑒定步驟b)的片段; j)鑒定所述片段中存在或不存在基因突變;k)測定帶有基因突變的片段的數目; I)測定不帶有基因突變的片段的數目; m)計算帶有基因突變的片段的比率。
23.測定帶有包含源自疑似異質細胞群的基因突變的片段的連接產物的比率的方法,包括權利要求1-14任一項的步驟a) _h),還包括以下步驟: i)鑒定步驟b)的片段; j)鑒定所述片段中存在或不存在基因突變; k)鑒定帶有包含或不包含基因突變的片段的連接的DNA片段; I)測定帶有包含基因突變的片段的連接的DNA片段的數目; m)測定帶有不包含基因突變的片段的連接產物的數目; η)計算帶有基因突變的連接產物的比率。
24.根據權利要求22-23所述的方法,其中在步驟j)中通過比對參考序列和/或通過比較大量樣品中的片段序列,鑒定存在或不存在基因突變。
25.根據權利要求18-24任一項所述的方法,其中基因突變為單核苷酸多態性、缺失、插入、倒位和/或易位。
26.根據權利要求25所述的方法,其中通過將帶有缺失和/或插入的樣品的片段和/或連接產物數目與參考樣品進行比較鑒定缺失和/或插入。
27.根據權利要求25所述的方法,其中基于在分析的片段中染色體斷裂點的存在鑒定缺失、插入、倒位和/或易 位。
28.根據前述任一項權利要求所述的方法,其中在DNA片段、連接的DNA片段和/或目的基因組區域中測定存在或不存在甲基化的核苷酸。
全文摘要
本發明涉及測定包括靶核苷酸序列的目的基因組區域的序列的方法,包括將交聯的DNA分段,連接分段的交聯DNA,解除交聯并測定包括靶核苷酸序列的連接的DNA片段的至少部分序列。
文檔編號C12Q1/68GK103180459SQ201180034117
公開日2013年6月26日 申請日期2011年7月8日 優先權日2010年7月9日
發明者馬克斯·簡·梵閔, 沃特·倫納德·德拉特 申請人:賽爾冉迪思股份有限公司, 荷蘭皇家科學院