專利名稱:用于多態性的高通量鑒定和檢測的策略的制作方法
技術領域:
本發明涉及分子生物學和遺傳學領域。本發明涉及快速鑒定核酸樣品中的多個多態性。經鑒定的多態性可以用于針對測試樣·品中的多態性的高通量篩選系統的開發。
背景技術:
長期以來,基因組DNA探查被科學團體特別是醫學團體所期望?;蚪MDNA是鑒定、診斷和治療疾病,例如癌癥和阿爾茲氏疾病的關鍵。除疾病鑒定和治療以外,基因組DNA的探查可以在植物和動物育種研究中帶來顯著的優勢,其可以對全世界的食品及營養問題提供答案。已知許多疾病與特定的基因兀件有關,特別地,與特定基因中的多態性有關。大量樣品例如基因組的多態性的鑒定,在目前是一項艱苦而耗時的工作。然而,該鑒定對于下述領域例如生物醫學的研究,開發藥學產品、組織分型、基因分型和群體研究具有重大價值。發明概述本發明提供了使用高通量方法的組合以快速而經濟的方式在復雜的例如非常大量的核酸樣品(例如DNA或RNA)中,有效地鑒定并且可靠地檢測多態性的方法。這種高通量方法的整合提供了一種平臺,其特別適用于高度復雜的核酸樣品中的多態性的快速且可靠的鑒定和檢測,其中傳統的多態性的鑒定和繪圖是艱苦且耗時的。本發明人的發現之一是用于多態性,優選單核苷酸多態性的鑒定的解決方案,而且同樣可用于(微)衛星和/或插入/缺失特別是在大基因組中(微)衛星和/或插入/缺失的鑒定的解決方案。該方法的獨特之處在于它對大的或小的基因組的適用性相同,并且對大基因組特別是多倍體物種尤其具有優勢。為了鑒定SNP(和隨后檢測經鑒定的SNP),本領域有幾種可以采用的可能方法。首選方案中,對完整基因組進行測序,并且這可以對幾個個體進行。這主要是理論上的實驗,因為這是麻煩而且昂貴的,并且,盡管技術快速發展,這雖然簡單但對用于每一個生物體是不可行的,尤其是對具有大基因組的生物體是不可行的。次選方案是利用可獲得的(片段化的)序列信息,例如EST文庫。其允許生成使PCR引物,重新測序和個體間的比較。此外,其要求初始的序列信息不可得或僅僅是有限量的。進一步必須開發分別針對各個區域的PCR-分析,其增加了巨大的成本和開發時間。第三個選擇是限定自身到各個個體的基因組的部分。困難在于,為了提供用于成功的SNP鑒定的可比較的結果,所提供的基因組的部分必須對不同個體是相同的。本發明人現在已經解決了這一難題,通過整合用于篩選部分的基因組的高度重現性方法集合和用于多態性鑒定的高通量測序,其整合于樣品制備和高通量鑒定平臺。本發明加速了多態性發現的進程并且在后續的用于所發現的多態性開發的過程中,使用相同的要件(element)可以有效且可靠地進行高通量的基因分型。進一步設想的本發明的方法的應用,包括篩選富集的微衛星文庫,進行轉錄作譜CDNA-AFLP (數字化Northern )、復雜基因組的測序,EST文庫測序(對完整cDNA或cDNA-AFLP)、微小RNA發現(小的插入文庫的測序)、細菌人造染色體(BAC)(重疊群)的測序、批量分離分析法AFLP/cDNA-AFLP、AFLP片段的常規檢測,例如,標記輔助的回交(MABC)
坐坐寸寸ο定義在下面的描述和實施例中使用了大量術語。為了提供對說明書和權利要求包括這些術語給定的范圍的清楚而一致的理解,給出下面的定義。除非在此另有定義,此處所有使用的技術和科學術語具有與本發明所屬領域的普通技術人員通常所理解的相同的意義。所 有出版物、專利應用、專利和其他參考文獻的公開內容以其整體作為參與引入此處。多態性多態性指群體中核苷酸序列存在的兩個或多個變體。多態性可以包含一個或多個堿基置換、插入、重復或缺失。多態性包括,例如,簡單的序列重復(SSR)和單核苷酸多態性(SNP),其是一變異,發生于當單核苷腺嘌呤(A),胸腺嘧啶(T),胞嘧啶(C)或鳥嘌呤(G)-改變時。變異必需在群體中通常出現至少1%才被認為是SNP。SNP構成例如所有人類遺傳變異的90%,并且在人類基因組中每100至300個堿基就有發生。每三個SNP中的兩個是胸腺嘧啶(T)取代胞嘧啶(C)。例如人或植物的DNA序列中的變異可以影響它們如何應對疾病、細菌、病毒、化學制品、藥物等。核酸本發明的核酸可以包括任何嘧啶和嘌呤堿基,優選分別為胞嘧啶、胸腺嘧啶、和尿嘧唆,及腺嘌呤和鳥嘌呤的多聚物或低聚體,(參見AlbertL. Lehninger, Principles of Biochemistry, at 793-800 (Worth Pub. 1982)其引入此處作為參考。本發明設想任何脫氧核糖核苷酸、核糖核苷酸或肽核酸組成,及其任何化學變體,例如這些堿基的甲基化、羥甲基化或糖基化形式等等。多聚物或低聚體在組合物中可以是異源的或同源的,也可以分離自天然存在的來源或可以是人工或合成生產的。另外,核酸可以是DNA或RNA或其混合物,并且可以在單鏈或雙鏈形式包括同源雙鏈、異源雙鏈和雜交形式中永久地或瞬時性地存在。復雜度降低(complexity reduction):術語復雜度降低用于表示一種方法,其中核酸樣品例如基因組DNA的復雜度通過樣品的子集的產生而降低。子集可以是對完整(即復雜的)樣品有代表性的,并且優選是可重現的子集。可重現的在上下文中的含義為,當相同樣品用相同方法在復雜度上降低時,即獲得相同的或至少可比的子集。用于復雜度降低的方法可以是本領域已知的任何用于復雜度降低的方法。復雜度降低的方法的例子包括例如 AFLP⑩(Keygene N. V. , t he Netherlands;參見例如 EP 0534858),Dong 所描述的方法(見于例如 WO 03/012118, WO 00/24939),索引連接(Unrau et al.,vide infra)等。本發明中所用的復雜度降低的方法的相同之處在它們是可重現的。可重現的意味著當相同樣品以相同方式在復雜度上降低時,就獲得了樣品的相同的子集,以避免更多的隨機的復雜度降低,例如顯微解剖或使用代表選擇的組織中轉錄的基因組部分的mRNA (cDNA)的使用,因為其可重現性依賴于組織、分離時間等的選擇。加標簽術語加標簽指將標簽添加到核酸樣品,以便能夠區別它與第二或更多的核酸樣品。標記能夠例如通過在復雜度降低過程中序列標識子的添加或通過任何本領域已知的方法進行。這樣的序列標識子可以是例如具有變化組限定了長度的唯一性地用于標識特定核酸樣品的獨特的堿基序列。其典型的例子為例如ZIP序列。用這樣的標簽,樣品的來源可以在進一步的加工中被檢測。要是組合來源于不同核酸樣品的加工的產品,不同的核酸樣品應該用不同的標簽鑒定。經標簽的文庫術語經標簽的文庫指加標簽的核酸的文庫。測序術語測序指核酸樣品,例如DNA或RNA中核苷酸的列(堿基序列)的檢測。比對和對比術語“比對”和“對比”含義為基于相同或相似的核苷酸的短的或長的伸出的存在的兩個或多個核苷酸序列的比較。用于核苷酸序列的對比的幾種方法是本技術領域已知的,如將在下面進一步說明的一樣。檢測探針術語“檢測探針”用于表示為檢測特定的核酸序列而設計的探針,特別地,序列包含一個或多個多態性。高通量篩選高通量篩選,通常簡稱為HTS,是用于科學實驗的方法,尤其是與生物和化學領域相關。通過現代機器人技術和其他專業的實驗室硬件的組合,它允許研究人員可以有效地同時篩選大量樣品。測試樣品核酸術語“測試樣品核酸”用來指示用本發明的方法進行多態性研究的核酸樣品。限制性核酸內切酶限制性核酸內切酶或限制性酶是在雙鏈DNA分子中識別特定核酸序列(目標位點)的酶,并且可以在DNA分子的兩條鏈的每個目標位點處修整。限制性片段用限制性核酸內切酶消化產生的DNA分子被稱為限制性片段。任何給定的基因組(或核酸,無論其來源)將通過特定的限制性核酸內切酶消化為限制性片段的離散集(discrete set)。由限制性核酸內切酶消化產生的DNA片段可以進一步用于多種技·術并且例如能夠通過凝膠電泳被檢測。凝膠電泳為了檢測限制性片段,用于在尺寸基質上分級雙鏈DNA分子的方法是必須的。最常用的用于實現所述分級的方法是(毛細管)凝膠電泳。DNA片段在這種凝膠中移動的速率取決于它們的分子量;因此,移動的距離隨片段長度增加而減少。通過凝膠電泳分級的DNA片段可以通過染色過程,例如銀染色或溴化乙啶染色直接可視,如果包括在圖譜中的片段的數量足夠小。備選地,進一步的DNA片段的處理可以在片段中的摻入可檢測的標記,例如突光或放射性標記。連接通過連接酶催化的酶反應中,兩個雙鏈的DNA分子被共價連接在一起被稱為連接。一般地,兩個DNA鏈被共價連接在一起,但是通過鏈的末端之一的化學或酶修飾,兩個鏈之一的連接也可以被阻止。如果那樣的話,共價連接將只在兩個DNA鏈的一個中發生。合成的寡核苷酸具有優選大約10-大約50個堿基的單鏈DNA分子,其可以用化學方法合成而被稱為合成的寡核苷酸。一般地,這些合成DNA分子被設計為具有獨特的或期望的核苷酸序列,盡管合成具有有關的序列和其在核苷酸序列中的特定位點具有不同核苷酸組成的分子家族是可能的。術語合成的寡核苷酸可以用于指具有設計的或期望的核苷酸序列的DNA分子。接頭具有有限量的堿基對的短的雙鏈DNA分子,例如,長度大約10到大約30個堿基對,其被設計為它們可以連接到限制性片段的末端。接頭一般由兩個合成的寡核苷酸組成,其具有部分地相互互補的核苷酸序列。當在溶液中在適當條件下混合兩種合成的寡核苷酸時,它們可以相互退火形成雙鏈結構。退火后,接頭分子的一端設計為與限制性片段末端相兼容并且能夠被連接其上;接頭的另一端可以被設計為其不能被連接,但是這不是必須的(雙連接的接頭)。接頭-連接的限制性片段已經被接頭加帽的限制性片段。引物一般地,術語引物指能夠引導DNA的合成的DNA鏈。沒有引物,DNA聚合酶不能從頭(de novo)合成DNA :其只能在反應中延伸現有的DNA鏈,在反應中互補鏈用作模板以指導被組裝的核苷酸的排列。我們可以稱用在聚合酶鏈式反應(PCR)中的合成的寡核苷酸分子為引物。DNA擴增一般,術語DNA擴增可以被用于表示使用PCR的雙鏈DNA分子的體外合·成。應當注意,還存在其他擴增方法并且它們可以被用于本發明,而不違反主旨。發明詳述本發明提供了用于鑒定一個或多個多態性的方法,所述的方法包括步驟a)提供第一目的核酸樣品;b)對第一目的核酸樣品進行復雜度降低,以提供第一核酸樣品的第一文庫;c)連續地或同時地對第二或更多的目的核酸樣品進行步驟a)和b),以獲得第二或更多目的核酸樣品的第二或更多文庫;d)測序第一文庫和第二或更多的文庫的至少部分;e)比對在步驟d)中獲得的序列;f)確定在步驟e)的比對中第一核酸樣品和第二或更多核酸樣品間的一個或多個多態性;g)用在步驟f)中確定的一個或多個多態性設計一個或多個檢測探針;h)提供目的測試樣品核酸;i)對目的測試樣品進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;j)用在步驟g)中設計的一個或多個檢測探針對測試文庫進行高通量篩選以鑒定在步驟f)中確定的多態性的存在、缺失或數量;步驟a)中,提供第一目的核酸樣品。所述的第一目的核酸樣品優選為復雜核酸樣品例如總基因組DNA或cDNA文庫。優選的,復雜核酸樣品為總基因組DNA。步驟b)中,對第一目的核酸樣品進行復雜度降低以提供第一核酸樣品的第一文庫。發明的一個具體實施方式
,核酸樣品的復雜度降低的步驟包括催化性切割核酸樣品為限制性片段,分離限制性片段并選擇特殊的限制性片段庫。任選的,經選擇的片段然后與包含PCR引物模版/結合序列的接頭序列相連接。復雜度降低的具體實施方式
中,IIs型核酸內切酶用于消化核酸樣品并且限制性片段選擇性地連接于接頭序列。接頭序列可以在將被連接的突出端包含不同的核苷酸,并且只有具有與突出端中核苷酸匹配設置的接頭連接到該片段并且隨后被擴增。這一技術在本領域被描述為‘索引連接器’。尤其,這一原理的例子可以在Unrau P. and DeugauK. V. (1994) Gene 145:163-169 中看到。在另一具體實施方式
中,復雜度降低的方法利用兩個具有不同的目標位點和頻率的限制性核酸內切酶和兩個不同的接頭序列。發明的另一具體實施方式
中,復雜度降低的步驟包括對樣品進行任意引物PCR。在發明的另一個具體實施方式
中,復雜度降低的步驟包括通過變性和重退火DNA去除重復序列,然后去除雙鏈的雙鏈(double-stranded duplexes)。在發明的另一個具體實施方式
中,復雜度降低的步驟包括核酸樣品與磁珠雜交,磁珠連接于包含期望的序列的寡核苷酸探針。這一具體實施方式
可以進一步包括將雜交的樣品暴露于單鏈DNA核酸酶以除去單鏈DNA,連接包含IIs類限制性酶的接頭序列以釋放磁珠。這一具體實施方式
可以包括或可以不包括分離的DNA序列的擴增。進一步,接頭序列可以或可以不作為模版用于PCR寡核苷酸引物。在這個具體實施方式
中,接頭序列可以含有或可以不含有序列標識子(identifier)或標記。另一具體實施方式
中,復雜度降低的方法包括將DNA樣品暴露于錯配結合蛋白(mismatch binding protein)并且用3’-5’核酸外切酶消化樣品,然后用單鏈核酸酶消化·樣品。這一具體實施方式
中可以包括或可以不包括結合于錯配結合蛋白的磁珠的使用。本發明的另一具體實施方式
中,復雜度降低包括在此或在別處描述的CHIP方法或對保守基序例如SSR、NBS區(核酸結合序列)、啟動子/增強子序列、調聚物一致性序列、MADS盒基因、ATP-酶基因家族和其他基因家族的PCR引物的設計。在步驟c)中,連續地或同時地對第二或更多的目的核酸樣品進行步驟a)和b)以獲得第二或更多的目的核酸樣品的第二或更多的文庫。優選的,所述的第二或更多的目的核酸樣品也可以是復雜核酸樣品例如總基因組DNA。這同樣是優選的,所述的第二或更多的核酸樣品是與第一核酸樣品相關的。第一核酸樣品和第二或更多核酸可以是例如不同的植物品系,例如不同的胡椒品系,或不同的變體。步驟a)和b)不僅可以對第二目的核酸樣品進行,還可以對第三、第四、第五等目的核酸樣品進行。應當指出,當用相同方法和在基本相同,優選相同的條件下對第一核酸樣品和第二或更多核酸樣品進行復雜度降低時,依照本發明的方法將非常有用。在這樣的條件下,將獲得(復雜)核酸樣品的相似(可比較的)級分。在步驟d)中,測序至少部分的第一文庫和第二或更多的文庫。來自第一文庫和第二或更多文庫的序列片段的重疊量至少是50%,更優選至少60%,更優選至少70%,甚至更優選至少80%,更優選至少90%,并且更優選至少95%。測序原則上可以通過本領域已知的任何方法進行,例如脫氧鏈終止法。不過優選測序用高通量測序方法進行。例如,在WO 03/004690, WO 03/054142, WO 2004/069849, WO2004/070005, WO 2004/070007,和 WO 2005/003375 (全部以 454 公司的名義),by Seo 等人(2004)Proc. Natl. Acad. Sci. USA 101:5488-93,和 Helios, Solexa, US Genomics 等等中描述的方法,其被引入此處作為參考。更優選地,測序用在WO 03/004690, WO 03/054142, WO2004/069849, WO 2004/070005, WO 2004/070007,和 TO 2005/003375 (全部以 454 公司的名義)中公開的設備和/或方法進行,其被引入此處作為參考。在單個循環中,所描述的技術使得400000000堿基的測序可以進行并且比競爭技術快100倍且便宜100倍。測序技術大概由4個步驟組成1)對單鏈DNA (ssDNA)的文庫的DNA的片斷化和特定接頭的連接;2)退火ssDNA到珠子和在油包水微反應器中的珠子的乳化;3)在PicoTiterPlate中攜帶DNA的珠子的沉淀;和4)通過焦磷酸酯光信號的生產,在100000個孔中同時測序。該方法可以在下面更詳細地解釋。在步驟e)中,對在步驟d)中獲得的序列進行比對以提供對比結果。用于對比目的的序列的對比的方法是本領域公知的。不同過程和對比運算法則在下面描述Smith and Waterman (1981) Adv. Appl. Math. 2:482 ; Needleman and Wunsch (1970)J. Mo I. Biol. 48:443;Pearson and Lipman(1988)Proc. Nat I. Acad. Sci.USA85:2444;Higgins and. Sharp(1988)Gene 73:237-244;Higgins and Sharp (1989)CABIOS5:151-153;Corpetetal. (1988)Nucl. Acids Res. 16:10881-90;Huang et al. (1992)Computer Appl. in the Biosci.8:155-65;and Pearson et al. (1994)Meth. Mol.Biol. 24:307-31,其被引入引處用作參考。Altschul 等人(1994)Nature Genet. 6:119-29(其被引入此處用作參考)提供了序列對比方法和同源性計算的詳細描述。NCBI基礎本地對比搜索工具(BLAST) (Altschul et al.,1990)可以從幾個來源 獲得,包括生物學信息國家中心(NCBI, Bethe sda, Md.)和在Internet上,為了與序列分析程序 blastp, blastn, blastx, tblastn 和 tblastx 相聯接使用??梢赃M入 http://www.ncbi. nlm. nih. gov/BLAST/。使用這個程序如何檢測序列同一'I"生的描述可以獲自http://www. ncbi. nlm. nih. gov/BLAST/blast help, html。進一步可以應用在微衛星米集(參見Varshney 等人(2005) Trends in Biotechn. 23 (I) : 48-55 中。通常,對已經用接頭/引物和/或標識子修飾過的序列數據進行對比,例如僅用來自來源于核酸樣品的片段的序列數據。通常,獲得的序列數據用于鑒定片段的來源(例如來自哪個樣品),衍生自接頭和/或標識子的序列被從數據中除去并且在這個修飾的位置進行比對。在步驟f)中,確定第一核酸樣品和第二或更多核酸樣品間的一個或多個多態性。所述比對可以如此完成使衍生自第一核酸樣品和第二或更多核酸樣品的序列可以進行比較。然后反映多態性的區別可以被鑒定。在步驟g)中,步驟g)中檢測到的一個或多個多態性用于設計檢測探針,例如用于通過DNA芯片上的雜交或基于珠子的檢測平臺進行的檢測。檢測探針設計成這樣使得多態性可以被其反映。在單核苷酸多態性(SNP)的情況下,檢測探針一般在中心位置含有不同的SNP等位基因,會以最大化等位基因的辨別。這樣的探針可以方便地用于篩選具有某種多態性的檢驗樣品。探針可以用本領域已知的任何方法合成。探針一般被設計為適合于高通量篩選方法。在步驟h)中,提供目的測試樣品核酸。測試樣品核酸可以是任何樣品,但是優選為用來對多態性作圖的另一株或變體。一般地,代表研究的生物體的種質的測試樣品的收集物用于實驗驗證(SN)多態性是真實的和可檢測的,并且用于計算觀察到的等位基因的等位基因發生頻率。任選的,在驗證步驟中包括基因作圖群體的樣品,以還檢測多態性的基因作圖位置。在步驟i)中,對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫。更優選的,全部依照本發明的方法的用于復雜度降低的相同方法以基本相同的,優選同一的條件使用,從而覆蓋樣品的相似級分。然而,獲得加標簽的測試文庫并非必須的,盡管標記可以存在于測試文庫中的片段上。在步驟j)中,測試文庫經高通量篩選以鑒定用步驟g)中設計的檢測探針在步驟f)中確定的多態性的存在、缺失或數量。本領域技術人員已知一些用來使用探針進行高通量篩選的方法。優選利用步驟g)中獲得的信息設計的一個或多個探針固定于陣列,例如DNA芯片上,而且上述陣列隨后在雜交條件下與測試文庫接觸。互補于一個或多個陣列中的探針的測試文庫中的DNA片段在上述條件下與上述探針雜交,并且從而可以被檢測。另一種高通量篩選方法也在本發明的范圍內,例如步驟j)中獲得的測試文庫的固定和所述固定的測試文庫與步驟h)中設計的探針在雜交條件下接觸。另一種高通量測序篩選技術除Affymetrix提供的使用基于芯片的SNP檢測外,還有Illumina提供的珠子技術。在更優的具體實施方式
中,根據本發明的方法中的步驟b)進一步包括文庫的加標簽步驟以獲得加標簽的文庫,并且所述方法進一步包括組合第一加標簽的文庫和第二或更多加標簽的文庫的步驟Cl)以獲得組合文庫。 優選的,在復雜度降低步驟中進行加標簽以減少用于獲得第一核酸樣品的第一標簽文庫所需步驟的數量。上述同時的加標簽可以是例如通過AFLP,用含有對于每個樣品獨特的(核苷酸)標識子的接頭實現。進行標簽的目的在于區分不同來源的樣品,例如,獲自不同植物株,當使兩個或多個核酸樣品的文庫組合以獲得組合文庫時。因此,優選地,不同的標簽用于制備第一核酸樣品和第二或更多核酸樣品的加標簽的文庫。例如,當使用五個核酸樣品時,意欲獲得五個不同的加標簽的文庫,所述五種不同的標簽指示分別來源的樣品。標簽可以是本領域已知的用于區別核酸樣品的任何標簽,但是優選短的標識子序列。這樣的標識子序列可以是例如,用于指示通過復雜度降低所獲得的文庫的來源的不同長度的獨特的堿基序列。優選的具體實施方式
,對第一文庫和第二或更多文庫的加標簽用不同的標簽進行。如上所述,優選的,核酸樣品的各個文庫可通過它自己的標簽來鑒定。測試樣品核酸不需要加標簽。在本發明的優選的具體實施方式
中,復雜度降低通過AFLP 方法(KeygeneN. V. ,the Netherland s;參見例如 EP O 534 858 和 Vos 等人(1995)進行。AFLP :用于 DNA指紋識別的新技術,Nucleic Acids Research, vol. 23, no. 21, 4407-4414,在此引入全文作為參考)。AFLP是一種用于選擇性擴增限制性片斷的方法。AFLP沒有任何預先的序列信息并且能夠在任何起始DNA中進行。一般而言,AFLP包括步驟(a)用一個或多個特異性限制性核酸內切酶消化核酸,特別是DNA或cDNA,以將DNA片段化為相應的一系列限制性片段;(b)將這樣獲得的限制性片段與雙鏈的合成寡核苷酸頭(它的一個末端與限制性片段的一個末端或兩個末端相兼容)連接,由此產生接頭-連接的、優選被標記的起始DNA的限制性片段;(c)在雜交條件下,使接頭-連接的,優選加標簽的,限制性片段與至少一個在其3’ -末端含有至少一個選擇性核苷酸的寡核苷酸引物接觸;(d)通過PCR或類似的技術擴增與引物雜交的接頭-連接的,優選加標簽的限制性片段,以使雜交的引物沿著引物所雜交的起始DNA的限制性片段進一步延伸;和
(e)檢測,鑒定或回收由此獲得的擴增的或延伸的DNA片段。從而AFLP提供了可再生的接頭-連接的片段的子集。用于復雜度降低的另一種合適的方法是Chromatine Tmmuno Precipitation (ChiP)。這表不核DNA被分離,同時蛋白例如轉錄因子與DNA結合。對于ChiP方法,首先抗體用于抗蛋白,得到Ab-蛋白-DNA復合體。通過純化這一復合體并沉淀它,該蛋白結合的DNA被選出。隨后,DNA可以用于文庫構建和測序。即,這是針對特定功能區域(在本實施例中是特定的轉錄因子)以非隨機的方式進行復雜度降低的方法。AFLP技術的一種有用的變形使用了非選擇性核苷酸(即 +0/+0引物)并且有時被稱為連接子PCR。也提供它用來非常適合的復雜度降低。為了進一步描述AFLP,它的優點、它的具體實施方式
和其中使用的技術、酶、接頭、引物和進一步的化合物和工具,參見US 6,045,994,EP-B-O 534 858,EP 976835和EP974672,TO01/88189 和 Vos et al. Nucleic Acids Research, 1995, 23, 4407-4414,在此整體引入作為參考。因此,在本發明的方法的優選的具體實施方式
中,復雜度降低通過如下進行-用至少一種限制性內切酶消化核酸樣品以將其片段化為限制性片段;將獲得的限制性片段與至少一個合成的雙鏈寡核苷酸接頭(它的一個末端與限制性片段的一個末端或兩個末端相兼容)連接以產生接頭-連接限制性片段;-將所述接頭-連接的限制性片段與一個或多個寡核苷酸引物在雜交條件下接觸;和-通過一個或多個寡核苷酸引物的延伸來擴增所述接頭-連接的限制性片段,其中一個或多個寡核苷酸引物的至少一個包括具有與所述接頭-連接的限制性片段的末端的鏈的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸并且包括在接頭中存在的核苷酸的至少一部分,其中,任選的,至少一種所述引物在其3’末端包括經選擇的序列,其包含與用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸緊鄰定位的至少一個核苷酸。AFLP是用于復雜度降低的高度可重現的方法,并且因此特別適用于依照本發明的方法。在根據本發明的方法的優選的具體實施方式
中,接頭或引物包含標簽。這對于多態性的實際鑒定(標簽對區分衍生自分離的文庫的序列而言很重要)的情況下更是如此。在接頭或引物中引入寡核苷酸標簽是非常方便的,因為其對文庫加標簽不需要額外的步驟。在另一個具體實施方式
中,標簽為標識子序列。如上文討論的,這樣的標識子序列可以根據將要比較的核酸樣品的數量而具有不同的長度。大約4個堿基(44=256種可能的不同的標簽序列)的長度足以區別有限數量(達256)的樣品的來源,盡管優選標簽序列在將要進行區分的樣品間有一個以上堿基的不同。如需要,標簽序列的長度可以相應地調節。在一個具體實施方式
中,在固相支持物,例如珠子上進行測序(參見例如WO03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007,和 WO2005/003375(全部以454公司的名義),其被引入此處作為參考)。這種測序方法特別適合對多種樣品同時進行廉價且有效的測序。在優選的具體實施方式
中,測序包括步驟
-退火接頭-連接的片段到珠子,退火的各個珠子具有單一的接頭-連接的片段;-在油包水微反應器中使珠子乳化,各個油包水微反應器包括單個的珠子;-將珠子加載到孔中,各個孔包含單個的珠子;和-產生焦磷酸信號。在第一步中,測序接頭(seqencing adaptor)連接于組合文庫中的片段上。所述的測序接頭至少包括用于退火到珠子的“關鍵(key)”區域、測序引物區域和PCR引物區域。由此,獲得接頭連接的片段。在進一步的步驟中,接頭-連接的片段退火到珠子,各個珠子退火使之具有單一的接頭-連接的片段。對于接頭-連接的片段的集合,加入過量的珠子以確保對于大部分珠子,每個珠子上退火一個單個的接頭-連接的片段(Poisson分布)。在下一步中,在油包水的微反應器中珠子被乳化,各個油包水微反應器包含單個的珠子。PCR試劑存在于油包水微反應器中使在微反應器中發生PCR反應。隨后,破碎微反應器,并且富集含有DNA的珠子(DNA陽性珠子)。在之后的步驟中,珠子加載于孔中,各個孔含有單一的珠子。所述孔優選為PicoTiter Plate的部分,使得大量的片段同時地測序。加入載酶珠子(enzyme-carrying bead)后,片段的序列用焦磷酸測序檢測。在繼續的步驟中,皮克滴定板(Picotiterplate)和珠子及其中的酶珠子在常規的測序試劑存在下經不同的脫氧核糖核苷酸處理,并且當摻入脫氧核糖核苷酸時產生可以被記錄的光信·號。摻入正確的核苷酸將會產生可以被檢測的焦磷酸測序信號。焦磷酸測序本身在本領域是已知的并且除了在www. biotagebio. com;www.pyrosequencing. com/tab technology 上描述外,該技術還進一步在例如 WO 03/004690, WO03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 和 WO 2005/003375 (全部以454公司的名義)中使用,其被引入此處作為參考。優選的,步驟k)的高通量篩選通過步驟h)中設計的探針固定于陣列上,之后使含有探針的陣列與測試文庫在雜交條件下接觸來進行。優選的,接觸步驟在嚴格雜交條件(參見 Kennedy et al. (2003)Nat. Biotech. ;published online 7 September 2003:1-5)下進行。本領域技術人員知道合適的用于探針在陣列上的固定的方法并且也知道在雜交條件下接觸的方法。適用于該目的的代表性的技術參見Kennedy et al. (2003)Nat.Biotech. ;published online 7 September 2003:1-5。在多倍體農作物育種中,發現了一個特別有用的應用。通過用具有高覆蓋、鑒別性的SNP和不同等位基因和開發用于等位基因特異性擴增的探針進行的多倍體農作物測序,多倍體農作物的育種可以取得顯著的進步。作為發明的一部分,為了在此描述的用于有效和高通量的多態性鑒定的方法的進一步改進,已經發現對多種樣品采用選擇性擴增而生成的隨機選擇的子集和高通量測序技術的組合存在某些必須解決的復雜問題。更詳細地,已經發現當進行復雜度降低后,多個(例如第一和第二或更多的)樣品組合于集合中時出現了問題,很多片段似乎源自兩個樣品或不同的放置,很多鑒定的片段其不能被唯一地指定到一個樣品并且因此不能用在鑒定多態性的方法中。這導致方法的可靠性降低并且較少的多態性(SNP,插入/缺失,SSR)可以被充分鑒定。
在仔細而詳細地分析不能被指定的片段的全部核苷酸序列后,發現這些片段含有包含兩種不同的標簽的接頭,并且可能是在復雜度降低的樣品的生成和測序接頭的連接之間形成的。該現象被描述為“混合的標簽”。描述為“混合的標簽”的現象,如在此使用的,因此指的是這樣的片段,一方面所述片段含有與一個樣品相關的標簽,然而另一方面該片段含有與另一個樣品相關的標簽。因此,一個片段看起來源自兩個樣品(不同)。這導致錯誤的多態性的鑒定并且因此而不被期望。兩個樣品間的異源雙鏈核酸片段的形成造成這一異常已經被理論化。這一問題的解決方法已經在用于樣品轉化的策略的重新設計中被發現,其中可以在高通量測序前擴增復雜性被降低的樣品的被退火到珠子的片段。在這個具體實施方式
中,各個樣品經復雜度降低和任選的純化。在此之后,使各個樣品成為平末端(末端平滑化),之后連接能夠退火到珠子的測序接頭。然后,樣品的測序接頭-連接的片段被組合并連接到用于乳液聚合和隨后的高通量測序的珠子。作為該發明的更進一步的部分,發現串聯體的片段妨礙了正確的多態性的鑒定。 串聯體被看作在復雜度降低產物已經被‘鈍化(blunting)’或‘平滑化’(例如通過T4DNA聚合酶)后形成的片段,并且代替可以退火到珠子的接頭的連接,而相互連接,因此產生串聯體,即,串聯體是平末端片段的二聚化的結果。在某些特定的經修飾的接頭的使用中發現了這個問題的解決方案。由于不具有3’ -5’核酸外切酶校對閱讀活性的某些優選的聚合酶的特征,由復雜度降低獲得的擴增的片段通常包含3’ -A突出端。上述3’ -A突出端的存在也是為何片段在接頭連接之前被鈍化的原因。通過提供可以退火到珠子的接頭,其中接頭含有3’ -T突出端,發現可以在一個步驟中解決‘混合的標簽’和串聯體這兩個問題。用這些經修飾的接頭的進一步優點在于可以省略常規的‘末端鈍化’步驟和隨后的磷酸化步驟。因此,在進一步優選的具體實施方式
中,各個樣品的復雜度降低步驟之后,在獲自復雜度降低步驟的擴增的接頭-連接的限制性片段上進行的一個步驟,由此,測序接頭連接到這些片段,其測序接頭包含3’ -T突出端并且能夠退火到珠子。進一步發現,當在復雜度降低步驟中使用的引物被磷酸化時,可以避免在連接前的末端平滑化(鈍化)步驟和中間體磷酸化。因此,在本發明的更優選的具體實施方式
中,發明涉及用于鑒定一個或多個多態性的方法,所述的方法包括步驟a)提供多個目的核酸樣品;b)對各個樣品進行復雜度降低以提供多個核酸樣品的文庫,其中復雜度降低通過-用至少一種限制性核酸內切酶消化各個核酸樣品以將其片段化為限制性片段;-將獲得的限制性片段與具有與限制性片段的一個或兩個末端相兼容的一個末端的至少一種合成的雙鏈寡核苷酸接頭連接以產生接頭-連接的限制性片段;-將所述接頭-連接的限制性片段與一個或多個磷酸化的寡核苷酸引物在雜交條件下接觸;和-通過一個或更多寡核苷酸引物的延伸擴增所述的接頭連接的限制性片段,其中一個或多個寡核苷酸引物的至少一個包括具有與所述接頭-連接的限制性片段的末端的鏈的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸并且包括在接頭中存在的核苷酸的至少一部分,其中,任選的,至少一種所述引物在其3’末端包括經選擇的序列,其包含與用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸緊鄰定位的至少一個核苷酸,并且其中接頭和/或引物包含標簽;c)組合所述文庫為組合文庫;d)用攜帶3’ -T突出端的測序接頭將能夠退火到珠子的測序接頭連接到組合文庫中的擴增的接頭-加帽的片段,并且使珠子-退火的片段進行乳液聚合;e)對組合文庫的至少一部分測序;f)比對來自步驟e)中獲得的各個樣品的序列;g)確定在步驟f)比對中的多個核酸樣品間的一個或多個多態性; h)用步驟g)中確定的一個或多個多態性設計探針;i )提供目的核酸的測試樣品;j)對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;k)用步驟h)中設計的探針高通量篩選測試文庫以鑒定在步驟g)中確定的多態性的存在、缺失或數量。附圖
簡述圖IA顯示了根據本發明退火到珠子(‘454珠子’)上的片段和用于兩種胡椒品系的預-擴增的引物序列?!瓺NA片段’表示用限制性核酸內切酶消化后獲得的片段,‘關鍵基因接頭’表示為用于產生文庫的(磷酸化的)寡核苷酸引物提供連接位點的接頭,‘KRS’表示標識子序列(標簽),‘454 SEQ接頭’表示測序接頭,并且‘454 PCR接頭’表示可以用于DNA片段乳液擴增的接頭。PCR接頭可以用于退火到珠子和用于擴增并且可以含有3’ -T突出端。圖IB顯示了復雜度降低步驟中使用的引物的圖示。上述引物一般包含(2)所示的識別位點區,可以包括如(I)所示的標簽部分的恒定區和在其3’末端如(3)所示的選擇性區域中的一個或多個選擇性的核苷酸。圖2顯示了用2%瓊脂糖凝膠電泳進行的DNA濃度估測。SI表示PSPll ;S2表示PI201234。對于估測的 SI 和 S2 的 DNA 總量,50、100、250 和 500ng 分別表示 50ng、100ng、250ng和500ng。圖2C和2D顯示了使用Nanodrop分光光度測定法的DNA濃度檢測。圖3顯示了實施例3的中間質量分析結果。圖4顯示了序列數據加工管線的示意圖,即從測序數據的產生到推定的SNP、SSR和插入/缺失的鑒定的步驟,在修整&加標簽的去除已知的序列信息步驟后,得到經修整的序列數據,該數據被聚類&匯編以產生重疊群(contig)和單拷貝序列(不能匯編在重疊群中的片段),之后可以對推定的多態性進行鑒定和評估。圖4B進一步詳細說明了多態性采集的方法。圖5提出了混合的標簽的問題并且在圖示I中提供了混合標簽的例子,攜帶的標簽與樣品I (MSl)和樣品2 (MS2)連接。圖示2提供了該現象的示意性說明。衍生自樣品I (SI)和樣品2 (S2)的AFLP限制性片段在攜帶樣品特異性標簽SI和S2的兩個末端與接頭("關鍵基因接頭")連接。經擴增和測序后,期望的片段是具有Sl-Sl標簽和S2-S2標簽的片段。另外的出乎意料地觀察到的是攜帶S1-S2或S2-S1標簽的片段。圖示3解釋了推想的產生混合的標簽,由此來自樣品I和2的片段形成異源雙鏈核酸產物的原因。隨后,由于T4DNA多聚酶或Klenow的3’-5’外切酶活性,使異源雙鏈核酸不具有3’-突出端。聚合過程中,用核苷酸填充該缺口,并且引入錯誤的標簽。該操作針對具有大約相同長度的異源雙鏈核酸(頂部圖示)但是也針對具有更多不同長度的異源雙鏈核酸。圖示4的左邊提供了導致混合的標簽形成的常規的實驗流程并且在右邊提供了改良的實驗流程。圖6提出了串聯體形成這一問題,由此,在圖示I中給出了典型的串聯體的例子,由此下劃線標記不同的接頭和標簽部分進行并注明它們的來源(即MSI,MS2, ESl和ES2分別對應于來自樣品I的MseI限制性位點-接頭,來自樣品2的MseI限制性位點-接頭,來自樣品I的EcoRI限制性位點-接頭,來自樣品2的EcoRI限制性位點-接頭)。圖示2闡 釋了所期待的攜帶Sl-Sl標簽和S2-S2標簽的片段和觀察到的但并非期望的S1-S1-S2-S2(以來自樣品I和樣品2的片段的串聯體的形式)。圖示3為避免生成串聯體和混合的標簽而推想的解決方案,其包括通過在AFLP接頭中引入突出端,修飾的測序接頭和連接測序接頭時省略末端平滑化步驟。因為ALP片段不能相互連接而發現沒有串聯體形成,并且因為省略末端平滑化步驟而沒有出現混合的片段。圖示4提供利用修飾的接頭的改良的實驗流程以避免串聯體形成和混合的標簽。圖7包含推定的單核苷酸多態性(SNP)的胡椒AFLP片段序列的“ 10037_CL989contig2”多重比對。請注意SNP (通過黑色箭頭所示),由通過憑借上面兩個讀取序列的MSl標簽的存在指出的樣品I (PSPll)兩個讀取序列中的A等位基因的存在和通過憑借下面兩個讀取序列的MS2標簽的存在指出的樣品2(PI201234)中G等位基因的存在進行定義。讀取序列的名稱顯示于左邊。該多重比對的一致的序列為(5’ -3’)TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG.圖8A用于目標單序列重復(SSR)的富集策略與用于從頭SSR發現的高通量測序相組合的圖示。圖8B:用 SNPWave 檢測的胡椒中的 G/A SNP 的確認。Pl = PSPll ;P2 = PI201234。八種RIL后代通過數字1-8表示。
實施例實施例IEcoRI/Msel限制性連接混合物(I)產生自胡椒品系PSP-11和PI20234的基因組DNA。限制性連接混合物被稀釋10倍并且5微升各樣品用EcoRI+1 (A)和Msel+l (C)引物(組I)預擴增(2)。擴增后,兩種胡椒樣品的預擴增產物的性質用1%瓊脂糖凝膠檢測。預擴增產物被20倍稀釋,之后進行KRSEcoRI+1 (A)和KRSMseI+2 (CA)AFLP預擴增。下面的引物序列SEQ ID 1-4中將KRS (標識子)片段用下劃線標記,并且在所述序列的3’-末端的經選擇的核苷酸為粗體。擴增后,兩種胡椒樣品的預擴增產物的性質用1%瓊脂糖凝膠和通過EcoRI+3 (A)和MseI+3 (C) (3) AFLP指紋(4)檢測。兩種胡椒品系的預擴增產物分別在QiagenPCR柱(5)上純化。樣品濃度在Nanodrop中測量。將全部的5006. 4ng的PSP-11和5006. 4ng的PI20234混合并測序。用于預擴增PSP-Il的引物組IEOILKRSI 5' -CGTCAGACTGCGTACCAATTCA-3' [SEQ ID I]M15KKRS1 5' -TGGTGATGAGTCCTGAGTAACA-3' [SEQ ID 2]用于預擴增PI20234的引物組IIE01LKRS2 5' ~CAAGAGACTGCGTACCAATTCA~3' [SEQ ID 3]M15KKRS2 5' -AGCCGATGAGTCCTGAGTAACA-3' [SEQ ID 4](l)EcoRI/MseI限制性連接混合物限制性混合物(40u I/樣品)
權利要求
1.具有3’-T突出端的接頭在減少擴增的DNA樣品的混合加標簽、在減少或者防止DNA 樣品的DNA片段的串聯體形成,和/或在鑒定核酸樣品的多態性的方法中的用途。
2.權利要求I的用途,其中用于減少擴增的DNA中的混合加標簽的方法包括下述步驟-提供DNA樣品,-用加標簽的擴增引物擴增DNA樣品來生成加標簽的擴增子,-任選地,提供3’ -A突出端到加標簽的擴增子的末端,_將具有3’ -T突出端的接頭與加標簽的擴增子連接。
3.權利要求I的用途,其中用于減少或者防止來自DNA樣品的DNA片段的串聯體形成的方法包括下述步驟-提供來自DNA樣品的DNA片段,-任選地,平滑化DNA片段來提供平末端的DNA片段,-任選地,提供3’ -A突出端到平末端的DNA片段的末端,-連接接頭到DNA片段,其中的接頭在與片段連接端含有3’ -T突出端。
4.權利要求2或3的用途,其中DNA樣品是復雜度降低的DNA樣品和/或DNA片段是復雜度降低的DNA片段。
5.權利要求3或4的用途,其中片段用(加標簽的)擴增引物擴增而生成擴增子。
6.權利要求2-5中任一項的用途,其中接頭連接的片段或擴增子在固相支持物上接受測序。
7.權利要求I的用途,其中用于鑒定核酸樣品中的一種或多種多態性的方法包括下述步驟a)提供多個目的核酸樣品,b)對每個樣品實施復雜度降低,提供核酸樣品的多個文庫,c)將接頭連接到文庫中復雜度降低的核酸樣品,使用的接頭具有3’-T突出端,d)對所述文庫的至少一部分進行測序,e)比對獲自步驟d)的每個樣品的序列,f)測定步驟e)的多個核酸樣品間的一個或多個多態性,g)任選地,使用檢測探針篩選目的檢測樣品核酸以鑒定在步驟f)中測定的一個或者多個多態性的存在、不存在或者量。
8.權利要求7的用途,其中檢測核酸樣品是獲自步驟b)的復雜度降低的復雜度被降低的核酸樣品。
9.權利要求7或8的用途,其中步驟b)進一步包括對文庫加標簽來獲得經標簽的文庫的步驟。
10.權利要求9的用途,其中的標簽由接頭和/或引物提供。
11.權利要求10的用途,其中的標簽是標識子序列。
12.權利要求10的用途,其中至少一個引物是被磷酸化的。
13.權利要求7的用途,其中測序包括在固相支持物上測序。
14.權利要求7-13中任一項的用途,其中通過將權利要求7的步驟g)設計的探針固定于陣列,之后通過在雜交條件下將包含探針的陣列與檢測文庫接觸進行篩選。
15.用于篩選富集的微衛星文庫的權利要求14的方法的用途,進行轉錄作譜 cDNA-AFLP(數字化Northern),復雜基因的測序,表達序列標簽文庫測序(對完整的cDNA 或cDNA-AFLP),危微小RNA發現(小的插入文庫的測序),細菌人造染色體(重疊群)測序,批量分離分析法與AFLP/cDNA-AFLP組合,AFLP片段的常規檢測(標記輔助回交)。
全文摘要
本發明涉及用于高通量鑒定單核苷酸多態性的方法,該方法通過對兩個或多個樣本進行復雜度降低以生成兩個或多個文庫,對所述文庫的至少部分進行測序,比對經鑒定的序列并且測定任一假定的單核苷酸多態性,確認任一假定的單核苷酸多態性,產生用于確認單核苷酸多態性的檢測探針,對測試樣品進行相同的復雜度降低以提供測試文庫并用檢測探針篩選該測試文庫,以檢測單核苷酸多態性存在或缺失。
文檔編號C12Q1/68GK102925561SQ201210390998
公開日2013年2月13日 申請日期2006年6月23日 優先權日2005年6月23日
發明者M·J·T·范艾克, H·J·A·范德珀爾 申請人:科因股份有限公司