麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于宏基因組16s高可變區(qū)v3的分類(lèi)方法和裝置的制作方法

文檔序號(hào):401186閱讀:1361來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于宏基因組16s高可變區(qū)v3的分類(lèi)方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息學(xué)分析技術(shù)領(lǐng)域,尤其涉及一種基于宏基因組16S高可變區(qū) V3的分類(lèi)方法和裝置。
背景技術(shù)
為了研究生物環(huán)境中微生物群體的種類(lèi),一般傳統(tǒng)的方法包括直接對(duì)微生物進(jìn)行培養(yǎng),變性梯度凝膠電泳(DGGE,Denaturing Gradient Gel Electrophoresis),末端限制性?xún)?nèi)切酶片段長(zhǎng)度多態(tài)性(T-RFLP,^Terminal Restriction Fragment Length Polymorphism),焚光原位雜交(FISH, Fluorescence In Situ Hybridization),對(duì)可能的微生物種類(lèi)進(jìn)行PCR(聚合酶鏈?zhǔn)椒磻?yīng),Polymerase Chain Reaction);但這些方式都只能揭露環(huán)境中很小一部分微生物種類(lèi)。如果能進(jìn)行宏基因組的分析,通過(guò)直接對(duì)環(huán)境中的微生物群體進(jìn)行基因組研究,得到一個(gè)比較全面的微生物種類(lèi)目錄,將有助于對(duì)微生物群體的后續(xù)研究和應(yīng)用。由于原核生物中 16S rRNA(核蛋白核糖核酸,ribosomal RNA(RiboNucleicAcid)) 的序列高度保守,可精確指示細(xì)菌之間的親緣關(guān)系;16S rRNA的大小為1500bp(堿基對(duì), Base Pair)左右,所含信息能反映生物界進(jìn)化關(guān)系,易操作,適用于各級(jí)分類(lèi)單元;所以在宏基因組的研究中,16S區(qū)測(cè)序是最常用的聚類(lèi)和分類(lèi)方法。傳統(tǒng)的宏基因組的測(cè)序是通過(guò) Sanger技術(shù)測(cè)序16S rRNA gene(16S rDNA)得到至少500bp的讀長(zhǎng),這個(gè)讀長(zhǎng)的長(zhǎng)度足夠長(zhǎng),能夠裝配出近乎完整的16S rDNA序列,幫助我們?nèi)ゾ珳?zhǔn)地研究每一條序列的物種來(lái)源, 但它容易產(chǎn)生嵌合體,而且測(cè)序成本比較高,費(fèi)時(shí)又費(fèi)力。隨著新開(kāi)發(fā)出的測(cè)序技術(shù)以及測(cè)序成本的逐步降低,宏基因組的研究變得越來(lái)越實(shí)用,所涉及的技術(shù)包括Pyrosequencing、Solexa等。對(duì)于這些革命性的技術(shù)的一個(gè)主要挑戰(zhàn)就是讀長(zhǎng)太短,無(wú)法對(duì)每個(gè)個(gè)體的16S rDNA進(jìn)行測(cè)序,因而它的測(cè)序信息不足以讓我們?nèi)ゾ珳?zhǔn)地對(duì)微生物進(jìn)行分類(lèi)。為了解決讀長(zhǎng)的問(wèn)題,有研究(Bacterial flora-typing with targeted, chip-based Pyrosequencing, BMC Microbiology 2007,7 108doi 10. 1186/1471-2180-7-108,公開(kāi)于 2007 年 11 月 30 日)通過(guò) Genome Sequencer 20 system(454 Life Sciences)測(cè)序16S rDNA可變區(qū)來(lái)對(duì)微生物進(jìn)行分類(lèi),通過(guò)設(shè)計(jì)特定的通用引物對(duì)16S可變區(qū)進(jìn)行特定的PCR(聚合酶鏈?zhǔn)椒磻?yīng),Polymerase Chain Reaction), 然后用妨4序儀測(cè)序,建立在這種方法上的系統(tǒng)樹(shù)顯示了很好的生物多樣性,但它的測(cè)序成本高,雖然是傳統(tǒng)毛細(xì)管測(cè)序法費(fèi)用的1/10,但卻是其他新一代測(cè)序儀測(cè)序費(fèi)用的10倍左右ο綜上所述,提供一種更加準(zhǔn)確地對(duì)微生物進(jìn)行聚類(lèi)分析的方法且方便快捷、成本低廉成為本領(lǐng)域亟待解決的技術(shù)問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問(wèn)題是提供一種基于宏基因組16S高可變區(qū)V3的分類(lèi)方法和裝置,通過(guò)對(duì)16S的高可變區(qū)V3區(qū)進(jìn)行solexa測(cè)序,并通過(guò)對(duì)這些16S可變區(qū)的短序列進(jìn)行系統(tǒng)分類(lèi),可以在成本低廉的基礎(chǔ)上準(zhǔn)確反映物種的豐度信息。本發(fā)明的第一方面提供了一種基于宏基因組16S高可變區(qū)V3的分類(lèi)方法,該方法包括提取微生物樣品中的脫氧核糖核酸(DNA);對(duì)提取DNA的宏基因組16S核糖體脫氧核糖核酸(rDNA)的高可變區(qū)(V3)進(jìn)行擴(kuò)增,得到作為擴(kuò)增產(chǎn)物的DNA片段;對(duì)DNA片段進(jìn)行PCR-FreeSolexa建庫(kù),建庫(kù)過(guò)程中在DNA片段上加上標(biāo)簽序列以對(duì)每個(gè)樣品進(jìn)行標(biāo)記; 將各個(gè)樣品的帶有標(biāo)簽序列的DNA片段進(jìn)行混合,使用Solexa測(cè)序工具對(duì)混合后的DNA片段進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的測(cè)序序列reads ;利用reads的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列unique reads ;對(duì)unique reads進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體的分類(lèi)。優(yōu)選地,該方法還包括在步驟“提取微生物樣品中的脫氧核糖核酸DNA”之前,執(zhí)行微生物群體的取樣。優(yōu)選地,所述對(duì)unique reads進(jìn)行分類(lèi)分析包括計(jì)算unique reads之間的序列差異度;根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元OTU的分類(lèi),將unique reads分配到OTU中; 將每一個(gè)OTU分類(lèi)中的unique reads比對(duì)到16S rDNA的v3數(shù)據(jù)庫(kù)中,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋。優(yōu)選地,根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元(OTU)的分類(lèi)是指根據(jù)本領(lǐng)域公知的OTU分類(lèi)中“種”水平之間的差異度將unique reads分配到相應(yīng)的OTU中。在本發(fā)明的一個(gè)實(shí)施方案中,將序列差異度在3%以?xún)?nèi)的unique reads分配到一個(gè)OTU中。優(yōu)選地,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋是指如果一個(gè)OTU中66% 以上的比對(duì)結(jié)果均為同一個(gè)物種,則將該OTU注釋為該物種;如果未達(dá)到該比例,則將物種分類(lèi)信息上移一個(gè)水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計(jì),直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。優(yōu)選地,該方法還包括在步驟“對(duì)unique reads進(jìn)行分類(lèi)分析”之后,基于分類(lèi)分析結(jié)果,進(jìn)行種群多樣性分析和/或統(tǒng)計(jì)得到微生物群體的相對(duì)豐度值。優(yōu)選地,步驟“對(duì)宏基因組16S rDNA的高可變區(qū)V3進(jìn)行擴(kuò)增”是指利用本領(lǐng)域公知的方法擴(kuò)增DNA序列,在本發(fā)明的一個(gè)實(shí)施方案中,采用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)擴(kuò)增16S rDNA的高可變區(qū)V3,所述PCR反應(yīng)的引物為引物338F :ACTCCTACGGGAGGCAGCAG和533R TTACCGCGGCTGCTGGCAC。優(yōu)選地,步驟“對(duì)DNA片段進(jìn)行PCR-Free Solexa建庫(kù),建庫(kù)過(guò)程中在DNA片段上加上標(biāo)簽序列,對(duì)每個(gè)樣品進(jìn)行標(biāo)記”進(jìn)一步包括將所述DNA片段進(jìn)行純化,對(duì)純化后的 DNA片段進(jìn)行濃度定量,定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基A,然后加上標(biāo)簽序列,再進(jìn)一步加上PCR-Free的接頭,最后對(duì)樣品進(jìn)行純化。優(yōu)選地,在得到按照標(biāo)簽區(qū)分的原始的測(cè)序序列reads后,還包括對(duì)所述測(cè)序序列進(jìn)行篩選的步驟,以過(guò)濾掉低質(zhì)量的測(cè)序序列;所述低質(zhì)量的測(cè)序序列選自以下序列中的任意一種或數(shù)種接頭污染序列,含有多個(gè)poly(A|T|C|G)的序列、以及含有連續(xù)2個(gè)以上的N的序列;優(yōu)選地,步驟“利用reads的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列unique reads是指按照本領(lǐng)域公知的條件進(jìn)行序列的拼接,例如運(yùn)用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對(duì)reads進(jìn)行拼接,將其組裝成V3的全長(zhǎng)序列unique reads.在本發(fā)明的一個(gè)實(shí)施方案中,拼接的條件是最小匹配長(zhǎng)度為S3P,重疊區(qū)域不允許錯(cuò)配,重疊區(qū)域N所占最大百分比是0. 4% ;為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次,最終產(chǎn)生的就是V3的序列,如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。本發(fā)明的第二方面提供了一種基于宏基因組16S高可變區(qū)V3的分類(lèi)裝置,所述裝置包括脫氧核糖核酸DNA提取設(shè)備,用于提取微生物樣品中的脫氧核糖核酸DNA ;擴(kuò)增設(shè)備,用于對(duì)宏基因組16S rDNA的高可變區(qū)V3進(jìn)行擴(kuò)增,得到作為擴(kuò)增產(chǎn)物的DNA片段; Solexa建庫(kù)設(shè)備,用于對(duì)DNA片段進(jìn)行PCR-Free Solexa建庫(kù),建庫(kù)過(guò)程中在DNA片段上加上標(biāo)簽序列,對(duì)每個(gè)樣品進(jìn)行標(biāo)記;Solexa測(cè)序設(shè)備,將各個(gè)樣品的帶有標(biāo)簽序列的DNA 片段進(jìn)行混合,使用Solexa測(cè)序工具對(duì)混合后的DNA片段進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的原始的測(cè)序序列reads ;全長(zhǎng)序列組裝設(shè)備,用于利用reads的重疊關(guān)系組裝得到高可變區(qū) V3的全長(zhǎng)序列unique reads ;分類(lèi)設(shè)備,用于對(duì)unique reads進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體的分類(lèi)。優(yōu)選地,該裝置還包括取樣設(shè)備,用于執(zhí)行微生物群體的取樣。優(yōu)選地,分類(lèi)設(shè)備包括序列差異度計(jì)算單元,用于計(jì)算unique reads之間的序列差異度;OTU分類(lèi)單元,用于根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元OTU的分類(lèi),將unique reads分配到OTU中;物種注釋單元,用于將每一個(gè)OTU分類(lèi)中的unique reads比對(duì)到16S rDNA的v3數(shù)據(jù)庫(kù)中,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋。優(yōu)選地,根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元(OTU)的分類(lèi)是指根據(jù)本領(lǐng)域公知的OTU分類(lèi)中“種”水平之間的差異度將unique reads分配到相應(yīng)的OTU中。在本發(fā)明的一個(gè)實(shí)施方案中,將序列差異度在3%以?xún)?nèi)的unique reads分配到一個(gè)OTU中。優(yōu)選地,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋是指如果一個(gè)OTU中66% 以上的比對(duì)結(jié)果均為同一個(gè)物種,則將該OTU注釋為該物種;如果未達(dá)到該比例,則將物種分類(lèi)信息上移一個(gè)水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計(jì),直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。優(yōu)選地,還可以包括數(shù)據(jù)分析設(shè)備,用于在對(duì)unique reads進(jìn)行分類(lèi)分析之后,對(duì)所得到的數(shù)據(jù)結(jié)果進(jìn)行進(jìn)一步分析;所述數(shù)據(jù)分析設(shè)備包括種群多樣性分析單元,用于分析種群多樣性;和/或相對(duì)豐度統(tǒng)計(jì)單元,用于統(tǒng)計(jì)得到微生物群體的相對(duì)豐度值。優(yōu)選地,對(duì)宏基因組16S核糖體脫氧核糖核酸rDNA的高可變區(qū)V3進(jìn)行擴(kuò)增是指利用本領(lǐng)域公知的方法擴(kuò)增DNA序列,在本發(fā)明的一個(gè)實(shí)施方案中,采用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)擴(kuò)增16S rDNA的高可變區(qū)V3,所述PCR反應(yīng)的引物為引物338F: ACTCCTACGGGAGGCAGCAG 和 533R :TTACCGCGGCTGCTGGCAC。優(yōu)選地,Solexa建庫(kù)設(shè)備包括DNA片段純化單元,用于將所獲得的DNA片段進(jìn)行純化;定量單元,用于對(duì)純化后的DNA片段進(jìn)行濃度定量;DNA片段修飾單元,用于在定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基A,然后加上標(biāo)簽序列,再進(jìn)一步加上PCR-Free的接頭;修飾后產(chǎn)物純化單元,用于對(duì)修飾后的DNA片段進(jìn)行純化。優(yōu)選地,還包括測(cè)序序列篩選設(shè)備,用于在得到按照標(biāo)簽區(qū)分的原始的測(cè)序序列 reads后,對(duì)所述測(cè)序序列進(jìn)行篩選,以過(guò)濾掉低質(zhì)量的測(cè)序序列;所述低質(zhì)量的測(cè)序序列選自以下序列中的任意一種或數(shù)種接頭污染序列,含有多個(gè)poly (A| T| C|G)的序列、以及含有連續(xù)2個(gè)以上的N的序列。優(yōu)選地,所述全長(zhǎng)序列組裝設(shè)備按照本領(lǐng)域公知的條件進(jìn)行序列的拼接,例如運(yùn)用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對(duì)reads數(shù)據(jù)進(jìn)行拼接,將其組裝成V3的全長(zhǎng)序列 unique reads。在本發(fā)明的一個(gè)實(shí)施方案中,拼接的條件是最小匹配長(zhǎng)度為^p,重疊區(qū)域不允許錯(cuò)配,重疊區(qū)域N所占最大百分比是0.4% ;為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次,最終產(chǎn)生的就是V3的序列,如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。本發(fā)明提供的基于宏基因組16S高可變區(qū)V3的分類(lèi)方法,采用結(jié)合了加標(biāo)簽技術(shù)的Solexa技術(shù),對(duì)特定環(huán)境下的微生物群體進(jìn)行了高通量測(cè)序,既減少了人力勞動(dòng)也節(jié)省了經(jīng)濟(jì)花費(fèi),使得在研究微生物群落結(jié)構(gòu)與健康、環(huán)境因子等的關(guān)系上變得容易可行。


圖1示出本發(fā)明實(shí)施例提供的一種基于宏基因組16S高可變區(qū)V3進(jìn)行分類(lèi)的方法的流程圖。圖2示出對(duì)unique reads進(jìn)行分類(lèi)分析的方法的流程圖。圖3示出腸道樣本擴(kuò)增結(jié)果的稀釋曲線分析圖。圖4示出本發(fā)明的基于宏基因組16S高可變區(qū)V3的分類(lèi)裝置的一個(gè)實(shí)施例的結(jié)構(gòu)圖。圖5示出本發(fā)明的基于宏基因組16S高可變區(qū)V3的分類(lèi)裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。
具體實(shí)施例方式現(xiàn)在將參照附圖來(lái)詳細(xì)描述本發(fā)明的各種示例性實(shí)施例。應(yīng)注意到除非另外具體說(shuō)明,否則在這些實(shí)施例中闡述的部件和步驟的相對(duì)布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。同時(shí),應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個(gè)部分的尺寸并不是按照實(shí)際的比例關(guān)系繪制的。以下對(duì)至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說(shuō)明性的,決不作為對(duì)本發(fā)明及其應(yīng)用或使用的任何限制。對(duì)于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說(shuō)明書(shū)的一部分。在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實(shí)施例的其它示例可以具有不同的值。應(yīng)注意到相似的標(biāo)號(hào)和字母在下面的附圖中表示類(lèi)似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步討論。下面介紹幾個(gè)本發(fā)明技術(shù)方案涉及的概念。宏基因組是指(Metagenome)(也稱(chēng)微生物環(huán)境基因組Microbial Environmental Genome,或元基因組)特定環(huán)境中全部微小生物遺傳物質(zhì)的總和。它包含了可培養(yǎng)的和未可培養(yǎng)的微生物的基因,目前主要指環(huán)境樣品中的細(xì)菌和真菌的基因組總和。
PCR-Free Solexa建庫(kù)是指對(duì)PCR產(chǎn)物進(jìn)行純化,然后進(jìn)行濃度定量。不同樣品取等濃度的量分別進(jìn)行末端修復(fù)(即通過(guò)酶反應(yīng)使所有DNA雙鏈的粘性末端成為平末端), 然后加上堿基“A”,再加上PCR-Free的接頭,加完接頭后,對(duì)樣品進(jìn)行純化。所述PCR-Free 的接頭是指測(cè)序用的引物序列。標(biāo)簽序列(barcode)是指加在引物5’端前面的一段堿基序列,用于區(qū)分不同的樣本。標(biāo)簽序列可以是由6個(gè)堿基組成條形碼序列,標(biāo)簽序列的設(shè)計(jì)要符合一定規(guī)則,比如堿基含量和不同堿基數(shù)目等,目的是防止因?yàn)閭€(gè)別測(cè)序錯(cuò)誤等原因?qū)е聵?biāo)簽相互之間的混淆,例如可以參考美國(guó)專(zhuān)利申請(qǐng)US20100267043A1中公開(kāi)的方法和原則。Read(S)是指Solexa測(cè)序后產(chǎn)生的測(cè)序片段的序列,也稱(chēng)為測(cè)序序列。Unique read (s)是指Read (s)經(jīng)過(guò)拼接后產(chǎn)生的v3的全長(zhǎng)序列。Unique read(s) 的數(shù)目是指將序列相同的全長(zhǎng)序列合并后得到的全長(zhǎng)序列數(shù)。序列差異度是指兩條序列比對(duì)時(shí)不同堿基的個(gè)數(shù)所占的百分比。圖1示出本發(fā)明實(shí)施例提供的一種基于宏基因組16S高可變區(qū)V3進(jìn)行分類(lèi)的方法的流程圖。如圖1所示,基于宏基因組16S高可變區(qū)V3進(jìn)行分類(lèi)的方法流程包括步驟102,提取微生物樣品中的脫氧核糖核酸DNA。例如,采用Ultraclean Soil DNA kit試劑盒(MoBio,USA)從樣品沉積物中提取微生物的DNA。步驟104,對(duì)宏基因組16S核糖體脫氧核糖核酸rDNA的高可變區(qū)V3 (該區(qū)的兩端各有20堿基對(duì)bp左右的保守區(qū),中間的可變區(qū)為130-160bp左右)進(jìn)行擴(kuò)增,得到作為擴(kuò)增產(chǎn)物的DNA片段。例如利用聚合酶鏈?zhǔn)椒磻?yīng)PCR,使用引物338F :ACTCCTACGGGAGGCAGCAG 和533R TTACCGCGGCTGCTGGCAC去擴(kuò)增微生物群體中細(xì)菌的16S高可變區(qū)V3區(qū)片段。步驟106,對(duì)獲得的DNA片段進(jìn)行PCR-Free Solexa建庫(kù)法建庫(kù),建庫(kù)過(guò)程中在DNA片段上加上標(biāo)簽序列,對(duì)每個(gè)樣品進(jìn)行標(biāo)記。例如,把PCR產(chǎn)物用QIAquick PCR purification Kit(Qiagen)進(jìn)行純化,用分光光度計(jì)對(duì)所述16S的高可變區(qū)V3的PCR產(chǎn)物進(jìn)行濃度定量。不同樣品取等濃度的量分別進(jìn)行末端修復(fù)(即通過(guò)酶反應(yīng)使所有DNA 雙鏈的粘性末端成為平末端),加“A”,加上標(biāo)簽序列,再加上PCR-Free的接頭(I^ir-end library preparation kit, Illumina);加完接頭后,對(duì)樣品進(jìn)行純化(用 1. 8x ampureXP 磁珠進(jìn)行純化)。有些試劑盒中PCR-Free的接頭是帶有標(biāo)簽序列的接頭,這樣可以將加標(biāo)簽序列和加作為引物的接頭一步完成。步驟108,將各個(gè)樣品的帶有標(biāo)簽序列的DNA片段進(jìn)行混合,使用Solexa測(cè)序工具對(duì)混合后的DNA片段進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的原始的測(cè)序序列reads。例如,直接用 Illumina GA II (150bp pair-end 策略)進(jìn)行測(cè)序。Solexa 測(cè)序儀(Illumina genome analyzer)是新一代的高通量測(cè)序儀,測(cè)序價(jià)格低廉,數(shù)據(jù)讀取量大,相同的測(cè)序量的情況下,Solexa測(cè)序費(fèi)用是妨4測(cè)序費(fèi)用的十分之一,而且錯(cuò)誤率低(如單堿基測(cè)序錯(cuò)誤率 < 10_5),測(cè)序無(wú)偏性,對(duì)于宏基因組,可以真實(shí)反映物種的豐度信息。而且得到的測(cè)序結(jié)果是已根據(jù)標(biāo)簽序列進(jìn)行區(qū)分的測(cè)序序列reads。步驟110,利用reads的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列unique reads0 例如,運(yùn)用拼接軟件對(duì)reads數(shù)據(jù)進(jìn)行拼接,得到拼接的結(jié)果。通過(guò)序列兩端的重疊關(guān)系將兩端測(cè)序得到的序列組裝成V3的全長(zhǎng)序列unique reads。拼接的條件是最小匹配長(zhǎng)度為S3P,重疊區(qū)域不允許錯(cuò)配,N所占最大百分比是0.4%。為了更多的利用序列,不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次。最終產(chǎn)生的就是V3的序列。如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。所述拼接軟件可以為merger、CABOG、ARACHNE、 RePS.phrap及newbler等軟件,在本發(fā)明的一個(gè)實(shí)施例中,應(yīng)用了 merger拼接軟件。根據(jù)標(biāo)簽序列即可以把unique reads分配到對(duì)應(yīng)的樣品上。步驟112,對(duì)unique reads進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體進(jìn)行高通量的分類(lèi)。本發(fā)明采用結(jié)合了標(biāo)簽技術(shù)的Solexa技術(shù),分辨率大大提高,單個(gè)Rim上 Solexa(Illumina)能產(chǎn)生比妨4多100倍的reads,因此,僅僅通過(guò)測(cè)序這么短的長(zhǎng)度就能得到很好的分類(lèi)效果,另外由于結(jié)合了標(biāo)簽技術(shù),能夠在單個(gè)Lanedllumina高通量測(cè)序儀一張芯片有8個(gè)通道,每個(gè)通道被稱(chēng)為“l(fā)ane”)上點(diǎn)更多的樣,大大節(jié)約了每個(gè)樣品的測(cè)序成本。在本發(fā)明的一個(gè)實(shí)施例中,對(duì)unique reads進(jìn)行分類(lèi)分析的基本思想為根據(jù) unique reads的序列差異度將其分配到各個(gè)OTU中,再將每一個(gè)OTU中的序列比對(duì)到16S rDNA的v3數(shù)據(jù)庫(kù)中,得到每一個(gè)OTU的物種分類(lèi)。具體流程如圖2所示步驟202,計(jì)算unique reads之間的序列差異度。步驟204,根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元OTU的分類(lèi),將unique reads分配到OTU中。分配到OTU的軟件可以例如為Mothur、RDP classifier、qiime等軟件,在本發(fā)明中采用 Mothur 軟件,其版本為 v. 1. 6. 0,下載網(wǎng)址為 http //www, mothur. orR/wiki/Main Page0步驟206,將每一個(gè)OTU分類(lèi)中的unique reads比對(duì)到16S rDNA數(shù)據(jù)庫(kù)中。步驟208,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋。在本發(fā)明的一個(gè)具體實(shí)施例中,將序列差異度在3%以?xún)?nèi)的unique reads分配到一個(gè)OTU中。在本發(fā)明的一個(gè)具體實(shí)施例中,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋是指如果一個(gè)OTU中66%以上的比對(duì)結(jié)果均為同一個(gè)物種,則將該OTU注釋為該物種;如果未達(dá)到該比例,則將物種分類(lèi)信息上移一個(gè)水平(例如從“種”上移到“屬”,或從“屬”繼續(xù)上移到“科”)再進(jìn)行統(tǒng)計(jì),直到達(dá)到66%的比例標(biāo)準(zhǔn)為止。本發(fā)明首先根據(jù)序列的差異度進(jìn)行聚類(lèi)分析,將拼接后得到的全長(zhǎng)序列按照種的水平分配到不同的OTU中,再將OTU中的序列比對(duì)到16SrDNA v3數(shù)據(jù)庫(kù)中,在最好匹配的基礎(chǔ)上進(jìn)行物種的分類(lèi),實(shí)現(xiàn)了對(duì)復(fù)雜微生物樣品的準(zhǔn)確注釋?zhuān)欢也捎么罅科叫袦y(cè)序能夠發(fā)現(xiàn)更多的稀有微生物種類(lèi)。另外,在對(duì)unique reads進(jìn)行分類(lèi)的基礎(chǔ)上,還可以基于分類(lèi)分析結(jié)果,進(jìn)行群多樣性分析和/或統(tǒng)計(jì)得到微生物群體的相對(duì)豐度值。在本發(fā)明的一個(gè)實(shí)施方案中,利用Mothur Canoco軟件進(jìn)行Chaol分析,計(jì)算樣品 OTU的alpha多樣性,可以得到該環(huán)境樣品的物種豐富度;同時(shí),對(duì)比對(duì)后得到的物種注釋結(jié)果進(jìn)行統(tǒng)計(jì),可以得到各種微生物的相對(duì)豐度。其與16S測(cè)全長(zhǎng)序列在微生物分類(lèi)和測(cè)量群體的相對(duì)豐度上具有等同的技術(shù)效果。接下來(lái)詳細(xì)描述本發(fā)明提供的基于宏基因組16S高可變區(qū)V3進(jìn)行分類(lèi)的方法的一個(gè)具體實(shí)施方式

步驟1、進(jìn)行微生物群體的取樣。具體來(lái)說(shuō),提取深圳北大醫(yī)院腸道樣品共20個(gè)樣本。(命名以標(biāo)簽序列的數(shù)字代碼命名)步驟2、提取微生物樣本的基因組DNA。具體來(lái)說(shuō),所有樣本的DNA都采用Ultraclean Soil DNA kit (MoBio,USA)從腸道樣品中提取出來(lái)。步驟3、使用特定的引物進(jìn)行PCR擴(kuò)增。具體來(lái)說(shuō),使用引物338F :ACTCCTACGGGAGGCAGCAG 和 533R TTACCGCGGCTGCTGGCAC 去擴(kuò)增微生物群體中細(xì)菌的16S高可變區(qū)V3區(qū)片段。步驟4、對(duì)PCR產(chǎn)物進(jìn)行PCR-Free Solexa建庫(kù)法建庫(kù)。具體來(lái)說(shuō),把PCR產(chǎn)物用 QIAquick PCR purification Kit(Qiagen)進(jìn)行純化,用分光光度計(jì)對(duì)所述16S的高可變區(qū) V3的PCR產(chǎn)物進(jìn)行濃度定量。20個(gè)樣本取等濃度的量分別進(jìn)行末端修復(fù)(即通過(guò)酶反應(yīng)使所有DNA雙鏈的粘性末端成為平末端),接著3'端加“A”,然后3'端加上標(biāo)簽序列,再在 3'端力口上 PCR-Free 的接頭(Pair-end library preparation kit, Illumina);力口完接頭后,對(duì)樣品進(jìn)行純化(用1. 8x ampureXP磁珠進(jìn)行純化)。用12 μ L的EB (洗脫液,Elution buffer)進(jìn)行溶解。步驟5、Solexa測(cè)序。具體來(lái)說(shuō),可以按照廠家11 Iumina的說(shuō)明書(shū)直接用11 Iumina GA II進(jìn)行測(cè)序(150bp pair-end策略,即讀長(zhǎng)為150個(gè)堿基的雙末端測(cè)序),得到原始的測(cè)序序列reads。而且這些reads已根據(jù)標(biāo)簽序列進(jìn)行了區(qū)分。如表1所示。表1 Solexa原女臺(tái)測(cè)序序列reads禾口 unique reads數(shù)
權(quán)利要求
1.一種對(duì)宏基因組16S高可變區(qū)V3進(jìn)行測(cè)序聚類(lèi)分析的方法,其特征在于,該方法包括提取微生物樣品中的脫氧核糖核酸(DNA);對(duì)提取DNA的宏基因組16S核糖體脫氧核糖核酸(rDNA)的高可變區(qū)V3進(jìn)行擴(kuò)增,得到作為擴(kuò)增產(chǎn)物的DNA片段;對(duì)DNA片段進(jìn)行PCR-Free Solexa建庫(kù),建庫(kù)過(guò)程中在DNA片段上加上標(biāo)簽序列以對(duì)每個(gè)樣品進(jìn)行標(biāo)記;將各個(gè)樣品的帶有標(biāo)簽序列的DNA片段進(jìn)行混合,使用Solexa測(cè)序工具對(duì)混合后的 DNA片段進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的測(cè)序序列(reads);利用測(cè)序序列的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列(unique reads); 對(duì)全長(zhǎng)序列進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體的分類(lèi)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)全長(zhǎng)序列進(jìn)行分類(lèi)分析包括計(jì)算全長(zhǎng)序列之間的序列差異度;根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元(OTU)的分類(lèi),將全長(zhǎng)序列分配到OTU中;將每一個(gè)OTU分類(lèi)中的全長(zhǎng)序列比對(duì)到16S rDNA的v3數(shù)據(jù)庫(kù)中,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括在對(duì)測(cè)序序列進(jìn)行分類(lèi)分析之后,基于分類(lèi)分析結(jié)果,進(jìn)行種群多樣性分析和/或統(tǒng)計(jì)得到微生物群體的相對(duì)豐度值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)DNA片段進(jìn)行PCR-FreeSolexa建庫(kù)進(jìn)一步包括將所述DNA片段進(jìn)行純化; 對(duì)純化后的DNA片段進(jìn)行濃度定量;定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基A,然后加上標(biāo)簽序列,再進(jìn)一步加上PCR-Free的接頭; 對(duì)得到的樣品進(jìn)行純化。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括在得到按照標(biāo)簽區(qū)分的測(cè)序序列后,對(duì)所述測(cè)序序列進(jìn)行篩選,以過(guò)濾掉低質(zhì)量的測(cè)序序列;所述低質(zhì)量的測(cè)序序列選自以下序列中的任意一種或數(shù)種接頭污染序列,含有多個(gè)poly (A| T| C|G)的序列、以及含有連續(xù)2個(gè)以上的N的序列。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的利用測(cè)序序列的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列進(jìn)一步包括運(yùn)用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對(duì)reads進(jìn)行拼接,將其組裝成V3的全長(zhǎng)序列;拼接的條件是最小匹配長(zhǎng)度為S3P,重疊區(qū)域不允許錯(cuò)配,N所占最大百分比是0.4% ; 不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次;如果最終的拼接結(jié)果小于 50bp也不用于后續(xù)分析。
7.一種基于宏基因組16S高可變區(qū)V3的分類(lèi)裝置,所述裝置包括 DNA提取設(shè)備,用于提取微生物樣品中的脫氧核糖核酸;擴(kuò)增設(shè)備,用于對(duì)宏基因組16S rDNA的高可變區(qū)V3進(jìn)行擴(kuò)增,得到作為擴(kuò)增產(chǎn)物的DNA片段;Solexa建庫(kù)設(shè)備,用于對(duì)DNA片段進(jìn)行PCR-Free Solexa建庫(kù),建庫(kù)過(guò)程在DNA片段上加上標(biāo)簽序列以對(duì)每個(gè)樣品進(jìn)行標(biāo)記;Solexa測(cè)序設(shè)備,將各個(gè)樣品的帶有標(biāo)簽序列的DNA片段進(jìn)行混合,使用Solexa測(cè)序工具對(duì)混合后的DNA片段進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的測(cè)序序列(reads);全長(zhǎng)序列組裝設(shè)備,用于利用測(cè)序序列的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列 (unique reads);分類(lèi)設(shè)備,用于對(duì)全長(zhǎng)序列進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體的分類(lèi)。
8.根據(jù)權(quán)利要求7的裝置,其特征在于,所述分類(lèi)設(shè)備包括序列差異度計(jì)算單元,用于計(jì)算全長(zhǎng)序列之間的序列差異度;OTU分類(lèi)單元,用于根據(jù)序列差異度執(zhí)行操作分類(lèi)學(xué)單元OTU的分類(lèi),將全長(zhǎng)序列分配到OTU中;物種注釋單元,用于將每一個(gè)OTU分類(lèi)中的全長(zhǎng)序列比對(duì)到16S rDNA的v3數(shù)據(jù)庫(kù)中,將比對(duì)結(jié)果根據(jù)眾數(shù)原則對(duì)OTU進(jìn)行物種注釋。
9.根據(jù)權(quán)利要求7的裝置,其特征在于,還包括數(shù)據(jù)分析設(shè)備,用于在對(duì)全長(zhǎng)序列進(jìn)行分類(lèi)分析之后,對(duì)所得到的數(shù)據(jù)結(jié)果進(jìn)行進(jìn)一步分析;所述數(shù)據(jù)分析設(shè)備包括種群多樣性分析單元,用于分析種群多樣性;和/或相對(duì)豐度統(tǒng)計(jì)單元,用于統(tǒng)計(jì)得到微生物群體的相對(duì)豐度值。
10.根據(jù)權(quán)利要求7的裝置,其特征在于,所述Solexa建庫(kù)設(shè)備包括DNA片段純化單元,用于將所獲得的DNA片段進(jìn)行純化;定量單元,用于對(duì)純化后的DNA片段進(jìn)行濃度定量; DNA片段修飾單元,用于在定量后不同樣品取等濃度的量分別進(jìn)行末端修復(fù),在3’端加上堿基A,然后加上DNA片段標(biāo)簽序列DNA片段,再進(jìn)一步加上PCR-Free的接頭;修飾后產(chǎn)物純化單元,用于對(duì)修飾后的DNA片段進(jìn)行純化。
11.根據(jù)權(quán)利要求7的裝置,其特征在于,還包括測(cè)序序列篩選設(shè)備,用于在得到按照標(biāo)簽區(qū)分的測(cè)序序列后,對(duì)所述測(cè)序序列進(jìn)行篩選,以過(guò)濾掉低質(zhì)量的測(cè)序序列; 所述低質(zhì)量的測(cè)序序列選自以下序列中的任意一種或數(shù)種接頭污染序列,含有多個(gè) poly (A I T I CIG)的序列、以及含有連續(xù)2個(gè)以上的N的序列。
12.根據(jù)權(quán)利要求7的裝置,其特征在于,所述全長(zhǎng)序列組裝設(shè)備運(yùn)用拼接軟件,根據(jù)序列兩端的重疊關(guān)系對(duì)測(cè)序序列進(jìn)行拼接,將其組裝成V3的全長(zhǎng)序列;拼接的條件是最小匹配長(zhǎng)度為S3P,重疊區(qū)域不允許錯(cuò)配,N所占最大百分比是0.4%;不滿足以上結(jié)果的序列將各切除5bp繼續(xù)組裝,如此重復(fù)多次;如果最終的拼接結(jié)果小于50bp也不用于后續(xù)分析。
全文摘要
本發(fā)明公開(kāi)一種基于宏基因組16S高可變區(qū)V3的分類(lèi)方法和裝置。該方法包括提取微生物樣品中的DNA;對(duì)宏基因組16S rDNA的高可變區(qū)V3進(jìn)行擴(kuò)增,對(duì)擴(kuò)增產(chǎn)物進(jìn)行Solexa建庫(kù),同時(shí)在建庫(kù)過(guò)程中通過(guò)加上帶有標(biāo)簽序列的接頭,對(duì)每個(gè)樣品進(jìn)行標(biāo)記;將帶有標(biāo)簽序列的不同樣品進(jìn)行混合,混合后使用Solexa測(cè)序工具進(jìn)行測(cè)序,得到按照標(biāo)簽區(qū)分的原始的測(cè)序序列reads;利用reads的重疊關(guān)系組裝得到高可變區(qū)V3的全長(zhǎng)序列unique reads;對(duì)unique reads進(jìn)行分類(lèi)分析,以實(shí)現(xiàn)對(duì)微生物群體的分類(lèi)。本發(fā)明的方法和裝置,對(duì)微生物群體的分類(lèi)準(zhǔn)確,且大大降低了測(cè)序成本。
文檔編號(hào)C12Q1/68GK102517392SQ201110439198
公開(kāi)日2012年6月27日 申請(qǐng)日期2011年12月26日 優(yōu)先權(quán)日2011年12月26日
發(fā)明者張艷艷, 楊煥明, 汪建, 王俊, 章文蔚, 郭晶, 龔梅花 申請(qǐng)人:深圳華大基因研究院, 深圳華大基因科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 顺义区| 闻喜县| 昭通市| 慈利县| 凌海市| 杭锦旗| 新丰县| 兴和县| 四川省| 明星| 漳平市| 昌黎县| 千阳县| 乌拉特后旗| 新闻| 湖北省| 司法| 鹤壁市| 玉门市| 博爱县| 中山市| 彩票| 门源| 铜鼓县| 十堰市| 布拖县| 阿尔山市| 湖口县| 龙门县| 泸溪县| 丹凤县| 阿瓦提县| 梨树县| 密山市| 万载县| 孟津县| 华安县| 七台河市| 新民市| 河北省| 桃园市|