>[0021] 步驟二:確定胎兒核酸含量。
[0022] 基于第一和第二測(cè)序數(shù)據(jù),或者基于第一、第二和第三測(cè)序數(shù)據(jù),確定所述孕婦體 液樣本中的胎兒核酸含量。
[0023] 其中,基于第一和第二測(cè)序數(shù)據(jù)確定孕婦體液樣本中的胎兒核酸含量,是這 樣進(jìn)行的:首先是篩選出在第一測(cè)序數(shù)據(jù)中有兩種基因型以及在第二測(cè)序數(shù)據(jù)中只 有一種基因型的位點(diǎn)。位點(diǎn)的篩選可以通過(guò)比對(duì)來(lái)進(jìn)行,比對(duì)可以利用S0AP(Short OligonucleotideAnalysis Package),bwa,samtools等軟件進(jìn)行,本實(shí)施方式對(duì)此不作限 制,比對(duì)的進(jìn)行也可以識(shí)別出多態(tài)性位點(diǎn)。比對(duì)所使用的參考序列是已知序列,可以是預(yù)先 獲得的目標(biāo)個(gè)體所屬生物類(lèi)別中的任意的參考模板。例如,若目標(biāo)個(gè)體是人類(lèi),參考序列可 選擇NCBI數(shù)據(jù)庫(kù)提供的HG19。進(jìn)一步地,也可以預(yù)先配置包含更多參考序列的資源庫(kù),在 進(jìn)行序列比對(duì)前,先依據(jù)目標(biāo)個(gè)體的性別、人種、地域等因素選擇或是測(cè)定組裝出更接近的 序列來(lái)作為參考序列,有助于獲得更準(zhǔn)確的檢測(cè)分析結(jié)果。在比對(duì)過(guò)程中,根據(jù)比對(duì)參數(shù)的 設(shè)置,各測(cè)序數(shù)據(jù)中的每條或每對(duì)讀段(reads或一對(duì)末端讀段pair-end reads)最多允許 有η個(gè)堿基錯(cuò)配(mismatch), η優(yōu)選為1或2,若reads中有超過(guò)η個(gè)堿基發(fā)生錯(cuò)配,則視 為該條/對(duì)reads無(wú)法比對(duì)到參考序列。一個(gè)位點(diǎn),假設(shè)在參考序列上該位點(diǎn)是Α,第二測(cè) 序數(shù)據(jù)的比對(duì)結(jié)果表明第二測(cè)序數(shù)據(jù)即母親測(cè)序數(shù)據(jù)中比對(duì)上到參考序列該位點(diǎn)的堿基 都是A,但是第一測(cè)序數(shù)據(jù)即母親與胎兒的測(cè)序數(shù)據(jù)的比對(duì)結(jié)果表明第一測(cè)序數(shù)據(jù)中比對(duì) 到參考序列該位點(diǎn)的堿基是A和另外一種非A的堿基,非A堿基比如T、C或G,由于第一測(cè) 序數(shù)據(jù)中是母親和胎兒核酸的混合測(cè)序數(shù)據(jù),而從第二測(cè)序數(shù)據(jù)的比對(duì)結(jié)果可知母親的該 位點(diǎn)為AA,那么就可判斷出第一測(cè)序數(shù)據(jù)中該位點(diǎn)非A堿基來(lái)源于胎兒,這樣篩選出所有 這樣的位點(diǎn),基于這些位點(diǎn)在混合測(cè)序數(shù)據(jù)中占的比例,就能反映出混合核酸中胎兒核酸 的含量。類(lèi)似的,若第二測(cè)序數(shù)據(jù)的比對(duì)結(jié)果表明母親某位點(diǎn)的基因型為雜合的,比如AG, 而第一測(cè)序數(shù)據(jù)比對(duì)結(jié)果顯示支持該位點(diǎn)AG和AA兩種基因型,這樣基于第一測(cè)序數(shù)據(jù)中 A堿基的數(shù)量、含量或比例,也能估算獲得孕婦外周血樣本中的胎兒核酸含量。當(dāng)像上面前 者情況,在第二測(cè)序數(shù)據(jù)中只有純合基因型、而在第一測(cè)序數(shù)據(jù)中除有一樣的純合基因型 還有雜合基因型時(shí),胎兒核酸含量f = 2cV(C+d),而當(dāng)像上面后者情況,在第二測(cè)序數(shù)據(jù)中 只有雜合基因型、而在第一測(cè)序數(shù)據(jù)中除有那雜合基因型還有純合基因型,胎兒核酸含量f =(c-dV(c+d),公式中的c為第一測(cè)序數(shù)據(jù)中支持等位基因 A的讀段數(shù)目,d為第一測(cè)序 數(shù)據(jù)中支持非A等位基因的讀段數(shù)目。
[0024] 基于第一、第二和第三測(cè)序數(shù)據(jù)確定孕婦體液樣本中的胎兒核酸含量,是通過(guò)以 下進(jìn)行的:篩選出在第二測(cè)序數(shù)據(jù)和第三測(cè)序數(shù)據(jù)中為不同純合基因型的位點(diǎn),比如該位 點(diǎn)在第二和第三測(cè)序數(shù)據(jù)中的基因型分別為RR和rr,這樣以遺傳角度,胎兒核酸中該位點(diǎn) 的基因型為Rr,基于多個(gè)這種類(lèi)型的位點(diǎn)計(jì)算孕婦外周血樣本中胎兒核酸含量,胎兒核酸 含量f = gAg+h),g為第一測(cè)序數(shù)據(jù)中支持等位基因 r的讀段數(shù)目,h為第一測(cè)序數(shù)據(jù)中 支持等位基因 R的讀段數(shù)目。位點(diǎn)的篩選涉及的比對(duì),比對(duì)參數(shù)的設(shè)置、比對(duì)結(jié)果等可參照 前面基于第一和第二測(cè)序數(shù)據(jù)估算胎兒核酸含量的描述進(jìn)行。
[0025] 步驟三:構(gòu)律父母的目標(biāo)區(qū)域單體型。
[0026] 基于第二、第三和第四測(cè)序數(shù)據(jù)構(gòu)建母親和父親的目標(biāo)區(qū)域單體型,即基于父母 各自的測(cè)序數(shù)據(jù)和已知的該對(duì)父母的目標(biāo)區(qū)域帶變異的子女(先證者)的測(cè)序數(shù)據(jù),來(lái)構(gòu) 建父母各自的單體型。將父母各自的測(cè)序數(shù)據(jù)以及先證者的測(cè)序數(shù)據(jù)分別與參考序列比 對(duì),利用軟件比如SOAPsnp、GATK、bowtite等識(shí)別出父母以及先證者目標(biāo)區(qū)域中的SNP和獲 得各個(gè)SNP的基因型,由于先證者的兩條單體型(兩組SNP集合)是由父親和母親的各一 條單體型組成的,所以依據(jù)孟德?tīng)栠z傳規(guī)律,依據(jù)父母及先證者的各個(gè)SNP所在位點(diǎn)的基 因型,比如利用多個(gè)區(qū)分型SNP,區(qū)分型SNP指該位點(diǎn)父母為不同基因型能夠提供給下一代 能區(qū)分單體型來(lái)源的SNP,構(gòu)建父親和母親的單體型。單體型傾向作為一個(gè)遺傳單元遺傳給 子代,在這里,單體型是一組SNP的集合。
[0027] 需要說(shuō)明的是,本發(fā)明的實(shí)施方式對(duì)步驟二和步驟三的進(jìn)行沒(méi)有先后順序限制, 可以先進(jìn)行步驟二再進(jìn)行步驟三,或者先進(jìn)行步驟三獲得父母目標(biāo)區(qū)域單體型再進(jìn)行步驟 二確定胎兒核酸含量。
[0028] 步驟四:確定胎兒目標(biāo)區(qū)域單體型。
[0029] 基于母親和父親的目標(biāo)區(qū)域單體型以及胎兒核酸含量,確定所述胎兒目標(biāo)區(qū)域單 體型。具體地,利用多個(gè)在父親目標(biāo)區(qū)域單體型上為雜合、在母親目標(biāo)區(qū)域單體型上為純 合的位點(diǎn)確定胎兒遺傳到的父親目標(biāo)區(qū)域單體型,這是由于若胎兒某SNP位點(diǎn)為雜合的, 由于源自母親的只可能為一種類(lèi)型的堿基,所以就可確定該位點(diǎn)的另一堿基來(lái)自父親,利 用多個(gè)這樣的位點(diǎn),比如可以確定超過(guò)10個(gè)這樣的位點(diǎn)的等位基因源自父親的一條單體 型,就能確定胎兒兩條單體型中的源自父親的那條單體型。而對(duì)于胎兒另一條單體型的確 定,可類(lèi)似的利用多個(gè)在父親目標(biāo)區(qū)域單體型上為純合、在母親目標(biāo)區(qū)域單體型上為雜合 的位點(diǎn)來(lái)確定,但由于胎兒核酸樣本,即母體外周血樣本混有大量的母體DNA,單從以上類(lèi) 型SNP沒(méi)法判斷胎兒遺傳了 R還是r所在的母親單體型,因?yàn)樵撐稽c(diǎn)任何的等位堿基也都 可能就只是母體的,在這里我們結(jié)合胎兒核酸含量來(lái)確定胎兒遺傳到的母親的單體型。對(duì) 于多個(gè)在父親單體型上為純合、母親單體型上為雜合的多態(tài)性位點(diǎn),這樣的位點(diǎn)在母體外 周血樣本中每個(gè)都可表示為Rr,若多個(gè)這樣的位點(diǎn)都符合R/r = (1+x% V(l-x% ),則判 定胎兒遺傳了母親等位基因 R所在的單體型,若多個(gè)這樣的位點(diǎn)都符合R/r = 1,則判定胎 兒遺傳了母親等位基因 r所在的單體型,R和r表示一對(duì)等位基因,X%表示胎兒核酸含量, R/r =比對(duì)后第一測(cè)序數(shù)據(jù)中支持R的讀段數(shù)目/比對(duì)后第一測(cè)序數(shù)據(jù)中支持r的讀段數(shù) 目。由此,確定胎兒的單體型。
[0030] 本領(lǐng)域普通技術(shù)人員可以理解,上述實(shí)施方式中各種方法的全部或部分步驟可以 通過(guò)程序來(lái)指令相關(guān)硬件完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可 以包括:只讀存儲(chǔ)器、隨機(jī)存儲(chǔ)器、磁盤(pán)或光盤(pán)等。
[0031] 依據(jù)本發(fā)明的另一個(gè)實(shí)施方式,提供一種確定胎兒目標(biāo)區(qū)域單體型的裝置,該裝 置能夠用以完成本發(fā)明一個(gè)實(shí)施方式中的方法的部分或全部步驟,如圖1所示,該裝置 1000包括:測(cè)序單元100,用以獲得孕婦體液中的游離核酸,捕獲目標(biāo)區(qū)域,對(duì)所述捕獲得 的目標(biāo)區(qū)域進(jìn)行序列測(cè)定,獲得第一測(cè)序數(shù)據(jù),用以捕獲胎兒家系成員核酸中的同樣目標(biāo) 區(qū)域,對(duì)所述家系成員的同樣目標(biāo)區(qū)域進(jìn)行序列測(cè)定,獲得家系成員測(cè)序數(shù)據(jù),所述家系成 員測(cè)序數(shù)據(jù)包括第二、第三和第四測(cè)序數(shù)據(jù),分別對(duì)應(yīng)胎兒母親、胎兒父親和先證者的同樣 目標(biāo)區(qū)域的測(cè)序數(shù)據(jù);胎兒核酸含量確定單元200,與所述測(cè)序單元100相連,用于基于第 一和第二測(cè)序數(shù)據(jù),或者基于第一、第二和第三測(cè)序數(shù)據(jù),以確定所述孕婦體液樣本中的胎 兒核酸含量;父母單體型確定單元300,與所述測(cè)序單元100相連,用于基于第二、第三和第 四測(cè)序數(shù)據(jù)構(gòu)建母親和父親的目標(biāo)區(qū)域單體型;胎兒?jiǎn)误w型確定單元400,與所述胎兒核 酸含量確定單元200和所述父母單體型確定單元300相連,用于基于母親和父親的目標(biāo)區(qū) 域單體型以及胎兒核酸含量,確定所述胎兒目標(biāo)區(qū)域單體型。對(duì)本發(fā)明的一個(gè)實(shí)施方式中 的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一實(shí)施方式的裝置,在此不再贅述。
[0032] 以下結(jié)合對(duì)具體樣本依據(jù)本發(fā)明的方法進(jìn)行目標(biāo)區(qū)域單體型的確定、基因型的確 定、單體型或基因型確定后的用途進(jìn)行詳細(xì)的描述及結(jié)果展示。下面示例,僅用于解釋本發(fā) 明,而不能理解為對(duì)本發(fā)明的限制。在本發(fā)明中所使用的"第一"、"第二"、"第三"等僅用于 方便描述目的,而不能理解為指示或暗示相對(duì)重要性,也不能理解為之間有先后順序關(guān)系。 本發(fā)明的描述中,除非另有說(shuō)明,"多個(gè)"的含義是兩個(gè)或兩個(gè)以上。
[0033] 除另有交待,以下實(shí)施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、 軟件及儀器,都是常規(guī)市售產(chǎn)品或者公開(kāi)的,比如購(gòu)自Illumina公司的hiSeq2000測(cè)序平 臺(tái)建庫(kù)相關(guān)試劑盒來(lái)進(jìn)行測(cè)序文庫(kù)構(gòu)建等。
[0034] 一般方法:
[0035] 1.目標(biāo)捕獲區(qū)域的選擇及探針的設(shè)計(jì)
[0036] 目標(biāo)捕獲區(qū)域包括SMN1基因外顯子區(qū),SMN1基因內(nèi)部及其上下游3M區(qū)域內(nèi)高雜 合率SNP位點(diǎn)的捕獲測(cè)序。SNP的選擇參考dbSNP數(shù)據(jù)庫(kù),選擇其中參考染色體數(shù)大于100 條、MAF在0. 3-0. 5之間的SNP位點(diǎn)。同時(shí),為了保證檢測(cè)的準(zhǔn)確性,保證SNP位點(diǎn)所在序 列63mer堿基序列在基因組上為唯一比對(duì),且GC含量在40%-50%。SMNl區(qū)域捕獲區(qū)域如 表1及表2所示
[0037] 2.家系致病單體型的獲得
[0038] 通過(guò)生物信息分析,對(duì)孕婦、孕婦丈夫及先證者在目標(biāo)基因及其上下游區(qū)域的SNP 位點(diǎn)基因型進(jìn)行判斷。通過(guò)對(duì)三者的SNP基因型進(jìn)行連鎖分析,以確定與致病突變緊密連 鎖的SNP位點(diǎn)的基因信息,并進(jìn)一步獲得與致病突變連鎖的單體型信息。整體技術(shù)路線如 圖2所示。
[0039] (1)從孕婦、孕婦丈夫及先證者的外周血中抽提基因組DNA,并使用電泳及0D對(duì)獲 得的DNA進(jìn)行質(zhì)量檢測(cè)。
當(dāng)前第2頁(yè)
1 
2 
3 
4