基因序列數(shù)據(jù)的處理方法和裝置的制作方法

文檔序號：6369436閱讀：273來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基因序列數(shù)據(jù)的處理方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，具體而言，涉及ー種基因序列數(shù)據(jù)的處理方法和裝置。
背景技術(shù)：
基于短片段序列數(shù)據(jù)進行測序的方法日漸成熟，通過構(gòu)建德布魯因圖(deBruijn)的思想進行基因組序列的組裝軟件，成功組裝了大量的全基因序列。但是，現(xiàn)有組裝軟件在進行基因序列組裝時，并不考慮用來組裝的基因序列是雜合基因還是純合基因，以生物界居多的二倍體基因為例進行舉例說明，現(xiàn)有技術(shù)中在對二倍體基因進行序列組裝時，均是將二倍體基因當(dāng)作純合二倍體進行組裝，對于其中的等位基因位點采取隨機選取其中ー個的方式進行忽略，即，舍去等位基因中的一種情況，把二倍體基因當(dāng)成純合二倍體來處理，現(xiàn)有技術(shù)中的此種進行基因序列數(shù)據(jù)的處理組裝的方式，不僅會造成了雜合二倍體基因的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,簡稱SNP)的位點信息損失，影響生物信息的精確性，而且對于雜合度較高、SNP信息復(fù)雜的基因，組裝所得到的基因序列偏離生物自身基因序列的程度更大。針對相關(guān)技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題，目前尚未提出有效的解決方案。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供ー種基因序列數(shù)據(jù)的處理方法和裝置，以解決現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的ー個方面，提供了ー種基因序列數(shù)據(jù)的處理方法，包括接收初始基因序列的測序數(shù)據(jù)；構(gòu)建測序數(shù)據(jù)的德布魯因圖；保存德布魯因圖中的第一邊序列和組成第一邊序列的各個短序列，其中，第一邊序列為德布魯因圖中的任一邊序列；獲取組成第一邊序列的各個短序列的深度信息；根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息；按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖；以及切割化簡后的德布魯因圖，得到測序數(shù)據(jù)的置連群基因序列。進ー步地，按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖包括獲取德布魯因圖中第一組合邊序列，其中，第一組合邊序列包括第一序列、第二序列和第三序列，第二序列連接在第一序列和第三序列之間，第一序列和第三序列均包括兩條分支邊序列，第二序列包括一條共有邊序列；判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；在判定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件吋，對比測序數(shù)據(jù)中的各個短序列，確定第一組合邊序列的基因類型；以及按照基因類型拆解第一組合邊序列，得到化簡后的德布魯因圖。進ー步地，對比測序數(shù)據(jù)中的各個短序列，確定第一組合邊序列的基因類型包括對比測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，第一分支邊序列為第一序列中的分支邊序列，第二分支邊序列為第三序列中的分支邊序列；復(fù)制共有邊序列，得到第一共有邊序列和第二共有邊序列；依次連接第一分支邊序列、第一共有邊序列和第二分支邊序列，將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型；以及依次連接第三分支邊序列、第二共有邊序列和第四分支邊序列，將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型，其中，第三分支邊序列為第一序列中的分支邊序列且第三分支邊序列與第一分支邊序列不同，第四分支邊序列為第三序列中的分支邊序列且第四分支邊序列與第二分支邊序列不同。進ー步地，對比測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列包括判斷第一短序列的長度是否大于共有邊序列的長度，其中，第一短序列為各個短序列中的任一短序列；在判定第一短序列的長度大于共有邊序列的長度時，對比第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列；以及在判定第一短序列的長度小于或等于共有邊序列的長度時，對比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。進ー步地，判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件包括判斷共有邊序列的深度信息值是否為分支邊序列的深度信息值的第一數(shù)值倍，其中，在判定共有邊序列的深度信息值為分支邊序列的深度信息值的第一數(shù)值倍時，確定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件。進ー步地，根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息包括計算組成第一邊序列的各個短序列的深度信息值的平均值；以及確定計算出的平均值為第一邊序列的深度信息值。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的另一方面，提供了ー種基因序列數(shù)據(jù)的處理裝置，該處理裝置用于執(zhí)行上述本發(fā)明提供的任ー種基因序列數(shù)據(jù)的處理方法。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的另一方面，提供了ー種基因序列數(shù)據(jù)的處理裝置，包括接收單元，用于接收初始基因序列的測序數(shù)據(jù)；構(gòu)建單元，與接收單元相連接，用于構(gòu)建測序數(shù)據(jù)的德布魯因圖；保存単元，與構(gòu)建單元相連接，用于保存德布魯因圖中的第ー邊序列和組成第一邊序列的各個短序列，其中，第一邊序列為德布魯因圖中的任ー邊序列；獲取單元，與保存単元相連接，用于獲取組成第一邊序列的各個短序列的深度信息；計算單元，與獲取單元相連接，用于根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息；化簡單元，與計算單元相連接，用于按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖；以及切割単元，與化簡單元相連接，用于切割化簡后的德布魯因圖，得到測序數(shù)據(jù)的疊連群基因序列。進ー步地，化簡單元包括獲取子単元，用于獲取德布魯因圖中第一組合邊序列，其中，第一組合邊序列包括第一序列、第二序列和第三序列，第二序列連接在第一序列和第三序列之間，第一序列和第三序列均包括兩條分支邊序列，第二序列包括一條共有邊序列；判斷子単元，與獲取子単元相連接，用于判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；對比子単元，與判斷子単元相連接，用于在判定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件吋，對比測序數(shù)據(jù)中的各個短序列，確定第一組合邊序列的基因類型；以及拆分子単元，與對比子単元相連接，用于按照基因類型拆解第一組合邊序列，得到化簡后的德布魯因圖。
進ー步地，對比子単元包括對比模塊，用于對比測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，第一分支邊序列為第一序列中的分支邊序列，第二分支邊序列為第三序列中的分支邊序列；復(fù)制模塊，與對比模塊相連接，用于復(fù)制共有邊序列，得到第一共有邊序列和第二共有邊序列；第一確定模塊，與復(fù)制模塊相連接，用于依次連接第一分支邊序列、第一共有邊序列和第二分支邊序列，將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型；以及第ニ確定模塊，與復(fù)制模塊相連接，用于依次連接第三分支邊序列、第二共有邊序列和第四分支邊序列，將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型，其中，第三分支邊序列為第一序列中的分支邊序列且第三分支邊序列與第一分支邊序列不同，第四分支邊序列為第二序列中的分支邊序列且第四分支邊序列與第二分支邊序列不同。進ー步地，對比模塊包括判斷子模塊，用于判斷第一短序列的長度是否大于共有邊序列的長度，其中，第一短序列為各個短序列中的任一短序列；第ー對比子模塊，與判斷子模塊相連接，用于在判定第一短序列的長度大于共有邊序列的長度時，對比第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列；以及第二對比子模塊，與判斷子模塊相連接，用于在判定第一短序列的長度小于或等于共有邊序列的長度時，對比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。通過本發(fā)明，采用在構(gòu)建測序數(shù)據(jù)的德布魯因圖的過程中保存德布魯因圖中各個邊序列及組成各個邊序列的測序數(shù)據(jù)中的各個短序列，通過該保存步驟，為后續(xù)步驟處理中避免雜合二倍體基因的單核苷酸多態(tài)性位點信息的損失的提供了保障，根據(jù)各個短序列的深度信息得到德布魯因圖中各個邊序列的深度信息，然后按照各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡已構(gòu)建的德布魯因圖，通過按照邊序列的深度信息及測試數(shù)據(jù)中的短序列對德布魯因圖進行化簡，最后對化簡后的德布魯因圖進行切割，得到疊連群基因序列，實現(xiàn)了得到較長的測序數(shù)據(jù)的邊序列，對于雜合度較高、SNP信息復(fù)雜的基因，能夠精確地反映其基因信息，減小組裝所得到的基因序列偏離生物自身基因序列的程度，解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題，進而達到了提高基因序列組裝的有效性的效果。

構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進ー步理解，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I是根據(jù)本發(fā)明實施例的處理裝置的示意圖；圖2是根據(jù)本發(fā)明優(yōu)選實施例的處理裝置的示意圖；圖3是根據(jù)本發(fā)明實施例的處理方法的流程圖；圖4是本發(fā)明實施例的處理方法中的第一組合邊序列的結(jié)構(gòu)示意圖；圖5是本發(fā)明實施例的處理方法中的“雜合-純合-雜合”結(jié)構(gòu)的組合邊序列的結(jié)構(gòu)示意圖；圖6是根據(jù)本發(fā)明實施例的處理方法進行基因類型判斷的第一判斷方法的示意圖7是根據(jù)本發(fā)明實施例的處理方法進行基因類型判斷的第二判斷方法的示意圖；以及圖8是根據(jù)本發(fā)明實施例的處理方法拆解后的邊序列的示意圖。
具體實施例方式需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。本發(fā)明實施例提供了ー種基因序列數(shù)據(jù)的處理裝置，以下對本發(fā)明實施例所提供的基因序列數(shù)據(jù)的處理裝置進行介紹。圖I是根據(jù)本發(fā)明實施例的處理裝置的示意圖，如圖I所示，該實施例的處理裝置包括接收單元10、構(gòu)建單元20、保存單元30、獲取單元40、計算單元50、化簡單元60和切割單元70。具體地，接收單元10用于接收初始基因序列的測序數(shù)據(jù)；構(gòu)建單元20與接收單元10相連接，用于構(gòu)建接收到的測序數(shù)據(jù)的德布魯因圖；保存単元30與構(gòu)建單元20相連接，用于保存德布魯因圖中的第一邊序列edges和組成第一邊序列的各個短序列reads，其中，第一邊序列可以為構(gòu)建出的德布魯因圖中的任意一條邊序列；保存単元30可以為硬件存儲單元，也可以為后臺數(shù)據(jù)庫，構(gòu)建單元20在構(gòu)建德布魯因圖的過程中可以邊構(gòu)建邊將構(gòu)建的邊序列存儲至保存単元30中，保存単元30中可以存儲任意一條邊序列及組成該邊序列的短序列，同時還存儲有各條短序列的深度信息值；獲取單元40與保存単元30相連接，用于從保存単元30中調(diào)用組成任意一條邊序列的各個短序列的深度信息值；計算單元50與獲取單元40相連接，用于根據(jù)組成某ー邊序列的各個短序列的深度信息計算該條邊序列的深度信息值；化簡單元60與計算單元50相連接，用于按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖；以及切割單元70與化簡單元60相連接，用于切割化簡后的德布魯因圖，得到測序數(shù)據(jù)的疊連群基因序列。本發(fā)明實施例的處理裝置，通過保存単元在構(gòu)建測序數(shù)據(jù)的德布魯因圖的過程中保存德布魯因圖中各個邊序列及組成各個邊序列的測序數(shù)據(jù)中的各個短序列，通過該保存単元的保存工作，為后續(xù)各単元的處理工作中避免雜合二倍體基因的單核苷酸多態(tài)性位點信息的損失的提供了保障，根據(jù)各個短序列的深度信息得到德布魯因圖中各個邊序列的深度信息，然后由化簡單元按照各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡已構(gòu)建的德布魯因圖，通過按照邊序列的深度信息及測試數(shù)據(jù)中的短序列對德布魯因圖進行化簡，最后對化簡后的德布魯因圖進行切割，得到疊連群基因序列，實現(xiàn)了得到較長的測序數(shù)據(jù)的邊序列，對于雜合度較高、SNP信息復(fù)雜的基因，能夠精確地反應(yīng)其基因信息，減小組裝所得到的基因序列偏離生物自身基因序列的程度，解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題，進而達到了提高基因序列組裝的有效性的效果。圖2是本發(fā)明優(yōu)選實施例的處理裝置的示意圖，如圖2所示，該實施例的處理裝置與圖I中示出的處理裝置相比，二者區(qū)別在于，本發(fā)明優(yōu)選實施例的處理裝置中化簡單元60包括獲取子単元61、判斷子単元62、對比子単元63和拆分子単元64。具體地，獲取子単元61，用于獲取德布魯因圖中滿足一定邊結(jié)構(gòu)的組合邊序列，假設(shè)滿足該一定結(jié)構(gòu)的組合邊序列為第一組合邊序列，那么，第一組合邊序列需包括第一序列、第二序列和第三序列，并且，第二序列連接在第一序列和第三序列之間，第一序列和第三序列均包括兩條分支邊序列，第二序列包括一條共有邊序列；判斷子単元62與獲取子單元61相連接，用于判斷獲取到的第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；對比子単元63與判斷子単元62相連接，用于在判定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件時，對比初始的測序數(shù)據(jù)中的各個短序列，以確定出第一組合邊序列的基因類型；以及拆分子単元64與對比子単元63相連接，用于按照確定出的第一組合邊序列的基因類型拆解第一組合邊序列，得到化簡后的德布魯因圖。該優(yōu)選實施例的化簡單元通過獲取子単元找到德布魯因圖中能夠被拆分的組合邊序列，并對滿足該結(jié)構(gòu)的組合邊序列中各分支序列的深度信息進行判斷，以區(qū)分出雜合基因和純合基因，最終確定出能夠被完全拆解的組合邊序列，然后按照初始的測序數(shù)據(jù)中的各個短序列來確定第一組合邊序列的基因類型，并以其基因類型為拆分依據(jù)拆分第一組合邊序列，得到化簡后的德布魯因圖。該優(yōu)選實施例的化簡單元通過在各個子單元分別設(shè)定相應(yīng)的參考量來實現(xiàn)對德布魯因圖的化簡，達到了提高拆解化簡效率的效果。進ー步地，對比子単元63在參考測序數(shù)據(jù)中的各個短序列以確定出第一組合邊序列的基因類型時，可以通過以下方式來實現(xiàn)首先，可以由對比子単元中的對比模塊對比測序數(shù)據(jù)中的各個短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，第一分支邊序列為第一序列中的分支邊序列，第二分支邊序列為第三序列中的分支邊序列；其次，由與對比模塊相連接的復(fù)制模塊對第二序列中的共有邊序列進行復(fù)制，得到兩個完全相同的共有邊序列，并且復(fù)制后的每ー個共有邊序列的深度信息均為原共有邊序列的深度信息的一半；最后，由與復(fù)制模塊相連接的第一確定模塊依次連接第一分支邊序列、復(fù)制后的ー個共有邊序列和第二分支邊序列，并將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型；以及由與復(fù)制模塊相連接的第二確定模塊依次連接第三分支邊序列、復(fù)制后的另ー個共有邊序列和第四分支邊序列，并將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型，其中，第三分支邊序列為第一序列中的分支邊序列，并且第三分支邊序列與第一分支邊序列不同，第四分支邊序列為第二序列中的分支邊序列，并且第四分支邊序列與第二分支邊序列不同。其中，對比模塊在對比測序數(shù)據(jù)中的各個短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列時，可以通過以下方式來實現(xiàn)首選，由對比模塊中的判斷子模塊對第一短序列的長度是否大于共有邊序列的長度進行判斷，其中，第一短序列為各個短序列中的任意一條短序列；其次，當(dāng)判斷出第一短序列的長度大于共有邊序列的長度吋，由與判斷子模塊相連接的第一對比子模塊對比第一短序列全部堿基組成以確定出同屬于ー條短序列的第一分支邊序列和第二分支邊序列；當(dāng)判斷出第一短序列的長度小于或等于共有邊序列的長度時，由與判斷子模塊相連接的第二對比子模塊對比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。本發(fā)明實施例還提供了ー種基因序列數(shù)據(jù)的處理方法，以下對本發(fā)明實施例的處理方法進行介紹。圖3是本發(fā)明實施例的處理方法的流程圖，如圖3所示，該實施例的處理方法包括如下的步驟S302至步驟S314 S302 :接收初始基因序列的測序數(shù)據(jù)；
S304 :構(gòu)建測序數(shù)據(jù)的德布魯因圖；S306 :保存德布魯因圖中的第一邊序列和組成第一邊序列的各個短序列，其中，第ー邊序列為德布魯因圖中的任ー邊序列；具體地，可以在構(gòu)建德布魯因圖的過程中可以邊構(gòu)建邊將構(gòu)建的邊序列存儲至硬件存儲單元或后臺數(shù)據(jù)庫中，包括存儲任意一條邊序列及組成該邊序列的短序列，以及各條短序列的深度信息值。S308:從硬件存儲單元或者后臺數(shù)據(jù)庫中獲取組成第一邊序列的各個短序列的深
度信息值；S310 :根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息；S312 :按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖；以及 S314 :切割化簡后的德布魯因圖，得到測序數(shù)據(jù)的疊連群基因序列。該實施例的處理方法通過在構(gòu)建測序數(shù)據(jù)的德布魯因圖的過程中保存德布魯因圖中各個邊序列及組成各個邊序列的測序數(shù)據(jù)中的各個短序列，通過該保存步驟，為后續(xù)步驟處理中避免雜合二倍體基因的單核苷酸多態(tài)性位點信息的損失的提供了保障，根據(jù)各個短序列的深度信息得到德布魯因圖中各個邊序列的深度信息，然后按照各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡已構(gòu)建的德布魯因圖，通過按照邊序列的深度信息及測試數(shù)據(jù)中的短序列對德布魯因圖進行化簡，最后對化簡后的德布魯因圖進行切割，得到疊連群基因序列，實現(xiàn)了拼接得到較長的疊連群conting的邊序列，對于雜合度較高、SNP信息復(fù)雜的基因，能夠精確地反應(yīng)其基因信息，減小組裝所得到的基因序列偏離生物自身基因序列的程度，解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題，進而達到了提高基因序列組裝的有效性的效果。其中，步驟S310可以通過以下方式計算第一邊序列的深度信息計算組成第一邊序列的各個短序列的深度信息值的平均值；將計算出的平均值確定為第一邊序列的深度信息值。步驟S312可以通過以下步驟化簡德布魯因圖第一歩獲取德布魯因圖中滿足一定邊結(jié)構(gòu)的組合邊序列，假設(shè)滿足該一定結(jié)構(gòu)的組合邊序列為第一組合邊序列，那么，第一組合邊序列需包括第一序列、第二序列和第三序列，第二序列連接在第一序列和第三序列之間，第一序列和第三序列均包括兩條分支邊序列，第二序列包括一條共有邊序列；圖4中示出了第一組合邊序列的邊結(jié)構(gòu)，其中，41和42表示第一序列的兩個分支邊序列，43和44表示第三序列的兩個分支邊序列，45表示第二序列的共有邊序列。第二步判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；具體地，判斷共有邊序列45的深度信息值是否為各個分支邊序列(包括分支邊序列41、分支邊序列42、分支邊序列44和分支邊序列44)的深度信息值的第一數(shù)值倍，由于雜合基因深度信息的期望值和純合基因深度信息的期望值約為I : 2的關(guān)系，所以，在本發(fā)明實施例的處理方法中，可以將第一數(shù)據(jù)設(shè)定為2，即，判斷共有邊序列45的深度信息值是否為分支邊序列41的深度信息值的2倍，判斷共有邊序列45的深度信息值是否為分支邊序列42的深度信息值的2倍，判斷共有邊序列45的深度信息值是否為分支邊序列43的深度信息值的2倍，以及判斷共有邊序列45的深度信息值是否為分支邊序列44的深度信息值的2倍，其中，在判定共有邊序列45的深度信息值為各個分支邊序列的深度信息值的2倍(即，各分支邊序列的深度信息值相等，而共有邊序列的深度信息值為ー個分支邊序列的深度值的2倍)時，確定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件，即，確定出組合邊序列中滿足邊結(jié)構(gòu)為“上游雜合-中間純合-下游雜合”的組合邊序列，以分支邊序列41和分支邊序列42為基因型號Aa的雜合基因、分支邊序列44和分支邊序列44為基因型號Ce的雜合基因、共有邊序列為B的純合基因為例進行說明，則邊結(jié)構(gòu)為“上游雜合-中間純合-下游雜合”的組合邊序列的結(jié)構(gòu)示意圖如圖5所示。第三步在判定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件吋，對比測序數(shù)據(jù)中的各個短序列，確定第一組合邊序列的基因類型；具體地，可以通過以下方式來實現(xiàn)首先，對比測序數(shù)據(jù)中的各個短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，第一分支邊序列為第一序列中的分支邊序列，第二分支邊序列為第三序列中的分支邊序列；其次，復(fù)制共有邊序列，得到兩個完全相同的共有邊序列，并且復(fù)制后的每ー個共有邊序列的深度信息均為原共有邊序列的深度信息的一半；最后，依次連接第一分支邊序列、復(fù)制后的ー個共有邊序列和第二分支邊序列，并將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型；以及依次連接第三分支邊序列、復(fù)制后的另ー個共有邊序列和第四分支邊序列，將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型，其中，第三分支邊序列為第一序列中的分支邊序列，并且第三分支邊序列與第一分支邊序列不同，第四分支邊序列為第二序列中的分支邊序列，并且第四分支邊序列與第二分支邊序列不同。更具體地，結(jié)合附圖5、附圖6和附圖7來詳細說明對比測序數(shù)據(jù)中的各個短序列得出同屬于一條短序列的第一分支邊序列和第二分支邊序列的實現(xiàn)步驟首先，對第一短序列的堿基長度是否大于共有邊序列B的堿基長度進行判斷，其中，第一短序列為各個短序列中的任意一條短序列；其次，當(dāng)判斷出第一短序列的長度大于共有邊序列B的長度吋，如圖6所示，對比第一短序列的全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，圖6中R表示第一短序列Read ;當(dāng)判斷出第一短序列的長度小于或等于共有邊序列的長度時，如圖7所示，對比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，圖7中PER表示第一短序列雙末端Pair—end Reacts。第四步按照基因類型拆解第一組合邊序列，得到化簡后的德布魯因圖，假設(shè)本發(fā)明實施例的處理方法中經(jīng)由圖6或圖7的對比之后，確定出分支邊序列A和分支邊序列c同屬于一條短序列，即，第一組合邊序列的第一基因類型為ABc，第二基因類型為aBC，如圖8所示，復(fù)制后的兩條共有邊序列分別為B和B'則按照這兩個基因類型將第一組合邊序列拆解為基因類型分別為ABc和aB' C的兩條拆解后的邊序列。步驟S314具體為將上述第四步中各個拆解出的邊序列進行連接，當(dāng)邊序列不能再連下去的時候就從此處斷開，將邊序列輸出，得到測序數(shù)據(jù)的疊連群基因序列。如果德布魯因圖中滿足上述特定邊結(jié)構(gòu)的組合邊序列是由重復(fù)序列導(dǎo)致的而不是由雜合導(dǎo)致的，則此種組合邊序列不可被拆解，此時，通過對滿足該結(jié)構(gòu)的組合邊序列中各分支序列的深度信息進行判斷，以區(qū)分出雜合基因和純合基因，最終確定出能夠被完全拆解的組合邊序列，然后按照初始的測序數(shù)據(jù)中的各個短序列來確定第一組合邊序列的基因類型，并以其基因類型為拆分依據(jù)拆分第一組合邊序列，得到化簡后的德布魯因圖，達到了提高拆解化簡效率的效果。顯然，本領(lǐng)域的技術(shù)人員應(yīng)該明白，上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn)，它們可以集中在單個的計算裝置上，或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上，可選地，它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn)，從而，可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行，或者將它們分別制作成各個集成電路模塊，或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基因序列數(shù)據(jù)的處理方法，其特征在于，包括接收初始基因序列的測序數(shù)據(jù)；構(gòu)建所述測序數(shù)據(jù)的德布魯因圖；保存所述德布魯因圖中的第一邊序列和組成所述第一邊序列的各個短序列，其中，所述第一邊序列為所述德布魯因圖中的任一邊序列；獲取組成所述第一邊序列的各個短序列的深度信息；根據(jù)組成所述第一邊序列的各個短序列的深度信息計算所述第一邊序列的深度信息；按照所述德布魯因圖中的各個邊序列的深度信息和所述測序數(shù)據(jù)中的各個短序列化簡所述德布魯因圖；以及切割化簡后的德布魯因圖，得到所述測序數(shù)據(jù)的疊連群基因序列。
2.根據(jù)權(quán)利要求I所述的處理方法，其特征在于，按照所述德布魯因圖中的各個邊序列的深度信息和所述測序數(shù)據(jù)中的各個短序列化簡所述德布魯因圖包括獲取所述德布魯因圖中第一組合邊序列，其中，所述第一組合邊序列包括第一序列、第二序列和第三序列，所述第二序列連接在所述第一序列和所述第三序列之間，所述第一序列和所述第三序列均包括兩條分支邊序列，所述第二序列包括一條共有邊序列；判斷所述第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；在判定所述第一組合邊序列中的各個邊序列的深度信息滿足所述預(yù)設(shè)條件時，對比所述測序數(shù)據(jù)中的各個短序列，確定所述第一組合邊序列的基因類型；以及按照所述基因類型拆解所述第一組合邊序列，得到化簡后的德布魯因圖。
3.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，對比所述測序數(shù)據(jù)中的各個短序列，確定所述第一組合邊序列的基因類型包括對比所述測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，所述第一分支邊序列為所述第一序列中的分支邊序列，所述第二分支邊序列為所述第三序列中的分支邊序列；復(fù)制所述共有邊序列，得到第一共有邊序列和第二共有邊序列；依次連接所述第一分支邊序列、所述第一共有邊序列和所述第二分支邊序列，將連接后的組合邊序列的類型確定為所述第一組合邊序列的第一基因類型；以及依次連接第三分支邊序列、所述第二共有邊序列和第四分支邊序列，將連接后的組合邊序列的類型確定為所述第一組合邊序列的第二基因類型，其中，所述第三分支邊序列為所述第一序列中的分支邊序列且所述第三分支邊序列與所述第一分支邊序列不同，所述第四分支邊序列為所述第三序列中的分支邊序列且所述第四分支邊序列與所述第二分支邊序列不同。
4.根據(jù)權(quán)利要求3所述的處理方法，其特征在于，對比所述測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列包括判斷第一短序列的長度是否大于所述共有邊序列的長度，其中，所述第一短序列為所述各個短序列中的任一短序列；在判定所述第一短序列的長度大于所述共有邊序列的長度時，對比所述第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列；以及在判定所述第一短序列的長度小于或等于所述共有邊序列的長度時，對比所述第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。
5.根據(jù)權(quán)利要求2所述的處理方法，其特征在于，判斷所述第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件包括判斷所述共有邊序列的深度信息值是否為所述分支邊序列的深度信息值的第一數(shù)值倍，其中，在判定所述共有邊序列的深度信息值為所述分支邊序列的深度信息值的第一數(shù)值倍時，確定所述第一組合邊序列中的各個邊序列的深度信息滿足所述預(yù)設(shè)條件。
6.根據(jù)權(quán)利要求I所述的處理方法，其特征在于，根據(jù)組成所述第一邊序列的各個短序列的深度信息計算所述第一邊序列的深度信息包括計算組成所述第一邊序列的各個短序列的深度信息值的平均值；以及確定計算出的平均值為所述第一邊序列的深度信息值。
7.一種基因序列數(shù)據(jù)的處理裝置，其特征在于，包括接收單元，用于接收初始基因序列的測序數(shù)據(jù)；構(gòu)建單元，與所述接收單元相連接，用于構(gòu)建所述測序數(shù)據(jù)的德布魯因圖；保存單元，與所述構(gòu)建單元相連接，用于保存所述德布魯因圖中的第一邊序列和組成所述第一邊序列的各個短序列，其中，所述第一邊序列為所述德布魯因圖中的任一邊序列；獲取單元，與所述保存單元相連接，用于獲取組成所述第一邊序列的各個短序列的深度目息; 計算單元，與所述獲取單元相連接，用于根據(jù)組成所述第一邊序列的各個短序列的深度信息計算所述第一邊序列的深度信息；化簡單元，與所述計算單元相連接，用于按照所述德布魯因圖中的各個邊序列的深度信息和所述測序數(shù)據(jù)中的各個短序列化簡所述德布魯因圖；以及切割單元，與所述化簡單元相連接，用于切割化簡后的德布魯因圖，得到所述測序數(shù)據(jù)的置連群基因序列。
8.根據(jù)權(quán)利要求7所述的處理裝置，其特征在于，所述化簡單元包括獲取子單元，用于獲取所述德布魯因圖中第一組合邊序列，其中，所述第一組合邊序列包括第一序列、第二序列和第三序列，所述第二序列連接在所述第一序列和所述第三序列之間，所述第一序列和所述第三序列均包括兩條分支邊序列，所述第二序列包括一條共有邊序列；判斷子單元，與所述獲取子單元相連接，用于判斷所述第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件；對比子單元，與所述判斷子單元相連接，用于在判定所述第一組合邊序列中的各個邊序列的深度信息滿足所述預(yù)設(shè)條件時，對比所述測序數(shù)據(jù)中的各個短序列，確定所述第一組合邊序列的基因類型；以及拆分子單元，與所述對比子單元相連接，用于按照所述基因類型拆解所述第一組合邊序列，得到化簡后的德布魯因圖。
9.根據(jù)權(quán)利要求8所述的處理裝置，其特征在于，所述對比子單元包括對比模塊，用于對比所述測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列，其中，所述第一分支邊序列為所述第一序列中的分支邊序列，所述第二分支邊序列為所述第三序列中的分支邊序列；復(fù)制模塊，與所述對比模塊相連接，用于復(fù)制所述共有邊序列，得到第一共有邊序列和第二共有邊序列；第一確定模塊，與所述復(fù)制模塊相連接，用于依次連接所述第一分支邊序列、所述第一共有邊序列和所述第二分支邊序列，將連接后的組合邊序列的類型確定為所述第一組合邊序列的第一基因類型；以及第二確定模塊，與所述復(fù)制模塊相連接，用于依次連接第三分支邊序列、所述第二共有邊序列和第四分支邊序列，將連接后的組合邊序列的類型確定為所述第一組合邊序列的第二基因類型，其中，所述第三分支邊序列為所述第一序列中的分支邊序列且所述第三分支邊序列與所述第一分支邊序列不同，所述第四分支邊序列為所述第二序列中的分支邊序列且所述第四分支邊序列與所述第二分支邊序列不同。
10.根據(jù)權(quán)利要求9所述的處理裝置，其特征在于，所述對比模塊包括判斷子模塊，用于判斷第一短序列的長度是否大于所述共有邊序列的長度，其中，所述第一短序列為所述各個短序列中的任一短序列；第一對比子模塊，與所述判斷子模塊相連接，用于在判定所述第一短序列的長度大于所述共有邊序列的長度時，對比所述第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列；以及第二對比子模塊，與所述判斷子模塊相連接，用于在判定所述第一短序列的長度小于或等于所述共有邊序列的長度時，對比所述第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。
全文摘要
本發(fā)明公開了一種基因序列數(shù)據(jù)的處理方法和裝置。其中，基因序列數(shù)據(jù)的處理方法包括接收初始基因序列的測序數(shù)據(jù)；構(gòu)建測序數(shù)據(jù)的德布魯因圖；保存德布魯因圖中的第一邊序列和組成第一邊序列的各個短序列；獲取組成第一邊序列的各個短序列的深度信息；根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息；按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖；以及切割化簡后的德布魯因圖，得到測序數(shù)據(jù)的疊連群基因序列。通過本發(fā)明，解決了現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題，進而達到了提高基因序列組裝的有效性的效果。
文檔編號G06F19/22GK102841987SQ20121014722
公開日2012年12月26日申請日期2012年5月11日優(yōu)先權(quán)日2012年5月11日
發(fā)明者王垚燊, 阮航, 李萌申請人:北京諾禾致源生物信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王垚燊;阮航;李萌
技術(shù)所有人：北京諾禾致源生物信息科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

基因序列數(shù)據(jù)庫相關(guān)技術(shù)

基因序列比對相關(guān)技術(shù)

時間序列數(shù)據(jù)處理方法相關(guān)技術(shù)

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基因序列數(shù)據(jù)的處理方法和裝置的制作方法