麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

提供基因組數據的動態索引和可視化的分布式系統的制作方法

文檔序號:6498052閱讀:367來源:國知局
提供基因組數據的動態索引和可視化的分布式系統的制作方法
【專利摘要】提供了用于基因組數據的動態可視化的系統和方法,其中基因組可視化系統根據序列對象內的標度相關注釋來適應信息內容的呈現。
【專利說明】提供基因組數據的動態索引和可視化的分布式系統
[0001]本申請要求遞交于2011年12月8日的序號為61/568478的美國臨時專利申請的權益。該文獻以及本文中所論述的所有其他外來材料的全部內容通過引用合并于此。

【技術領域】
[0002]本發明的領域是計算基因學,其尤其涉及復雜基因信息的動態圖形表征。

【背景技術】
[0003]下面的說明包括了可用于理解本發明的信息。這并不承認,在本文中提供的任何信息是現有技術或與當前主張的發明相關,或者具體地或隱含地引用的任何公開物是現有技術。
[0004]隨著整個基因組數據集的高吞吐量的測序和可用性的出現,測序速度不再是基因組分析的瓶頸,而是數據存儲、檢索和協調分析。與數據存儲、檢索和分析相關聯的難題進一步與來自不同用戶的對于顯示信息的不同要求復合。從不同視角觀看,基因組數據的信息稠密和選擇性呈現對于利用當前可用的大量數據是至關重要的。
[0005]雖然現有技術已知多種基因組瀏覽器,但是所有已知的瀏覽器具有實質上的難題。例如,UCSC基因組瀏覽器(http://genome.ucsc.edu)以圖形格式提供大量數據,然而,不能適應用戶規定的信息密度作為獨立于縮放水平的預先定義的顯示。因此,此類瀏覽器不能最優地響應于所有縮放水平的請求。類似地,類似于NCBI的圖形觀看器(http://www.ncb1.nlm.nih.gov/nuccore/)也受限于一些預先定義的參數,因此不能使得進行內容的動態呈現和適應。
[0006]因此,即使本領域已知復雜基因組信息的顯示的各種系統和方法,仍存在多個缺陷。因此,仍需要提供用于復雜基因信息的圖形表征、尤其是動態圖形表征的改進的設備和方法。
[0007]發明概述
[0008]發明主題涉及用于基因組數據的動態可視化的方法和設備,其中基因組可視化系統根據序列對象內的標度相關注釋來適應信息內容的呈現。因此,能夠實現適應性內容顯示,顯著減少數據分析和傳遞。
[0009]在發明主題的一個特別優選的方案中,構思了基因組可視化系統,包括存儲表征基因組區域的序列對象的索引基因組數據庫。最典型地,序列對象包括多個標度相關注釋。定標引擎與索引基因組數據存儲設備耦合且配置為(a)調節作為用戶選定縮放水平的函數的從序列對象的標度相關注釋獲得的標度相關信息,(b)基于縮放水平動態地生成表征標度相關信息的基因組顯示對象,以及(c)配置輸出設備以將基因組顯示對象呈現給用戶。
[0010]雖然不限于該發明主題,通常優選的是序列對象具有SAM/BAM或BAMBAM格式,和/或基因組區域是全基因組、染色體、染色體片段或等位基因。
[0011]關于定標引擎,可構思的是一個或多個bam服務器和/或可視化服務器可作為定標引擎運行。此外,可構思的是,定標引擎可進一步配置成基于縮放水平通過下采樣來調節標度相關信息(其中下采樣可以是從縮放水平獲得的數據密度的函數)。可替代地,或者另外地,可構思的是,定標引擎配置成確定縮放水平,任選地,根據縮放水平來概括序列對象的全數據集。在需要的情況下,定標引擎還可配置成從不同的序列對象中的標度相關注釋的差別來獲得標度相關信息。
[0012]在又一個構思的方案中,序列對象包括基準序列對象,其最優選地為原始序列數據、來自同類統計資料的序列數據、和或來自規定時間點的序列數據。可替代地,或者另外地,序列對象包括相對于基準基因組區域(例如,來自同類統計資料的基準基因組區域或具體時間點的基準區域)的差分序列對象。類似地,標度相關注釋可以大幅地變化并且將優選地包括基因組結構信息(例如,染色體標識、染色體內的位置、等位基因等)、基因組變化信息(例如、突變、易位、倒位、刪除、重復和拷貝數)、疾病信息(例如,疾病類型、疾病狀況以及疾病的處理選項)、基因相關信息(例如,原始序列數據或處理后的序列數據、基因標識、關于基因調控的信息、和基因與疾病的關聯的息)、相對于基準序列的差別息、和/或元數據(例如,患者標識、設施標識、醫師標識和保險信息)。
[0013]雖然不限于該發明主題,通常優選的是,基因組可視化系統還包括基因組圖形庫,其存儲表征標度相關注釋的圖形對象。在此類系統中,特別優選的是定標引擎根據縮放水平將標度相關信息映射到來自圖形庫的圖形對象,并且基因組顯示對象包括映射的圖形對象。關于適合的輸出設備,通常優選的是顯示器、瀏覽器、打印機、3D打印機、和/或揚聲器。
[0014]本發明主題的各個目的、特征、方案和優點將從下面連同其中相似標記表示相似部件的附圖的圖一起對優選實施方案的詳細描述中變得更加清晰。

【專利附圖】

【附圖說明】
[0015]圖1提供了分布式基因組可視化環境的概覽。
[0016]圖2示出了包括可視化定標引擎的可能的基因組可視化系統。
[0017]圖3是在堿基縮放水平下的示例性的顯示圖。
[0018]圖4是在次千堿基縮放水平下圖3的示例性的顯示圖。
[0019]圖5是在千堿基縮放水平下圖4的示例性的顯示圖。
[0020]圖6是在染色體縮放水平下圖5的示例性的顯示圖。
[0021]發明詳述
[0022]發明主題涉及用于基因組數據的動態可視化的設備和方法。構思的系統和方法使得在減少數據集聚和擁塞的同時能夠進行富集信息內容的選擇性的和可定標的顯示。
[0023]值得注意的是,雖然下面的說明涉及基于計算機/服務器的基因組可視化系統,但是各種可替代的構造也視為適合并且可采用各種計算設備,包括服務器、接口、系統、數據庫、代理程序、同級、引擎、控制器或其他類型的單獨地或統一地操作的計算設備。應當理解的是,計算設備包括處理器,處理器配置成執行存儲在有形的、非暫態的計算機可讀存儲介質(例如,硬盤驅動器、固態驅動器、RAM、閃存、ROM等)上的軟件指令。軟件指令優選地將計算設備配置成提供如下文中結合所公開的裝置論述的作用、職責或其他功能。在特別優選的實施方案中,各種服務器、系統、數據庫、或接口利用標準化的協議或算法來交換數據,可能基于HTTP、HTTPS、AES、公私密鑰交換、網頁服務AP1、已知的金融交易協議、或其他電子信息交換方法。數據交換優選地在分組交換網絡、因特網、LAN、WAN、VPN或其他類型的分組交換網絡上進行。
[0024]在下面的論述中,多次提到由計算設備形成的服務器、服務、接口、入口、平臺或其他系統。應當理解,這些術語的使用視為代表具有配置為執行存儲在計算機可讀有形、非暫態介質上的軟件指令的至少一個處理器的一個或多個計算設備。例如,服務器能夠包括以實現所描述的作用、職責或功能的方式作為網頁服務器、數據庫服務器或其他類型的計算機服務器而運行的一個或多個計算機。
[0025]如在本文的說明書以及隨附的權利要求書中所使用的,除非上下文明確指出,否貝IJ “一”、“一個”和“所述”的含義包括復數個指代物。而且,如本文的說明書中使用的,除非上下文明確指出,否則“在…中”的含義包括“在…中”和“在…上”。
[0026]本文中數值范圍的記述僅意在用作單獨指代落在該范圍內的各單獨數值的速記法。除非上下文明確指出,否則各獨立的數值合并到說明書中,就好像是在本文中單獨記述一樣。除非本文明確指出或者上下文明顯相互矛盾,否則本文所描述的所有方法能夠按任意適合的次序來執行。任意和所有的實施例或針對本文中的一些實施例提供的示例性語言(例如,“諸如”)的使用僅意在更好地闡述本發明,而不對權利要求的發明的范圍進行限制。說明書中的語言不應解釋為表示對本發明的實施至關重要的任何非權利要求的要素。
[0027]本文所公開的發明的可替代要素或實施方案的組合不應解釋為限制。每個組成員能夠單獨或者以任意組合與本文中所記載的組的其它成員或其它要素提及以及主張。為了方便和/或可專利性的原因,組中的一個或多個成員可以保護在組中或者從組中刪除。當發生了任何此類包含或刪除時,說明書在此應視為包含了經修改從而符合在隨附權利要求書中使用的所有馬庫什組的書面說明的組。雖然每個實施方案代表了發明要素的單一組合,但是發明主題應視為包含所公開的要素的所有可能的組合。因此,如果一個實施方案包括要素A、B和C,且第二實施方案包括要素B和D,則發明主題也視為包含A、B、C或D的其它的其余組合,即使未明確公開這些。
[0028]如在本文中使用的,除非上下文明確指出,否則術語“耦合到…”意在包含直接耦合(其中兩個要素彼此耦合,彼此接觸),以及間接耦合(其中至少一個附加要素位于兩個要素之間)。因此,術語“耦合到…”和“與…耦合”同義使用。
[0029]構思的設備和方法組合了 bam服務器和基因組可視化引擎的優勢特征,bam服務器和基因組可視化引擎松弛耦合,從而允許與其它可替代的基因組動力引擎或其它基因組數據存儲解決方案進行不重要的整合。另外,每個部件能夠根據需要定標以適應多個bam服務器或多個可視化引擎,如在圖1中示意性地和示例性地圖示的。最優選地,每個服務器足夠靈活以便獨立地以及在每個服務器可以與其它服務器協調一些部分的分布式本質上保持獨立的存儲、確證和數據檢索。而且,bam服務器和可視化引擎的對從大的數據源提供的數據動態定標的能力將有助于緩解未來數據格式和文件類型的數據大小的顯著增加。
[0030]圖2示出了能夠以不同的觀測尺度生成基因組信息的可視化顯示的基因組可視化系統200。系統200包括索引基因組數據庫220和定標引擎230。在一些實施方案中,系統200還可以包括基因組圖形庫237或者甚至是設備250,可能作為系統200提供的服務的客戶端而運行。例如,設備250可以包括啟用瀏覽器的計算設備(例如,蜂窩電話、平板式計算機、計算機等),保健提供者或患者能夠通過其經由網絡215來訪問所關心的基因組信息。定標引擎230能夠經由HTTP或其它適合的協議向用戶的瀏覽器提供基因組信息的可視化顯示。
[0031]通常可構思,基因組可視化系統200將包括索引基因組數據庫220,其存儲表征基因組區域的一個或多個序列對象223,其中序列對象223包括多個標度相關注釋225。定標引擎230與索引基因組數據庫220耦合且配置成調節作為用戶選定縮放水平252的函數的從序列對象223的標度相關注釋225獲得的標度相關信息233。定標引擎230隨后將基于縮放水平252來動態地生成表征標度相關信息233的基因組顯示對象235,并且將輸出設備250配置成將基因組顯示對象235呈現給用戶。
[0032]如本文所使用的,術語“基因組區域”通常是指序列名稱以及規定該序列內的閉合間距的起始和末尾坐標。實施例的基因組區域為:染色體1: 1234-5678,其中染色體I規定來自人類基準基因組的染色體I的序列,1234是起始坐標,而5678是末尾坐標。然而,本領域普通技術人員易于理解的是,基因組區域的特定格式可在很大程度上變化,并且適合的格式將包括對如下的特定指代:染色體位置和/或子位置、基因名稱或功能、區域中基因的調控方面、區域中基因的染色質結構方面、序列長度等。因此,從不同的視角看,基因組區域可以是全基因組、染色體、染色體片斷或等位基因。而且,值得注意的是,通過利用基因組區域之間的任何已知的定界器,單個請求中的多個基因組區域的指定是可能的。
[0033]因此,應當認識到,序列對象223可具有多種數據格式,并且所有已知的格式視為適用,只要這些格式也包括一個或多個標度相關注釋即可。例如,構思的序列對象的特別優選的格式包括SAM/BAM和BAMBAM格式。同樣,應當理解的是序列對象223可以表征基準基因組(例如,來自同類統計資料)的基因組區域或測試樣本的基因組區域。在序列對象223是來自待分析的測試樣本的情況下,通常優選的是相對于基準基因組和/或來自不同時間點的同一測試對象的基因組進行分析。因此,適合的基準序列對象223可以包括原始序列數據、來自同類統計資料的序列數據、和/或來自規定時間點的測試對象的序列數據。而且,應當認識到,序列對象223無需一定被約束成原始數據讀數或裝配的序列(例如,全長基因),而是序列對象223可以為或者可以包括相對于基準基因組區域的差分序列對象223 (例如,其中僅列出不一致的對應堿基)。如之前所述,這種基準基因組區域可以來自在較早時間點取得的同一測試先證者,或者來自實際的健康先證者或來自多個健康先證者(同類統計資料)的假設的、共有序列。
[0034]關于標度相關注釋225,可構思的是注釋225可以在很大程度上變化并且在基因組分析中已知的所有注釋視為適用于此處。例如,特別優選的注釋225包括那些與各種標度級別上的基因組結構有關的注釋(例如,序列在染色體上的位置、在染色體內的位置、等位基因信息等)以及那些與各種標度級別上的基因組變化的注釋(例如,染色體易位、重復或拷貝數、插入、刪除、倒位、諸如SNP的各種突變、躍遷、顛換等)。同樣,標度相關注釋225還可以包括各種標度級別上的疾病信息(例如,多倍性、拷貝和/或重復數、與拷貝數的突變相關聯的疾病的類型/狀況/治療選項,等等)。在進一步構思的方案中,標度相關注釋225還可以包括各種標度級別上的基因相關信息(例如,作為基因的功能或調控網絡的部分的基因、基因名稱或功能標識、原始序列數據或處理后的序列數據、基因標識、關于基因調控的信息以及基因與基本的關聯的信息)。
[0035]當然,應當理解的是,相關信息的任意或全部還可以表達為相對于基準序列的差別信息(例如,同類統計資料或較早時間點),這將有利地減小數據尺寸和復雜度。另外,標度相關注釋225通常還包括與序列對象相關聯的元數據,并且最典型地包括患者標識、設施標識、醫師標識和/或保險信息。
[0036]從不同的視角看,標度相關注釋225將包括適合于為選定的觀眾(例如,醫師、研究者、患者、保險公司等)顯示的注釋。例如,在觀眾為醫師的情況下,標度相關注釋225可以與簡化格式的整個基因組的顯示格式(例如,圓形圖、中期擴散等)相關,其中突變由簡單的指針或其他圖形工具來指示。另一方面,在觀眾為研究者的情況下,標度相關注釋225可以與提供了實際的原始序列數據和拷貝數/等位基因頻率的顯示格式相關。
[0037]而且,無論觀眾為和人,應當理解可視化呈現的類型將作為縮放水平252的函數而動態變化,使得顯示相對于縮放的適當內容。因此,標度相關注釋225可以進一步包括指示特定注釋對于一個或多個特定縮放水平252的適用性的數據。當然,既定縮放水平下的顯示適用性還可以獨立于這些數據而被確定,如下文進一步論述的,能夠通過各種技術來確定用戶所選擇的縮放水平252。在一些實施方案中,能夠基于用戶配置文件來確定縮放水平252:保健提供者、患者、保險公司、研究者、或其他類型的配置文件。例如,當患者正在查看數據時,能夠選擇代表最高縮放水平(即,基因組區域的最大觀看度)的縮放水平252作為缺省設置。可替代地,研究者可能具有以特定關注區域為目標的缺省縮放水平252。用于確立縮放水平252的其他技術包括:接收來自可視化設備(例如,瀏覽器、應用等)的用戶選定的定界框);在相對于基準區域(同類統計資料)異常的基因組區域自動地觸發;接收來自序列設備的指示關注區域的基因組信息,或者其他技術。
[0038]以圖形方式表征標度相關注釋225有多種選項,特別優選的是利用已知的符號和記號來進行圖形表示。最優選地,已知的符號和注釋能夠存儲在基因組圖形庫237中,其配置為存儲表征標度相關注釋225的圖形對象。在這種情況下,特別優選的是定標引擎配置為根據縮放水平252將標度相關信息233映射到來自圖形庫237的圖形對象,并且基因組顯示對象235包括映射的圖形對象。例如,定標引擎230接收來自正針對已知突變來觀看患者的基因組信息的保健提供者的縮放水平252。定標引擎230從索引基因組數據庫220獲得序列對象223以及關聯的標度相關注釋225。定標引擎230獲得作為標度相關注釋225的函數的標度相關信息233、保健提供者信息(例如,授權、配置文件等),以及縮放水平252。因此,標度相關信息233表示適當縮放水平下以及相對于觀察者的適當的細節水平下的序列對象223的基因組區域。換言之,在既定縮放水平下,標度相關信息233表示適合于保健提供者的信息。如果觀測者是患者,則標度相關信息233極可能載有即使縮放水平252和序列對象223相同也適合于患者的基因組信息的不同呈現。定標引擎230隨后將標度相關信息233映射到基因組圖形庫237中的一個或多個圖形對象以生成基因組顯示對象235。
[0039]應當理解的是,基因組圖形庫237配置為存儲基因組圖形對象,而不僅僅是圖形基元。能夠根據需要通過附加的基因組圖形對象來更新基因組圖形庫237,或者能夠修改現有的基因組圖形對象,可能具有不同的圖形(例如,紋理、表皮、主題等)。這種方法在市場上認為是有利的,因為其允許可視化呈現的烙印或定制。
[0040]關于硬件,應當注意的是構思的設備和方法可以多種方式配置和操作,應當理解特定的配置和/或操作方式將至少部分地規定功能部件和互連。因此,下面的優選方案的說明應當僅視為對于本領域普通技術人員的示例性指導。
[0041]關于適合的bam服務器,通常優選的是bam服務器為或者包括能夠高效的隨機訪問基因組區域所索引的數據、通過安全連接或者經由加密文件訪問來支持對加密數據的受保護訪問的分布式網絡服務器系統。在典型的使用情況下,用戶將:1.通過網絡連接到bam服務器,2.發出具有兩個參數的請求,兩個參數為A)數據存檔,以及(b)基因組區域列表,以及3.接收來自存檔的與任意提供的基因組區域重疊的所有數據條目。如本文所使用的,術語“數據存檔”是指其中每個條目都與基因組區域相關聯的數據條目集。數據條目可以為任意數據,包括單一數字、字符串以及一列數字和/或字符。一些常見的數據條目的實施例是來自測序機、已知基因位置或檢測到的突變的序列讀數以及關聯的讀數品質。
[0042]索引基因組區域:當數據存檔添加到bam服務器中時,bam服務器按基因組區域對數據條目分類,然后優選地生成R樹狀的二進制索引,如在基因組應用中所常用的并且在其在UCSC基因組瀏覽器和SAM工具軟件庫中的用途中所全面說明的。簡言之,索引的序列被分裂成重疊的二進制。以覆蓋整個序列的一個二進制起始,添加兩個新的二進制,將之前的二進制分為兩半。索引隨后具有從每個二進制到適配在該二進制內的數據條目的指針,但是沒有更小的二進制。然后,檢索與查詢重疊的數據條目就是僅檢查與查詢重疊的二進制的問題。
[0043]數據訪問保護:最典型地,bam服務器通過針對數據文件訪問服務器檢查每個請求來限制對非公共數據存檔的訪問。如果客戶端不根據數據文件訪問服務器來提供充分的安全認證,則拒絕對任何結果的訪問。每個bam服務器能夠配置為唯一數據文件訪問服務器,允許靈活的許可方案和聯合確證方法。
[0044]關于數據存儲,通常構思的是bam服務器的數據存檔存儲出現于bam服務器本地的文件系統上。該文件系統可以與bam服務器直接附接的磁盤和/或網絡可存取磁盤。進一步優選的是,受保護的數據存檔以加密形式(例如,AES對稱塊加密,使用CTR模式)存儲。bam服務器典型地不具有對加密密鑰的訪問權。當處理對于受保護數據存檔的請求時,如果數據文件訪問服務器準許訪問,則數據文件訪問服務器將提供用于所請求文件的加密密鑰。bam服務器將在處理請求時使用該密鑰,并且一完全處理了請求就丟棄該密鑰。
[0045]適當的請求方法通常是利用經由HTTPS、SSL安全HTTP協議的安靜(RESTful)(與代表性的狀態傳遞約束相符合)查詢或者利用在其內進行HTTPS查詢的可替代的加密隧道機制來實現。查詢的RESTful本質允許bam服務器在地區上和本地上分布以將最大吞吐量提供給消費應用。對于bam服務器的本地性的唯一約束是對基礎數據的直接文件訪問,這甚至可以利用適當的協議(經由VPN的NFS或其他此類解決方案)通過廣域網來呈現。
[0046]在進一步優選的方案中,實現了數據的動態定標。基于所請求的基因組區域的大小和關于顯示數據的分辨率的知識,可能作為定標引擎230運行的bam服務器具有對數據動態定標(“下采樣”)以提供將減少處理和傳遞時間的更濃縮版本的能力。該下采樣最優選地以兩個并行機制來實現。第一個機制不需要基礎數據的知識,是通過提供預先濃縮到一定水平的bam服務器文件來實現的。bam服務器隨后能夠在查詢時動態地決定是否應當提供“原始”級別的數據或者可選地為濃縮文件之一。該決定是通過包括在請求中包括指示將由消費應用使用的數據點的數量的附加參數來做出的。如果消費應用是還可作為定標引擎230運行的可視化引擎,則有用的數據點計數的一個實施例可能基于繪制到屏幕的像素的數量。用于下采樣的第二種機制是可訪問bam服務器的全數據的動態概括。該機制需要將關于文件類型的附加信息提供給bam服務器,以使其能夠理解哪些域可以概括以及概括的機制。給定僅具有越過基因組坐標索引的單個數據列的文件,這可自動地確定,并且可以自動地執行中位數或均值概括。對于更加復雜的數據類型或更加復雜的概括技術,bam服務器將需要列出如何執行該概括的參數。一個實施例是SAM/BAM格式的文件的下采樣,這可以通過將各位置處的單個讀數進行次采樣來進行下采樣,僅將有限數字提供回消費應用。
[0047]應進一步理解的是,構思的系統和方法易于擴展,因為bam服務器能夠從多種格式讀取文件并且理解基因組索引數據和諸如SQLite和JSON的附加存儲格式。所請求的文件的格式當前由消費應用來提供,但是還可構思文件格式的自動檢測。bam服務器的體系結構優選地支持能夠理解外來索弓I方案且仍提供統一接口的插入形式的附加數據格式。這些插入或者是經由通用資源標識符(URI) REST請求來規定,或者通過bam服務器內的適當格式的自動檢測來規定。
[0048]關于動態基因組可視化引擎,其通常構思的是,動態基因組可視化引擎能夠解釋其共同屬性映射到基因組內的位置的多種類型的數據,并且生成該數據的基于圖像的解釋。值得注意的是,在某種意義上基因組“瀏覽器”的構思已經為人所知(例如,Universityof California, Santa Cruz Genome Browser,建立于 2001 年(參見 URL genome, ucsc.edu))。然而,當前已知的瀏覽器將數據的查看局限于用戶規定的密度,而不能夠以及時和有意義的方式響應于越過一些限值的請求。相反,本文所構思的動態基因組可視化引擎能夠理解用戶所請求的數據的量并且改變呈現以適當地提供更緊湊和概括性的版本的可視化。在一個水平上,下采樣水平由bam服務器處置,這理解了正試圖可視化的區域,并且將自動地減少發送到可視化引擎的數據。在更高水平上,如果引擎本身識別出正在請求充分大量的數據,則所生成的基礎可視化將以提供對于終端用戶更有利的概述的方式而改變。
[0049]顯示能夠基于試圖查看的數據的密度而廣泛地變化。圖3-6代表了這些顯示如何基于用戶在窗口中查看的各種堿基數量而變化的一些實施例,其中顯示是根據用于在瀏覽器內生成基因組顯示對象235的基因組圖形對象而生成的。重要的是強調,這些顯示是動態生成的,不是預先計算出的,但是對于一些使用情況而言預先生成的靜態圖像不被排除且得到構思的設備和方法支持。在圖3中,遍及近似1000個水平像素顯示人類基因組的52個堿基,具有總拷貝數、等位基因特定拷貝數、來自BAM的原始測序數據以及UCSC已知基因的注釋軌跡的圖形表示。這些軌跡中的每個都是從之前概括的bam服務器體系結構動態地拉出的,并且每個軌跡能夠查詢獨立的bam服務器以獲得所需的數據。因為正在顯示這樣小數量的堿基,所以對bam服務器或可視化引擎都沒有執行下采樣。因此,特別優選的是,最低縮放水平處于原始或計算出的序列的堿基讀出水平。
[0050]圖4代表了顯示出來自基因組的同一區域的大約1000個堿基的次千堿基縮放水平。在該分辨率和堿基數量下,在bam服務器上不發生下采樣,然而,可視化引擎已經開始改變每個數據源的顯示來適應增加的觀察口。特別地,每個堿基上的字母不再出現在頂部基準堿基條上以及單個bam讀數內,而是訴諸于代表所識別的變化的簡單顏色。
[0051]圖5是在像素數量保持恒定的同時處于千堿基縮放水平的近似2兆堿基(2百萬個堿基)的視圖。結果,bam服務器和可視化引擎都對繪制的數據進行下采樣。bam服務器已經減少了其提供給可視化引擎的拷貝數數據的量,并且可視化引擎已經忽略了原始數據軌跡,因為觀看不切實際。另外,可視化引擎已經開始通過在頂部生成直方圖來概括變體軌跡之一(最底部的軌跡)。最后,可視化引擎已經將位于每個像素下方的拷貝數變化的多個數據點一起平均化以生成更精確的圖像。
[0052]最后的分辨率,圖6代表了處于染色體縮放水平的所有染色體12。所有之前的下采樣在該分辨率下發生,附加的下采樣下至去除文本并且顯示UCSC已知基因和圖像底部的COSMIC變體軌跡的更圖形化的表示。雖然在這些圖中已經表征了一個清晰的實施例,該引擎提供了用于動態可視化的構架,其不限于預先確定的和預先繪制的分辨率水平,此外,能夠適應超越了此處已經顯示的許多不同類型的基礎數據。
[0053]本領域技術人員顯而易見的是,除了已經描述的之外,可以有更多的變型例,而不偏離本文中的發明構思。因此,除了在隨附權利要求書的精神下之外,發明主題不受限制。而且,在解釋說明書和權利要求書時,所有的術語應當以與上下文一致的盡可能寬泛的方式來解釋。特別地,術語“包括”和“包含”應當解釋為以非窮盡方式指代要素、部件或步驟,表明了所指代的要素、部件或步驟可以存在或利用或與未明確指代的其他要素、部件或步驟相結合。在并入的參考文獻中的術語的定義或使用與本文提供的該術語的定義不一致或相悖的情況下,本文提供的該術語的定義適用,而該術語在參考文獻中的定義不適用。在說明書的權利要求書提到從由A,B,C...和N構成的組中選出的至少一個某物的情況下,該文本應當解釋為僅需要來自該組的一個要素,而不是A加N、或B加N,等等。
【權利要求】
1.基因組可視化系統,包括: 索引基因組數據庫,其配置為存儲表征基因組區域的序列對象,所述序列對象包括多個標度相關注釋;以及 定標引擎,其與所述索引基因組數據存儲設備耦合且配置為: 調節作為用戶選定縮放水平的函數的從所述序列對象的所述標度相關注釋獲得的標度相關信息; 基于所述縮放水平來動態地生成表征所述標度相關信息的基因組顯示對象;以及 配置輸出設備以將所述基因組顯示對象呈現給用戶。
2.如權利要求1所述的系統,其中所述序列對象具有SAM/SAM或BAMBAM格式。
3.如權利要求1所述的系統,其中所述基因組區域是以下之一:全基因組、染色體、染色體片段和等位基因。
4.如權利要求1所述的系統,還包括作為所述定標引擎運行的bam服務器。
5.如權利要求4所述的系統,還包括多個bam服務器。
6.如權利要求1所述的系統,還包括作為所述定標引擎運行的可視化服務器。
7.如權利要求6所述的系統,還包括多個可視化服務器。
8.如權利要求1所述的系統,其中所述輸出設備包括以下至少之一:顯示器、瀏覽器、打印機、3D打印機和揚聲器。
9.如權利要求1所述的系統,其中所述定標引擎還配置成基于所述縮放水平通過下采樣來調節所述標度相關信息。
10.如權利要求9所述的系統,其中所述定標引擎還配置成作為從所述縮放水平獲得的數據密度的函數而進行下采樣。
11.如權利要求1所述的系統,其中所述定標引擎還配置成確定所述縮放水平。
12.如權利要求11所述的系統,其中所述定標引擎還配置成根據所述縮放水平來概括所述序列對象的全數據集。
13.如權利要求1所述的系統,其中所述定標引擎還配置成從不同的序列對象中的標度相關注釋的差別來獲得所述標度相關信息。
14.如權利要求1所述的系統,其中所述序列對象包括基準序列對象。
15.如權利要求14所述的系統,其中所述基準序列對象從由原始序列數據、來自同類統計資料的序列數據和倆字規定時間點的序列數據構成的組中選出。
16.如權利要求1所述的系統,其中所述序列對象包括相對于基準基因組區域的差分序列對象。
17.如權利要求16所述的系統,其中所述基準基因組區域來自同類統計資料或特定于時間點。
18.如權利要求1所述的系統,其中所述標度相關注釋包括以下至少之一:基因組結構信息、基因組變化信息、疾病信息、基因相關信息、相對于基準序列的差別信息和元數據。
19.如權利要求18所述的系統,其中所述基因組結構包括以下至少之一:染色體標識、染色體內的位置、等位基因。
20.如權利要求18所述的系統,其中所述基因組變化信息包括以下至少之一:突變、易位、倒位、刪除、重復和拷貝數。
21.如權利要求18所述的系統,其中所述疾病信息包括以下至少之一:疾病類型、疾病狀況和疾病治療選項。
22.如權利要求18所述的系統,其中所述基因相關信息包括原始序列數據或處理后的序列數據、基因標識、關于基因調控的息以及基因與基本的關聯的息。
23.如權利要求18所述的系統,其中所述元數據包括以下至少之一:患者標識、設施標識、醫師標識和保險信息。
24.如權利要求1所述的系統,還包括配置為存儲表征標度相關注釋的圖形對象的基因組圖形庫。
25.如權利要求24所述的系統,其中所述定標引擎還配置成根據所述縮放水平將所述標度相關信息映射到來自圖形庫的圖形對象。
26.如權利要求25所述的系統,其中所述基因組顯示對象包括映射的圖像對象。
【文檔編號】G06F7/06GK104246689SQ201280068298
【公開日】2014年12月24日 申請日期:2012年12月7日 優先權日:2011年12月8日
【發明者】C·J·瓦斯克, J·Z·桑伯恩, S·本茨 申請人:凡弗3基因組有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 饶阳县| 志丹县| 海阳市| 平果县| 巧家县| 泰来县| 闻喜县| 台山市| 玉树县| 筠连县| 红桥区| 大英县| 沧州市| 兰溪市| 治县。| 金塔县| 滨州市| 壤塘县| 吕梁市| 即墨市| 开远市| 拉孜县| 海兴县| 泗洪县| 德兴市| 广东省| 丽江市| 古浪县| 长阳| 成安县| 通榆县| 福州市| 新蔡县| 万宁市| 贺州市| 淮滨县| 东宁县| 唐海县| 出国| 定日县| 遂平县|