麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法

文檔序號:6382438閱讀:386來源:國知局
專利名稱:一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及生物技術(shù)領(lǐng)域,尤其涉及一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法。
背景技術(shù)
由于生物數(shù)據(jù)的復(fù)雜性和高維性,既不能以數(shù)字公式表示,也不能以邏輯公式表示,故對這些序列的研究大多是基于統(tǒng)計工具。此外,通過數(shù)據(jù)的可視化,幫助人們認識和理解生物序列,進而分析和解釋數(shù)據(jù),使人們從表面上看來是雜亂無章的海量數(shù)據(jù)中找出隱藏的規(guī)律,為科學(xué)發(fā)現(xiàn)提供依據(jù)。所以,現(xiàn)在很多學(xué)者都開始借助各種可視化工具,以圖、樹、方體、鏈的形式展現(xiàn)其復(fù)雜結(jié)構(gòu)和序列模式,以求直觀地表達生物序列的理論結(jié)構(gòu)與區(qū)另O。同時,將經(jīng)過數(shù)據(jù)挖掘工具得到的數(shù)據(jù)結(jié)果也以圖形、圖像的形式展現(xiàn)給用戶,便于用戶尋找數(shù)據(jù)間的規(guī)律和關(guān)系。序列的背景信息對于研究序列的進化關(guān)系與分類非常關(guān)鍵。然而,目前的工具,均不能利用序列的背景信息和自由選擇分析的算法,導(dǎo)致結(jié)果的分析與解釋不容易進行。而且顯示結(jié)果只能以一種顏色的方式來表現(xiàn),用戶不能任意改變顏色設(shè) 置,對用戶造成極大的不便。

發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種能自由選擇分析算法,并且能更直觀地顯示結(jié)果的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)。本發(fā)明的另一個目的是提供一種能自由選擇分析算法,并且能更直觀地顯示結(jié)果的一種基因蛋白質(zhì)序列關(guān)系分析方法。本發(fā)明所采用的技術(shù)方案是
一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),包括
文件選擇模塊,用于選擇要讀取的文件;
序列文件分析模塊,用于對序列文件進行分析;
序列距離分析模塊,用于計算序列間的距離,得出距離關(guān)系矩陣;
MDS分析模塊,用于對距離關(guān)系矩陣進行分析;
結(jié)果顯示模塊,用于對分析的結(jié)果進行分類和顯示。作為所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的進一步改進,所述的序列文件分析模塊包括
文件讀取模塊,用于讀取序列文件;
頭文件分析模塊,用于將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔;
字段選擇模塊,用于選擇后續(xù)結(jié)果顯示時需要的字段。作為所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的進一步改進,所述的MDS分析模塊包括
算法選擇模塊,用于選擇要調(diào)用的算法;
降維模塊,用于對距離關(guān)系矩陣進行降維。
作為所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的進一步改進,所述的結(jié)果顯示模塊包括
標識選擇模塊,用于選擇標識的形狀和顏色;
序列顯示模塊,用于以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置;
序列分類模塊,用于對序列進行分類。本發(fā)明所采用的另一個技術(shù)方案是
一種基因蛋白質(zhì)序列關(guān)系分析方法,包括以下步驟
A、選擇要讀取的文件; B、對序列文件進行分析;
C、計算序列間的距離,得出距離關(guān)系矩陣;
D、對距離關(guān)系矩陣進行分析;
E、對分析的結(jié)果進行分類和顯示。作為所述的一種基因蛋白質(zhì)序列關(guān)系分析方法的進一步改進,所述的步驟B包括
BI、讀取序列文件;
B2、將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔;
B3、選擇后續(xù)結(jié)果顯示時需要的字段。作為所述的一種基因蛋白質(zhì)序列關(guān)系分析方法的進一步改進,所述的步驟D包括
D1、選擇要調(diào)用的算法;
D2、對距離關(guān)系矩陣進行降維。作為所述的一種基因蛋白質(zhì)序列關(guān)系分析方法的進一步改進,所述的步驟E包括
E1、選擇標識的形狀和顏色;
E2、以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置;
E3、對序列進行分類。本發(fā)明的有益效果是
本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),通過文件選擇模塊、序列文件分析模塊、序列距離分析模塊、MDS分析模塊和結(jié)果顯示模塊,選擇要讀取的文件,對序列文件進行分析,計算序列間的距離,得出距離關(guān)系矩陣,對距離關(guān)系矩陣進行分析,對分析的結(jié)果進行分類和顯示,使得用戶可以根據(jù)需求選擇合適的算法進行降維,從而避免損失必要的信息,能單獨對序列背景信息進行挖掘和分類,并且提供了多種圖形以及豐富的顏色供用戶自由選擇,從而能更好更直觀地顯示序列的背景信息。本發(fā)明的另一個有益效果是
本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法,通過選擇要讀取的文件,對序列文件進行分析,計算序列間的距離,得出距離關(guān)系矩陣,對距離關(guān)系矩陣進行分析,對分析的結(jié)果進行分類和顯示。本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法可以根據(jù)需求選擇合適的算法進行降維,從而避免損失必要的信息,能單獨對序列背景信息進行挖掘和分類,并且提供了多種圖形以及豐富的顏色供用戶自由選擇,從而能更好更直觀地顯示序列的背景信息。


下面結(jié)合附圖對本發(fā)明的具體實施方式
作進一步說明
圖I是本發(fā)明本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的模塊方框 圖2是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例一的模塊方框 圖3是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例二的模塊方框 圖4是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例三的模塊方框 圖5是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法的步驟流程圖; 圖6是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟B實施例一的步驟流程 圖7是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟D實施例二的步驟流程 圖8是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟E實施例三的步驟流程圖。
具體實施例方式圖I是本發(fā)明本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的模塊方框圖,系統(tǒng)包括文件選擇模塊,用于選擇要讀取的文件;序列文件分析模塊,用于對序列文件進行分析;序列距離分析模塊,用于計算序列間的距離,得出距離關(guān)系矩陣;MDS分析模塊,用于對距離關(guān)系矩陣進行分析;結(jié)果顯示模塊,用于對分析的結(jié)果進行分類和顯示。圖2是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例一的模塊方框圖,其中所述的序列文件分析模塊包括文件讀取模塊,用于讀取序列文件;頭文件分析模塊,用于將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔;字段選擇模塊,用于選擇后續(xù)結(jié)果顯示時需要的字段。圖3是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例二的模塊方框圖,其中所述的MDS分析模塊包括算法選擇模塊,用于選擇要調(diào)用的算法;降維模塊,用于對距離關(guān)系矩陣進行降維。圖4是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)的實施例三的模塊方框圖,其中所述的結(jié)果顯示模塊包括標識選擇模塊,用于選擇標識的形狀和顏色;序列顯示模塊,用于以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置;序列分類模塊,用于對序列進行分類。圖5是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法的步驟流程圖,結(jié)合圖5,本發(fā)明作為一種基因蛋白質(zhì)序列關(guān)系分析方法,包括以下步驟
A、選擇要讀取的文件;
B、對序列文件進行分析;
C、計算序列間的距離,得出距離關(guān)系矩陣;
D、對距離關(guān)系矩陣進行分析;
E、對分析的結(jié)果進行分類和顯示。優(yōu)選地,計算序列間的距離是通過一位一位的比較,然后計算總的相同的位置的值完全相同的位數(shù),除以兩個序列比對的長度,如果兩個序列長度不一致,則選取序列長度最短的序列的長度值作為比對長度,得到的百分比就是兩個序列的距離。通過調(diào)用這個序列距離分析方法,比對每個序列間的相似程度,就可以得到一個N*N的相似度的距離關(guān)系矩陣。圖6是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟B實施例一的步驟流程圖,所述的步驟B包括
BI、讀取序列文件;
B2、將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔;
B3、選擇后續(xù)結(jié)果顯示時需要的字段。讀取序列文件后,遇到以“〉”開頭的頭文件部分,則存入頭文件數(shù)據(jù)結(jié)構(gòu)中。用戶在系統(tǒng)界面里面可以看到獲取到的序列文件中的第一條頭文件信息,在這一行數(shù)據(jù)下面會有一個輸入框和一個separator按鈕。在輸入框里面輸入用于在頭文件中分隔不同位置信 息的分隔符,按下separator按鈕。系統(tǒng)會根據(jù)分隔符分成幾段的字符串,分別顯示在界面中,每一段都配置了一個輸入框和s印arator按鈕。系統(tǒng)還提供了一個Add按鈕,按下這個按鈕可以在已經(jīng)區(qū)分的頭文件的下面,重新出現(xiàn)第一個頭文件,用戶可以使用需要的其它種類分隔符再分割一次。分割完畢,點擊系統(tǒng)界面里面的confirm按鈕。在分割好的每個字段后面會出現(xiàn)choose按鈕,選擇好所有需要的字段,然后點擊Next按鈕,系統(tǒng)會對每一個以“〉”開頭的部分,做與處理第一行時一樣的處理。圖7是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟D實施例二的步驟流程圖,所述的步驟D包括
D1、選擇要調(diào)用的算法;
D2、對距離關(guān)系矩陣進行降維。優(yōu)選地,本系統(tǒng)提供了三種可供選擇的MDS改進算法的方法來對距離關(guān)系矩陣進行降維,經(jīng)典MDS算法,適用于普通的分析;兩種改進的MDS算法(Nystrom法,LMDS ;Splitand Combine MDS,SCMDS),適用于大數(shù)據(jù)集(N>5000)。用戶可以根據(jù)自己的需求選擇合適的MDS算法進行降維,避免損失必要的信息,而且分析過程序列背景信息與序列信息分離,單獨對序列背景信息進行挖掘和分類。圖8是本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法步驟E實施例三的步驟流程圖,所述的步驟E包括
El、選擇標識的形狀和顏色;
E2、以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置;
E3、對序列進行分類。首先出現(xiàn)在用戶面前的選擇根據(jù)head頭文件分析選擇出來的列,選擇2列用于分別表示形狀跟顏色。選擇好后,點擊NEXT按鈕,界面里面會出現(xiàn)選擇2列里的所有的種類,每一個后面都有一個按鈕,點擊形狀列的就會出現(xiàn),一個有20種不同形狀可供選擇的對話框。選擇好形狀后就會在這個值后面出現(xiàn)所對應(yīng)的形狀。點擊顏色列值后面的按鈕,就會出現(xiàn)顏色選擇對話框。選擇自己所需要選定的顏色。當(dāng)所有需要選定的值都設(shè)置好后,點擊NEXT按鈕,就會出現(xiàn)二維坐標,里面有代表各個序列的貼圖以及它們的顏色很好區(qū)分。不僅可以通過左右鼠標鍵來擴大或者縮小坐標所代表的區(qū)域,還可以通過鍵盤的上下左右鍵來上下左右移動坐標區(qū)域。系統(tǒng)的菜單部分Coordination下的AB, AC, BC分別是選擇不同的坐標對應(yīng)方式,通過點擊可以得到相應(yīng)坐標下的對應(yīng)圖。而KMeans菜單下的K Value則是設(shè)置K值的地方,在彈出的對話框中填入你要對這些序列的分類數(shù)目,點擊確認。界面里的序列就會自動分好類,序列的圖標與類的中心用直線連接起來,方便區(qū)分。在Search菜單下面點擊Search會出現(xiàn)一個對話框用于搜索需要的內(nèi)容,點擊確認就會根據(jù)內(nèi)容把所有的有關(guān)的序列都用正方形框起來,便于用戶分析這些序列相互間的關(guān)系。從上述內(nèi)容可以看出
本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法,通過選擇要讀取的文件,對序列文件進行分析,計算序列間的距離,得出距離關(guān)系矩陣,對距離關(guān)系矩陣進行分析,對分析的結(jié)果進行分類和顯示。本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析方法可以根據(jù)需求選擇合適的算法進行降維,從而避免損失必要的信息,能單獨對序列背景信息進行挖掘和分類,并且提供了多種圖形以及豐富的顏色供用戶自由選擇,從而能更好更直觀地顯示序列的背景信肩、O 以上是對本發(fā)明的較佳實施進行了具體說明,但本發(fā)明創(chuàng)造并不限于所述實施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權(quán)利要求所限定的范圍內(nèi)。
權(quán)利要求
1.一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),其特征在于,包括 文件選擇模塊,用于選擇要讀取的文件; 序列文件分析模塊,用于對序列文件進行分析; 序列距離分析模塊,用于計算序列間的距離,得出距離關(guān)系矩陣; MDS分析模塊,用于對距離關(guān)系矩陣進行分析; 結(jié)果顯示模塊,用于對分析的結(jié)果進行分類和顯示。
2.根據(jù)權(quán)利要求I所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),其特征在于所述的序列文件分析模塊包括 文件讀取模塊,用于讀取序列文件; 頭文件分析模塊,用于將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔; 字段選擇模塊,用于選擇后續(xù)結(jié)果顯示時需要的字段。
3.根據(jù)權(quán)利要求I所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),其特征在于所述的MDS分析模塊包括 算法選擇模塊,用于選擇要調(diào)用的算法; 降維模塊,用于對距離關(guān)系矩陣進行降維。
4.根據(jù)權(quán)利要求I所述的一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng),其特征在于所述的結(jié)果顯示模塊包括 標識選擇模塊,用于選擇標識的形狀和顏色; 序列顯示模塊,用于以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置; 序列分類模塊,用于對序列進行分類。
5.一種基因蛋白質(zhì)序列關(guān)系分析方法,其特征在于,包括以下步驟 A、選擇要讀取的文件; B、對序列文件進行分析; C、計算序列間的距離,得出距離關(guān)系矩陣; D、對距離關(guān)系矩陣進行分析; E、對分析的結(jié)果進行分類和顯示。
6.根據(jù)權(quán)利要求5所述的一種基因蛋白質(zhì)序列關(guān)系分析方法,其特征在于所述的步驟B包括 BI、讀取序列文件; B2、將頭文件存入數(shù)據(jù)結(jié)構(gòu),并對其進行分隔; B3、選擇后續(xù)結(jié)果顯示時需要的字段。
7.根據(jù)權(quán)利要求5所述的一種基因蛋白質(zhì)序列關(guān)系分析方法,其特征在于所述的步驟D包括 D1、選擇要調(diào)用的算法; D2、對距離關(guān)系矩陣進行降維。
8.根據(jù)權(quán)利要求5所述的一種基因蛋白質(zhì)序列關(guān)系分析方法,其特征在于所述的步驟E包括 El、選擇標識的形狀和顏色; E2、以選擇的形狀和顏色標識出各個序列在二維坐標系中的位置;E3、對序列進 行分類。
全文摘要
本發(fā)明公開了本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法,系統(tǒng)包括文件選擇模塊、序列文件分析模塊、序列距離分析模塊、MDS分析模塊和結(jié)果顯示模塊。方法包括通過選擇要讀取的文件,對序列文件進行分析,計算序列間的距離,得出距離關(guān)系矩陣,對距離關(guān)系矩陣進行分析,對分析的結(jié)果進行分類和顯示。本發(fā)明一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法可以根據(jù)需求選擇合適的算法進行降維,從而避免損失必要的信息,能單獨對序列背景信息進行挖掘和分類,并且提供了多種圖形以及豐富的顏色供用戶自由選擇,從而能更好更直觀地顯示序列的背景信息。本發(fā)明作為一種基因蛋白質(zhì)序列關(guān)系分析系統(tǒng)及方法應(yīng)用于生物技術(shù)領(lǐng)域。
文檔編號G06F19/16GK102968577SQ20121049270
公開日2013年3月13日 申請日期2012年11月27日 優(yōu)先權(quán)日2012年11月27日
發(fā)明者史衛(wèi)峰, 柏佳寧, 李先斌, 凌誠, 郭雪平, 鄭為民, 黃錫鴻 申請人:廣州中國科學(xué)院先進技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 龙里县| 松原市| 青浦区| 嘉峪关市| 城步| 聊城市| 宁德市| 普定县| 桐庐县| 明光市| 金阳县| 麦盖提县| 万年县| 红河县| 林甸县| 确山县| 曲靖市| 桃园县| 二连浩特市| 马尔康县| 保德县| 蒙山县| 临洮县| 额敏县| 巨鹿县| 屯留县| 霍林郭勒市| 巫山县| 云林县| 克拉玛依市| 通化县| 清水河县| 出国| 吉木萨尔县| 德钦县| 黔西县| 唐河县| 商城县| 襄汾县| 潞西市| 阿坝|