一種構象空間動態步長搜索方法
【專利摘要】一種構象空間動態步長搜索方法,包括以下步驟:對構象空間按照能量和溫度分層,在每一層中再細分得到“構象室”,完成構象空間的初始化;隨機擾動氨基酸序列得到一個初始構象,通過Rosetta?Score3計算得到其能量值,存入相應能量層的構象室中,完成構象初始化;對所分能量層分配權重,在不同能量層賦予不同的片段組裝(FA)步長和Monte?Carlo擾動(MC)步長,同時設置溫度參數列表,完成系統參數初始化;按權重依次隨機選中能量層、構象室、構象,進行構象擴展,按照相應的Metropolis準則來判斷是否接收當前構象,完成構象系綜更新;迭代的進行上一步驟,直至到達設置的迭代次數。本發明提供了一種有效的構象空間增強采樣方法。
【專利說明】 一種構象空間動態步長搜索方法
【技術領域】
[0001]本發明涉及生物信息學、計算機應用領域,尤其涉及的是一種構象空間動態步長搜索方法。
【背景技術】
[0002]蛋白質分子在生物細胞化學反應過程中起著至關重要的作用。它們的結構模型和生物活性狀態對我們理解和治愈多種疾病有重要的意義。蛋白質只有折疊成特定的三維結構才能產生其特有的生物學功能。因此,要了解蛋白質的功能,就必須獲得其三維空間結構。
[0003]蛋白質三級結構預測是生物信息學的一個重要任務。目前,蛋白質結構預測方法大致可以分為兩類,基于模板的方法和不基于模板的方法。其中,不基于模板的從頭預測(Ab-1nito)方法應用最為廣泛。它適用于同源性小于25%的大多數蛋白質,僅從序列產生全新結構,對蛋白質分子設計及蛋白質折疊的研究等具有重要意義。當前有以下幾種比較成功的從頭預測方法:張陽與Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及團隊設計的Rosetta方法、Shehu等設計的FeLTr方法等。但是到目前還沒有一種十分完善的方法來預測蛋白質的三維結構,即使獲得了很好的預測結果,但也只是針對某些蛋白質而言的,目前主要的技術瓶頸在于兩個方面,第一方面在于采樣方法,現有技術對構象空間采樣能力不強,另一方面在于構象更新方法,現有技術對構象的更新精度仍然不足。
[0004]因此,現有的構象空間搜索方法存在不足,需要改進。
【發明內容】
[0005]針對上述問題,我們提出在低能量引導的樹搜索框架下,利用動態步長搜索蛋白質構象空間的方法,增強了構象跳出局部極小點的能力,進而增強對構象空間中近天然態構象搜索的能力。
[0006]本發明解決其技術問題所采用的技術方案是:
[0007]一種構象空間動態步長搜索方法,所述搜索方法包括以下步驟:
[0008]I)構象空間初始化:對構象空間按照能量和溫度分層,在每一層中再細分得到“構象室”,完成構象空間的初始化,過程如下:
[0009]1.1)對構象空間按照能量分層,劃分成一維網格,能量值以δΕ為間隔,從最低能量到最高能量分層,表示為[Emin, EmaJ ;
[0010]1.2)對構象空間按照溫度分層,劃分成一維網格,由起始溫度逐步非等間隔的到最低溫度,表不為[Tmax,Tmin];
[0011]1.3)在每一個能量層,按照三維幾何投影將每層劃分成若干“構象室”,稱之為cell ;
[0012]2)構象初始化:隨機擾動氨基酸序列得到一個初始構象,通過Rosetta Score3計算得到其能量值,存入相應能量層的構象室中,完成構象初始化,過程如下:
[0013]2.1)輸入一個氨基酸序列;
[0014]2.2)由蛋白質結構數據庫(PDB庫)生成的片段庫中任意選取片段,對氨基酸序列進行擾動,得到初始構象;
[0015]2.3)調用Rosetta Score3能量函數,計算得到的初始構象的能量值;
[0016]2.4)依據能量值選定該構象所在的能量層;
[0017]2.5)由超速形狀識別(USR)判別將該構象置入指定cell ;
[0018]3)系統參數初始化:對所分能量層分配權重,在不同能量層賦予不同的片段組裝(FA)步長和Monte Carlo擾動(MC)步長,同時設置溫度參數列表,設定迭代次數,完成系統參數初始化,過程如下:
[0019]3.1)對能量層分配權重,權重值由以下公式給出#(/)= £_,^(/),其中I表示能量層,式L(0表示該層平均能量的平方,ω (I)表示權重值;
[0020]3.2)設置動態片段組裝(FA)步長,由以下公式給出:Μ(Λ/-2)[ω(/)/Ι; oj(I')],
其中N為序列長度,M為常數;
[0021]3.3)設置動態Monte Carlo擾動(MC)步長,由以下公式給出:0{N-2)[o,{l)! I;、"」(/')],其中N為序列長度,Q為常數,由以上公式反向分配步長值;
[0022]3.4)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表[Τ—,Tmin];
[0023]3.5)設置迭代次數;
[0024]4)構象系綜更新:按照權重依次隨機選中能量層、構象室、構象,進行構象擴展,采用相應的Metropolis準則來判斷是否接收當前構象,完成構象系綜更新,過程如下:
[0025]4.1)按照能量權重值= ,依概率?(0/隨機的反向選能量層I ;
[0026]4.2)按照概率1/[ (1+nsel) confs]選定“構象室”cell,其中,nsel表示當前cell被選擇的頻次,confs表示當前cell中構象的數目;
[0027]4.3)選定cell后,隨機選擇一個構象,用于下一步的擴展;
[0028]4.4)對選定構象進行片段組裝,生成新的構象;
[0029]4.5)對構象進行Monte Carlo擾動,用設定的相應溫度參數,依玻爾茲曼概率Θ_0‘ΛΕ接受新生成的構象,其中ΛE為當前構象與上一步產生的構象之間的能量差,β為溫度因子,β = -l/kBT, kB為玻爾茲曼常數,T為溫度參數;
[0030]4.5)如果當前新生成的構象被接受,則將其存入構象系綜;
[0031]5)迭代的運行步驟4),直至達到設置的迭代次數。
[0032]本發明的技術構思為:基于蛋白質結構從頭預測FeLTr算法,在低能量引導的樹搜索框架下,采用動態步長搜索蛋白質構象空間,依據所分能量層的權重在不同能量層賦予不同的片段組裝(FA)步長和Monte Carlo擾動(MC)步長,在構象空間能量較高的區域,使用大的FA步長和較小的MC步長,迫使算法更快的向低能量區域搜索,隨著構象搜索逐步向低能量區域靠近,改變FA、MC步長,在能量較低的區域使用較小的FA步長和較大的MC步長,避免對天然態構象的采樣不足導致算法有效性降低。同時在構象空間對溫度分層,在不同的溫度層采用相應的Metropolis準則來判斷是否接收當前構象,以增強構象跳出局部極小點的能力,進而增強了對構象空間中近天然態構象采樣的能力。
【專利附圖】
【附圖說明】
[0033]圖1是動態步長搜索過程示意圖。
[0034]圖2是構象系綜更新示意圖。
[0035]圖3是蛋白質IVII構象系綜中構象更新示意圖。
[0036]圖4是蛋白質IVII預測結構和實驗室測定結構最接近的構象三維示意圖。
【具體實施方式】
[0037]下面結合附圖對本發明作進一步描述。
[0038]參照圖1?圖4,一種構象空間動態步長搜索方法,包括以下步驟:
[0039]I)構象空間初始化:對構象空間按照能量和溫度分層,在每一層中再細分得到“構象室”,完成構象空間的初始化,過程如下:
[0040]1.1)對構象空間按照能量分層,劃分成一維網格,能量值以δΕ為間隔,從最低能量到最高能量分層,表示為[Emin, EmaJ ;
[0041]1.2)對構象空間按照溫度分層,劃分成一維網格,由起始溫度逐步非等間隔的到最低溫度,表不為[Tmax,Tmin];
[0042]1.3)在每一個能量層,按照三維幾何投影將每層劃分成若干“構象室”,稱之為cell ;
[0043]2)構象初始化:隨機擾動氨基酸序列得到一個初始構象,通過Rosetta Score3計算得到其能量值,存入相應能量層的構象室中,完成構象初始化,過程如下:
[0044]2.1)輸入一個氨基酸序列;
[0045]2.2)由PDB庫生成的片段庫中任意選取片段,對氨基酸序列進行擾動,得到初始構象;
[0046]2.3)調用Rosetta Score3能量函數,計算得到的初始構象的能量值;
[0047]2.4)依據能量值選定該構象所在的能量層;
[0048]2.5)由USR判別將該構象置入指定cell ;
[0049]3)系統參數初始化:對所分能量層分配權重,在不同能量層賦予不同的片段組裝(FA)步長和Monte Carlo擾動(MC)步長,同時設置溫度參數列表,設定迭代次數,完成系統參數初始化,過程如下:
[0050]3.1)對能量層分配權重,權重值由以下公式給出:οφ = EiAl),其中I表示能量層,表示該層平均能量的平方,ω (I)表示權重值;
[0051]3.2)設置動態片段組裝(FA)步長,由以下公式給出:Μ(/ν-2)[ω(/)/Ι^(., w(/%
其中N為序列長度,M為常數;
[0052]3.3)設置動態Monte Carlo擾動(MC)步長,由以下公式給出:Q(N-1^oiI)I ζ,; ο ω(--],其中Ν為序列長度,Q為常數,由以上公式反向分配步長值;
[0053]3.4)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表[Tmax, Tmin] ;3.5)設置迭代次數;
[0054]4)構象系綜更新:按照權重依次隨機選中能量層、構象室、構象,進行構象擴展,采用相應的Metropolis準則來判斷是否接收當前構象,完成構象系綜更新,過程如下:
[0055]4.1)按照能量權重值ω(/) =《.“/),依概率》(/)/隨機的反向選能量層I ;
[0056]4.2)按照概率1/[ (1+nsel) confs]選定“構象室”cell,其中,nsel表示當前cell被選擇的頻次,confs表示當前cell中構象的數目;
[0057]4.3)選定cell后,隨機選擇一個構象,用于下一步的擴展;
[0058]4.4)對選定構象進行片段組裝,生成新的構象,如圖3所示;
[0059]4.5)對構象進行Monte Carlo擾動,用設定的相應溫度參數,依玻爾茲曼概率Θ_0‘ΛΕ接受新生成的構象,其中ΛE為當前構象與上一步產生的構象之間的能量差,β為溫度因子,β = -l/kBT, kB為玻爾茲曼常數,T為溫度參數;
[0060]4.5)如果當前新生成的構象被接受,則將其存入構象系綜,否則丟棄當前構象,如圖2所示;
[0061]5)迭代的運行步驟4),直至達到設置的迭代次數。
[0062]本實施例以序列長度為36的蛋白質IVII為實施例,一種構象空間動態步長搜索方法,其中包含以下步驟:
[0063]I)構象空間初始化:對構象空間按照能量和溫度分層,在每一層中再細分得到“構象室”,完成構象空間的初始化,過程如下:
[0064]1.1)對構象空間按照能量分層,劃分成一維網格,能量值以δΕ為間隔,這里取2kcal/mol,從最低能量到最高能量分層,表示為[0,200];
[0065]1.2)對構象空間按照溫度分層,劃分成一維網格,由起始溫度逐步非等間隔的到最低溫度,表不為[64,36];
[0066]1.3)在每一個能量層,按照三維幾何投影將每層劃分成若干“構象室”,稱之為cell ;
[0067]2)構象初始化:隨機擾動氨基酸序列得到一個初始構象,通過Rosetta Score3計算得到其能量值,存入相應能量層的構象室中,完成構象初始化,過程如下:
[0068]2.1)輸入一個氨基酸序列:
[0069]MLSDEDFKAVFGMTRSAFANLPLffKQQNLKKEKGLF ;
[0070]2.2)由PDB庫生成的片段庫中任意選取片段,對氨基酸序列進行擾動,得到初始構象;
[0071]2.3)調用Rosetta Score3能量函數,計算得到的初始構象的能量值;
[0072]2.4)依據能量值選定該構象所在的能量層;
[0073]2.5)由USR判別將該構象置入指定cell ;
[0074]3)系統參數初始化:對所分能量層分配權重,在不同能量層賦予不同的片段組裝(FA)步長和Monte Carlo擾動(MC)步長,同時設置溫度參數列表,設定迭代次數,完成系統參數初始化,過程如下:
[0075]3.1)對能量層分配權重,權重值由以下公式給出:0>(" = EiAI),其中I表示能量層,表示該層平均能量的平方,ω (I)表示權重值;
[0076]3.2)設置動態片段組裝(FA)步長,由以下公式給出:Μ(Λ;-2)[μ(/)/ ζ,; ^ ,其中N為序列長度,M= I ;
[0077]3.3)設置動態Monte Carlo擾動(MC)步長,由以下公式給出:
⑴(O],其中N為序列長度,Q = 2,由以上公式反向分配步長值;
I
[0078]3.4)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表[64,32];
[0079]3.5)設置迭代次數為10000 ;
[0080]4)構象系綜更新:按照權重依次隨機選中能量層、構象室、構象,進行構象擴展,采用相應的Metropolis準則來判斷是否接收當前構象,完成構象系綜更新,過程如下:
[0081]4.1)按照能量權重值= E2arg(I),依概率隨機的反向選能量層I ;
[0082]4.2)按照概率1/[ (1+nsel) confs]選定“構象室”cell,其中,nsel表示當前cell被選擇的頻次,confs表示當前cell中構象的數目;
[0083]4.3)選定cell后,隨機選擇一個構象,用于下一步的擴展;
[0084]4.4)對選定構象進行片段組裝,生成新的構象;
[0085]4.5)對構象進行Monte Carlo擾動,用設定的相應溫度參數,依玻爾茲曼概率Θ_0‘ΛΕ接受新生成的構象,其中ΛE為當前構象與上一步產生的構象之間的能量差,β為溫度因子,β = -l/kBT, kB為玻爾茲曼常數,T為溫度參數;
[0086]4.5)如果當前新生成的構象被接受,則將其存入構象系綜;
[0087]5)迭代的運行步驟4),直至達到設置的迭代次數。
[0088]以序列長度為36的蛋白質IVII為實施例,運用以上方法得到了該蛋白質的近天然態構象,構象系綜中構象更新圖如圖3所示,預測結構與實驗室測定結構最為接近的構象三維展示如圖4所示。
[0089]以上闡述的是本發明給出的一個實施例表現出來的優良效果,顯然本發明不僅適合上述實施例,在不偏離本發明基本精神及不超出本發明實質內容所涉及內容的前提下可對其做種種變化加以實施。
【權利要求】
1.一種構象空間動態步長搜索方法,其特征在于:所述構象空間搜索方法包括以下步驟: .1)構象空間初始化:對構象空間按照能量和溫度分層,在每一層中再細分得到“構象室”,完成構象空間的初始化,過程如下: . 1.1)對構象空間按照能量分層,劃分成一維網格,能量值以SE為間隔,從最低能量到最高能量分層,表示為Ge e [Emin, EmaJ ; . 1.2)對構象空間按照溫度分層,劃分成一維網格,由起始溫度逐步非等間隔的到最低溫度,表不為[Tmax,Tmin]; . 1.3)在每一個能量層,按照三維幾何投影將每層劃分成若干“構象室”,稱之為cell ; . 2)構象初始化:隨機擾動氨基酸序列得到一個初始構象,通過RosettaScore3計算得到其能量值,存入相應能量層的構象室中,完成構象初始化,過程如下:. . 2.1)輸入一個氨基酸序列; . 2.2)由蛋白質結構數據庫生成的片段庫中任意選取片段,對氨基酸序列進行擾動,得到初始構象; . 2.3)調用Rosetta Score3能量函數,計算得到的初始構象的能量值; . 2.4)依據能量值選定該構象所在的能量層; . 2.5)由超速形狀識別判別將該構象置入指定cell ; . 3)系統參數初始化:對所分能量層分配權重,在不同能量層賦予不同的片段組裝步長和Monte Carlo擾動步長,同時設置溫度參數列表,設定迭代次數,完成系統參數初始化,過程如下: .3.1)對能量層分配權重,權重值由以下公式給出:0)(1) = EU、,其中I表示能量層,^(/)表示該層平均能量的平方,ω (I)表示權重值; . 3.2)設置動態片段組裝步長,由以下公式給出:M(;V-2)[w(/)/ ζ,; ω(/')],其中N為序列長度,M為常數; . 3.3)設置動態Monte Carlo擾動步長,由以下公式給出:(?(~-2)[w(/)/⑴C)],其中N為序列長度,Q為常數,由以上公式反向分配步長值; . 3.4)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表[Tmax,TmiJ ; . 3.5)設置迭代次數; . 4)構象系綜更新:按照權重依次隨機選中能量層、構象室、構象,進行構象擴展,采用相應的Metropolis準則來判斷是否接收當前構象,完成構象系綜更新,過程如下: .4.1)按照能量權重值ω(/) = ,依概率ω(/)/ ω (I')隨機的反向選能量層I ; . 4.2)按照概率1/[ (1+nsel) confs]選定“構象室” cell,其中,nsel表示當前cell被選擇的頻次,confs表示當前cell中構象的數目; .4.3)選定cell后,隨機選擇一個構象,用于下一步的擴展; . 4.4)對選定構象進行片段組裝,生成新的構象;. . 4.5)對構象進行Monte Carlo擾動,用設定的相應溫度參數,依玻爾茲曼概率e_e ' ΔΕ接受新生成的構象,其中ΛΕ為當前構象與上一步產生的構象之間的能量差,β為溫度因子,β = -l/kBT, kB為玻爾茲曼常數,T為溫度參數; .4.5)如果當前新生成的構象被接受,則將其存入構象系綜; . 5)迭代的運行步驟4),直至達到設置的迭代次數。
【文檔編號】G06F19/16GK104200132SQ201410362507
【公開日】2014年12月10日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】張貴軍, 郝小虎, 秦傳慶, 周曉根, 程正華, 陳銘, 明潔 申請人:浙江工業大學