本發明涉及生物信息學、蛋白質工程和機器學習,特別是涉及一種分類突變酶-底物的通用預測模型構建方法、介質和裝置。
背景技術:
1、在蛋白質工程領域,酶作為生物催化劑,廣泛應用于科學研究和工業生產中。酶的高效性和特異性使其在藥物開發、生物燃料生產、環境修復等領域具有重要價值。然而,傳統的酶工程方法主要依賴于對單一酶家族的深入研究,通過定點突變或基因編輯來優化酶的催化效率或改變底物特異性。這種方法在面對復雜生物反應時存在局限性,特別是在理解不同酶家族的三維結構變異及其與酶活性關系方面。
2、目前,已有多種方法用于酶-底物反應的預測,例如,scaneer依賴于序列協同進化分析單點突變對酶活性的影響,但其算法僅能評估約47%的變體,應用范圍有限;ecnet和eunirep是一種基于深度學習的預測方法,雖然能提供較為精確的預測,但需要目標蛋白質的實驗數據作為訓練集,限制了其在缺乏活性測定數據時的應用;mutcompute通過3d卷積神經網絡(cnn)學習蛋白質結構中的氨基酸進化信息,但需依賴于已知的結構數據;unikp、dltkcat和cmpdenzympred等方法采用深度學習方法進行酶活性預測,但僅限于小分子底物結構作為輸入,限制了其在更廣泛應用中的有效性。
3、盡管這些方法在特定情境下取得了一定進展,但它們普遍面臨無法有效推廣到新底物或變體的挑戰。這種局限性在實際應用中表現為無法高效預測新型底物的活性,難以應對復雜的生物反應,且依賴于大量實驗數據,增加了研發成本和時間。
技術實現思路
1、本發明提出了一種基于雙向數據擴充策略與mep蛋白質表征模型的突變酶-底物對預測方法。該方法通過挖掘單點和多點并行突變的關聯信息,顯著提高了機器學習模型在模擬和預測酶活性多樣性與復雜性方面的能力,挖掘多維突變對酶活性影響的可解釋性。
2、本發明是通過如下技術方案來實現的:
3、一種分類突變酶-底物的通用預測模型構建方法,
4、步驟1、通過數據擴充構建數據集,包括正向數據篩選和負向數據生成;
5、所述的正向數據篩選:從現有的數據庫中篩選酶-底物對數據和系統發育推斷的正向影響數據;
6、所述的負向數據生成:基于現有的突變酶數據庫,通過單點和多點突變生成大量突變酶序列,并標記其活性變化(增強、減弱、不變、消失),按照正負樣本1:1的配對策略,選取與正向數據相匹配的負樣本;
7、步驟2、搭建多任務耦合框架
8、在蛋白質序列表征上,采用mep(multi-scale?enzyme?protein)模型對突變酶序列進行表征,所述mep模型采用transformer+cnn的架構:利用esm-2?transformer獲取氨基酸序列的全局依賴關系表示,再通過卷積神經網絡(cnn)聚焦局部突變位點特征,最后通過殘差連接融合全局與局部信息,得到突變酶的多尺度特征向量;
9、對底物小分子采用兩種互補的表征方法,同時支持擴展連接循環指紋(ecfp,extended?connectivity?fingerprints)和gnn;
10、在完成酶和底物的特征表示后,將mep生成的突變酶表征向量(維度dp)與ecfp/gnn生成的底物小分子表征向量(維度dm)進行拼接,形成聯合特征向量v∈rdp+dm;通過集成梯度提升樹(gbdt)、支持向量機(svm)、極限梯度提升(xgboost)、隨機森林(rf)和邏輯回歸(logistic?regression)在內的模型,并采用動態權重融合策略,構建最終的預測型,用于分類突變酶與底物之間的相互作用,將前述拼接的特征向量作為輸入,分別訓練預測模型;
11、步驟3、通過網格搜索調整超參數(如學習率、樹深度、正則參數等),并使用5折交叉驗證評估模預測型性能以避免過擬合。
12、進一步,所述步驟1中的負向數據生成的具體步驟如下:
13、(1)?通過硅片模擬篩選出活性降低或消失的突變酶數據條目;
14、(2)根據突變位點的協同進化信息,系統化更迭負樣本中的突變位點,確保負樣本與正向數據在突變位點上具有可比性,即避免因負樣本與正樣本在突變位點的選擇上存在顯著差異(如進化保守性、功能重要性或結構相關性)而引入模型訓練偏差。通過系統化調整,此模型能夠更專注于學習突變本身對酶-底物相互作用的影響,而非被無關位點差異所干擾,從而提升預測的準確性和泛化能力;
15、(3)最終生成與正向數據數量相匹配的負樣本,采用正負樣本1:1配對策略,確保了數據集的平衡性,避免了模型訓練中的偏差問題。
16、進一步,所述的步驟2具體包括蛋白質表征和小分子表征;
17、所述的蛋白質表征:采用mep(multi-scale?enzyme?protein)模型對突變酶序列進行表征;mep包括進化級別語言模型(esm-2?transformer)和卷積網絡,esm-2transformer層在預訓練的基礎上微調,提取突變酶序列的進化保守性特征和功能相關線索;通過以下技術實現多尺度突變酶特征提?。?/p>
18、(1)全局依賴關系建模:利用esm-2的transformer層對突變酶序列進行編碼;transformer的自注意力機制通過以下公式計算序列中氨基酸的全局依賴關系:
19、;
20、其中,q、k、v分別為查詢(query)、鍵(key)、值(value)矩陣,dk為鍵向量的維度;該機制捕捉突變酶序列的遠程進化保守性和功能相關性。
21、(2)局部特征聚焦:采用兩層3核卷積神經網絡(cnn)對突變酶序列的局部區域進行特征提?。痪矸e操作定義為:
22、;
23、其中,i?表示當前卷積操作的輸出位置(即特征圖上的某個節點或位置);k?為卷積核的索引,用于區分不同的卷積核,從而實現多核并行特征提?。籮?表示卷積核覆蓋的輸入序列片段中的鄰居位置(即相對于?i?的局部滑動窗口內的位置);w?是3核卷積權重矩陣,用于對輸入片段?x?的局部區域進行加權求和;x?是輸入序列的局部片段(如氨基酸序列的某段窗口);b?是偏置項。通過滑動窗口策略,cnn強化對活性位點及鄰近突變區域的表征能力;
24、(3)特征融合與魯棒性增強:引入殘差連接(residual?connection)實現全局與局部特征的逐層疊加:
25、h(x)=f(x)+x;
26、其中,h(x)?為殘差塊的最終輸出,f(x)?為當前層(如卷積層或transformer層)對輸入?x?的變換結果,x?是原始輸入(跳躍連接的輸入);該設計緩解梯度消失問題,提升模型對局部結構變化的適應性。
27、所述的小分子表征:對底物小分子采用兩種互補的表征方法——同時支持指紋和gnn,全面捕捉小分子的化學環境和拓撲結構信息,隨后使用兩層窗口大小為3的cnn對序列進行卷積,聚焦突變位點及鄰域的局部模式,通過殘差連接融合兩種特征,得到固定維度的突變酶表示;具體方法如下:
28、(1)擴展連接循環指紋(ecfp):生成固定長度的分子指紋,通過哈希函數編碼分子中原子及其鄰域的化學環境,捕捉官能團和多層級拓撲結構信息;
29、(2)預訓練圖神經網絡(gnn):基于圖注意力機制(graph?attention?network,gat)對分子圖結構進行編碼;節點特征更新公式為:
30、;
31、其中,h'?為節點?i?更新后的特征向量,hj?為鄰居節點?j?的特征向量,αij?為節點?i?對鄰居?j?的注意力權重,表示?j?對?i?的重要性,w?為可學習的參數矩陣,用于對節點特征進行線性變換,σ?為激活函數。最終提取100維任務特異性向量,表征小分子的功能基團與空間構象。
32、進一步,所述步驟3中通過如下步驟優化預測類模型的性能:
33、超參數網格搜索:對包括學習率(0.01–0.2)、樹深度(3–10)、子樣本比例(0.6–1.0)在內的參數進行組合搜索,篩選最優參數集;
34、五倍交叉驗證:劃分訓練集為5個子集,迭代評估預測模型在驗證集上包括準確率、roc-auc、f1分數在內的指標,確保泛化能力;
35、測試集驗證:最終預測模型通過獨立測試集驗證,在高置信度區域(預測分值接近0或1)展示高度準確性,篩選高效酶變體。
36、本發明還提供一種分類突變酶-底物對通用預測的計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序適用于由處理器加載并執行所述分類突變酶-底物對通用預測方法。
37、本發明還提供一種分類突變酶-底物對通用預測的裝置,所述裝置搭載有運行所述分類突變酶-底物對通用預測模型的介質。
38、本發明與現有技術相比的有益效果:
39、1、該步驟的數據擴充策略通過引入負樣本和系統發育推斷數據,有效解決了以下問題:(1)樣本不足:通過硅片模擬和系統發育推斷,擴充了數據規模,提供了更豐富的訓練樣本;(2)類別不平衡:采用正負樣本1:1配對策略,確保了數據集的平衡性,避免了模型訓練中的偏差問題;(3)數據多樣性:結合實驗數據和推斷數據,增強了數據集的多樣性和關聯性,為模型提供了更全面的信息。
40、2、本發明所述多任務耦合框架旨在同時捕捉遠程依賴(如結構/進化保守位點)和局部變化(突變位點鄰域)的信息。mep模型基于這種多尺度設計,體現出對長程和短程序列特征的兼顧:transformer?提供全面的序列上下文理解,而cnn側重突變位點鄰近模式。將二者結合能學習長短程依賴,已在突變效應預測等領域顯示出競爭力。本發明將這種混合架構應用于酶-底物預測的背景下,特別關注突變位點,從而相較僅用transformer的模型,可能更好地區分關鍵突變帶來的功能變化。
41、3、本發明的所構建的模型在高置信度區域(預測分值接近0和1的區域)具有高度準確性,能夠有效篩選出潛在的高效酶變體,降低了實驗驗證的成本和時間,為酶設計和優化提供了有力工具。利用多模型比較選優和動態權重融合提升性能與可解釋性。這種集成優化思想能一定程度上區別于單一的深度學習框架,使模型既保持較高精度又具備結果解釋能力。
42、4、本發明整合transformer的全局建模與cnn的局部特征提取,增強對突變位點和功能變化的捕捉能力,并結合實驗驗證與系統發育推斷數據,顯著擴展訓練集規模與多樣性。此外,通過聯合優化蛋白質與小分子表征,提升相互作用預測的準確性。此模型有助于通過預測突變酶與底物的相互作用,篩選出能夠顯著提高催化效率的突變位點,優化酶的活性,證明了突變酶的遠端協同位點在工業生產中的酶促反應中起著重要作用;還可以預測突變酶對不同底物的催化能力,幫助設計具有特定底物選擇性的酶。