一種基于因果特征選擇的miRNA與疾病關系預測系統及方法

文檔序號：41771728發布日期：2025-04-29 18:42閱讀：7來源：國知局

本發明涉及生物信息學和人工智能，具體為一種基于因果特征選擇的mirna與疾病關系預測系統及方法。

背景技術：

1、微小rna(mirna)是一類在生物過程中發揮關鍵調控作用的非編碼rna，其異常表達與多種疾病的發生發展密切相關。mirna與疾病關系的預測對于理解復雜疾病的分子機制和發現新的治療靶點具有重要意義。在現有的生物信息學研究中，mirna與疾病關系預測模型主要從三個方面進行優化：數據噪聲去除、特征選擇以及模型優化。傳統的特征選擇算法通常依賴于封裝法、過濾法和嵌入法，它們依據特征和目標變量之間的相關性，尋找相關特征子集。然而，這種基于相關性的特征選擇方法只能揭示特征和目標變量之間的共存關系，難以解釋其背后的決定機制。

2、現有技術在進行mirna與疾病關系預測時，存在以下問題：

3、缺乏因果解釋性：傳統的特征選擇方法雖然能夠找到與目標變量(疾病)相關的mirna特征，但這些特征之間的相關性往往無法揭示mirna如何通過調控基因表達影響疾病進展。因果關系能夠更好地解釋mirna在疾病發生中的具體作用機制。

4、為此，我們提出了一種基于因果特征選擇的mirna與疾病關系預測系統及方法。

技術實現思路

1、本發明通過因果特征選擇算法優化特征篩選和模型訓練，提升mirna與疾病關系預測的準確性和可解釋性。

2、為實現上述目的，本發明提供如下技術方案：一種基于因果特征選擇的mirna與疾病關系預測系統，包括以下模塊：

3、數據采集模塊，用于獲取mirna與疾病關系數據庫中的原始數據，確保數據維度覆蓋疾病特征、mirna表達信息及其他相關變量；負樣本選擇模塊，用于通過k均值聚類對未知的mirna-疾病關系進行分組，并隨機選擇若干負樣本；特征選擇與因果分析模塊，通過因果特征選擇算法對原始數據進行處理，去除冗余信息，保留與目標疾病特征強相關的mirna特征；預測模型構建模塊，結合特征選擇后的mirna特征集，采用單個機器學習算法進行預測模型的訓練；評估模塊，依據auroc、aupr、精確率、召回率、f1值及accuracy評價指標，驗證模型的性能；數據反饋模塊，實時更新和反饋預測結果并進行誤差分析與模型調優。

4、優選的，所述系統包含以下子模塊：

5、mirna表達數據采集子模塊：數據來源于mirbase數據庫。該數據庫收錄了200多個物種的mirna名稱、序列和相關基因注釋信息；

6、疾病信息采集子模塊：數據來源于medical?subject?headings(mesh)一套生物醫學領域的主題詞表；

7、mirna與疾病關聯數據采集子模塊：用于收集mirna與特定疾病之間的關聯強度及相關文獻支持數據；

8、特征選擇與因果分析模塊：基于因果特征選擇算法篩選出與mirna和疾病關系相關的特征，所述模塊包含以下子模塊：

9、因果特征篩選子模塊：通過iamb算法逐步篩選與mirna和疾病關系顯著相關的特征；

10、變量獨立性測試子模塊：用于檢測各候選特征的獨立性，確保因果推斷的準確性；

11、一種基于因果特征選擇的mirna與疾病關系預測方法，該方法包括以下步驟：

12、該方法包括以下步驟：

13、s1.數據采集：

14、s1.1采集mirna表達數據及相關疾病特征數據；

15、s1.2對采集的數據進行數據預處理，包括去噪和標準化操作；

16、s2.特征選擇：

17、s2.1采用因果特征選擇算法對預處理后的數據進行初步篩選，提取與疾病相關的特征集合；

18、s2.2基于獨立互信息優化算法，進一步對特征集合進行處理，最終形成優化的特征集；

19、s3.模型訓練：

20、s3.1使用優化后的模型訓練算法對通過特征選擇的mirna與疾病數據進行訓練，包括隨機森林、決策樹、輕量梯度框架和k近鄰模型；

21、s3.2調整各模型的超參數，并通過交叉驗證方式評估模型性能；

22、s4.結果分析與輸出：

23、s4.1根據單個模型的訓練結果，輸出最終的mirna與疾病關系預測結果；

24、s4.2對結果進行性能評估，展示多個評價指標的具體結果。

25、優選的，所述因果特征選擇算法的表達式為：p(c∣mb(c),s)＝p(c∣mb(c))，其中：

26、c：目標變量，即疾病的狀態；mb(c)：目標變量c的markov?blanket(馬爾可夫毯)，即與c因果相關的特征集合，包含父節點、子節點及子節點的父節點；s：原始特征集中的其他特征；該算法通過獨立性測試，計算每個特征與目標變量c之間的互信息量，并根據結果逐步將最相關的特征加入markov?blanket中；每次測試剔除無關特征，并通過因果關系推斷保留有助于預測mirna與疾病關系的特征，最終形成最佳特征子集mb(c)。

27、與現有技術相比，本發明的有益效果如下：

28、1、提高預測準確性：通過因果特征選擇算法，有效去除冗余特征，保留與疾病關系密切的mirna特征，顯著提高了模型的預測精度。

29、2、增強模型可解釋性：因果特征選擇算法能夠明確地揭示mirna與疾病之間的因果關系，使得預測結果更準確，便于后續的生物學研究和臨床應用。

30、3、優化特征選擇過程：在特征選擇過程中，結合獨立互信息算法和隨機森林模型評分機制，進一步精煉了特征子集，有效減少了模型的過擬合現象。

技術特征：

1.一種基于因果特征選擇的mirna與疾病關系預測系統，其特征在于：包括以下模塊：

2.根據權利要求1所述的一種基于因果特征選擇的mirna與疾病關系預測系統，其特征在于：所述系統包含以下子模塊：

3.一種基于因果特征選擇的mirna與疾病關系預測方法，應用于權利要求1-2任一項所述的一種基于因果特征選擇的mirna與疾病關系預測系統，其特征在于：該方法包括以下步驟：

4.根據權利要求3所述的一種基于因果特征選擇的mirna與疾病關系預測方法，其特征在于：所述因果特征選擇算法的表達式為：p(c∣mb(c),s)＝p(c∣mb(c))，其中c：目標變量，即疾病的狀態；mb(c)：目標變量c的markov?blanket(馬爾可夫毯)，即與c因果相關的特征集合，包含父節點、子節點及子節點的父節點；s：原始特征集中的其他特征；該算法通過獨立性測試，計算每個特征與目標變量c之間的互信息量，并根據結果逐步將最相關的特征加入markov?blanket中；每次測試剔除無關特征，并通過因果關系推斷保留有助于預測mirna與疾病關系的特征，最終形成最佳特征子集mb(c)。

技術總結
本發明公開了一種基于因果特征選擇的miRNA與疾病關系預測系統及方法。該系統通過數據采集、負樣本選擇、特征選擇與因果分析、模型訓練和評估等多個模塊，提升miRNA與疾病關系預測的準確性。數據采集模塊從生物醫學數據庫獲取miRNA表達數據和疾病特征；負樣本選擇模塊通過k均值聚類對未知miRNA?疾病關系進行分組，隨機選擇負樣本；特征選擇模塊采用因果特征選擇算法，構建馬爾可夫毯以篩選出與疾病狀態直接相關的miRNA特征，降低冗余；模型訓練模塊使用單個機器學習算法進行訓練，并通過交叉驗證優化模型性能；最后，評估模塊通過AUROC、AUPR等指標評估模型效果。本發明顯著提高了miRNA與疾病關系預測的準確性，為醫學研究提供了重要支持。

技術研發人員：賈艷平,江振然
受保護的技術使用者：華東師范大學
技術研發日：
技術公布日：2025/4/28

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：賈艷平,江振然
技術所有人：華東師范大學
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質精煉 4.天然產物化學
2、薛老師：1.CRISPR-Cas系統 2.基因編輯 3.基因修復 4.天然產物合成 5.單分子技術開發與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發及應用
5、滿老師：1.天然產品的提取分離與活性研究 2.天然產物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于因果特征選擇的miRNA與疾病關系預測系統及方法