本發明涉及生物信息學和人工智能,具體為一種基于因果特征選擇的mirna與疾病關系預測系統及方法。
背景技術:
1、微小rna(mirna)是一類在生物過程中發揮關鍵調控作用的非編碼rna,其異常表達與多種疾病的發生發展密切相關。mirna與疾病關系的預測對于理解復雜疾病的分子機制和發現新的治療靶點具有重要意義。在現有的生物信息學研究中,mirna與疾病關系預測模型主要從三個方面進行優化:數據噪聲去除、特征選擇以及模型優化。傳統的特征選擇算法通常依賴于封裝法、過濾法和嵌入法,它們依據特征和目標變量之間的相關性,尋找相關特征子集。然而,這種基于相關性的特征選擇方法只能揭示特征和目標變量之間的共存關系,難以解釋其背后的決定機制。
2、現有技術在進行mirna與疾病關系預測時,存在以下問題:
3、缺乏因果解釋性:傳統的特征選擇方法雖然能夠找到與目標變量(疾病)相關的mirna特征,但這些特征之間的相關性往往無法揭示mirna如何通過調控基因表達影響疾病進展。因果關系能夠更好地解釋mirna在疾病發生中的具體作用機制。
4、為此,我們提出了一種基于因果特征選擇的mirna與疾病關系預測系統及方法。
技術實現思路
1、本發明通過因果特征選擇算法優化特征篩選和模型訓練,提升mirna與疾病關系預測的準確性和可解釋性。
2、為實現上述目的,本發明提供如下技術方案:一種基于因果特征選擇的mirna與疾病關系預測系統,包括以下模塊:
3、數據采集模塊,用于獲取mirna與疾病關系數據庫中的原始數據,確保數據維度覆蓋疾病特征、mirna表達信息及其他相關變量;負樣本選擇模塊,用于通過k均值聚類對未知的mirna-疾病關系進行分組,并隨機選擇若干負樣本;特征選擇與因果分析模塊,通過因果特征選擇算法對原始數據進行處理,去除冗余信息,保留與目標疾病特征強相關的mirna特征;預測模型構建模塊,結合特征選擇后的mirna特征集,采用單個機器學習算法進行預測模型的訓練;評估模塊,依據auroc、aupr、精確率、召回率、f1值及accuracy評價指標,驗證模型的性能;數據反饋模塊,實時更新和反饋預測結果并進行誤差分析與模型調優。
4、優選的,所述系統包含以下子模塊:
5、mirna表達數據采集子模塊:數據來源于mirbase數據庫。該數據庫收錄了200多個物種的mirna名稱、序列和相關基因注釋信息;
6、疾病信息采集子模塊:數據來源于medical?subject?headings(mesh)一套生物醫學領域的主題詞表;
7、mirna與疾病關聯數據采集子模塊:用于收集mirna與特定疾病之間的關聯強度及相關文獻支持數據;
8、特征選擇與因果分析模塊:基于因果特征選擇算法篩選出與mirna和疾病關系相關的特征,所述模塊包含以下子模塊:
9、因果特征篩選子模塊:通過iamb算法逐步篩選與mirna和疾病關系顯著相關的特征;
10、變量獨立性測試子模塊:用于檢測各候選特征的獨立性,確保因果推斷的準確性;
11、一種基于因果特征選擇的mirna與疾病關系預測方法,該方法包括以下步驟:
12、該方法包括以下步驟:
13、s1.數據采集:
14、s1.1采集mirna表達數據及相關疾病特征數據;
15、s1.2對采集的數據進行數據預處理,包括去噪和標準化操作;
16、s2.特征選擇:
17、s2.1采用因果特征選擇算法對預處理后的數據進行初步篩選,提取與疾病相關的特征集合;
18、s2.2基于獨立互信息優化算法,進一步對特征集合進行處理,最終形成優化的特征集;
19、s3.模型訓練:
20、s3.1使用優化后的模型訓練算法對通過特征選擇的mirna與疾病數據進行訓練,包括隨機森林、決策樹、輕量梯度框架和k近鄰模型;
21、s3.2調整各模型的超參數,并通過交叉驗證方式評估模型性能;
22、s4.結果分析與輸出:
23、s4.1根據單個模型的訓練結果,輸出最終的mirna與疾病關系預測結果;
24、s4.2對結果進行性能評估,展示多個評價指標的具體結果。
25、優選的,所述因果特征選擇算法的表達式為:p(c∣mb(c),s)=p(c∣mb(c)),其中:
26、c:目標變量,即疾病的狀態;mb(c):目標變量c的markov?blanket(馬爾可夫毯),即與c因果相關的特征集合,包含父節點、子節點及子節點的父節點;s:原始特征集中的其他特征;該算法通過獨立性測試,計算每個特征與目標變量c之間的互信息量,并根據結果逐步將最相關的特征加入markov?blanket中;每次測試剔除無關特征,并通過因果關系推斷保留有助于預測mirna與疾病關系的特征,最終形成最佳特征子集mb(c)。
27、與現有技術相比,本發明的有益效果如下:
28、1、提高預測準確性:通過因果特征選擇算法,有效去除冗余特征,保留與疾病關系密切的mirna特征,顯著提高了模型的預測精度。
29、2、增強模型可解釋性:因果特征選擇算法能夠明確地揭示mirna與疾病之間的因果關系,使得預測結果更準確,便于后續的生物學研究和臨床應用。
30、3、優化特征選擇過程:在特征選擇過程中,結合獨立互信息算法和隨機森林模型評分機制,進一步精煉了特征子集,有效減少了模型的過擬合現象。
1.一種基于因果特征選擇的mirna與疾病關系預測系統,其特征在于:包括以下模塊:
2.根據權利要求1所述的一種基于因果特征選擇的mirna與疾病關系預測系統,其特征在于:所述系統包含以下子模塊:
3.一種基于因果特征選擇的mirna與疾病關系預測方法,應用于權利要求1-2任一項所述的一種基于因果特征選擇的mirna與疾病關系預測系統,其特征在于:該方法包括以下步驟:
4.根據權利要求3所述的一種基于因果特征選擇的mirna與疾病關系預測方法,其特征在于:所述因果特征選擇算法的表達式為:p(c∣mb(c),s)=p(c∣mb(c)),其中c:目標變量,即疾病的狀態;mb(c):目標變量c的markov?blanket(馬爾可夫毯),即與c因果相關的特征集合,包含父節點、子節點及子節點的父節點;s:原始特征集中的其他特征;該算法通過獨立性測試,計算每個特征與目標變量c之間的互信息量,并根據結果逐步將最相關的特征加入markov?blanket中;每次測試剔除無關特征,并通過因果關系推斷保留有助于預測mirna與疾病關系的特征,最終形成最佳特征子集mb(c)。