麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于機器學習的多種肝臟病理評估方法及系統

文檔序號:41771805發布日期:2025-04-29 18:42閱讀:6來源:國知局
一種基于機器學習的多種肝臟病理評估方法及系統

本發明屬于病理評估領域,具體涉及一種基于機器學習的多種肝臟病理評估方法及系統。


背景技術:

1、本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。

2、研究表明,慢性肝病與多種肝外疾病的發生發展密切相關,包括但不限于肥胖、糖尿病及心血管疾病(cvd)等。大規模隊列研究顯示,無論是單純性脂肪肝、非纖維化的代謝功能障礙性脂肪肝炎(mash)還是未達到肝硬化階段的纖維化狀態,隨著代謝相關脂肪肝病(mafld)的進展,患者全因死亡率的風險顯著增加。因此,對于慢性肝病而言,早期診斷和干預對于改善預后和減少并發癥的具有重要意義。

3、目前,肝活檢仍然是診斷慢性肝病以及評估組織學變化的金標準。及早發現肝臟組織學改變,能夠為延緩病情的進展創造機會,同時帶來顯著的社會經濟效益。盡管當前諸多研究聚焦于基于血液的組學檢測,以此作為非侵入性檢測的主要途徑,期望實現慢性肝病的早期診斷,但其在可及性和臨床轉化方面仍存在局限性。此外,肝臟病理診斷包含脂肪變、肝小葉炎癥、肝細胞氣球樣變和纖維化等多項指標,針對每一項肝臟病理指標,可能需要構建不同的模型來確保預測的準確性,這也增加了應用的難度。因此,迫切需要一套易于使用、成本低、靈敏、準確且全面的標志物,能夠統一預測這些特征,進而高效預測慢性肝病的發生。

4、機器學習已成為預測和管理復雜疾病的強大工具。通過對大規模臨床和多組學數據的訓練,機器學習模型能夠識別出對早期診斷和風險分層至關重要的復雜生物標志物。然而,這些模型需要從全面的數據集中學習,以識別不同參數和結果之間的關系,從而準確預測慢性肝病的發生和發展。因此,盡管機器學習在深化我們對這類疾病的理解和預測方面具有巨大的潛力,但由于缺乏整合多種類型臨床數據的大規模前瞻性研究,機器學習工具在mafld預測和診斷方面的臨床轉化受到阻礙。


技術實現思路

1、本發明為了解決上述問題,提出了一種基于機器學習的多種肝臟病理評估方法及系統,本發明通過獲取臨床指標構建簡單模型,能夠實現綜合評估慢性肝臟疾病肝臟病理的各個方面。

2、根據一些實施例,本發明采用如下技術方案:

3、一種基于機器學習的多種肝臟病理評估方法,包括以下步驟:

4、獲取多個歷史患者的體重信息、臨床檢查信息和肝組織樣本的病理評估結果;

5、基于獲取的信息,進行數據預處理,構建訓練集和測試集,并確定出各病理指標的關鍵預測特征;

6、利用訓練集訓練機器學習模型,確定模型在預測氣球樣變、脂肪變性、小葉炎癥、顯著纖維化、nash、nas評分和風險nash上的性能,確定最終的預測指標參數和預測模型;

7、獲取患者的體重信息、臨床檢查信息和肝組織樣本的評估結果,提取其中的預測指標參數相關數值,針對相應的預測指標參數,以所確定的訓練后的預測模型對其進行處理,得到最終的預測結果。

8、作為可選擇的實施方式,所述體重信息包括bmi數據;所述人體測量學參數包括性別、年齡、體重指數(bmi)、收縮壓(sbp)、舒張壓(dbp)、心率(hr)、腰圍、臀圍以及腰臀比(whr);全血細胞計數包括白細胞計數(wbc)、中性粒細胞比率(neu?ratio)、淋巴細胞比率(lym?ratio)、嗜酸性粒細胞比率(eos?ratio)、嗜堿性粒細胞比率(bas?ratio)、單核細胞比率(mono?ratio)、中性粒細胞計數(neu)、淋巴細胞(lym)、嗜酸性粒細胞(eos)、嗜堿性粒細胞(bas)、單核細胞(mono)、紅細胞計數(rbc)、血紅蛋白(hb)、血細胞比容(hct)、平均紅細胞體積(mcv)、平均紅細胞血紅蛋白量(mch)、平均紅細胞血紅蛋白濃度(mchc)、紅細胞分布寬度(rdw)、血小板計數(plt)、血小板分布寬度(pdw)、平均血小板體積(mpv)和血小板壓積(pct);所述生化指標包括前白蛋白(pa)、總蛋白(tp)、白蛋白(alb)、球蛋白(glb)、白蛋白/球蛋白比值(agr)、α1抗胰蛋白酶(alpha.1)、α2巨球蛋白(alpha.2)、β1球蛋白(beta.1)、β2微球蛋白(beta.2)、γ球蛋白(gamma)、丙氨酸氨基轉移酶(alt)、天冬氨酸氨基轉移酶(ast)、谷氨酸脫氫酶(gdh)、γ谷氨酰轉移酶(ggt)、堿性磷酸酶(akp)、腺苷脫氨酶(ada)、αl巖藻糖苷酶(afu)、總膽紅素(tbil)、直接膽紅素(dbil)、間接膽紅素(ibil)、總膽汁酸(tba)、同型半胱氨酸(hcy)、磷脂酶a2(pla2)、β羥基丁酸(hbut)、尿素、肌酐(cr)、尿酸(ua)、補體成分1q(c1q)、肌酸激酶(ck)、肌酸激酶mb同工酶(ck.mb)、心肌肌鈣蛋白i(ctni)、乳酸脫氫酶(ldh)、葉酸(fol)和血管緊張素ii(aii);所述血脂指標包括總膽固醇(tc)、高密度脂蛋白膽固醇(hdl)、低密度脂蛋白膽固醇(ldl)、小而密低密度脂蛋白膽固醇(sdldl)、載脂蛋白a1(apoa1)、載脂蛋白b(apob)、甘油三酯(tg)、脂蛋白a(lp.a)、非酯化游離脂肪酸(nefa);所述血糖指標包括空腹血糖(glu)、糖化白蛋白指數(ga.index)、缺血修飾白蛋白(ima)、唾液酸(sa)、糖化血紅蛋白(hba1c)、空腹胰島素(fins)、空腹c肽(fcp)、胰島素抵抗穩態模型評估(homa-ir)、脂肪胰島素抵抗(adipo-ir)、甘油三酯血糖指數(tyg)、甘油三酯血糖體重指數(tyg-bmi)和甘油三酯血糖腰圍指數(tyg-wc);所述凝血指標包括凝血酶原時間(pt-s)、凝血酶原時間國際標準化比值(pt-inr)、凝血酶原活動度(pt%)、凝血酶原時間比值(pt-r)、活化部分凝血活酶時間(aptt-s)、活化部分凝血活酶時間比值(aptt-r)、纖維蛋白原(fib)、凝血酶時間(tt-s)、凝血酶時間比值(tt-r)和d-二聚體(dd.i);所述金屬指標包括鈣(ca)、鎘(cd)、鈷(co)、鉻(cr)、銅(cu)、鐵(fe)、鋰(li)、鎂(mg)、錳(mn)、鎳(ni)、鉛(pb)和鋅(zn);所述內分泌激素指標包括催乳素(prl)、睪酮(t)、促黃體生成素與促卵泡生成素比值(lh/fsh)、生長激素(hgh)、游離三碘甲狀腺原氨酸(ft3)、游離甲狀腺素(ft4)和促甲狀腺激素(tsh)。

9、作為可選擇的實施方式,所述肝組織樣本的病理評估結果包括氣球樣變、脂肪變性、肝小葉炎癥、顯著纖維化、nash、nas評分和風險nash。

10、作為可選擇的實施方式,進行數據預處理的過程包括:

11、在訓練集中,對原始數據根據每個指標的均值和標準差進行z-score轉換,以實現數據的標準化,z-score轉換的公式為:

12、z=(x-μ)/σ;

13、其中z為每個數據的z-score值,即標準化后的值;x為數據的原始值;μ為原始數據中,每個指標的均值;σ為原始數據中,每個指標的標準差。

14、作為可選擇的實施方式,進行測試集數據預處理的過程中,對每個臨床指標使用訓練集的平均值和標準差進行標準化處理,即減去訓練集的平均值并除以訓練集標準差作為標準化值,以實現測試數據的標準化。

15、作為可選擇的實施方式,進行數據預處理的過程中,將出現了各病理結局的樣本標記為1,將未發生個結局的樣本標記為0,以輸入機器學習模型。

16、作為可選擇的實施方式,在訓練集中,通過遞歸特征消除篩選各個肝臟病理結局的最佳預測特征。

17、作為可選擇的實施方式,利用23種常見的機器學習算法建立模型,確定各個模型在預測氣球樣變、脂肪變性、小葉炎癥、顯著纖維化、nash、nas評分、風險nash上的性能。在平衡模型精度和臨床實用性的基礎上,我們針對每個肝臟病理結果篩選出了最優算法和特征數量,從而確定每個病理結局的最終預測指標參數和預測模型。同時,在內部和外部測試隊列中,測試模型性能;

18、作為可選擇的實施方式,對于logistic回歸模型,加入正則化項以防止過擬合,設定該模型的損失函數為:

19、j(w)=-(1/n)σ[yi*log(pi)+(1-yi)*log(1-pi)]+λ*r(w);

20、其中,j(w)為損失函數;n為樣本總數;yi為第i個樣本的實際標簽(0或1);pi為第i個樣本預測為類別1的概率;λ為正則化強度,由交叉驗證自動選擇;r(w)為正則化項,采用l1正則化;

21、模型的預測公式為:

22、p(y=1|x)=σ(w0+σ(wj*xj))

23、其中:w0為偏置項,由模型輸出;wj為權重,即每個特征對模型的貢獻,由模型輸出;xj為輸入特征向量的第j個分量,由訓練集每個樣本的指標具體數值確定;

24、如果p(y=1|x)≥0.5,預測該樣本的為類別1;

25、如果p(y=1|x)<0.5,預測該樣本的為類別0。

26、作為可選擇的實施方式,對于ridge回歸模型,定義其損失函數為:

27、l(w)=σ(yi-(w0+σ(wj*xij)))2+α*σ(wj2)

28、其中,yi為第i個樣本的實際標簽;w0為模型的偏置項;wj為第j個特征的權重參數;xij為第i個樣本的第j個特征值;α為正則化強度;

29、模型的預測公式為:

30、

31、其中,wj是第j個特征的權重系數,由模型輸出;xij是第i個樣本的第j個特征值,由訓練集每個樣本的指標具體數值確定。

32、如果預測該樣本的類別為1;

33、如果預測該樣本的類別為0。

34、依次建立氣球樣變、脂肪變性、肝小葉炎癥、顯著纖維化、nash、nas評分、風險nash的機器學習模型,輸出模型對每個樣本的預測類別,即0或1;

35、在重復分層5折交叉驗證下,計算每個模型的平衡準確率、精確率、召回率、f1分數及auroc;

36、各指標的計算方法為:

37、平衡準確率=(1/2)*[(tp/(tp+fn))+(tn/(tn+fp))];

38、精確率=tp/(tp+fp);

39、召回率=tp/(tp+fn);

40、f1分數=2*(精確率*召回率)/(精確率+召回率);

41、auroc=∫(tpr對fpr的曲線);

42、其中,tp為真正例,tn為真負例,fn為假負例,fp為假正例。

43、作為可選擇的實施方式,最終的選擇的預測指標包括,如圖3所示:

44、對于氣球樣變,選擇丙氨酸氨基轉移酶(alt)、總膽汁酸(tba)、胰島素抵抗穩態模型評估(homa-ir)作為預測指標,選擇ridge回歸模型;

45、對于脂肪變,選擇alt和谷氨酸脫氫酶(gdh)作為預測指標,選擇ridge回歸模型;

46、對于小葉炎癥,選擇alt、凝血酶原活動度(pt%)和鎘(cd)作為預測指標,選擇logistic回歸模型;

47、對于顯著纖維化,選擇外周血單核細胞比例(mono.ratio)、谷草轉氨酶(ast)、fpg、糖化白蛋白指數(ga.index)、β2-微球蛋白(beta2)作為預測指標,選擇logistic回歸模型;

48、對于nash,選擇磷脂酶a2(pla2)、cd、鎂(mg)、空腹胰島素(fins)、homa-ir、脂肪組織胰島素抵抗指數(adipo-ir)作為預測指標,選擇logistic回歸模型;

49、對于nas評分,選擇alt、鈷(co)、甘油三酯葡萄糖體重指數(tyg-bmi)作為預測指標,選擇logistic回歸模型;

50、對于風險nash,選擇alt、ga.index、beta2作為預測指標,選擇logistic回歸模型。

51、圖3中的左側顯示了每個模型在訓練組和測試組中的roc-auc,右側顯示了每個模型的召回率。右側表格列出了每個模型使用的特征。

52、進一步,從針對每種病理結果的7個獨立模型中,篩選出alt、homa-ir和mono.ratio作為關鍵臨床指標,構建logistic回歸模型,以同時預測多種肝臟病理結局作為預測目標。

53、與現有技術相比,本發明的有益效果為:

54、本發明通過獲取簡單易得的臨床指標構建機器學習模型,能夠實現綜合評估慢性肝臟疾病肝臟病理的各個方面,且能夠提升病理預測效率和性能。

55、為使本發明的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 定陶县| 黄梅县| 临邑县| 五莲县| 平邑县| 云林县| 屏东县| 永福县| 包头市| 芦山县| 通河县| 昂仁县| 陵水| 扎赉特旗| 靖江市| 临澧县| 贞丰县| 噶尔县| 台中市| 库伦旗| 喀喇| 徐水县| 方山县| 连云港市| 潜山县| 虎林市| 缙云县| 福州市| 调兵山市| 万安县| 苍南县| 康平县| 斗六市| 佛山市| 南通市| 迭部县| 三台县| 丰城市| 临洮县| 临颍县| 大埔区|