本發明涉及醫療人工智能,具體涉及一種基于粒計算的新發心肌梗死分級分類預測方法及裝置。
背景技術:
1、心肌梗死(myocardial?infarction,mi)是一種嚴重威脅人類健康的急性心血管疾病,其發病率和死亡率在全球范圍內均居高不下。盡管近年來醫療技術不斷進步,但心肌梗死患者的預后仍然不容樂觀,尤其是急性期死亡率和長期致殘率依然較高。準確、及時地對新發心肌梗死進行分級分類,對于優化治療方案、改善患者預后至關重要。目前,臨床上主要依靠心電圖、心肌酶譜等傳統方法對心肌梗死進行診斷和分級,但這些方法存在一定的局限性。
2、近年來,隨著人工智能技術的快速發展,基于機器學習、深度學習等方法的心肌梗死預測模型逐漸興起。目前,盡管已有許多基于機器學習的方法用于風險預測心肌梗死,并取得了不錯的性能。但是它們要么需要患者入院全部檢查數據,要么需要采集額外的心電圖等多模態數據,這對于每個患者來說既昂貴又耗時。粒計算作為一種新興的計算模式,能夠有效地處理復雜、不確定和不完整的信息,為解決上述問題提供了新的思路。
3、因此,新發心肌梗死分級分類預測仍然具有挑戰,現有的方法無法有效篩選出臨床應用中新發心肌梗死的重要特征,缺乏一個簡單、準確且魯棒的機器學習方法。
技術實現思路
1、為此,本發明提供一種基于粒計算的新發心肌梗死分級分類預測方法及裝置,基于粒計算,能夠有效篩選出臨床應用中新發心肌梗死的重要特征。同時,減少了收集數據的成本,提高了模型的魯棒性。
2、為了實現上述目的,本發明提供如下技術方案:基于粒計算的新發心肌梗死分級分類預測方法,包括:
3、從真實臨床數據中,收集獲得若干患者的基本信息和實驗室檢查數據;對收集的所述患者的基本信息和所述實驗室檢查數據進行篩選,建立新發心肌梗死患者樣本隊列;
4、通過xgboost模型對若干臨床特征分別進行單特征建模分析,獲得每個所述臨床特征的auroc值;根據所述auroc值,按照第一選取策略選取保留若干第一臨床特征;
5、通過若干樹模型對若干所述臨床特征進行建模,分別輸出每個所述樹模型的特征重要度得分;根據所述特征重要度得分,按照第二選取策略選取保留若干第二臨床特征;
6、將若干所述第一臨床特征和若干所述第二臨床特征進行交集處理,獲得若干目標臨床特征;
7、基于自動機器學習框架autogluon構建集成模型;通過所述目標臨床特征對所述集成模型進行訓練,獲得訓練好的集成模型;
8、通過所述訓練好的集成模型對所述目標臨床特征進行分析,輸出所述訓練好的集成模型的特征重要度得分;根據集成模型的特征重要度得分對所述目標臨床特征進行排序,并對排在前面設定個數的臨床特征進行重新建模分析,輸出新建模型的特征重要度得分;當所述新建模型的特征重要度得分與所述集成模型的特征重要度得分達到設定要求時,篩選出最重要臨床特征;
9、通過內外部數據對所述新建模型進行驗證,評估所述新建模型的魯棒性以及所述最重要臨床特征的有效性。
10、作為基于粒計算的新發心肌梗死分級分類預測方法的優選方案,在對收集的所述患者的基本信息和所述實驗室檢查數據進行篩選,建立所述新發心肌梗死患者樣本隊列的過程中,從所述患者的基本信息和所述實驗室檢查數據中篩選出患有新發心肌梗死的樣本;將篩選出的樣本中數據缺失率大于20%的樣本進行刪除,建立所述新發心肌梗死患者樣本隊列。
11、作為基于粒計算的新發心肌梗死分級分類預測方法的優選方案,在根據所述auroc值,按照所述第一選取策略選取保留若干所述第一臨床特征的過程中,所述第一選取策略為:將auroc值大于0.5的臨床特征進行保留。
12、作為基于粒計算的新發心肌梗死分級分類預測方法的優選方案,在通過若干所述樹模型對若干所述臨床特征進行建模的過程中,所述樹模型包括:xgboost、catboost和lightgbm樹模型;所述第二選取策略為:將xgboost、catboost和lightgbm三種樹模型的特征重要度得分都大于0的臨床特征保留。
13、作為基于粒計算的新發心肌梗死分級分類預測方法的優選方案,在通過所述目標臨床特征對所述集成模型進行訓練的過程中,訓練步驟為:
14、所述集成模型將單獨的嵌入層應用于每個所述目標臨床特征,并與數值特征連接成大向量;
15、利用多層堆棧集成策略,將一組基礎模型以通用的方式進行單獨訓練,獲得聚合預測結果;將所述聚合預測結果作為所述基礎模型的特征來訓練所述集成模型;
16、基于粒計算策略,將所述目標臨床特征分解成若干數據集;每一個所述數據集再分為訓練子集和驗證子集;將若干所述訓練子集或若干所述驗證子集合并成最終訓練子集或最終驗證子集;通過所述最終訓練子集及最終驗證子集對所述集成模型進行多粒度交叉驗證。
17、本發明還提供基于粒計算的新發心肌梗死分級分類預測裝置,基于以上基于粒計算的新發心肌梗死分級分類預測方法,包括:
18、數據篩選模塊,用于從真實臨床數據中,收集獲得若干患者的基本信息和實驗室檢查數據;對收集的所述患者的基本信息和所述實驗室檢查數據進行篩選,建立新發心肌梗死患者樣本隊列;
19、第一臨床特征篩選模塊,用于通過xgboost模型對若干臨床特征分別進行單特征建模分析,獲得每個所述臨床特征的auroc值;根據所述auroc值,按照第一選取策略選取保留若干第一臨床特征;
20、第二臨床特征篩選模塊,用于通過若干樹模型對若干所述臨床特征進行建模,分別輸出每個所述樹模型的特征重要度得分;根據所述特征重要度得分,按照第二選取策略選取保留若干第二臨床特征;
21、目標臨床特征獲取模塊,用于將若干所述第一臨床特征和若干所述第二臨床特征進行交集處理,獲得若干目標臨床特征;
22、集成模型構建及訓練模塊,用于基于自動機器學習框架autogluon構建集成模型;通過所述目標臨床特征對所述集成模型進行訓練,獲得訓練好的集成模型;
23、最重要臨床特征篩選模塊,用于最重要的臨床特征通過所述訓練好的集成模型對所述目標臨床特征進行分析,輸出所述訓練好的集成模型的特征重要度得分;根據集成模型的特征重要度得分對所述目標臨床特征進行排序,并對排在前面設定個數的臨床特征進行重新建模分析,輸出新建模型的特征重要度得分;當所述新建模型的特征重要度得分與所述集成模型的特征重要度得分達到設定要求時,篩選出最重要臨床特征;
24、新建模型驗證模塊,用于通過內外部數據對所述新建模型進行驗證,評估所述新建模型的魯棒性以及所述最重要臨床特征的有效性。
25、作為基于粒計算的新發心肌梗死分級分類預測裝置的優選方案,所述數據篩選模塊中,在對收集的所述患者的基本信息和所述實驗室檢查數據進行篩選,建立所述新發心肌梗死患者樣本隊列的過程中,從所述患者的基本信息和所述實驗室檢查數據中篩選出患有新發心肌梗死的樣本;將篩選出的樣本中數據缺失率大于20%的樣本進行刪除,建立所述新發心肌梗死患者樣本隊列。
26、作為基于粒計算的新發心肌梗死分級分類預測裝置的優選方案,所述第一臨床特征篩選模塊中,在根據所述auroc值,按照所述第一選取策略選取保留若干所述第一臨床特征的過程中,所述第一選取策略為:將auroc值大于0.5的臨床特征進行保留。
27、作為基于粒計算的新發心肌梗死分級分類預測裝置的優選方案,所述第二臨床特征篩選模塊中,在通過若干所述樹模型對若干所述臨床特征進行建模的過程中,所述樹模型包括:xgboost、catboost和lightgbm樹模型;所述第二選取策略為:將xgboost、catboost和lightgbm三種樹模型的特征重要度得分都大于0的臨床特征保留。
28、作為基于粒計算的新發心肌梗死分級分類預測裝置的優選方案,所述集成模型構建及訓練模塊中,訓練子模塊包括為:
29、大向量生成子模塊,用于所述集成模型將單獨的嵌入層應用于每個所述目標臨床特征,并與數值特征連接成大向量;
30、多層堆棧集成訓練子模塊,用于利用多層堆棧集成策略,將一組基礎模型以通用的方式進行單獨訓練,獲得聚合預測結果;將所述聚合預測結果作為所述基礎模型的特征來訓練所述集成模型;
31、粒計算訓練子模塊,用于基于粒計算策略,將所述目標臨床特征分解成若干數據集;每一個所述數據集再分為訓練子集和驗證子集;將若干所述訓練子集或若干所述驗證子集合并成最終訓練子集或最終驗證子集;通過所述最終訓練子集及最終驗證子集對所述集成模型進行多粒度交叉驗證。
32、本發明具有如下優點:本發明從真實臨床數據中,收集獲得若干患者的基本信息和實驗室檢查數據;對收集的所述患者的基本信息和所述實驗室檢查數據進行篩選,建立新發心肌梗死患者樣本隊列;通過xgboost模型對若干臨床特征分別進行單特征建模分析,獲得每個所述臨床特征的auroc值;根據所述auroc值,按照第一選取策略選取保留若干第一臨床特征;通過若干樹模型對若干所述臨床特征進行建模,分別輸出每個所述樹模型的特征重要度得分;根據所述特征重要度得分,按照第二選取策略選取保留若干第二臨床特征;將若干所述第一臨床特征和若干所述第二臨床特征進行交集處理,獲得若干目標臨床特征;基于自動機器學習框架autogluon構建集成模型;通過所述目標臨床特征對所述集成模型進行訓練,獲得訓練好的集成模型;通過所述訓練好的集成模型對所述目標臨床特征進行分析,輸出所述訓練好的集成模型的特征重要度得分;根據集成模型的特征重要度得分對所述目標臨床特征進行排序,并對排在前面設定個數的臨床特征進行重新建模分析,輸出新建模型的特征重要度得分;當所述新建模型的特征重要度得分與所述集成模型的特征重要度得分達到設定要求時,篩選出最重要臨床特征;通過內外部數據對所述新建模型進行驗證,評估所述新建模型的魯棒性以及所述最重要臨床特征的有效性。本發明解決了新發心肌梗死分級分類預測存在的臨床數據收集成本高等挑戰。通過對患者大量臨床特征進行建模分析,基于粒計算方法準確篩選出臨床應用中新發心肌梗死發生的重要特征;本方法構建的新發心肌梗死分級分類預測模型,只需輸入患者常見的臨床特征(如血常規),減少了收集數據的成本,提高了模型的魯棒性。本發明引入自動機器學習,多層堆棧集成策略和粒計算數據劃分方法,進一步提高了模型的準確性和魯棒性;本發明在真實的臨床收集的內部和外部驗證集中都具備穩定的性能表現。