本發(fā)明涉及一種基于關聯交互的可解釋心臟病風險預警方法。
背景技術:
1、心臟病仍然是全球主要的死亡原因,應用數據挖掘技術開發(fā)心臟病風險預警模型是一個新興的趨勢。然而,在小規(guī)模數據集上提高心臟病風險預警模型的預測精度仍然是一個挑戰(zhàn)。此外,現有的大多數心臟病風險預警模型都因其可解釋性存在局限性,導致在臨床應用中難以推廣。
2、在心臟病風險預警問題上,預測模型旨在根據潛在患者的心血管疾病相關指標,建立一種魯棒、高效的心臟病風險預警模型,用于早期風險識別和干預。目前,心臟病風險預警模型主要分為基于心電信號的心臟病風險預警模型和基于影響因素的心臟病風險預警模型?;谛碾娦盘柕念A警模型利用圖像處理技術從患者的心電圖中挖掘高階特征進行預測。然而,該類預警模型需要的樣本獲取困難、成本高且采集速度慢。
3、描述模型旨在揭示相關影響因素對心臟病風險的貢獻程度和交互作用程度,為預警模型提供可解釋分析。現有的可解釋性分析方法主要分為內在可解釋性、事后可解釋性和模型解釋可視化三種方法。內在可解釋性方法是指預測模型在訓練過程中給出的對影響因素評估的結果,如邏輯回歸的回歸系數。雖然這種方法可以通過系數的符號和大小表示正負相關性和影響程度,但難以捕獲復雜的非線性關系,限制了該類型方法的應用場景。事后可解釋性方法是指在模型預測任務之后,幫助解釋復雜模型的方法,如基于樹結構的特征重要性方法通過特征分割時計算的信息增益或不純度下降量來量化影響程度,但該類型的方法只能為模型提供全局解釋,無法分析單個特征與樣本分布之間的關系。shap模型是一種新興的可解釋方法,通過計算每個樣本的shapley值,為模型提供全局、局部和交互式的解釋。然而,以往很少有研究對心臟病風險影響因素的交互式解釋展開分析。模型解釋可視化方法是指通過如部分依賴圖等可視化直接分析影響因素的重要性,以顯示特定特征的值對模型預測的影響程度。然而,該方法基于特征之間相互獨立的假設,這導致難以觀察不同特征之間的交互關聯關系,使得難以在心臟病風險解釋性領域落地。
4、針對上述問題,提供一種基于關聯交互的可解釋心臟病風險預警方法。
技術實現思路
1、本發(fā)明的目的在于克服現有的缺陷而提供的一種基于關聯交互的可解釋心臟病風險預警方法,能夠有效地選擇出有意義的關聯規(guī)則特征,增強了最終心臟病風險預警模型的魯棒性。
2、實現上述目的的技術方案是:
3、一種基于關聯交互的可解釋心臟病風險預警方法,包括:
4、步驟s1,獲取kaggle公開的心臟病數據集,并對其進行預處理;
5、步驟s2,針對心臟病風險是否存在兩種類別分別進行關聯規(guī)則特征挖掘和特征選擇;
6、步驟s3,使用基于tpe過程的貝葉斯優(yōu)化的隨機森林分類器進行風險預警,并對預測結果使用保序回歸作進一步的校準;
7、步驟s4,通過shap(機器學習模型解釋可視化工具)模型分析關鍵影響因素的貢獻程度和對心臟病風險的交互作用。
8、優(yōu)選的,所述步驟s1中,kaggle(數據集平臺)公開的心臟病數據集包括五個公共子數據集:cleveland、hungarian、switzerland、long?beach?va和stalog;
9、所述步驟s1中,對心臟病數據集的連續(xù)特征進行等寬分箱預處理。
10、優(yōu)選的,所述步驟s2中,兩種類別為:有心臟病風險和無心臟病風險,分別進行關聯規(guī)則特征挖掘和特征選擇,包括:
11、使用aprior算法進行關聯規(guī)則挖掘,并構建二元變量作為關聯規(guī)則特征;
12、接著,使用susie模型對關聯規(guī)則特征進行篩選。
13、優(yōu)選的,所述步驟s2中,關聯規(guī)則挖掘屬于機器學習中的無監(jiān)督學習算法,一個關聯規(guī)則可以被下式定義:
14、;
15、式中,表示關聯規(guī)則前項,表示關聯規(guī)則后項,表示項集;
16、關聯規(guī)則挖掘的目標是找到在前項中存在項集的前提下,能夠滿足一定強度閾值去預測后項中項集的出現的規(guī)則;
17、在關聯規(guī)則挖掘中,支持度、置信度和提升度這三個指標常被用于評估這些規(guī)則的強度和相關性,即:
18、支持度被定義為數據集中同時包含前項和后項的比例,用下式表示:
19、;
20、式中,表示同時包含前項和后項的數量,表示數據集中的項集總數量;
21、置信度被定義為前項存在的前提下,后項出現的比例,用下式表示:
22、;
23、提升度被定義為后項的出現對于前項的提升程度,用下式表示:
24、;
25、若提升度大于1,則表示前項和后項正相關,小于1則表示前項和后項負相關。
26、優(yōu)選的,所述步驟s2中,susie(單效應之和回歸)模型以ser(單效應回歸)模型為基礎,設susie模型是一個多元回歸模型,個解釋變量中只有一個具有非零回歸系數,即效應變量,則在ser模型中,假定殘差方差、效應變量的先驗方差和先驗包含概率,ser模型可以被以下式子定義:
27、;
28、;
29、;
30、;
31、;
32、式中,是維的目標變量,表示個樣本個維度的外生變量矩陣,表示效應變量的系數,表示維的指示變量,用于指示第個變量是否為效應變量,表示維的回歸系數向量,表示誤差向量,表示類別概率為的多項式分布;
33、水平的可信集定義為包含至少一個效應變量的概率至少為的變量子集,在貝葉斯回歸變量選擇中使用了后驗包含概率來表示可信集中每個變量被選擇的概率,如下式所示:
34、;
35、在給定和后,可以由單效應回歸推導出后驗包含概率向量
36、,其中的計算方式如下:
37、;
38、基于上述ser模型和可信集原則,引入多個單一效應向量,并將整體效應向量構建為這些單一效應的總和,即susie:
39、;
40、;
41、;
42、;
43、;
44、;
45、式中,為選擇特征參數。
46、優(yōu)選的,所述步驟s3中,隨機森林的核心思想是使用一組決策樹對輸入數據進行訓練和預測;將所有樹的結果進行聚合以做出最終的預測,每棵決策樹都是在從原始數據集中抽取的bootstrap樣本上進行訓練的,并且在每個節(jié)點上,都會隨機選擇一個特征子集來劃分數據,從而在樹之間引入可變性;
47、對給定輸入的預測是通過聚合森林中所有決策樹的預測得到的,對于分類任務,最終的預測結果由多數投票決定,可以用下式表示:
48、;
49、式中,表示對輸入的第棵決策樹的預測,是森林中樹的總數,在多數投票中,預測的類別是所有樹中獲得最多投票的類別。
50、優(yōu)選的,所述步驟s3中,基于tpe過程的貝葉斯優(yōu)化算法對隨機森林分類器進行超參數優(yōu)化,包括:
51、每個超參數都被設定遵循均值為0的高斯分布,然后從該分布中采樣;
52、隨機采樣得到組超參數,并計算應用這些超參數時對應的模型真實損失;
53、設置tpe(基于樹結構的貝葉斯優(yōu)化算法)過程為代理函數擬合,對進行如下劃分:
54、;
55、;
56、根據這種劃分,可以得到:
57、;
58、對于的選擇,設置超參數來表示的分位數,即,故將上式化簡如下:
59、;
60、選取ei(期望改進)函數作為采集函數,對采集點進行評價,ei函數表示相對于給定閾值的平均改進;
61、對于采集點集中的每一個采集點計算,并從采集點中選擇最優(yōu)的代入模型計算真實的損失,ei函數的公式如下:
62、;
63、ei函數的值與其分母成反比,分母的大小就取決于比例,故最佳采集點是最大化該比率的點;
64、將加入集合組成新的,并重復上述步驟,直到達到最大迭代次數,完成對隨機森林分類器的超參數優(yōu)化。
65、優(yōu)選的,所述步驟s3中,保序回歸是一種將自由形式的線條擬合一系列觀測值的技術,使得擬合線條在任何位置都是單調并且盡可能接近觀測值;
66、使用pav算法求解建立的保序回歸模型,這種方法只有一個約束條件,即函數空間為單調遞增函數的空間,主要步驟如下:
67、假設每個觀測變量遵循正態(tài)分布,并當時滿足;
68、使用上一步作為單調性約束,識別違反該約束的點,與它們的相鄰點形成一個單調序列,假設這個范圍內的點服從相同的分布,當時,令在范圍內的點滿足正態(tài)分布;
69、如果新構建的分布在隨后的比較中違反了單調性約束,如出現的情況,令在范圍內的點將滿足;
70、重復上述步驟,直到分布穩(wěn)定下來,不再違反單調性約束,進而完成對預測結果作進一步的校準。
71、優(yōu)選的,所述步驟s4中,shap模型通過將映射到,以此創(chuàng)建簡化的輸入;
72、基于,原始模型可以近似為二元變量的線性函數如下所示:
73、;
74、式中,,是輸入特征的數量,,表示特征的貢獻值,其計算方式如下:
75、;
76、;
77、式中,是中輸入的非零集合,是排除第個特征的子集,是加性特征屬性的統(tǒng)一度量,即shap值,表示預測模型的輸出概率。
78、本發(fā)明的有益效果是:
79、本發(fā)明針對心臟病風險是否存在兩種類別分別構建關聯規(guī)則特征,通過挖掘關聯交互信息豐富數據集,該方法緩解了傳統(tǒng)模型難以從小規(guī)模心臟病數據集中學習相關信息的挑戰(zhàn);
80、本發(fā)明使用susie算法篩選關聯規(guī)則特征,與傳統(tǒng)特征篩選方法相比,該算法通過可信集能夠從多個高度相關的關聯規(guī)則特征中作出最佳的選擇,以減少關聯規(guī)則特征之間的冗余程度,有效緩解過擬合;
81、本發(fā)明采用經過tpe過程調優(yōu)的隨機森林分類器進行風險預測,并對預測結果使用保序回歸進行校準,以增強最終心臟病風險預警模型的魯棒性;
82、本發(fā)明利用shap模型對心臟病風險預警模型做可解釋性分析,探討了關鍵影響因素對心臟病風險貢獻程度與交互作用的大小和方向。