本發明涉及醫療數據處理,特別涉及一種基于隨機森林與lstm神經網絡的高血壓預測方法。
背景技術:
1、隨著生活方式的改變和人口老齡化的加劇,高血壓已成為全球范圍內的主要公共健康問題。高血壓病作為一種慢性疾病,不僅與心腦血管疾病密切相關,還對腎病、糖尿病等多種疾病的發生具有顯著影響。因此,及時有效地預測高血壓病的患病風險,對于改善患者生活質量、降低醫療負擔具有重要意義。然而,傳統的高血壓風險預測方法多依賴于基于少量指標的統計學模型,無法充分挖掘大量復雜數據中的潛在規律,難以實現對個體患病風險的精準預測。
技術實現思路
1、為了克服現有技術存在的缺陷,本發明提供一種基于隨機森林與lstm神經網絡的高血壓預測方法,以解決上述的問題。
2、本發明解決其技術問題所采用的技術方案是:一種基于隨機森林與lstm神經網絡的高血壓預測方法,包括以下步驟:
3、s1:獲取患者的樣本信息,建立信息收集庫;對信息收集庫中的樣本信息進行預處理;
4、s2:對預處理后的樣本信息通過隨機森林進行特征重要性分析,以根據特征重要性分析從預處理后的樣本信息中篩選出對高血壓預測具有影響力的特征作為關鍵特征;
5、s3:通過注意力機制計算每個關鍵特征的權重,并生成加權后的特征表示,其中加權后的特征表示按權重的大小排序形成序列數據;隨后,將加權后的特征表示輸入到lstm神經網絡,以通過lstm神經網絡捕捉序列數據中的動態特征并生成上下文向量;最后,將上下文向量輸入到多層感知機mlp進行預測輸出;根據預測輸出和真實值優化多層感知機mlp、注意力機制以及lstm神經網絡,以得到預測模型;
6、s4:向預測模型輸入樣本信息得到高血壓預測結果。
7、值得說明的是,在所述步驟s2中,根據預處理后的樣本信息的重要性對其進行排序,并設定一個閾值,篩選出重要性超過該閾值的預處理后的樣本信息作為關鍵特征;
8、基于預處理后的樣本信息的重要性由以下公式計算:;t為組成隨機森林的t棵決策樹;表示第t棵樹所使用的樣本集,;為樣本集中的節點中的樣本比例;為因預處理后的樣本信息劃分導致的基尼系數變化。
9、優選的,在所述步驟s3中,通過預測輸出和真實值計算損失函數,然后通過反向傳播算法依次計算損失函數對多層感知機mlp的參數的梯度、注意力機制的參數的梯度和lstm神經網絡的參數的梯度,以優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數;利用參數優化后的多層感知機mlp、注意力機制和lstm神經網絡組成預測模型。
10、具體地,在所述步驟s3中,計算損失函數對多層感知機mlp的參數的梯度的步驟為:,其中是損失函數,是預測輸出,參數是多層感知機mlp的權重。
11、具體地,在所述步驟s3中,計算損失函數對注意力機制的參數的梯度的步驟為:,其中是損失函數,是注意力機制生成的加權特征表示,參數用于反映關鍵特征捕捉的準確性。
12、具體地,在所述步驟s3中,計算損失函數對lstm神經網絡的參數的梯度的步驟為:,其中是損失函數,是lstm神經網絡的隱藏狀態或輸出,參數用于反映lstm神經網絡對關鍵特征的序列中全局依賴的建模能力。
13、可選的,所述步驟s3的優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數的步驟為:;其中為更新后的參數值,表示當前迭代的參數值,是學習率;
14、對于多層感知機mlp,為損失函數對多層感知機mlp的參數的梯度;對于注意力機制,為損失函數對注意力機制的參數的梯度;對于lstm神經網絡,為損失函數對lstm神經網絡的參數的梯度。
15、優選的,所述步驟s3的優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數的步驟為:;其中為更新后的參數值,表示當前迭代的參數值,是學習率,用于防止除零錯誤;
16、修正后的梯度一階矩,,是當前迭代中的梯度一階矩估計,是前一個迭代中的梯度一階矩估計,是控制一階矩估計衰減速率的超參數,是當前迭代的梯度;
17、修正后的梯度二階矩,,是當前迭代中的梯度二階矩估計,是前一個迭代中的梯度二階矩估計,是控制二階矩估計衰減速率的超參數,是當前梯度的平方;
18、對于多層感知機mlp,為損失函數對多層感知機mlp的參數的梯度;對于注意力機制,為損失函數對注意力機制的參數的梯度;對于lstm神經網絡,為損失函數對lstm神經網絡的參數的梯度。
19、值得說明的是,在所述步驟s3中所述損失函數,其中表示損失函數的總值表示第i個樣本信息的真實值,表示第i個樣本信息的預測輸出,表示樣本總數。
20、具體地,在所述步驟s3中,不斷訓練和優化預測模型,直到預測模型的精度、召回率和f1分數均大于或者等于預設定的閾值為止,輸出此時的預測模型;
21、通過交叉驗證獲取預測模型的精度、召回率和f1分數:精度,召回率,f1分數;其中tp表示模型正確預測為高風險的患者數量,fp表示模型錯誤地將低風險的患者預測為高風險的數量;fn表示模型錯誤地將高風險預測為低風險的樣本數。
22、本發明的有益效果在于:在所述基于隨機森林與lstm神經網絡的高血壓預測方法中,采用多層感知機mlp結合lstm神經網絡和注意力機制來捕捉關鍵特征之間的復雜關系,并基于這些關鍵特征的加權組合預測個體的高血壓發生概率,從而為臨床提供高效的高血壓預測工具,幫助識別高風險個體并提供早期干預建議;本預測方法通過評估特征對高血壓發生的影響,優化了預測結果,實現對個體患病風險的精準預測,為健康管理和臨床決策提供了可靠的數據支持和個性化的管理方案。
1.一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s2中,根據預處理后的樣本信息的重要性對其進行排序,并設定一個閾值,篩選出重要性超過該閾值的預處理后的樣本信息作為關鍵特征;
3.根據權利要求2所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中,通過預測輸出和真實值計算損失函數,然后通過反向傳播算法依次計算損失函數對多層感知機mlp的參數的梯度、注意力機制的參數的梯度和lstm神經網絡的參數的梯度,以優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數;利用參數優化后的多層感知機mlp、注意力機制和lstm神經網絡組成預測模型。
4.根據權利要求3所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中,計算損失函數對多層感知機mlp的參數的梯度的步驟為:,其中是損失函數,是預測輸出,參數是多層感知機mlp的權重。
5.根據權利要求4所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中,計算損失函數對注意力機制的參數的梯度的步驟為:,其中是損失函數,是注意力機制生成的加權特征表示,參數用于反映關鍵特征捕捉的準確性。
6.根據權利要求5所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中,計算損失函數對lstm神經網絡的參數的梯度的步驟為:,其中是損失函數,是lstm神經網絡的隱藏狀態或輸出,參數用于反映lstm神經網絡對關鍵特征的序列中全局依賴的建模能力。
7.根據權利要求6所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:所述步驟s3的優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數的步驟為:;其中為更新后的參數值,表示當前迭代的參數值,是學習率;
8.根據權利要求6所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:所述步驟s3的優化多層感知機mlp、注意力機制和lstm神經網絡對應的參數的步驟為:;其中為更新后的參數值,表示當前迭代的參數值,是學習率,用于防止除零錯誤;
9.根據權利要求6所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中所述損失函數,其中表示損失函數的總值表示第i個樣本信息的真實值,表示第i個樣本信息的預測輸出,表示樣本總數。
10.根據權利要求9所述的一種基于隨機森林與lstm神經網絡的高血壓預測方法,其特征在于:在所述步驟s3中,不斷訓練和優化預測模型,直到預測模型的精度、召回率和f1分數均大于或者等于預設定的閾值為止,輸出此時的預測模型;