本發明涉及自然語言處理和生物醫學交叉領域,尤其涉及一種基于互聯網醫院對話數據的診療路徑挖掘方法及系統。
背景技術:
1、在現代互聯網醫院中,醫患之間的對話數據蘊含著大量的診療知識,涵蓋了從患者癥狀描述、檢查信息、醫生診斷到治療方案的全流程信息。利用這些數據進行診療流程挖掘,可以幫助識別診斷和治療中的關鍵步驟,提供科學的決策支持。
2、醫療對話信息抽取是醫療信息抽取領域的新興研究方向,旨在從醫患對話中提取關鍵信息(如臨床術語及其屬性、治療方案等),以便自動生成電子病歷(emr),從而減輕醫生撰寫敘述性報告的負擔。早期的研究引入了基于啟發式規則(如字符匹配、正則表達式等)的信息抽取方法,但效果不理想。為了捕捉實體對之間更復雜的相互依賴關系,最近的研究旨在通過外部模塊增強信息抽取模型,如logicre基于sota規則的框架,首先根據訓練好的神經模型的輸出對數來學習邏輯規則,然后通過學習好的規則來細化神經模型的預測關系;milr首先從帶注釋的數據中學習邏輯規則,然后訓練一個因反映違反學習到的規則而被輔助損失懲罰的神經模型。然而,上述兩個框架由于其管道式特性而存在錯誤傳播問題。
3、大型語言模型(llm)以其強大的推理和語言能力,結合廣泛的知識儲備,展示了在醫療信息抽取領域的巨大潛力,這些模型能夠理解多樣化的術語表述并按照預定的規則進行高效的信息抽取。然而,現有的基于llm信息抽取的研究主要圍繞實體關系抽取,在醫療對話數據上的診療流程挖掘仍待探索。如何設計合理的抽取方法,從互聯網醫院對話數據中抽取診療流程,以滿足科學決策支持的需要,仍是一個具有挑戰性的問題。
4、綜上所述,亟需一種能夠基于醫療對話數據實現診療流程挖掘的方法來解決上述問題。
技術實現思路
1、有鑒于此,本發明提出了一種基于互聯網醫院對話數據的診療流程挖掘方法。第一,為解決傳統管道式框架抽取方法存在錯誤傳播問題,本發明提出一種基于llm的審查機制,依據先驗規則,在融合階段前進行過濾,阻斷抽取階段的錯誤傳播。第二,為解決現階段缺少基于醫療對話的診斷流程挖掘方法,本發明提出一種面向對話數據的基于大模型的多階段抽取融合的診療流程挖掘方法,能夠識別實體在對話中的物理位置和邏輯關系,抽取子鏈再經過過濾、融合策略生成高質量的流程鏈路。一種基于互聯網醫院對話數據的診療路徑挖掘方法,包括以下步驟:
2、獲取醫療對話數據,對數據進行預處理;設計指令引導大語言模型對醫患對話中的醫學實體進行識別與標注,為每個醫學實體分配一個預先設定的標簽;醫學實體在本發明中被細分為四類,分別是:特征、檢查、疾病和治療;通過大語言模型分析實體之間的上下文關系,提取具有邏輯關聯性的子鏈;對子鏈進行嚴格審查和邏輯規則過濾,確保其醫學合理性和臨床意義;融合各子鏈,生成標準化的診療路徑。
3、所述預處理包括:去除噪聲數據:使用自然語言處理(nlp)技術剔除無關內容,包括系統提示、無意義停頓、重復語句、表情符號、無關話題;去除敏感信息:對涉及患者隱私的信息進行脫敏處理;去除冗余信息:合并重復的咨詢問題或多次詢問相同癥狀的內容;標準化表達:統一醫學術語格式;存儲格式優化:將清洗后的數據轉化為易于分析的結構化格式。
4、所述融合包括:遍歷疾病集合,融合疾病相同的檢查-疾病和疾病-治療子鏈,再基于檢查集合,融合檢查相同的特征-檢查和檢查-疾病子鏈,形成從特征到檢查,再從檢查到疾病到治療的主鏈;對于剩余的孤立子鏈,首先計算子鏈中的節點與主鏈中對應標簽的節點之間的相似度,如果相似度超過預設閾值,再交由大模型判斷該子鏈是否可以與主鏈融合;如果相似度未達到閾值,則直接舍棄該子鏈;最終形成完整的診療流程。
5、所述設計指令引導大語言模型對醫患對話中的醫學實體進行識別與標注,為每個醫學實體分配一個預先設定的標簽;醫學實體在本發明中被細分為四類,分別是:特征、檢查、疾病和治療;包括:將醫學實體分為特征、檢查、疾病、治療四類;特征為:癥狀、體征或臨床表現,至少包括頭痛、發熱;檢查為:醫學檢查或測試,至少包括血液檢查、ct掃描;疾病為:醫生作出的診斷,至少包括肺炎、糖尿病;治療為:治療方案,至少包括藥物、手術、物理療法、生活方式調整、生活方式調整;使用llm自動提取文本中的醫學實體;對每個識別出的實體分配預定義標簽;將同義詞或不同表達形式的醫學術語統一。
6、通過大語言模型分析實體之間的上下文關系,提取具有邏輯關聯性的子鏈,包括:使用模型分析對話上下文,識別實體之間的潛在邏輯關系;將相似或多樣化表達的子鏈進行標準化處理,保留頻繁出現的子鏈,過濾低頻次的特異性子鏈。設置頻次閾值,保留具有廣泛代表性的子鏈;刪除孤立的、缺乏統計學意義的子鏈。
7、對子鏈進行嚴格審查和邏輯規則過濾,確保其醫學合理性和臨床意義,包括:定義約束集合?c={癥狀→檢查,檢查→疾病,疾病→治療},確保子鏈符合醫學診療邏輯;使用醫學知識庫和臨床指南驗證子鏈的合理性。剔除以下異常子鏈:缺少檢查環節:直接從“癥狀→疾病”;錯誤順序:“治療→疾病”。
8、本發明第二方面提供了一種基于互聯網醫院對話數據的診療路徑挖掘系統,包括:
9、預處理單元,獲取醫療對話數據,對數據進行預處理;實體標記單元,設計指令引導大語言模型對醫患對話中的醫學實體進行識別與標注,為每個醫學實體分配一個預先設定的標簽;醫學實體在本發明中被細分為四類,分別是:特征、檢查、疾病和治療;子鏈抽取單元,通過大語言模型分析實體之間的上下文關系,提取具有邏輯關聯性的子鏈;審查過濾單元,對子鏈進行嚴格審查和邏輯規則過濾,確保其醫學合理性和臨床意義;子鏈融合單元,融合各子鏈,生成標準化的診療路徑。
10、本發明第三方面提供了一種電子設備,包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;所述至少一個處理器調用所述存儲器中的所述指令,以使得所述電子設備執行上述的如上所述的基于互聯網醫院對話數據的診療路徑挖掘方法。
11、本發明的第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執行上述的如上所述的基于互聯網醫院對話數據的診療路徑挖掘方法。
12、本發明具有以下有益效果:
13、本發明針對醫療信息抽取領域,提出了一種新穎的基于互聯網醫院對話數據的診療流程挖掘方法,解決了傳統管道式框架抽取方法存在錯誤傳播問題。此外,該方法基于獨特的審查機制和多階段的大模型抽取融合策略,有效地挖掘了醫療對話中的診療流程,不僅符合醫學領域的規范,還具備較強的可操作性和普適性。
1.一種基于互聯網醫院對話數據的診療路徑挖掘方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于互聯網醫院對話數據的診療路徑挖掘方法,其特征在于,所述預處理包括:
3.根據權利要求1所述的一種基于互聯網醫院對話數據的診療路徑挖掘方法,其特征在于,所述設計指令引導大語言模型對醫患對話中的醫學實體進行識別與標注,為每個醫學實體分配一個預先設定的標簽;包括:
4.根據權利要求1所述的一種基于互聯網醫院對話數據的診療路徑挖掘方法,其特征在于,所述通過大語言模型分析實體之間的上下文關系,提取具有邏輯關聯性的子鏈,包括:
5.根據權利要求1所述的一種基于互聯網醫院對話數據的診療路徑挖掘方法,其特征在于,所述對子鏈進行審查和邏輯規則過濾,確保其醫學合理性和臨床意義,包括:
6.一種基于互聯網醫院對話數據的診療路徑挖掘系統,其特征在于,所述系統包括:
7.一種電子設備,所述電子設備包括存儲器和至少一個處理器,所述存儲器中存儲有指令;
8.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有指令,其特征在于,所述指令被處理器執行時實現如權利要求1-5中任一項所述基于互聯網醫院對話數據的診療路徑挖掘方法的各個步驟。