麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于度量學習的醫學知識圖譜構建方法及系統

文檔序號:41742340發布日期:2025-04-25 17:22閱讀:5來源:國知局
一種基于度量學習的醫學知識圖譜構建方法及系統

本發明屬于知識圖譜構建,涉及一種基于度量學習的醫學知識圖譜構建方法及系統。


背景技術:

1、當今信息時代的數據量呈爆炸式增長,如何有效整合和表示海量數據成為一個重要課題。知識圖譜作為一種有效表示知識方法,將知識按照三元組(頭實體,關系,尾實體)的形式組織成圖譜,使得知識之間的聯系變得清晰可見。作為一種重要的知識組織形式,知識圖譜已廣泛應用于智能問答、自然語言理解,大數據分析、可解釋人工智能等領域,對于推動新一代人工智能技術的發展具有重要意義和價值。

2、醫學是知識圖譜應用最廣的垂直領域之一,在醫學知識圖譜中,實體通常表示醫學概念或事物,如疾病、癥狀、藥物、基因、蛋白質等,而關系則表示醫學概念或事物,如疾病類型、臨床表現、誘發病因、發病機理等。現階段,醫學知識圖譜主要用于醫學語義精準搜索、醫學問答系統、醫學輔助診斷和智能臨床決策支持等。醫學知識圖譜將知識圖譜與醫學知識結合,將互聯網技術與醫學情境融合,實現醫學數據的自動化與智能化處理。

3、構建醫學知識圖譜可為臨床輔助決策、文獻可視化分析、智能問答以及智慧搜索提供支持。人們考慮用模型從現有的醫學知識圖譜中學習知識,從而生成新的可能的醫學知識,也即當前的熱門的知識圖譜補全問題。知識圖譜補全方法通過現有三元組自動推斷新的三元組,以擴展現有知識圖譜的規模。然而,這些方法的有效性依賴于大量訓練三元組。在實際應用中,知識圖譜中的關系通常遵循長尾分布,其中大部分關系只有少數三元組。為了在有限的支持樣本情況下學習盡可能無偏和可靠的關系原型,面臨兩個主要問題:(1)如何設計針對醫學知識圖譜的數據增強策略:盡管數據增強技術在文本領域取得成功,如文獻(kumar?v,glaude?h,de?lichy?c,et?al.a?closer?look?at?feature?space?dataaugmentation?for?few-shot?intent?classification[c]//proceedings?of?the?2ndworkshop?on?deep?learning?approaches?for?low-resource?nlp.2019:1-10.)和文獻(tang?z,pei?s,zhang?z,et?al.positive-unlabeled?learning?with?adversarial?dataaugmentation?for?knowledge?graph?completion[c].intemational?joint?conferenceson?artificial?intelligence,2022.),但在醫學知識圖譜背景下的應用仍相對未被探索,原因在于醫學知識圖譜缺乏足夠的上下文信息來準確理解三元組的關系語義,使得數據轉換后難以保持語義不變性。因此,為了在保留原始關系語義的同時生成新的實體對,開發專門針對醫學知識圖譜的新數據增強技術至關重要。(2)如何生成任務關系的代表性樣本:即使有大量的支持樣本可用,獲得無偏原型仍然具有挑戰性,因為某些支持實體對在特征空間中可能離無偏原型很遠,從這些非代表性樣本中學習無偏原型會帶來困難。相比之下,即使只有少量的代表性樣本,也可以實現準確和無偏的原型,如文獻(xu?j,le?h.generatingrepresentative?samples?for?few-shot?classification[c]//proceedings?of?theieee/cvf?conference?on?computer?vision?and?pattern?recognition.2022:9003-9013.)。因此如何提出一種生成具有代表性的樣本來構建無偏關系原型的方法至關重要。


技術實現思路

1、本發明的技術方案用于解決如何利用少量的訓練數據構建醫學知識圖譜,精準地生成新的醫學知識的問題。

2、本發明是通過以下技術方案解決上述技術問題的:

3、一種基于度量學習的醫學知識圖譜構建方法,包括以下步驟:

4、s1、獲取醫學知識圖譜,構建醫學知識三元組;

5、s2、將醫學知識三元組按照關系拆分成訓練集和背景知識圖譜;

6、s3、從訓練知識圖譜中隨機抽取關系節點,并選取所述關系節點對應的部分三元組構建針對所述關系節點的支持集,利用所述關系節點其余的三元組構建詢問集,再將詢問集中的所有尾實體均替換成與自身頭實體無關聯關系的實體,從而構建負詢問集;

7、s4、選擇出具有代表性的實體對,用于指導對抗性增強網絡生成具有代表性的特征;

8、s5、利用具有代表性的實體對來訓練對抗增強網絡模型,生成實體對的代表性特征;

9、s51、構建對抗增強網絡的生成器,對對抗增強網絡施加約束,最小化目標函數來訓練生成器;

10、s52、構建對抗增強網絡的判別器;

11、s6、采用訓練好的對抗增強網絡模型增強支持集,構建關系原型,通過修正原型和詢問集中查詢實體對的語義表示之間的點積作為三元組的可信度得分;

12、s7、將現有醫學知識圖譜輸入對抗增強網絡模型中,輸出模型生成的新的醫學知識三元組的可信度得分,將得分最高的醫學知識三元組輸出,實現醫學知識圖譜構建。

13、進一步地,步驟s1中所述獲取醫學知識圖譜,構建醫學知識三元組具體為:獲取醫學知識圖譜,并根據醫學知識圖譜中的各個實體以及各實體間的關系構建醫學知識圖譜g={(h,r,t)∈ε×r×ε},其中,h表示頭實體節點,r表示關系節點,t表示尾實體節點;ε和r分別為所述醫學知識圖譜g對應的實體節點集合和關系節點集合。

14、進一步地,步驟s2中所述將醫學知識三元組按照關系拆分成訓練集和背景知識圖譜具體為:從醫學知識圖譜g中抽取部分三元組作為背景知識圖譜g′,所述背景知識圖譜g′包含關系節點集合r中的部分關系節點,關系節點集合r中剩余的關系節點所對應的三元組作為訓練知識圖譜gtrain。

15、進一步地,步驟s4中所述選擇出具有代表性的實體對具體為:給定一個訓練關系r∈rtrain,通過對屬于關系r的所有實體對的語義表示取平均值來計算其分布中心μr,所述分布中心μr的表達式如下:

16、

17、式中,|tr|為關系r的實體對的個數,為關系r的第i個實體對(hi,ti)的語義表示,作為原始特征,所述原始特征的表達式如下:

18、

19、式中,fθ(·)為預訓練的特征提取器,fθ(hi)和fθ(ti)分別為頭部實體hi和尾部實體ti的表示,分別由特征提取器fθ(·)學習得到,∨為串連操作;

20、選擇μr和(hi,ti)∈tr之間最接近距離的前m個實體對作為具有代表性的實體對,具體表達式如下:

21、

22、式中,topm(dr)為距離集dr中選擇前m個元素的操作,tr′為包含與關系r相關的m個具有代表性的實體對集合,(hn,tn)為某個最具代表性的實體對。

23、進一步地,步驟s51中所述構建對抗增強網絡的生成器具體為:

24、gφ(h;zh)=ω1(ω2(fθ(h))∨zh)

25、

26、gφ(t;zt)=ω1(ω2(fθ(t))∨zt)

27、

28、式中,ω1和ω2為兩個具有不同參數的前饋神經網絡,zh和zt為從高斯分布中采樣的隨機噪聲,為以h為輸入所合成的特征表示,為以t為輸入所合成的特征表示,n為高斯分布,zh和zt服從均值為0、方差為δi的高斯分布,為單位矩陣,其大小由噪聲輸入δ的偏差控制,d為實體表示的維數。

29、進一步地,步驟s51中所述對對抗增強網絡施加約束具體為:最小化原始特征表示與合成特征表示之間的分布距離ladvg,所述分布距離ladvg的表達式如下:

30、

31、式中,為通過在行方向上重復三次來構造與具有相同維數的矩陣,指計算判斷器在生成特征的期望輸出,是指計算判斷器在的期望輸出;

32、生成特征和正實體對之間強制執行比生成特征和負實體對之間更高的相似性lrank,所述相似性lrank的表達式如下:

33、

34、式中,[x]+=max(0,x)為鉸鏈損失,γ為邊際超參數且γ>0,·表示點積運算,(h+,t+)為正實體對,tr′+為正實體對的集合,它是tr′的一個子集,(h-,t-)為負實體對,tr′-為負實體對的集合,tr′-通過用假實體替換tr′+中實體對的尾部實體來構造。

35、進一步地,步驟s51中所述最小化目標函數來訓練生成器具體為:

36、

37、式中,為最小化目標函數,λ為超參數,用于控制兩個約束之間的權衡。

38、進一步地,步驟s52中所述構建對抗增強網絡的判別器具體為:最大化合成特征與原始特征之間的分布距離所述分布距離的表達式如下:

39、

40、式中,lgp為強制執行lipchitz約束的梯度懲罰,β為懲罰參數,ε為從均勻分布中抽取的隨機噪聲數,ε~u(0,1),表示對插值特征求判別器的梯度。

41、進一步地,步驟s6中所述構建關系原型具體為:對于給定的關系r,對抗增強網絡以其所有支持實體對的表示為輸入,生成新的特征表示,支持實體對的原始特征和合成特征被拼接形成一個擴展的特征表示,記作任務關系r的修正原型計算如下:

42、

43、式中,為中的第i個特征,ωi為增強支持樣本與原始原型之間關系的權重,所述權重ωi的表達式如下:

44、

45、式中,ε為標量參數,μr為步驟s4計算的分布中心。

46、本發明還提供一種基于度量學習的醫學知識圖譜構建系統,包括三元組構建模塊、數據集拆分模塊、數據集構建模塊、實體對選擇模塊、特征生成模塊、關系原型構建模塊、知識圖譜構建模塊:

47、所述三元組構建模塊用于獲取醫學知識圖譜,構建醫學知識三元組;

48、所述數據集拆分模塊用于將醫學知識三元組按照關系拆分成訓練集和背景知識圖譜;

49、所述數據集構建模塊用于從訓練知識圖譜中隨機抽取關系節點,并選取所述關系節點對應的部分三元組構建針對所述關系節點的支持集,利用所述關系節點其余的三元組構建詢問集,再將詢問集中的所有尾實體均替換成與自身頭實體無關聯關系的實體,從而構建負詢問集;

50、所述實體對選擇模塊用于選擇出具有代表性的實體對,指導對抗性增強網絡生成具有代表性的特征;

51、所述特征生成模塊用于利用具有代表性的實體對來訓練對抗增強網絡,生成實體對的代表性特征,具體為構建對抗增強網絡的生成器,對對抗增強網絡施加約束,最小化目標函數來訓練生成器,構建對抗增強網絡的判別器;

52、所述關系原型構建模塊用于采用訓練好的對抗增強網絡模型增強支持集,構建關系原型,通過修正原型和詢問集中查詢實體對的語義表示之間的點積作為三元組的可信度得分;

53、所述知識圖譜構建模塊用于將現有醫學知識圖譜輸入對抗增強網絡模型中,輸出模型生成的新的醫學知識三元組的可信度得分,將得分最高的醫學知識三元組輸出,實現醫學知識圖譜構建。

54、本發明的優點在于:

55、(1)本發明提供了一種原型增強框架,通過引入對抗性增強網絡來生成可信的實體對特征。相較于傳統技術對整個數據分布進行建模,本發明專注于對代表性實體對的分布進行建模,利用具有代表性的實體對訓練對抗增強網絡,生成更加精確且具有代表性的特征,顯著提升醫學知識圖譜的構建質量和有效性;生成器通過施加約束最小化目標函數進行優化,結合判別器的有效評估,形成生成對抗機制,避免過擬合,增強生成特征的真實性和可信度;采用訓練好的對抗增強網絡增強支持集,有助于構建復雜關系的原型,為醫學知識圖譜提供更準確的關系表示,推動知識挖掘和應用。

56、(2)本發明利用少量代表性樣本作為訓練數據,并提供一種針對醫學知識圖譜的數據增強框架,代表性實體對能夠確保訓練數據的相關性和有效性,從而提升生成特征的準確性和可信度,進而改善模型的整體性能,同時,本發明專注于少量代表性樣本,能夠減少數據冗余和噪聲,精準地實現醫學知識圖譜構建,并能精準地生成新的醫學知識,提高模型在未知數據上的泛化能力,從而為醫學研究、醫學教育和醫學知識管理等領域提供有力支持。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 东光县| 屏南县| 离岛区| 鄂托克前旗| 平凉市| 商水县| 灵寿县| 鹤山市| 怀宁县| 旌德县| 日土县| 潜江市| 本溪市| 沙坪坝区| 汾西县| 杭锦旗| 田东县| 罗平县| 乌兰察布市| 财经| 永新县| 黔西县| 方山县| 连城县| 津市市| 杭锦后旗| 洪江市| 汉源县| 元氏县| 道真| 海伦市| 阳新县| 夹江县| 桃园县| 开封市| 武冈市| 沅江市| 临高县| 昭平县| 澄迈县| 微山县|