麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種面向軍事領(lǐng)域的事件論元抽取方法

文檔序號(hào):41744571發(fā)布日期:2025-04-25 17:28閱讀:4來源:國知局
一種面向軍事領(lǐng)域的事件論元抽取方法

本發(fā)明涉及事件論元抽取,特別涉及一種面向軍事領(lǐng)域的事件論元抽取方法。


背景技術(shù):

1、在自然語言處理領(lǐng)域中,事件論元抽取是一項(xiàng)核心任務(wù),而事件論元抽取旨在從文本內(nèi)容中辨識(shí)并獲取與特定事件相關(guān)的參與元素信息。在許多應(yīng)用場(chǎng)景中,如新聞文本分析和信息抽取中,準(zhǔn)確提取事件論元對(duì)于理解文本中的事件信息至關(guān)重要。

2、當(dāng)前事件論元抽取的主要方法分為三種,第一種是基于規(guī)則的事件論元抽取方法,第二種是基于統(tǒng)計(jì)的的事件論元抽取方法,第三種是二者混合使用的混合型事件論元抽取方法,基于規(guī)則的事件論元抽取方法往往需要大量人工預(yù)先標(biāo)注好的數(shù)據(jù),并且不能很好的面對(duì)語言的多樣性,而基于統(tǒng)計(jì)的事件論元抽取方法,例如隱馬爾可夫模型(hmm)和條件隨機(jī)場(chǎng)(crf),盡管能更好地捕捉復(fù)雜的語言特性,但在準(zhǔn)確率和召回率方面仍面臨挑戰(zhàn)。

3、近年來,基于深度學(xué)習(xí)的模型,如bert、bilstm-crf和transformer模型,取得了顯著的進(jìn)展,但這些模型在處理領(lǐng)域特定的事件抽取任務(wù)時(shí)仍存在一些挑戰(zhàn),例如,bert雖然能夠捕捉上下文信息,但在特定領(lǐng)域,如軍事領(lǐng)域,可能仍未能充分解決事件論元的抽取問題,與此同時(shí),多標(biāo)記實(shí)體識(shí)別和多任務(wù)學(xué)習(xí)的應(yīng)用也顯示出了其在提升模型性能方面的潛力,但如何將這些方法有效結(jié)合以應(yīng)對(duì)特定領(lǐng)域的需求仍然是一個(gè)亟待解決的問題,為此我們提出一種面向軍事領(lǐng)域的事件論元抽取方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種面向軍事領(lǐng)域的事件論元抽取方法,該事件論元抽取方法結(jié)合了多標(biāo)記實(shí)體分類器和多任務(wù)學(xué)習(xí)機(jī)制,通過提升對(duì)事件論元的識(shí)別能力,尤其是在軍事領(lǐng)域的應(yīng)用中,提供了更高的準(zhǔn)確性和召回率。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種面向軍事領(lǐng)域的事件論元抽取方法,包括如下具體步驟:

3、步驟一、獲取數(shù)據(jù):獲取一定量數(shù)據(jù),并對(duì)獲取的數(shù)據(jù)進(jìn)行處理;

4、步驟二、定義標(biāo)注規(guī)則:以規(guī)范爭議性語料的標(biāo)注,確保標(biāo)注質(zhì)量和減少標(biāo)注難度,標(biāo)注符合信息分析主題且具有明確語義的事件;

5、步驟三、引入多標(biāo)記實(shí)體分類器:將實(shí)體標(biāo)注為單標(biāo)記或多標(biāo)記類型;

6、步驟四、引入多標(biāo)記實(shí)體導(dǎo)向注意力機(jī)制:將帶有多標(biāo)記實(shí)體的句子輸入文檔級(jí)編碼器,使用多標(biāo)記實(shí)體導(dǎo)向注意力機(jī)制區(qū)分實(shí)體重要性,并結(jié)合句子級(jí)上下文信息和文檔級(jí)特征;

7、步驟五、序列標(biāo)注:使用融合機(jī)制將得到的融合特征輸入到條件隨機(jī)場(chǎng)(crf)層中進(jìn)行序列標(biāo)注,以抽取事件論元;

8、步驟六、聯(lián)合訓(xùn)練:以事件論元抽取為主任務(wù),將命名實(shí)體邊界檢測(cè)作為輔助任務(wù)進(jìn)行聯(lián)合訓(xùn)練;

9、步驟七、使用bert模型進(jìn)行編碼:通過多任務(wù)學(xué)習(xí)的參數(shù)共享機(jī)制,結(jié)合命名實(shí)體邊界信息來提升事件論元抽取的性能;

10、步驟八、捕捉上下文并對(duì)文檔進(jìn)行編碼:使用全局和局部編碼器捕捉不同范圍的上下文,并對(duì)文檔進(jìn)行編碼;

11、步驟九、構(gòu)建全局amr圖和局部amr圖:通過amr引導(dǎo)模塊刺激文檔中概念之間的交互,使用信息融合模塊融合雙流表示。

12、優(yōu)選的,所述步驟二中定義標(biāo)注規(guī)則時(shí),還通過詞形還原和可信觸發(fā)詞集來預(yù)處理數(shù)據(jù)。

13、優(yōu)選的,所述步驟四中,具體使用多重編碼機(jī)制動(dòng)態(tài)融合文本的句子級(jí)特征和文檔級(jí)特征。

14、優(yōu)選的,所述步驟四中,使用改進(jìn)的第一層圖注意力網(wǎng)絡(luò)模型處理實(shí)例嵌入初始化矩陣和關(guān)系嵌入初始化矩陣,獲得第一層實(shí)例嵌入優(yōu)化矩陣。

15、優(yōu)選的,所述步驟一中,獲取數(shù)據(jù)具體辦法為:從公開語料或者特定網(wǎng)站爬取數(shù)據(jù),并且對(duì)數(shù)據(jù)進(jìn)行整合,隨后通過以刪除無效或缺失數(shù)據(jù)的方式對(duì)數(shù)據(jù)進(jìn)行清洗。

16、優(yōu)選的,所述步驟九中,通過信息融合模塊將兩種流表示融合,并通過邊界損失增強(qiáng)邊界信息。

17、優(yōu)選的,所述多標(biāo)記實(shí)體導(dǎo)向注意力機(jī)制計(jì)算公式為:

18、attention(t,e)=softmax(leakyrelu(watt·[t;e]))

19、其中,watt為線性變換矩陣,[t;e]表示觸發(fā)詞和實(shí)體的拼接操作。

20、優(yōu)選的,所述多任務(wù)學(xué)習(xí)的損失函數(shù)為:

21、loss=lossmain+λ·lossaux

22、其中,lossmain為事件論元抽取的主任務(wù)損失,lossaux為命名實(shí)體邊界檢測(cè)的輔助任務(wù)損失。

23、優(yōu)選的,所述雙流編碼的全局和局部上下文信息融合計(jì)算公式為:

24、fusedrepresentation=concat(globalencoder(x),localencoder(x))

25、式中concat表示將全局編碼器和局部編碼器的輸出結(jié)果拼接,globalencoder(x)和localencoder(x)分別表示對(duì)文檔進(jìn)行全局和局部編碼的結(jié)果。

26、優(yōu)選的,所述amr圖的構(gòu)建公式為:

27、amrgraph=constructamr(x,interactions)

28、式中constructamr函數(shù)用于根據(jù)文檔中的概念交互構(gòu)建全局和局部amr圖,interactions表示概念間的交互信息。

29、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):

30、(1)通過多標(biāo)記實(shí)體分類器對(duì)文檔中的實(shí)體進(jìn)行分類,將其分為多標(biāo)記實(shí)體和單標(biāo)記實(shí)體,以解決同一軍事實(shí)體在不同句子中表述不一致導(dǎo)致的標(biāo)簽混亂問題,其次,采用基于多任務(wù)學(xué)習(xí)的模型,將命名實(shí)體邊界檢測(cè)任務(wù)作為輔助任務(wù),將角色信息融入事件論元抽取主任務(wù)中,通過輔助任務(wù)對(duì)實(shí)體邊界信息的學(xué)習(xí)來指導(dǎo)和優(yōu)化主任務(wù),實(shí)體邊界的精確識(shí)別可以直接促進(jìn)論元角色的正確分配,從而提升事件論元抽取的準(zhǔn)確性,最后,利用基于amr和雙流編碼的模型,捕獲語義特征,通過amr圖反映論元與觸發(fā)器之間的長程依賴關(guān)系,并結(jié)合全局編碼器和局部編碼器的雙流編碼,充分利用上下文信息以增強(qiáng)事件論元的提取效果,該方法旨在提升軍事事件論元抽取的精度與魯棒性,特別是在復(fù)雜文本環(huán)境下的表現(xiàn);

31、(2)通過基于多標(biāo)記實(shí)體的篇章級(jí)論元抽取方法,方便在模型中引入多標(biāo)記實(shí)體分類器,將句子中的實(shí)體標(biāo)注為單標(biāo)記和多標(biāo)記兩種類型,其次,將帶有多標(biāo)記實(shí)體的句子輸入到文檔級(jí)編碼器中,使用多標(biāo)記實(shí)體導(dǎo)向注意力機(jī)制區(qū)分文檔中不同實(shí)體的重要程度,最后,使用融合機(jī)制來動(dòng)態(tài)的融合句子級(jí)的上下文信息和文檔級(jí)特征,并將得到的融合特征輸入到crf層中進(jìn)行序列標(biāo)注,抽取出事件論元;

32、(3)通過基于多標(biāo)記實(shí)體導(dǎo)向注意力機(jī)制的篇章級(jí)艦船事件論元抽取模型,方便對(duì)事件論元抽取任務(wù)和命名實(shí)體邊界檢測(cè)任務(wù)進(jìn)行聯(lián)合訓(xùn)練,通過適應(yīng)不同任務(wù)獲取共享表示,利用實(shí)體邊界信息強(qiáng)化對(duì)事件論元的理解,指導(dǎo)生成共享語義信息編碼,提升模型事件論元抽取的準(zhǔn)確率;

33、(4)通過基于雙流編碼和amr的事件論元抽取流程,方便使用具有不同注意力接收字段的全局和局部編碼器來捕捉待抽取文檔的不同范圍內(nèi)的上下文,并對(duì)文檔進(jìn)行編碼,通過amr引導(dǎo)模塊構(gòu)建全局amr圖和局部amr圖,刺激文檔中概念之間的交互,尤其是那些相距較遠(yuǎn)的概念,使用信息融合模塊融合兩種流表示,并通過邊界損失來增強(qiáng)邊界信息,最后,使用分類模塊對(duì)候選跨度進(jìn)行預(yù)測(cè)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 新河县| 金沙县| 鹤山市| 上栗县| 赤峰市| 江安县| 福州市| 克拉玛依市| 博兴县| 凤翔县| 寿光市| 沅江市| 岳西县| 若尔盖县| 海城市| 闽侯县| 寿光市| 隆德县| 威宁| 武强县| 怀仁县| 滕州市| 石阡县| 白玉县| 镇雄县| 浙江省| 翁源县| 定西市| 周至县| 芷江| 晋城| 吐鲁番市| 堆龙德庆县| 大余县| 凤凰县| 永顺县| 洮南市| 龙江县| 稷山县| 连南| 宜城市|