麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于管道的中文篇章結構分析方法及系統與流程

文檔序號:11250874閱讀:627來源:國知局
一種基于管道的中文篇章結構分析方法及系統與流程

本發明涉及一種基于管道的中文篇章結構分析方法及系統,屬于自然語言處理應用技術領域。



背景技術:

一般來說,沒有任何一個文本單元是完全孤立的,通常是通過將其與上下文中的其它文本單元相連接來理解。這些單元可以是子句,句子甚至段落。當文本單元之間相互關聯,該文本就會更容易理解。篇章結構分析旨在揭示文本中的這種關系,從而從整體上把握篇章,有助于自動摘要,信息檢索和自動問答等諸多下游應用。近年來,相較于英文篇章結構分析研究的飛速發展,中文篇章結構分析目前正處于起步階段。目前對中文篇章的研究多是借鑒西方現代篇章語言學理論和分析模式,沒有建立適合自身特點的理論體系和計算方法。除此以外,由于中文篇章結構分析發展的滯后,完整的中文篇章結構自動分析工具的研究與實踐都相對匱乏。一般來說,中文篇章關系分析系統在結構上與英文篇章關系分析系統類似,都需要以下步驟:顯式連接詞判定、基本篇章單元劃分、顯式篇章關系標注和隱式篇章關系標注。在傳統的方法中,篇章分析系統將以上步驟視為不同的子模塊,按照級聯的形式將各個子模塊拼接在一起形成完整的管道式系統。這種管道系統的弊端在于其存在較大的錯誤傳遞問題,連接詞識別中的噪聲往往會影響連接詞識別的準確率,導致連接詞判定模塊會將錯誤的連接詞傳遞給后續的篇章單元劃分及顯式關系標注,從而導致系統整體性能下降。

隱式篇章關系的判別是篇章結構分析中的重點及難點,從篇章標注語料匱乏時期的無監督學習,到如今基于深度學習的方法,針對隱式篇章關系分析的研究逐步深入。然而,不論是基于特征提取的隱式篇章關系判別還是基于深度學習的方法,隱式關系判別中存在的標注語料匱乏和篇章關系分布不平衡的問題依然沒得到緩解。

因此,目前迫切需要一個較為高效的中文篇章結構分析方法,在緩解傳統端到端系統中存在的錯誤傳遞問題的同時,針對篇章語料中篇章關系分布不平衡問題提出有效的緩解方法,以提升隱式篇章關系判別的性能,最終為后續自然語言處理任務帶去便利。



技術實現要素:

本發明的目的是為解決以往中文篇章結構分析中存在的傳統端到端系統的方法沒有考慮中文語言特點的問題,傳統管道系統方法中錯誤傳遞問題,中文隱式篇章關系判別中語料分布不平衡問題。針對上述問題,本發明提出基于管道的中文篇章結構分析方法,根據中文篇章結構的特點,實現對動態特征的建模用以提高關系判別準確率。與傳統端到端系統不同的是,本發明提出了一體化顯式篇章關系分析方法以緩解管道系統中存在的錯誤傳遞問題,與此同時,針對中文隱式篇章關系語料的不平衡問題,本發明提出了基于排序學習的中文隱式篇章關系分析方法以提升中文隱式篇章關系判別精度。

本發明技術方案的思想是:首先,根據中文篇章語料庫具有層次性這個特點,以自然段為單元,自下而上的分別處理句內和句間關系,使得預測句間或更高層次篇章關系時可以動態地利用已識別的句內關系,以此做到對動態特征的建模;其次,將傳統端到端系統中的顯式篇章關系分析中的三個子任務:篇章連接詞判定、論元劃分和顯式關系判別整合為一個任務,轉化為一個序列標注問題并加以實現,緩解了傳統管道系統中的錯誤傳遞問題;最后,采用排序學習的方法平衡隱式篇章關系語料,以簡單多分類結果中各關系的偏離情況作為基礎打分規則,論元長度為偏置,將傳統二分類中的0、1標簽變更為0-1之間的實數標簽,采用pairwise算法實現。

本發明的具體技術方案如下:

一種基于管道的中文篇章結構分析方法,該方法包括以下步驟:

步驟一、進行語料預處理:對輸入的語料,進行中文分詞、中文詞性標注、句法分析;

步驟二、進行篇章連接詞閉集構建:統計中文篇章關系樹庫(chinesediscousetreebank,cdtb)語料中所出現過的所有篇章連接詞,將其制成一個篇章連接詞表,在構建過程中僅保留在語料庫中出現次數高于設定頻次閾值的篇章連接詞,最終形成連接詞閉集;

步驟三、進行詞的embedding表示:使用大規模語料庫訓練word2vec,將每個單詞映射到向量空間的低維向量,從而表示每個單詞的語義;

步驟四、構建一體化顯式篇章分析模型:對步驟一處理過的分詞文本進行序列標注的訓練得到顯式篇章一體化分析模型,在該模型中可同時完成篇章連接詞識別、論元劃分以及篇章關系標注三項任務;

實現步驟如下:

(1)首先設定標注集合,在一體化顯式關系標注中,需要同時對連接詞、論元以及篇章關系進行標注,所以設定標注分類為:

1)arg1:該詞為論元1的一部分。

2)arg2:該詞為論元2的一部分。

3)expansion:該詞為篇章連接詞,且該句為擴展關系。

4)temporal:該詞為篇章連接詞,且該句為時序關系。

5)comparison:該詞為篇章連接詞,且該句為轉折關系。

6)contingency:該詞為篇章連接詞,且該句為因果關系。

7)0:該詞既不為篇章連接詞,也不屬于任何論元的部分。

(2)提取上下文特征以用于分類器的訓練及測試,所提特征為詞法特征和句法特征;

(3)將上述步驟中獲得的數據輸入到crf++工具中,參數采用默認參數值,得到顯式關系分析結果,輸出至explicitrelation文件中。

步驟五、進行有用詞對抽取:在訓練語料的論元中分別抽取一詞作為詞對,統計各詞在各篇章類別中的信息增益值大小,選取高于閾值的詞對構建有用詞對表;

步驟六、構建排序語料打分機制:對于正樣本,設定其標簽為1;對于負樣本,按照其偏離正樣本的程度對其進行打分,分數范圍為0-1之間的實數,得到分類語料;

步驟七、構建基于排序學習的隱式篇章關系分類器:將步驟六中的得到的語料輸入分類器中最終得到打分預判結果。

步驟八、識別完成:將所得到的結果進行輸出,輸出文件中包含篇章連接詞、論元以及篇章關系類別。

一種基于管道的中文篇章結構分析系統,包括:

預處理模塊:對于輸入的語料,進行包括中文分詞、中文詞性標注以及句法分析,分別將處理結果存入三個中間文件,以供連接詞識別模塊、句內關系處理模塊及句間關系處理模塊調用;

連接詞識別模塊:輸入來自于預處理模塊處理后的中文分詞文件、中文詞性標注文件、句法分析文件,其中,中文詞性標注及句法分析文件用于連接詞分類過程中特征的提取。該模塊將中文分詞文件中的單詞進行連接詞的識別,并將識別后的連接詞進行分類,將其分為句內連接詞及句間連接詞,按照其類別分別輸出為兩個中間文件,并分別供句內關系處理模塊和句間關系處理模塊調用;

句內關系處理模塊:輸入來自于預處理模塊處理后的中文分詞文件及連接詞識別模塊處理后的句內連接詞文件。該模塊內部包括句內顯式篇章分析模塊及句內隱式篇章分析模塊,其中句內顯式篇章分析模塊用于句內顯式論元提取及句內顯式關系判別,其輸入與句內關系處理模塊的輸入一致,輸出為句內顯式篇章分析文件,文件中包含有句內連接詞識別結果、句內顯式論元判別結果、句內顯式關系判別結果;句內隱式篇章分析模塊用于句內隱式論元提取及句內隱式關系判別,其輸入除了句內關系處理模塊的輸入以外,還包含了句內顯式篇章分析文件,輸出為句內隱式篇章分析文件,文件中包含有句內隱式論元判別結果及句內隱式關系判別結果。該模塊兩個輸出文件流向句間關系處理模塊及輸出模塊。

句間關系處理模塊:輸入來自于預處理模塊處理后的中文分詞文件、連接詞識別模塊處理后的句間連接詞文件、句內關系處理模塊處理后的句內顯式篇章分析文件及句內隱式篇章分析文件。該模塊內部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊,其中句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關系判別,其輸入與句間關系處理模塊的輸入一致,輸出為句間顯式篇章分析文件,文件中包含有句間連接詞識別結果、句間顯式論元判別結果、句間顯式關系判別結果;句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關系判別,其輸入除了句間關系處理模塊的輸入以外,還包含了句間顯式篇章分析文件,輸出為句間隱式篇章分析文件,文件中包含有句間隱式論元判別結果及句間隱式關系判別結果。該模塊的兩個輸出文件流向輸出模塊。

輸出模塊:輸入句內關系處理模塊和句間關系處理模塊處理后的文件。最終輸出為一個文件,該文件中包含有對于輸入文檔的篇章結構分析結果。

有益效果

對比現有技術,本發明具有以下有益效果:

(1)以中文篇章結構分析為出發點,本發明彌補了現有研究中完整的中文篇章結構自動分析工具缺失的問題,并根據中文篇章結構的特點進行了針對性設計,使系統能夠完成動態特征的建模;

(2)通過一體化顯式關系分析方法,緩解了傳統管道中存在的錯誤傳遞問題,全面提升了各項子模塊的性能;

(3)對于隱式篇章關系判別中存在的語料分布不平衡的現象,通過排序學習的思想對其進行有效的緩解,提升了關系判別精度。

附圖說明

圖1為本發明實施例提供的方法及系統架構圖。

圖2為本發明實施例提供的基于管道的中文篇章結構分析系統中句內關系處理模塊和句間關系處理模塊的結構示意圖。

具體實施方式

下面結合附圖和實施例,對本發明提供的一種基于管道的中文篇章結構分析方法及裝置作進一步詳細說明。

本發明實施例提供的一種基于管道的中文篇章結構分析方法架構如圖1所示,具體實現過程如下:

根據步驟一,進行語料預處理,實現步驟如下:

(1)對于輸入文本,使用fudannlp進行中文分詞以及詞性標注,所得結果分別保存在文件raw和文件pos作為后續使用;

(2)對于輸入文本,使用stanfordparser進行句法分析,分析后結果存入parser文件以供后續使用。

根據步驟二,進行篇章連接詞閉集的構建,實現步驟如下:

(1)統計cdtb語料中所有出現過的篇章連接詞,以及每個連接詞出現的次數,將結果存入連接詞詞表文件中;

(2)對于(1)中的每一個連接詞,剔除出現次數低于10次的篇章連接詞,最終形成一個僅包含141個篇章連接詞的連接詞閉集,結果存入篇章連接詞閉集文件中。

根據步驟三,進行詞的embedding表示,實現步驟如下:

(1)獲取訓練語料,獲取新華社中文新聞語料2.21gb,在每一句最后加入句子結尾標記<end>,作為后續輸入;

(2)使用word2vec工具訓練詞向量,選擇cbow模型,輸出維度為200,學習率設置為1e-3,窗口大小設置為5,訓練之后得到詞向量文件。

根據步驟四,構建一體化顯式篇章分析模型,實現步驟如下:

(1)首先設定標注集合,在一體化顯式關系標注中,需要同時對連接詞、論元以及篇章關系進行標注,所以設定標注分類為:

1)arg1:該詞為論元1的一部分。

2)arg2:該詞為論元2的一部分。

3)expansion:該詞為篇章連接詞,且該句為擴展關系。

4)temporal:該詞為篇章連接詞,且該句為時序關系。

5)comparison:該詞為篇章連接詞,且該句為轉折關系。

6)contingency:該詞為篇章連接詞,且該句為因果關系。

7)0:該詞既不為篇章連接詞,也不屬于任何論元的部分。

(2)提取上下文特征以用于分類器的訓練及測試,所提特征為詞法特征和句法特征,具體的特征為:

(3)將上述步驟中獲得的數據輸入到crf++工具中,參數采用默認參數值,得到顯式關系分析結果,輸出至explicitrelation文件中。

根據步驟五,進行有用詞對的抽取,實現步驟如下:

(1)設置訓練語料集合t的隱式篇章關系數為n,某個類別的數量用ni表示,其中i∈{1,2,3,4},分別為comparison,contingency,expansion和temporal,

(2)遍歷訓練語料集合t,針對每一詞對t,分別統計出現在對應類別的隱式篇章關系的頻數ti,i∈{1,2,3,4};

(3)計算對應詞對的信息增益值,計算公式如下:

其中,ig(t)表示詞對t的信息增益值,h(n)表示類別n的熵,h(n|t)表示條件熵。針對每一詞對,均可計算出該詞對對于隱式篇章關系分類的貢獻程度,將所有詞對按照信息增益值大小排序,選取ig(t)值不小于1e-5的詞對構成有用詞對集合t'。

根據步驟六,構建排序語料打分機制,其實現步驟如下:

(1)首先使用傳統四分類的方法對各類關系進行偏差統計:提取語料中各論元的詞對特征,用步驟五中的有用詞對表進行有用詞對的篩選,并用步驟三中的詞向量表將詞對轉化為詞對向量,使用svm分類得到四分類結果;

(2)統計在cdtb語料中四類篇章關系的論元平均長度,將四類關系分別存入四個不同的文件中,分別遍歷得到結果以供后續使用;

(3)對于(1)中所得分類結果,按照其偏離程度分別設定偏離的基礎分,并采用(2)中的結果對偏離基礎分進行修正,以完成對訓練樣本的構造。

根據步驟七,進行基于排序學習的隱式篇章關系分類器的構建,具體過程為:

(1)提取論元的相關特征,包括顯式篇章關系結果、論元長度特征、有用詞對數量特征、有用詞對特征及句法特征;

(2)使用上述步驟六中的打分機制對(1)中的語料進行打分,構建訓練語料;

(3)輸入至svmrank工具中進行訓練,得到模型,并使用該模型對測試語料進行打分;

(4)選取打分高于0.8分的樣本為正樣本,低于0.8分的樣本為負樣本,得到分類結果,并輸出至implicitrelation文件中。

基于同一發明構思,本發明實施例中還提供了一種基于管道的中文篇章結構分析系統,由于該裝置解決問題的原理與前述一種基于管道的中文篇章結構分析方法相似,因此該裝置的實施可以參見方法的實施,重復之處不再贅述。

本發明實施例提供的一種基于管道的中文篇章結構分析系統,包括:

預處理模塊:對于輸入的語料,對其進行包括中文分詞、中文詞性標注以及句法分析,分別將處理結果存入三個中間文件raw、pos、parser以供連接詞識別模塊、句內關系處理模塊及句間關系處理模塊調用;

連接詞識別模塊:用于連接詞的識別及初分。該模塊的輸入來自于預處理模塊處理后的中文分詞文件raw、中文詞性標注文件pos、句法分析文件parser,其中pos和parser文件用于連接詞分類過程中特征的提取。該模塊將中文分詞文件中的單詞進行連接詞的識別,并將識別后的連接詞進行分類,將其分為句內連接詞及句間連接詞,按照其類別分別輸出為兩個中間文件ss和ps,并分別供句內關系處理模塊和句間關系處理模塊調用;

句內關系處理模塊:用于句內篇章結構分析。該模塊的輸入來自于預處理模塊處理后的中文分詞文件raw及連接詞識別模塊處理后的句內連接詞文件ss。該模塊內部包括句內顯式篇章分析模塊及句內隱式篇章分析模塊,其中句內顯式篇章分析模塊用于句內顯式論元提取及句內顯式關系判別,其輸出為句內顯式關系處理文件explicit_ss,文件中包含有句內連接詞識別結果、句內顯式論元判別結果、句內顯式關系判別結果;句內隱式篇章分析模塊用于句內隱式論元提取及句內隱式關系判別,其輸出為句內隱式關系處理文件implicit_ss,文件中包含有句內隱式論元判別結果及句內隱式關系判別結果。

所述句內關系處理模塊,如圖2所示,其句內顯式篇章關系判別的結果作為輸入流向句內隱式篇章分析模塊,同時地,句內關系處理模塊中句內顯式篇章關系判別結果以及句內隱式篇章關系判別結果均作為輸入流向句間關系處理模塊。

進一步地,本發明實施例提供的基于管道的中文篇章結構分析裝置,還包括句間關系處理模塊。

句間關系處理模塊:用于句間篇章結構分析。該模塊的輸入來自于預處理模塊處理后的中文分詞文件raw、連接詞識別模塊處理后的句間連接詞文件ps、句內關系處理模塊處理后的句內顯式篇章分析文件explicit_ss及句內隱式篇章分析文件implicit_ss。該模塊內部包括句間顯式篇章分析模塊及句間隱式篇章分析模塊,其中句間顯式篇章分析模塊用于句間顯式論元提取及句間顯式關系判別,輸出為句間顯式篇章分析文件explicit_ps,文件中包含有句間連接詞識別結果、句間顯式論元判別結果、句間顯式關系判別結果;句間隱式篇章分析模塊用于句間隱式論元提取及句間隱式關系判別,輸出為句間隱式篇章分析文件implicit_ps,文件中包含有句間隱式論元判別結果及句間隱式關系判別結果。

所述句間關系處理模塊,如圖2所示,其句間顯式關系判別的結果作為輸入流向句間隱式篇章分析模塊。

進一步地,本發明實施例提供的基于管道的中文篇章結構分析裝置,還包括輸出模塊。

輸出模塊:用于對已判別的關系進行輸出。該模塊的輸入來自于句內關系處理模塊和句間關系處理模塊。最終輸出為一個文件output,該文件中包含有對于輸入文檔的篇章結構分析結果。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 顺义区| 葫芦岛市| 玉树县| 衡山县| 东兰县| 高密市| 礼泉县| 普兰店市| 凌海市| 康平县| 湘潭市| 利津县| 寻乌县| 邓州市| 双桥区| 东乡| 镇沅| 都匀市| 龙游县| 通化县| 平顶山市| 南木林县| 民权县| 文水县| 波密县| 深水埗区| 连城县| 砀山县| 来凤县| 西华县| 安龙县| 平江县| 土默特右旗| 天峨县| 北辰区| 镇安县| 鄱阳县| 涪陵区| 温州市| 建德市| 江北区|