麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于詞綴的用于對未知詞進行語義分類的系統的制作方法

文檔序號:6377703閱讀:409來源:國知局
專利名稱:一種基于詞綴的用于對未知詞進行語義分類的系統的制作方法
技術領域
本發明屬于自然語言處理技術領域,涉及一種基于詞綴的用于對未知詞進行語義分類的系統。
背景技術
通常,用戶能夠先獲得描述單詞的某些字典。這些字典可以描述單詞的出處(例如,通常在哪一段話中出現的等等)、語義類(例如人、事件、情感等等)、含義和例句等。對于那些沒有出現在字典中的詞我們稱為“未知詞”。一般而言,未知詞可以來源于某些新詞。在文本信息處理中,未知詞的出現常常會給用戶帶來麻煩,由于它的信息(例如例句、語義類等)的不足?!?br> 為解決上述麻煩,一種做法是用戶在未知詞出現時更新字典。但是這一做法在一般情況下很困難,原因如下(I)由于存在著很多的信息源(報紙、網絡等等),因此無法保證用戶在一未知詞首次出現時就捕捉到該詞;(2)由于字典是標準化的,對于任一未知詞都需要經過許多專家的審核、同意后才能寫入字典,因此這需要一段時間。鑒于此,對未知詞進行語義類別的猜測就成了一項很有必要的工作。本發明將關注語義類別信息。也就是,我們將試圖猜測未知詞的語義類別。

發明內容
本發明的目的在于克服上述技術缺陷,提供一種基于詞綴的用于對未知詞進行語義分類的系統。其技術方案為一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊該模塊主要用于接收來自系統外部由用戶輸入的未知詞;未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴;相似詞選擇模塊對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同詞綴部分的詞;內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度;相似詞分析模塊分析各個相似詞的構詞方式,針對其內容部分與其整體部分語義類的關系;存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合;相似度排列模塊根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類;輸出模塊用于輸出該未知詞的語義類。該系統完全基于未知詞的內容部分與相似詞內容部分的相似度,其詞綴部分對其語義類別沒有影響的情況。所述未知詞語義類的分類是完全基于同義詞詞林字典。該系統完全基于相似詞與未知詞是由其內容部分擴展而來的情況。本發明所述系統針對某一未知詞和其相似詞內容部分相似度的計算完全基于同義詞詞林相似度的計算。與現有技術相比,本發明的有益效果為本發明的方法基于詞綴研究未知詞的構詞規律,進而分析它的語義類別。也可以作為一個獨立的語法或語義成分識別系統對中文或其他基于字符的未知詞的語義分類,同時也可以與其他語言成分識別系統相結合,對其他系統輸出的結果進行分析,提高原有系 統的分析精度。本發明尤其適用于對漢語未知詞的分析,根據本發明實現的未知詞語義分類系統獲得了良好的分析效果。


圖I是本發明基于詞綴的用于對未知詞進行語義分類的系統結構框圖;圖2是示出本發明實施例I基于詞綴的未知詞語義分類的操作流程圖;圖3是示出本發明實施例2基于詞綴的未知詞語義分類的操作流程圖;圖4是示出本發明實施例3基于詞綴的未知詞語義分類的操作流出圖。
具體實施例方式下面結合附圖與具體實施方式
對本發明的技術方案作進一步詳細地說明。參照圖1,一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊該模塊主要用于接收來自系統外部由用戶輸入的未知詞;未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴;相似詞選擇模塊對于所輸入的未知同,在同義詞詞林中查找與未知詞具有相同部分的詞;內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度;存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合;相似度排列模塊根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類;輸出模塊用于輸出該未知詞的語義類。實施例I圖2的過程開始于步驟201,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本發明實施例,將各相似詞的內容部分取出,并查找它們的語義類以滿足本發明的需要。在步驟204中,輸入一未知詞w = XY,步驟205中,從所收集的相似詞集合中選擇詞根A滿足A = X或A = Y的相似詞集合,然后經206裝置計算其內容部分的相似度,最后得到未知詞的語義類。舉例來說,對于一未知詞“攝像機”,在201裝置中選擇出其相似詞集合,如“照相機”、“飛機”等。在不同部分識別單元中將他們相同的詞綴部分“機”移除,并在不同部分存儲模塊中,以[wr, parti, part2] (wr表示未知詞w的相似詞,parti表示未知詞w的內容部分,part2表示相似詞wr的內容部分)。如[照相機,攝像,照相],[飛機,攝像,飛],等等。假定在同義詞林中,C(攝像)=Hg03, C(照相)=Hg03, C(飛)=IalO,C(照相機)=Bpl5,C(飛機)=Bo22,其中Hg03, I10,Bpl5為詞林中所定義的語義類。在相似度計算模塊206中計算未知詞和各相似詞內容部分的相似度,對于wr = “照相機”,S (攝像,照相)=I (其中S O表示計算兩個語義類的相似度),相似度存儲單元中以[Bpl5,1]的形式存儲其計算結果;對于wr = “飛機”,其內容部分相似度S(攝像,飛)=O. 1,將[Bo22,0. I]存儲相似度存儲模塊中。假設未知詞“攝像機”只有“照相機”和“飛機”這兩個相似詞,由于詞綴對其語義有很大影響的,因此語義類指定模塊將Bpl5作為未知詞“攝像機”的語義類。實施例2圖3的過程開始于步驟301,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本發明實施例,判斷它們是否是由內容部分擴展而來,若不是則按第一方法確 定未知詞的語義類,若是,則根據同義詞詞林查找它們內容部分的語義類,進而確定該未知詞的語義類。舉例來說,對于一未知詞“椅子”,從相似詞集合301中查找具有相同詞綴的詞(例如,帶子,鏡子等)存儲在相似詞存儲模塊中,由不同部分識別模塊移除他們的相同部分“子”,并在內容存儲模塊中以[帶子,椅,帶],[鏡子,椅,鏡]的形式存儲。假定在同義詞林字典中,C(椅)=8 26,((帶子)=C(帶)=8 25,((鏡子)=C(鏡)=BpOl,其中,Bp26,Bp25, BpOl為詞林中所定義的語義類。對于相似詞wr = “帶子”,由于C(帶子)=C(帶),詞綴“子”被認為是詞綴而存儲在詞綴存儲單元中。同時,將未知詞“椅子”的相同詞綴“子”移除,并將“椅”存儲在內容模塊中,由于C(椅)=Bp26,在加分模塊中為Bp26的分值加I。對于相似詞wr = “鏡子”,也將其詞綴“子”去掉,由加分模塊為Bp26的分值加I。假設未知詞“椅子”只有相似詞“帶子”和“鏡子”,由上述分析可將Bp26作為“椅子”的語義類。實施例3圖4的過程開始于步驟401,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本發明實施例,判斷其是否由內容部分擴展而來,若是則按第二方法計算它們內容部分的相似度;若否,則由相似度計算模塊405計算它們內容部分的相似度,并由語義類判別模塊406、407判斷該未知詞的語義類。舉例來說,對于一未知詞“廚子”,從存儲字典中查找具有相同詞綴的詞(例如,帶子,廚師等)存儲在相似詞存儲模塊中,由不同部分識別模塊移除他們相同的詞綴,并以[wr, parti, part2]的形式存儲在內容模塊中,例如,[帶子,廚,帶],[廚師,子,師]等。假定在同義詞林字典中,C(廚)=Bn03,C(廚師)=Ae04,C(帶子)=C(帶)=Bp25,C(子)=A101,C(師)=A102,其中 Bn03,Ae04,Bp25,A101,A102為詞林中所定義的語義類。對于相似詞“帶子”,由于C(帶子)=以帶),詞綴“子”被認為是詞綴存儲在詞綴存儲模塊中。同時,移除未知詞“廚子”中相同的詞綴“子”,并將其內容部分“廚”存放在不同模塊存儲單元中。由于C(廚)=Bn03,由相似度計算模塊計算其內容部分的相似度S(廚,帶)=S(Bn03,Bp25) = O. 4,在加分模塊中,將O. 4加在語義類Bn03的score上;對于相似詞“廚師”,其與未知詞不同部分的相似度S(子,師)=S(A101,A102) = O. 9,在加分模塊中,將O. 9加在語義類Ae04的score上。由于O. 9 >O. 4,假設未知詞“廚子”只有相似詞“帶子”和“廚師”,由上述分析可將Ae04作為“廚子”的語義類。另外,若設定閾值T = O. 5,則表示只有當相似度超過O. 5時才加入其語義類的score上,而此時S(Bn03,Bp25) = O. 4,則不必將O. 4加在Bn03的score上,因此語義類排序模塊仍將Ae04作為未知詞“廚子”的語義類。以上所述,僅為本發明較佳的具體實施方式
,本發明的保護范圍不限于此,任何熟悉本技術領域的技術人員在本發明披露的技術范圍內,可顯而易見地得到的技術方案的簡 單變化或等效替換均落入本發明的保護范圍內。
權利要求
1.一種基于詞綴的用于對未知詞進行語義分類的系統,其特征在于,包括 輸入模塊用于接收來自系統外部由用戶輸入的未知詞; 未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴; 相似詞選擇模塊對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同部分的詞; 內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度; 存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合; 相似度排列模塊根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類; 輸出模塊用于輸出該位置詞的語義類。
2.如權利要求I所述系統,其特征在于,該系統完全基于未知詞的內容部分與相似詞內容部分的相似度,其詞綴部分對其語義類別沒有影響的情況。
3.如權利要求I所述系統,其特征在于,所述未知詞語義類的分類是完全基于同義詞詞林字典。
4.如權利要求I所述系統,其特征在于該系統完全基于相似詞與未知詞是由其內容部分擴展而來的情況。
5.如權利要求I所述系統,其特征在于,針對某一未知詞和其相似詞內容部分相似度的計算完全基于同義詞詞林相似度的計算。
全文摘要
本發明公開了一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊、未知詞詞綴分析模塊、相似詞選擇模塊、內容部分相似度計算模塊、存儲字典、相似度排列模塊、輸出模塊。本發明所述系統對其他系統輸出的結果進行分析,提高原有系統的分析精度。本發明尤其適用于對漢語未知詞的分析,根據本發明實現的未知詞語義分類系統獲得了良好的分析效果。
文檔編號G06F17/27GK102902665SQ201210361148
公開日2013年1月30日 申請日期2012年9月25日 優先權日2012年9月25日
發明者趙涓涓, 強彥, 裴博, 楊建峰 申請人:太原理工大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 青河县| 江西省| 沁阳市| 永年县| 武山县| 开封市| 贡嘎县| 老河口市| 深圳市| 汾阳市| 陆河县| 阜城县| 奎屯市| 疏勒县| 江陵县| 德兴市| 黑水县| 景洪市| 喜德县| 衡阳市| 泰和县| 茂名市| 宁津县| 余庆县| 江都市| 文水县| 嘉黎县| 原阳县| 山东| 建湖县| 集安市| 西乌珠穆沁旗| 澜沧| 调兵山市| 太原市| 盐山县| 清苑县| 泽普县| 马关县| 柳江县| 鹤岗市|