麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于詞綴的用于對未知詞進行語義分類的方法

文檔序號:6377704閱讀:201來源:國知局
專利名稱:一種基于詞綴的用于對未知詞進行語義分類的方法
CN 102929858 A書明說1/3頁—種基于詞綴的用于對未知詞進行語義分類的方法技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,涉及一種基于詞綴的用于對未知詞進行語義分類的方法。
背景技術(shù)
通常,用戶能夠先獲得描述單詞的某些字典。這些字典可以描述單詞的出處(例如,通常在哪一段話中出現(xiàn)的等等)、語義類(例如人、事件、情感等等)、含義和例句等。對于那些沒有出現(xiàn)在字典中的詞我們稱為“未知詞”。一般而言,未知詞可以來源于某些新詞。
在文本信息處理中,未知詞的出現(xiàn)常常會給用戶帶來麻煩,由于它的信息(例如例句、語義類等)的不足。
為解決上述麻煩,一種做法是用戶在未知詞出現(xiàn)時更新字典。但是這一做法在一般情況下很困難,原因如下(I)由于存在著很多的信息源(報紙、網(wǎng)絡(luò)等等),因此無法保證用戶在一未知詞首次出現(xiàn)時就捕捉到該詞;(2)由于字典是標(biāo)準(zhǔn)化的,對于任一未知詞都需要經(jīng)過許多專家的審核、同意后才能寫入字典,因此這需要一段時間。
鑒于此,對未知詞進行語義類別的猜測就成了一項很有必要的工作。本發(fā)明將關(guān)注語義類別信息。也就是,我們將試圖猜測未知詞的語義類別。發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)缺陷,提供一種基于詞綴的用于對未知詞進行語義分類的方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案為
對于用戶輸入的任一未知詞w = AB,針對其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個相似詞的構(gòu)詞方式,對于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,我們可以確定的認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進而,將該語義類作為該未知詞的語義類;對于詞綴對其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為
本發(fā)明的方法基于詞綴研究未知詞的構(gòu)詞規(guī)律,進而分析它的語義類別。本發(fā)明可以作為一個獨立的語法或語義成分識別系統(tǒng)對中文或其他基于字符的未知詞的語義分類,同時也可以與其他語言成分識別系統(tǒng)相結(jié)合,對其他系統(tǒng)輸出的結(jié)果進行分析,提高原有系統(tǒng)的分析精度。本發(fā)明尤其適用于對漢語未知詞的分析,根據(jù)本發(fā)明實現(xiàn)的未知詞語3義分類系統(tǒng)獲得了良好的分析效果。


圖I是示出本發(fā)明總體的方法流程圖2是示出本發(fā)明實施例I基于詞綴的未知詞語義分類的操作流程圖3是示出本發(fā)明實施例2基于詞綴的未知詞語義分類的操作流程圖4是示出本發(fā)明實施例3基于詞綴的未知詞語義分類的操作流出圖。
具體實施方式
下面結(jié)合附圖與具體實施方式
對本發(fā)明的技術(shù)方案作進一步詳細(xì)地說明。
如圖I所示,一種基于詞綴的用于對未知詞進行語義分類的方法,包括以下步驟, 對于
用戶輸入的任一未知詞w = AB,針對其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個相似詞的構(gòu)詞方式,對于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,我們可以確定的認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進而,將該語義類作為該未知詞的語義類;對于詞綴對其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
實施例I
圖2的過程開始于步驟201,針對字典中的每個詞根A,收集其所有包含A的相似同,這里根據(jù)本發(fā)明實施例,將各相似詞的內(nèi)容部分取出,并查找它們的語義類以滿足本發(fā)明的需要。在步驟204中,輸入一未知詞w = XY,步驟205中,從所收集的相似詞集合中選擇詞根A滿足A = X或A = Y的相似詞集合,然后經(jīng)206裝置計算其內(nèi)容部分的相似度,最后得到未知詞的語義類。舉例來說,對于一未知詞“攝像機”,在201裝置中選擇出其相似詞集合,如“照相機”、“飛機”等。在不同部分識別單元中將他們相同的詞綴部分“機”移除, 并在不同部分存儲模塊中,以[wr, parti, part2] (wr表示未知詞w的相似詞,parti表示未知詞w的內(nèi)容部分,part2表示相似詞wr的內(nèi)容部分)。如[照相機,攝像,照相],[飛機,攝像,飛],等等。假定在同義詞林中,C(攝像)=Hg03, C(照相)=Hg03, C(飛)= IalO,C(照相機)=Bpl5,C(飛機)=Bo22,其中Hg03, I10,Bpl5為詞林中所定義的語義類。在相似度計算模塊206中計算未知詞和各相似詞內(nèi)容部分的相似度,對于wr = “照相機”,S(攝像,照相)=1(其中SO表示計算兩個語義類的相似度),相似度存儲單元中以 [Bpl5,1]的形式存儲其計算結(jié)果;對于wr = “飛機”,其內(nèi)容部分相似度S(攝像,飛)= O. 1,將[Bo22,0. I]存儲相似度存儲模塊中。假設(shè)未知詞“攝像機”只有“照相機”和“飛機” 這兩個相似詞,由于詞綴對其語義有很大影響的,因此語義類指定模塊將Bpl5作為未知詞 “攝像機”的語義類。
實施例2
圖3的過程開始于步驟301,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據(jù)本發(fā)明實施例,判斷它們是否是由內(nèi)容部分?jǐn)U展而來,若不是則按第一方法確定未知詞的語義類,若是,則根據(jù)同義詞詞林查找它們內(nèi)容部分的語義類,進而確定該未知詞的語義類。舉例來說,對于一未知詞“椅子”,從相似詞集合301中查找具有相同詞綴的詞 (例如,帶子,鏡子等)存儲在相似詞存儲模塊中,由不同部分識別模塊移除他們的相同部分“子”,并在內(nèi)容存儲模塊中以[帶子,椅,帶],[鏡子,椅,鏡]的形式存儲。假定在同義詞林字典中,C(椅)=8 26,((帶子)=C(帶)=8 25,((鏡子)=C(鏡)=BpOl,其中,Bp26,Bp25, BpOl為詞林中所定義的語義類。對于相似詞wr = “帶子”,由于C(帶子) =C(帶),詞綴“子”被認(rèn)為是詞綴而存儲在詞綴存儲單元中。同時,將未知詞“椅子”的相同詞綴“子”移除,并將“椅”存儲在內(nèi)容模塊中,由于C(椅)=Bp26,在加分模塊中為Bp26 的分值加I。對于相似詞wr = “鏡子”,也將其詞綴“子”去掉,由加分模塊為Bp26的分值加I。假設(shè)未知詞“椅子”只有相似詞“帶子”和“鏡子”,由上述分析可將Bp26作為“椅子” 的語義類。
實施例3
圖4的過程開始于步驟401,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據(jù)本發(fā)明實施例,判斷其是否由內(nèi)容部分?jǐn)U展而來,若是則按第二方法計算它們內(nèi)容部分的相似度;若否,則由相似度計算模塊405計算它們內(nèi)容部分的相似度,并由語義類判別模塊406、407判斷該未知詞的語義類。舉例來說,對于一未知詞“廚子”,從存儲字典中查找具有相同詞綴的詞(例如,帶子,廚師等)存儲在相似詞存儲模塊中,由不同部分識別模塊移除他們相同的詞綴,并以[wr, parti, part2]的形式存儲在內(nèi)容模塊中,例如, [帶子,廚,帶],[廚師,子,師]等。假定在同義詞林字典中,C(廚)=Bn03,C(廚師)= Ae04,C(帶子)=C(帶)=Bp25,C(子)=A101,C(師)=A102,其中 Bn03,Ae04,Bp25, A101,A102為詞林中所定義的語義類。對于相似詞“帶子”,由于C(帶子)=以帶),詞綴 “子”被認(rèn)為是詞綴存儲在詞綴存儲模塊中。同時,移除未知詞“廚子”中相同的詞綴“子”, 并將其內(nèi)容部分“廚”存放在不同模塊存儲單元中。由于C(廚)=Bn03,由相似度計算模塊計算其內(nèi)容部分的相似度S(廚,帶)=S(Bn03,Bp25) = O. 4,在加分模塊中,將O. 4加在語義類Bn03的score上;對于相似詞“廚師”,其與未知詞不同部分的相似度S (子,師) =S(A101,A102) = O. 9,在加分模塊中,將O. 9加在語義類Ae04的score上。由于O. 9 > O. 4,假設(shè)未知詞“廚子”只有相似詞“帶子”和“廚師”,由上述分析可將Ae04作為“廚子” 的語義類。另外,若設(shè)定閾值T = O. 5,則表示只有當(dāng)相似度超過O. 5時才加入其語義類的 score上,而此時S(Bn03,Bp25) = O. 4,則不必將O. 4加在Bn03的score上,因此語義類排序模塊仍將Ae04作為未知詞“廚子”的語義類。
以上所述,僅為本發(fā)明較佳的具體實施方式
,本發(fā)明的保護范圍不限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可顯而易見地得到的技術(shù)方案的簡單變化或等效替換均落入本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.一種基于詞綴的用于對未知詞進行語義分類的方法,其特征在于,包括以下步驟 對于用戶輸入的任一未知詞W = AB,針對其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個相似詞的構(gòu)詞方式,對于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進而,將該語義類作為該未知詞的語義類;對于詞綴對其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
2.如權(quán)利要求I所述方法,其特征在于,完全基于未知詞的內(nèi)容部分與相似詞內(nèi)容部分的相似度,其詞綴部分對其語義類別沒有影響的情況。
3.如權(quán)利要求I所述方法,其特征在于,對于計算未知詞與相似詞的內(nèi)容部分的相似度,是完全基于相似詞詞林的語義類相似度計算的。
4.如權(quán)利要求I所述方法,其特征在于,對于未知詞的相似詞wr= AB,若C(wr)=C(B),其中CO表示該詞的語義類,此時A為相似詞wr和未知詞w的詞綴,在這種情況下,對于未知詞可以很確信的將C(B)作為它的語義類,即C(W) =C(B)0
全文摘要
本發(fā)明公開了一種基于詞綴的用于對未知詞進行語義分類的方法,包括以下步驟對于用戶輸入的任一未知詞,針對其詞根,在字典中查找與其具有相同詞的詞作為該未知詞的相似詞,針對相似詞模塊中的未知詞的相似詞和該未知詞,將他們的相同部分和不同的部分分離出來,根據(jù)同義詞詞林字典的語義類得算法,計算出各個相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,由相似度排序模塊將計算模塊中的各個相似度按大小順序排列,最后得出該未知詞的語義類。該方法提高原有系統(tǒng)的分析精度,本發(fā)明尤其適用于對漢語未知詞的分析,根據(jù)本發(fā)明實現(xiàn)的未知詞語義分類系統(tǒng)獲得了良好的分析效果。
文檔編號G06F17/27GK102929858SQ201210361150
公開日2013年2月13日 申請日期2012年9月25日 優(yōu)先權(quán)日2012年9月25日
發(fā)明者強彥, 韓曉紅, 路景貴, 趙涓涓, 裴博, 劉濤 申請人:太原理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 涞水县| 长沙市| 宿迁市| 翁牛特旗| 新昌县| 胶南市| 奇台县| 商南县| 云浮市| 永登县| 潞城市| 资中县| 房山区| 泰安市| 吉隆县| 克什克腾旗| 屏东市| 柳林县| 高青县| 连城县| 防城港市| 阜新| 香河县| 临清市| 于田县| 开鲁县| 天津市| 特克斯县| 清丰县| 隆子县| 临漳县| 平遥县| 牡丹江市| 新竹县| 上饶市| 弥勒县| 沙湾县| 深水埗区| 顺平县| 榆林市| 共和县|