麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種實現漢語同音字檢索的方法

文檔序號:6363022閱讀:553來源:國知局
專利名稱:一種實現漢語同音字檢索的方法
技術領域
本發明涉及漢字檢索技術領域,特別是一種實現漢語同音字檢索的方法。
背景技術
同音字是漢語言的一種特性,漢字中存在大量的同音字。用戶在檢索時,只知道一個字的讀音,不知道其具體寫法的情況是很常見的,因此,同音字檢索作為一種智能檢索方式應運而生。傳統的實現漢語同音字檢索的方法有兩種一種是利用漢語的詞庫,另一種是利用漢字的拼音。漢語的詞匯量(指由漢字組成的詞組)是很大的,如果使用詞庫方式進行同音字檢索,需要建立龐大的同音詞庫,且檢索的時候,需要將用戶輸入的關鍵詞根據同音詞庫替換成若干同音詞,使一個輸入實際上變成多個輸入,降低了檢索的效率,同時增大了維護和擴展的成本。另一種方式,是將每個漢字與其拼音關聯起來,當用戶輸入關鍵詞時,先將每個漢字轉換成拼音,再反向根據拼音查詢具有相同讀音的漢字,進行排列組合,生成若干同音關鍵詞組,再進行檢索。這種方式經排列組合之后,會生成非常多的同音關鍵詞組,尤其是當用戶輸入的關鍵詞包含漢字個數越多,這種現象越明顯,會使效率大大下降,如果對這些同音關鍵詞組進行篩選過濾,只保留有意義的詞組,無疑又涉及語法和詞法分析等方面的知識,門檻較高,成本較大。

發明內容
(一 )要解決的技術問題有鑒于此,本發明的主要目的在于提供一種實現漢語同音字檢索的方法,以提高漢字檢索的效率,降低成本。( 二 )技術方案為達到上述目的,本發明提供的了一種實現漢語同音字檢索的方法,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數據庫中的原始全文內容進行映射,得到由多條映射記錄構成的檢索數據庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3 :在由多條映射記錄構成的檢索數據庫中對該同音代表字串進行檢索,得到檢索結果。上述方案中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括: 以國家質量技術監督局2001年宣布的計算機漢字信息交換標準GB18030為依據,建立常用漢字與其同音代表字之間的映射關系,其中GB18030共包括70244個漢字,從具有相同發音的多個漢字中選取同音代表字。上述方案中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括: 以國家語委漢字處制定的包括7000個漢字的現代漢語通用字表或以教育部目前正向社會征求意見的包括8300個漢字的通用規范漢字表為依據,建立常用漢字與其同音代表字之間的映射關系,從具有相同發音的多個漢字中選取同音代表字。上述方案中,所述在從具有相同發音的多個漢字中選取同音代表字,是選用具有相同發音的任一個字做為其同音代表字,優選地是選用具有相同發音的第一個字做為其同音代表字。至于相同發音的規則,可以根據用戶不同的需求靈活決定,可以精確到相同拼音的不同聲調,也可以不區分相同拼音的不同聲調,或者可以不區分非卷舌舌音和卷舌音等。上述方案中,所述原始全文內容和同音代表字信息保存在同一個數據庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始全文內容和同音代表字信息,其中原始全文內容與同音代表字信息按照所述映射關系一一對應。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內容為檢索結果。上述方案中,所述原始全文內容和同音代表字信息分別保存在不同的數據庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息, 其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內容數據庫表中原始資源標識ID對應于原始全文內容。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據該原始資源標識ID到原始全文內容數據庫表中找到對應的記錄,得到原始全文內容為檢索結果。上述方案中,步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數據庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。上述方案中,該方法在步驟3之后還包括得到檢索結果之后,對檢索結果進行標紅處理和生成動態摘要,并展現給用戶;其中,標紅處理是指對檢索結果的條目內容中的檢索關鍵詞運用紅色字體突出顯示;生成動態摘要是指在檢索結果的條目內容中提取檢索關鍵詞的上下文連接而成的摘要。上述方案中,所述標紅處理具體包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置,由于同音代表字信息是原始全文內容根據同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發音也是相同的,根據同音代表字串出現的次數和位置在原始全文內容中找到對應位置即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內容的標紅處理。上述方案中,所述動態摘要的生成方法包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置;與該位置對應的原始全文內容的相同位置就是原始檢索關鍵詞出現的位置, 將原始關鍵詞的上下文內容取出,就生成了動態摘要。上述方案中,步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數據庫映射記錄中出現的原始全文內容和同音代表字信息作為一條新的映射記錄插入到檢索數據庫中,實時對檢索數據庫的映射記錄進行擴充和完善。(三)有益效果從上述技術方案可以看出,本發明具有以下有益效果I)、本發明檢索效率高;直接使用同音代表字串進行檢索,避免了傳統算法中對輸入詞的多種同音詞進行循環窮舉的方式。2)、本發明不依賴同音詞庫,不需要同音詞庫。由于漢語的詞匯量大且組合靈活, 同音詞庫的建立和維護都相當耗費資源,而本發明不依賴同音詞庫,不需要同音詞庫,所以降低了資源的耗費,降低了成本。3)、本發明基于漢字總量的確定性,具擴展性,即同音字映射表可維護,且維護成本低。本發明能夠同音字映射表的記錄總數可控,可控指同音字表的記錄規模即為漢字的總數規模,在一個可預見的范圍之內,因為漢字不會憑空增加,或者增加的機率和比率很小。由于總數可控,所以對同音字映射表的維護成本較低,尤其是相對于漢語詞組來講。每天都會出現很多新詞,如果采用同音詞方法的話,其維護量是很大的,而字則不會,隨之而來的,同音字表也更容易維護。4)、本發明能夠對用戶輸入及資源的元數據信息進行數據挖掘,會自動添加相應記錄;元數據即metadata,指資源的描述數據及其環境的數據。如題名,關鍵詞,內容介紹,欄目名稱,首播日期等。由于資源的元數據信息以及用戶輸入的檢索關鍵詞都需要替換成其同音代表字,因此可以發現這其中是否有些字并不在同音字映射表中,如果確實存在這樣的情況,則自動將這個字插入同音字映射表中。


圖I是本發明提供的實現漢語同音字檢索的方法流程圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。本發明提供的這種實現漢語同音字檢索的方法,利用漢字總數遠遠低于由漢字所組成的詞匯總數的特點,以漢字為中心來實現同音檢索。同時,又利用了漢字讀音的特點, 但又不直接使用拼音,而是將每個漢字對應一個同音代表字,這種方式保證了原始漢字信息與同音代表字信息在字符和長度都相同的特性,決定了資源的元數據信息與其同音代表字信息是等長的,為后續的檢索,標紅處理以及生成動態摘要都做了良好的鋪墊。基于現代計算機技術,尤其是存儲技術而言,即便是10萬個漢字規模也不過1Mb。 其存儲空間相對于對于當今的內存容量實在是九牛一毛。而相應的,對于檢索系統來講,檢索效率才是最關鍵的。本方法的優勢正是在于其檢索/標紅/動態摘要等操作的高效,以及低成本和高擴展性。
如圖I所示,圖I是本發明提供的實現漢語同音字檢索的方法流程圖,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數據庫中的原始全文內容進行映射,得到由多條映射記錄構成的檢索數據庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3 :在由多條映射記錄構成的檢索數據庫中對該同音代表字串進行檢索,得到檢索結果。其中,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家質量技術監督局2001年宣布的計算機漢字信息交換標準一一GB18030 (最新的GB18030共 70244個漢字)為依據,建立初始同音代表字映射表,其同音代表字可取自具有相同發音的任一個漢字,推薦使用具有相同發音的第一個字做為其同音代表字。如果國家標準有所調整,同音代表字映射表隨之調整。或者,以國家語委漢字處制定的現代漢語通用字表(7000 個漢字)或以教育部目前正向社會征求意見的通用規范漢字表(8300個漢字)為依據,建立初始同音代表字映射表,其同音代表字可取自具有相同發音的任一個漢字,推薦使用具有相同發音的第一個字做為其同音代表字。這種方式的特點是初始裝入的是常用漢字,總量小,檢索效率高。其后續的維護可以兩種途徑齊頭并進,既隨著國家標準的調整而調整, 又可以動態的根據用戶輸入及資源的元數據信息進行自動擴充。原始全文內容和同音代表字信息可以保存在同一個數據庫表中,此時步驟I中所述映射記錄包括以下字段記錄標識、原始全文內容和同音代表字信息,其中原始全文內容與同音代表字信息按照所述映射關系對應。利用同音代表字映射關系裝入系統建立原始全文內容與同音代表字信息的映射記錄,記錄數可以為常用漢字個數,大概六千條左右。 在資源入庫到系統時,利用全文及同音代表字內容同步系統對資源的所有元數據信息生成兩列內容,一列為原始全文內容,按照一定的格式(可以為xml格式,也可以自定義格式) 收集所有的元數據項,同時,利用同音代表字映射表生成原始全文內容對應的同音代表字信息。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內容為檢索結果。在檢索系統中,為減小耦合性,還可以將原始全文內容和同音代表字信息分別保存在不同的數據庫表中。需要指出的是,在同音代表字信息存儲時,需要同時保存與其對應的原始全文內容的原始資源標識ID,即步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息,其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內容數據庫表中原始資源標識ID對應于原始全文內容。所述步驟3包括以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據該原始資源標識ID到原始全文內容數據庫表中找到對應的記錄,得到原始全文內容為檢索結果。
步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數據庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。該方法在步驟3之后還包括得到檢索結果之后,將檢索結果進行標紅處理和生成動態摘要,并展現給用戶;其中,標紅處理是指對檢索結果的條目內容中的檢索關鍵詞運用紅色字體突出顯示;生成動態摘要是指在檢索結果的條目內容中提取檢索關鍵詞的上下文連接而成的摘要。這里所述的標紅處理的具體實現方式為首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置(相對同音代表字信息內容起始位置的偏移量);由于同音代表字信息是原始全文內容根據同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發音也是相同的,根據同音代表字串出現的次數和位置在原始全文內容中找到對應位置 (相對原始全文內容起始位置的偏移量)即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內容的標紅處理。這里所述的動態摘要的生成方法是,首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置;與該位置對應的原始全文內容的相同位置就是原始檢索關鍵詞出現的位置,將原始關鍵詞的上下文內容取出,就生成了動態摘要。步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數據庫映射記錄中出現的原始全文內容和同音代表字信息作為一條新的映射記錄插入到檢索數據庫中,實時對檢索數據庫的映射記錄進行擴充和完善。在將關鍵詞中的漢字替換成同音代表字的過程中,自動將未在映射表中記錄的漢字插入映射表的原始漢字列中,并為這條映射記錄添加待處理標志,便于后續維護處理。在將未處理的原始漢字添加其同音代表字,其方式可以是人工的,也可以是自動的。下表I示例性的描述了本發明常用漢字與其同音代表字的映射關系,左側列表示原始漢字,右側列表示與原始漢字對應的同音代表字。需要說明的是,該表I僅僅是一個映射示例,未列出所有的映射關系,故中間用省略號代替。
權利要求
1.一種實現漢語同音字檢索的方法,其特征在于,該方法包括步驟I :建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數據庫中的原始全文內容進行映射,得到由多條映射記錄構成的檢索數據庫;步驟2 :按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同首代表字串;步驟3:在由多條映射記錄構成的檢索數據庫中對該同音代表字串進行檢索,得到檢索結果。
2.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家質量技術監督局2001年宣布的計算機漢字信息交換標準GB18030為依據,建立常用漢字與其同音代表字之間的映射關系,其中GB18030共包括70244個漢字,從具有相同發音的多個漢字中選取同音代表字。
3.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,步驟I中所述建立常用漢字與其同音代表字之間的映射關系包括以國家語委漢字處制定的包括7000個漢字的現代漢語通用字表或以教育部目前正向社會征求意見的包括8300個漢字的通用規范漢字表為依據,建立常用漢字與其同音代表字之間的映射關系,從具有相同發音的多個漢字中選取同音代表字。
4.根據權利要求2或3所述的實現漢語同音字檢索的方法,其特征在于,所述在從具有相同發音的多個漢字中選取同音代表字,是選用具有相同發音的任一個字做為其同音代表字。
5.根據權利要求4所述的實現漢語同音字檢索的方法,其特征在于,所述在從具有相同發音的多個漢字中選取同音代表字,是選用具有相同發音的第一個字做為其同音代表字。
6.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,所述原始全文內容和同音代表字信息保存在同一個數據庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始全文內容和同音代表字信息,其中原始全文內容與同音代表字信息按照所述映射關系--對應。
7.根據權利要求6所述的實現漢語同音字檢索的方法,其特征在于,所述步驟3包括 以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始全文內容為檢索結果。
8.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,所述原始全文內容和同音代表字信息分別保存在不同的數據庫表中,步驟I中所述映射記錄包括以下字段記錄標識、原始資源標識ID和同音代表字信息,其中原始資源標識ID與同音代表字信息按照所述映射關系一一對應,且在原始全文內容數據庫表中原始資源標識ID對應于原始全文內容。
9.根據權利要求8所述的實現漢語同音字檢索的方法,其特征在于,所述步驟3包括: 以該同音代表字串為檢索關鍵詞,在檢索數據庫映射記錄的同音代表字信息字段中進行檢索,檢索到與該同音代表字串匹配的同音代表字信息,然后根據該匹配的同音代表字信息確定檢索到的映射記錄,得到該映射記錄中的原始資源標識ID,然后根據該原始資源標識ID到原始全文內容數據庫表中找到對應的記錄,得到原始全文內容為檢索結果。
10.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,步驟3中所述檢索采用全文檢索方式,該全文檢索是指計算機索引程序通過掃描檢索數據庫中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。
11.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,該方法在步驟3 之后還包括得到檢索結果之后,對檢索結果進行標紅處理和生成動態摘要,并展現給用戶;其中, 標紅處理是指對檢索結果的條目內容中的檢索關鍵詞運用紅色字體突出顯示;生成動態摘要是指在檢索結果的條目內容中提取檢索關鍵詞的上下文連接而成的摘要。
12.根據權利要求11所述的實現漢語同音字檢索的方法,其特征在于,所述標紅處理具體包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置,由于同音代表字信息是原始全文內容根據同音代表字表逐一映射而來,所以信息的總字符長度完全一樣,相同位置對應的字發音也是相同的,根據同音代表字串出現的次數和位置在原始全文內容中找到對應位置即是原始檢索關鍵詞的所在位置,將其對應位置的字符使用紅色突出顯示,就完成了對原始全文內容的標紅處理。
13.根據權利要求11所述的實現漢語同音字檢索的方法,其特征在于,所述動態摘要的生成方法包括首先在使用同音代表字串作為檢索關鍵詞返回的檢索結果的命中記錄中,查找同音代表字串在同音代表字信息內容中出現的次數和位置;與該位置對應的原始全文內容的相同位置就是原始檢索關鍵詞出現的位置,將原始關鍵詞前后的上下文內容取出,就生成了動態摘要。
14.根據權利要求I所述的實現漢語同音字檢索的方法,其特征在于,步驟2中所述按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射之后,進一步將未在檢索數據庫映射記錄中出現的原始全文內容和同音代表字信息作為一條新的映射記錄插入到檢索數據庫中,實時對檢索數據庫的映射記錄進行擴充和完善。
全文摘要
本發明公開了一種實現漢語同音字檢索的方法,該方法包括步驟1建立常用漢字與其同音代表字之間的映射關系,并按照該映射關系對檢索數據庫中的原始全文內容進行映射,得到由多條映射記錄構成的檢索數據庫;步驟2按照該映射關系對用戶輸入的原始檢索關鍵詞進行映射,得到對應于該原始檢索關鍵詞的同音代表字串;步驟3在由多條映射記錄構成的檢索數據庫中對該同音代表字串進行檢索,得到檢索結果。本發明直接使用同音代表字串進行檢索,避免了傳統算法中對輸入詞的多種同音詞進行循環窮舉的方式,檢索效率高。另外,本發明不依賴同音詞庫,不需要同音詞庫,降低了資源的耗費,降低了成本。
文檔編號G06F17/30GK102609455SQ201210008298
公開日2012年7月25日 申請日期2012年1月12日 優先權日2012年1月12日
發明者周海濱, 崔玉祥, 王杰中, 鄒娟 申請人:北京中科大洋科技發展股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 焦作市| 诏安县| 镇康县| 沙河市| 金门县| 清流县| 布拖县| 河源市| 丰宁| 湾仔区| 和田市| 潍坊市| 花莲县| 东乡族自治县| 龙江县| 高要市| 金平| 南城县| 巴南区| 关岭| 将乐县| 焦作市| 武穴市| 绿春县| 礼泉县| 镶黄旗| 仪征市| 旺苍县| 乐至县| 玛纳斯县| 荃湾区| 河东区| 霞浦县| 龙州县| 凤翔县| 泾阳县| 申扎县| 德阳市| 平昌县| 陆丰市| 龙岩市|