專利名稱:一種分布式全文檢索系統的制作方法
技術領域:
本發明屬于數據處理領域,特別是涉及一種分布式全文檢索系統的。
背景技術:
文檔檢索系統主要實現對調度管理應用中的各類文檔、資料和知識庫的索引提取及資料搜索功能。a)編制索引對doc、txt、pdf等常用文檔文件的文字信息進行文字索引提取。 b)資料搜索根據文字索引模糊搜索定位文檔、資料。分布式查詢主要實現調度機構之間、調度管理類應用中各模塊標準化的數據庫信息分布式查詢。基于平臺的遠程服務代理和數據公共服務實現遠程數據查詢。分布式查詢應包含但不限于以下功能
c)跨調度機構的數據查詢;
d)按照數據分類進行查詢;
e)數據展示功能。由于電力行業相關文件,電子信息材料,新聞應用比較多,很多系統都有自己的管理文檔的功能,但是面對大量的信息資源,很難定位想要找的文件在那個系統中,存儲在哪個服務器上,如何方便快捷、準確地從各個分布式的服務器上上獲取所需文件信息,成為至關重要的問題。現有技術中的文檔檢索系統存在著檢索速度慢、占用系統資源過多等的缺陷。
發明內容
本發明的目的,是提供一種分布式全文檢索系統,從而實現提升檢索速度,達到優化目的。本發明的具體技術方案如下I、一種分布式全文檢索系統,所述系統由設置在各網絡節點上的全文檢索服務器組成,包括分布式節點服務器及系統中心服務器;
所述分布式節點服務器包括文件信息檢索模塊及服務器間通訊模塊;
所述文件信息檢索模塊對本節點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關鍵詞信息并建立索引文件;
所述服務器間通訊模塊實現分布式節點服務器與系統中心服務器與之間的信息交換,將本節點的索引文件發送到系統中心服務器;
所述系統中心服務器對各節點服務器傳送的索引文件進行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結果展示給用戶。進一步的,所述分布式節點服務器上生成的索引文件包括文件名稱、關鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關信息。進一步的,所述系統中心服務器進一步包括各個分布式節點服務器狀態查詢模塊及系統重啟服務模塊;并具有文件在線瀏覽與下載模塊,即系統中心服務器接收下載文件請求,并根據該文件在索引文件中的描述,將請求轉發給相應的節點服務器,將讀取文件的字節流返給用戶實現下載。進一步的,所述分布式節點服務器還包括詞庫管理模塊,所述詞庫管理模塊在遍歷文件全文內容時根據已有詞庫進行切詞劃分,將文件內容切成不同的關鍵詞,然后統計關鍵詞出現的頻度和關鍵詞的分類,一同寫入到索引文件中。
進一步的,所述詞庫管理模塊按照電網相關技術知識進行統計劃分,包括電網文件類、技術論文類、電網設備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。進一步的,所述分布式節點服務器上安裝詞庫管理客戶端,所述客戶端對在文件中出現頻度較高的詞,通過用戶手動維護的關鍵詞等添加到索引文件中更新詞庫。
本發明的有益效果是
(I)在查詢效率上,由于使用了依據電力行業知識的詞庫管理,在生成索引文件時就會過濾一些不明感的、不關心詞匯,減小生成的索引文件,提高檢索速度。(2)提供了各節點管理的界面,可以維護各節點相關文件配置,索引生成、詞庫管理以及與服務器通信等功能,加強了分布式系統的穩定性。(3)索引文件格式獨立于應用平臺,定義了一套以8位字節為基礎的索引文件格式,使得兼容系統或者不同平臺的應用能夠共享建立的索引文件。(4)在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達到優化的目的。(5)實現了一套強大的查詢引擎,默認實現了布爾操作、模糊查詢、分組查詢等等。
圖I是本發明的系統結構框圖。
具體實施例方式下面具體闡述本發明的技術方案。本發明針對于常規分布式策略,如果在一個機器上沒有找到匹配的文件,則將用戶請求轉發到其他機器上繼續檢索索引文件。這樣每次請求都會遍歷所有機器的索引文件,效率以及負載較大,該系統采用將各節點索引文件統一到一個中心服務器機器上,減少轉發請求的時間,同時只在中心服務器上進行檢索,減輕其他節點機器的負載如圖I所示承擔一種分布式全文檢索系統,由設置在各網絡節點上的全文檢索服務器組成,按照功能劃分又分為分布式節點服務器及系統中心服務器,圖I中包括一系統中心服務器及4個分布式節點服務器。其中,每個節點服務器包括文件信息檢索模塊及服務器間通訊模塊;文件信息檢索模塊對本節點服務器上文件定時進行全文信息的檢索,并且頻率可設置,按照定義好的詞庫進行切詞,提取關鍵詞信息并建立索引文件。生成的索引文件包括文件名稱、關鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關信息。服務器間通訊模塊則實現分布式節點服務器與系統中心服務器與之間的信息交換,包括將本節點的索引文件發送到系統中心服務器,或者相應來自系統中心服務器的用戶請求等。系統中心服務器對各節點服務器傳送的索引文件進行合并,生成新的索引文件,并且在此基礎上不斷更新已有索引信息,增加新的文件信息。向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結果展示給用戶。進一步的,本發明的系統中心服務器進一步包括包括各個節點索引文件信息,管理節點與中心服務器通信,配置各個節點文件索引信息等,并提供重啟服務等功能模塊;并 具有文件在線瀏覽與下載模塊,即系統中心服務器接收下載文件請求,并根據該文件在索引文件中的描述,將請求轉發給相應的節點服務器,將讀取文件的字節流返給用戶實現下載。本發明為了進一步提供查詢的效率,在分布式節點服務器還包括詞庫管理模塊,該詞庫管理模塊在遍歷文件全文內容時根據已有詞庫進行切詞劃分,將文件內容切成不同的關鍵詞,然后統計關鍵詞出現的頻度和關鍵詞的分類,一同寫入到索引文件中。詞庫管理模塊按照電網相關技術知識進行統計劃分,包括電網文件類、技術論文類、電網設備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。在本系統的分布式節點服務器上還安裝詞庫管理客戶端,客戶端對在文件中出現頻度較高的詞,通過用戶手動維護的關鍵詞等添加到索引文件中更新詞庫。更進一步提高了查詢的效率,更具有針對性。該分布式全文檢索系統的使用,大大提高了用戶查找所需文件的效率。而且,針對現有的搜索引擎在搜索效率、信息維護、分布式節點管理、負載壓力等方面存在的問題有了提聞與優化。
權利要求
1.一種分布式全文檢索系統,所述系統由設置在各網絡節點上的全文檢索服務器組成,包括分布式節點服務器及系統中心服務器;其特征在于 所述分布式節點服務器包括文件信息檢索模塊及服務器間通訊模塊; 所述文件信息檢索模塊對本節點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關鍵詞信息并建立索引文件; 所述服務器間通訊模塊實現分布式節點服務器與系統中心服務器與之間的信息交換,將本節點的索引文件發送到系統中心服務器; 所述系統中心服務器對各節點服務器傳送的索引文件進行合并,生成新的索引文件并更新已有索引信息,增加新的文件信息;向用戶提供查詢接口,響應用戶查詢文件的請求、分析用戶請求,將查詢關鍵詞在新的索引文件中進行檢索比對,將符合的文件作為查詢結果展示給用戶。
2.根據權利要求I所述的一種分布式全文檢索系統,其特征在于所述分布式節點服務器上生成的索引文件包括文件名稱、關鍵詞條、文件分類、所在服務器的IP地址、服務器信息、文件大小、文件作者等相關信息。
3.根據權利要求I所述的一種分布式全文檢索系統,其特征在于,所述系統中心服務器進一步包括 各個分布式節點服務器狀態查詢模塊及系統重啟服務模塊;并具有文件在線瀏覽與下載模塊,即系統中心服務器接收下載文件請求,并根據該文件在索引文件中的描述,將請求轉發給相應的節點服務器,將讀取文件的字節流返給用戶實現下載。
4.根據權利要求I所述的一種分布式全文檢索系統,其特征在于所述分布式節點服務器還包括詞庫管理模塊,所述詞庫管理模塊在遍歷文件全文內容時根據已有詞庫進行切詞劃分,將文件內容切成不同的關鍵詞,然后統計關鍵詞出現的頻度和關鍵詞的分類,一同寫入到索引文件中。
5.根據權利要求4所述的一種分布式全文檢索系統,其特征在于所述詞庫管理模塊按照電網相關技術知識進行統計劃分,包括電網文件類、技術論文類、電網設備類、新聞類等;對普通的助詞、語氣詞或普通描述性的詞進行過濾。
6.根據權利要求5所述的一種分布式全文檢索系統,其特征在于所述分布式節點服務器上安裝詞庫管理客戶端,所述客戶端對在文件中出現頻度較高的詞,通過用戶手動維護的關鍵詞等添加到索引文件中更新詞庫。
全文摘要
本發明屬于數據處理領域,特別是涉及一種分布式全文檢索系統。所述系統由設置在各網絡節點上的全文檢索服務器組成,包括分布式節點服務器及系統中心服務器;所述分布式節點服務器包括文件信息檢索模塊及服務器間通訊模塊;所述文件信息檢索模塊對本節點服務器上文件定時進行全文信息的檢索,按照定義好的詞庫進行切詞,提取關鍵詞信息并建立索引文件;所述服務器間通訊模塊實現分布式節點服務器與系統中心服務器與之間的信息交換,所述系統中心服務器對各節點服務器傳送的索引文件進行合并,向用戶提供查詢接口,將符合的文件作為查詢結果展示給用戶。
文檔編號G06F17/30GK102831253SQ20121036293
公開日2012年12月19日 申請日期2012年9月25日 優先權日2012年9月25日
發明者何蕾, 李勇, 曹宇, 喻宏元, 蘇迤, 龐傳軍, 聶春元, 楊笑宇, 徐家慧, 武毅, 林海峰, 方偉 申請人:北京科東電力控制系統有限責任公司, 華中電網有限公司