專利名稱:一種用戶詞庫同步方法及用戶詞庫同步服務器的制作方法
技術領域:
本發明涉及輸入法技術領域,尤其涉及一種用戶詞庫同步方法及一種用戶詞庫同步服務器。
背景技術:
當前對于非字母文字(包括中文、日文、韓文等)的輸入都需要經由專門的輸入法軟件進行輸入轉換。以中文為例,一般可以采用拼音方式或者字形(五筆等)編碼方式進行輸入。然而無論采用何種輸入方式,都不可避免的會出現重碼的情形。例如,采用拼音方式輸入會出現同音字的情形,采用五筆輸入同樣會有重碼。因此,如何能使輸入法的首選詞符合用戶的預期就成為評價輸入法的一個非常重要的參數。為了盡量提高首選詞命中率,當前的各種中文輸入法軟件都會對用戶輸入的文字進行統計并形成用戶的詞庫文件,詞庫中除了保存有用戶輸入的詞條外,還包括各詞條的使用頻率統計信息。根據用戶的使用頻率對候選詞進行排序可以最大程度的提高首選詞命中率。此外,為了使用戶在切換不同的設備時仍然繼續使用用戶詞庫,現有的輸入法軟件都會將用戶詞庫備份至服務器。另一方面,隨著計算機硬件技術及互聯網的飛速發展,互聯網的接入設備中,各種移動設備,如手機、平板電腦等所占的份額越來越大。當然,目前移動設備仍然無法完全替換個人電腦(PC,包括臺式電腦或者筆記本電腦),實際情形是用戶兩種設備都會使用。與PC—樣,用戶在使用移動設備時同樣有中文輸入的需求。現有各種成熟的輸入法軟件,基本上都既有PC版本,又有移動設備版本。以騰訊公司的QQ輸入法為例,就包括QQ桌面輸入法及QQ移動輸入法。如上所述,輸入法軟件都會維護一個用戶詞庫。對于同一個用戶來說,其在臺式電腦上使用QQ桌面輸入法生成的用戶詞庫對于其使用的QQ移動輸入法來說是具有借鑒意義的,反之亦然。因此,有必要使這兩種輸入法的用戶詞庫之間可以共用。然而由于移動終端硬件處理能力較低、存儲空間較小、鍵盤輸入及選詞的不便利性使得沒有辦法直接在移動終端中使用與臺式電腦同樣的詞庫。
發明內容
有鑒于此,有必要提供一種用戶詞庫同步方法及同步服務器,既可以滿足用戶在不同設備端上的共性需求,又可以使用戶詞庫針對不同的設備類型或者應用環境作優化。在一個實施例中,一種用戶詞庫同步方法包括:在至少一個存儲空間內存儲第一云端用戶詞庫;所述方法還包括:步驟一:對第一云端用戶詞庫進行過濾或者擴展操作得到中間結果;以及步驟二:將中間結果保存至一個存儲空間內的一個第二云端用戶詞庫。在另一個實施例中,一種用戶詞庫同步方法包括:在至少一個存儲空間內存儲一個第一云端用戶詞庫;接收來自第一客戶端的第一同步信息;根據第一同步信息對第一云端用戶詞庫進行更新;對第一同步信息進行過濾或者擴展操作得到中間結果;以及根據中間結果對一個存儲空間內的一個第二云端用戶詞庫進行更新。在再一個實施例中,一種用戶詞庫同步服務器包括:存儲單元、更新處理單元以及中間處理單元,其中:存儲單元用于存儲對應于一個第一客戶端的一個第一云端用戶詞庫;中間處理單元用于對第一云端用戶詞庫進行過濾或者擴展操作以得到中間結果;更新處理單元用于將中間結果保存至一個存儲空間內的一個第二云端用戶詞庫。在上述用戶詞庫同步方法及用戶詞庫同步服務器中,并不是簡單使第一云端用戶詞庫與第二云端用戶詞庫保持同步,而是先進行過濾或者擴展操作,以去除冗余的詞條和/或使用頻率很低的詞條,或者擴展相關聯的詞條,可在盡量保證用戶輸入體驗的情形下最大程度降低第二云端用戶詞庫的體積,或者增加第二云端用戶詞庫的豐富程度,既可以滿足用戶在不同設備端上的對于用戶詞庫的共性需求,又可以使用戶詞庫針對不同的設備類型,例如移動設備,或者應用環境作優化。為讓本發明的上述和其他目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附圖式,作詳細說明如下。
圖1為本發明第一實施例提供的用戶詞庫同步方法的流程圖。圖2為本發明第一實施例提供的用戶詞庫同步方法的方框示意圖。圖3為本發明第一實施例提供的用戶詞庫同步方法中所使用的過濾器的結構框圖。圖4為本發明第一實施例提供的用戶詞庫同步方法中詞庫的過濾的詳細示意圖。圖5為本發明第二實施例提供的用戶詞庫同步方法的流程圖。
圖6為本發明第三實施例提供的用戶詞庫同步方法的流程圖。圖7為本發明第四實施例提供的用戶詞庫同步方法的流程圖。圖8為本發明實施例提供的對用戶詞庫進行擴展操作的詳細示意圖。圖9為本發明第五實施例提供的用戶詞庫同步服務器的結構框圖。
具體實施例方式為更進一步闡述本發明為實現預定發明目的所采取的技術手段及功效,以下結合附圖及較佳實施例,對依據本發明提出的一種用戶詞庫同步方法及用戶詞庫同步服務器的具體實施方式
、結構、特征及其功效,詳細說明如后。術語定義:1.1 詞庫詞庫是指包括多條詞條記錄的集合,而每條詞條記錄可以包括:用戶輸入的已有字詞及相應的屬性參數;和/或,用戶輸入的自造字詞及相應的屬性參數。對于每個詞條其數據存儲結構例如可以為:詞條;屬性參數I ;屬性參數2 ;……;屬性參數η。其中,屬性參數例如可以為詞頻信息、生成時間、最后使用時間、二元關系等等。1.2統計語言模型目前市場上的輸入法普遍采用統計語言模型作為輸入法的核心模塊,來處理用戶的整句輸入需求。統計語言模型以概率論和數理統計理論為基礎,用來計算漢語語句的概率,使得正確語句的概率大于錯誤語句的概率。對于一個包含m個詞的漢語語句S = W1W2…wm,根據Bayes理論,其概率可以分解為若干個條件概率的乘積,即
權利要求
1.一種用戶詞庫同步方法,其包括: 在至少一個存儲空間內存儲第一云端用戶詞庫; 其特征在于,所述方法還包括: 步驟一:對所述第一云端用戶詞庫進行過濾或者擴展操作得到中間結果;以及 步驟二:將所述中間結果保存至一個存儲空間內的一個第二云端用戶詞庫。
2.如權利要求1所述的用戶詞庫同步方法,其特征在于,步驟一中進行的是過濾操作。
3.如權利要求1所述的用戶詞庫同步方法,其特征在于,所述第一、第二云端用戶詞庫分別對應于同一用戶使用的第一客戶端與第二客戶端。
4.如權利要求3所述的用戶詞庫同步方法,其特征在于,所述第一客戶端為非移動客戶端,所述第二客戶端為移動客戶端。
5.如權利要求3所述的用戶詞庫同步方法,其特征在于,步驟二中所述中間結果覆蓋所述第二云端用戶詞庫。
6.如權利要求2所述的用戶詞庫同步方法,其特征在于,步驟一中采用至少一個過濾器進行過濾,所述至少一個過濾器包括:語言模型過濾器、統計信息過濾器、或者自定義過濾器。
7.如權利要求6所述的用戶詞庫同步方法,其特征在于,所述至少一個過濾器包括統計信息過濾器,所述統計信息過濾器根據其他用戶的云端用戶詞庫計算得到統計信息。
8.如權利要求1所述的用戶詞庫同步方法,其特征在于,所述步驟一與步驟二是定期重復進行的,或者是根據用戶的同步請求進行的。
9.一種用戶詞庫同步方法,其特征在于,包括: 在至少一個存儲空間內存儲一個第一云端用戶詞庫; 接收來自所述第一客戶端的第一同步信息; 根據所述第一同步信息對所述第一云端用戶詞庫進行更新; 對所述第一同步信息進行過濾或者擴展操作得到中間結果;以及 根據所述中間結果對一個存儲空間內的一個第二云端用戶詞庫進行更新。
10.一種用戶詞庫同步服務器,其特征在于,包括:存儲單元、更新處理單元以及中間處理單元,其中: 存儲單元用于存儲對應于一個第一客戶端的一個第一云端用戶詞庫; 中間處理單元用于對所述第一云端用戶詞庫進行過濾或者擴展操作以得到中間結果; 更新處理單元用于將所述中間結果保存至一個存儲空間內的一個第二云端用戶詞庫。
全文摘要
本發明涉及一種用戶詞庫同步方法,其包括在至少一個存儲空間內存儲第一云端用戶詞庫;所述方法還包括步驟一對第一云端用戶詞庫進行過濾或者擴展操作得到中間結果;以及步驟二將中間結果保存至一個存儲空間內的一個第二云端用戶詞庫。上述同步方法既可以滿足用戶詞庫在不同設備端上的共性需求,又可以使用戶詞庫針對不同的設備類型或者應用環境作優化。另外,本發明還提供一種用戶詞庫同步服務器。
文檔編號H04L29/08GK103108012SQ20111036202
公開日2013年5月15日 申請日期2011年11月15日 優先權日2011年11月15日
發明者肖鏡輝 申請人:騰訊科技(深圳)有限公司