提高統計語言模型準確度的方法及系統的制作方法
【專利摘要】本發明公開了一種提高統計語言模型準確度的方法及系統,該方法包括:獲取訓練語料,并將所述訓練語料分為兩部分:訓練集和保留集;在所述訓練集上統計各階語言模型對應的詞頻,并對詞頻為0的語言模型設置對應的補償參數,所述補償參數的取值在設定范圍內;在所述保留集上按設定步長遍歷對應所述語言模型的補償參數在所述設定范圍內的各值,獲得使目標函數最小的最優補償參數;利用對應所述語言模型的最優補償參數計算所述語言模型的條件概率,得到統計語言模型。利用本發明,可以有效提高語言模型的整體識別率。
【專利說明】提高統計語言模型準確度的方法及系統
【技術領域】
[0001] 本發明涉及語音識別【技術領域】,具體涉及一種提高統計語言模型準確度的方法及 系統。
【背景技術】
[0002] 統計語言模型在自然語言處理技術中占有重要地位,在語音識別、光學字符識別、 機器翻譯、漢語拼音輸入、信息檢索等許多系統中都得到了成功的應用。在語音識別中,計 算機需要知道一個文字序列是否能構成一個大家理解而且有意義的句子,然后顯示或者打 印給使用者。
[0003] 例如:給定拼音串:ta shi yan jiu sheng wu de ;
[0004] 可能的漢字串有以下幾種:踏實研究生物的、他實驗救生物的、他使煙酒生物的、 他是研究生物的等等。
[0005] 如何讓計算機選擇一個最可能的漢字串,就要用到統計語言模型。
[0006] 在統計語言模型中,判斷一個句子是否合理,就要看它的可能性大小。假定S表示 一個有意義的句子,由一連串特定順序排列的詞Wp W2, . . .,Wn組成,即S = Wi,W2, . . .,Wn,η 是句子的長度,則S在文本中出現的概率為:
[0007] P ⑶=P (W" W2,…,Wn)
[0008] 由條件概率可知,S這個序列在文本中出現的概率等于每一個詞出現的條件概率 相乘,即:
[0009] P(S) =P(W1)XP(W2|W1)XP(W3|W 1,W2)X··· XPOVjH···,^
[0010] 其中,P(Wi)表示第一個詞出現的概率,P^IWi)表示在已知第一個詞的前提下,第 二個詞出現的概率,依此類推。
[0011] 但是依然有一個問題,就是文本序列越靠后的詞,依賴的詞越多,到最后一個詞時 可能都無法估算。為此,業界給出了一個簡單有效的方法,即假設任意一個詞Wi出現的概 率只與它前面的詞Wg有關,則上式(2)簡化為 :
[0012] p(s) = Pdi) xpdjffi) xp(w3|w2) x... xpdjw^)
[0013] 但是,對于統計語言模型,還有很多細節問題需要解決,其中一個問題就是零概率 問題。而且,隨著階數的增大,估計為0的模型數越來越多,對語音識別正確率有較大影響。 為此,現有技術中通過平滑處理來改進模型的整體正確率。目前,統計語言模型的平滑方法 主要有:絕對折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。這幾種方法,都 是在使非零概率下降的時候,同時改變了非零概率之間的分布比例,導致語言模型困惑度 上升,整體正確率下降。
【發明內容】
[0014] 本發明實施例提供一種提高統計語言模型準確度的方法及系統,在不改變非零概 率之間的分布比例的情況下,消除零概率,提高語言模型的整體識別率。
[0015] 為此,本發明實施例提供如下技術方案:
[0016] 一種提高統計語言模型準確度的方法,包括:
[0017] 獲取訓練語料,并將所述訓練語料分為兩部分:訓練集和保留集;
[0018] 在所述訓練集上統計各階語言模型對應的詞頻,并對詞頻為0的語言模型設置對 應的補償參數,所述補償參數的取值在設定范圍內;
[0019] 在所述保留集上按設定步長遍歷對應所述語言模型的補償參數在所述設定范圍 內的各值,獲得使目標函數最小的最優補償參數;
[0020] 利用對應所述語言模型的最優補償參數計算所述語言模型的條件概率,得到統計 語目模型。
[0021] 優選地,所述將所述訓練語料分為兩部分包括:
[0022] 按照任意比例將所述訓練語料分為兩部分。
[0023] 優選地,所述設定范圍為0?1。
[0024] 優選地,所述目標函數為語言模型的困惑度PP :
[0025]
【權利要求】
1. 一種提高統計語言模型準確度的方法,其特征在于,包括: 獲取訓練語料,并將所述訓練語料分為兩部分:訓練集和保留集; 在所述訓練集上統計各階語言模型對應的詞頻,并對詞頻為0的語言模型設置對應的 補償參數,所述補償參數的取值在設定范圍內; 在所述保留集上按設定步長遍歷對應所述語言模型的補償參數在所述設定范圍內的 各值,獲得使目標函數最小的最優補償參數; 利用對應所述語言模型的最優補償參數計算所述語言模型的條件概率,得到統計語言 模型。
2. 根據權利要求1所述的方法,其特征在于,所述將所述訓練語料分為兩部分包括: 按照任意比例將所述訓練語料分為兩部分。
3. 根據權利要求1所述的方法,其特征在于,所述設定范圍為0?1。
4. 根據權利要求1至3任一項所述的方法,其特征在于,所述目標函數為語言模型的困 惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓練集語料中出現的概率,ni表示 所述詞串序列Si在所述訓練集語料中出現的次數。
5. 根據權利要求4所述的方法,其特征在于,所述利用對應所述語言模型的最優補償 參數對所述語言模型進行優化,得到優化后的語言模型包括: 對于同階的非零概率部分,
對于同階的零概率部分,
其中,詞串序列h = 1_η+1, · · ·,Wh,詞串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 訓練集語料中出現的次數;C(h,Wi)表示(h,Wi)在所述訓練集語料中出現的次數;λ (h) 表示對應h的最優補償參數:
6. -種提高統計語言模型準確度的系統,其特征在于,包括: 語料獲取模塊,用于獲取訓練語料; 拆分模塊,用于將所述訓練語料分為兩部分:訓練集和保留集; 統計模塊,用于在所述訓練集上統計各階語言模型對應的詞頻,并對詞頻為〇的語言 模型設置對應的補償參數,所述補償參數的取值在設定范圍內; 最優補償參數獲取模塊,用于在所述保留集上按設定步長遍歷對應所述語言模型的補 償參數在所述設定范圍內的各值,獲得使目標函數最小的最優補償參數; 優化模塊,用于利用對應所述語言模型的最優補償參數計算所述語言模型的條件概 率,得到統計語言模型。
7. 根據權利要求6所述的系統,其特征在于,所述拆分模塊按照任意比例將所述訓練 語料分為兩部分。
8. 根據權利要求6所述的系統,其特征在于,所述設定范圍為0?1。
9. 根據權利要求6至8任一項所述的系統,其特征在于,所述目標函數為語言模型的困 惑度PP :
P(Si)表示所述保留集語料中的詞串序列Si在所述訓練集語料中出現的概率,ni表示 所述詞串序列Si在所述訓練集語料中出現的次數。
10. 根據權利要求9所述的系統,其特征在于,所述優化模塊具體按以下方式對所述語 言模型進行優化: 對于同階的非零概率部分,
對于同階的零概率部分
其中,詞串序列h = 1_η+1, · · ·,Wh,詞串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 訓練集語料中出現的次數;C(h,Wi)表示(h,Wi)在所述訓練集語料中出現的次數;λ (h) 表示對應h的最優補償參數,
【文檔編號】G10L15/06GK104112447SQ201410366038
【公開日】2014年10月22日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】殷永光, 鹿曉亮, 梁修存 申請人:科大訊飛股份有限公司