語音處理方法及系統的制作方法

文檔序號：2833436閱讀：447來源：國知局

專利名稱：語音處理方法及系統的制作方法
技術領域：
本發明涉及語音識別技術領域，特別是涉及一種基于語音識別技術的語音處理方法及系統。
背景技術：
在日常通話中，每個人或多或少都會有一些經常掛在口頭上而無多大實際意義的詞，這種詞人們稱為口頭禪?？陬^禪的形成大致跟使用者的性格、生活遭遇或是精神狀態有關，可以算是個人標志，是個人習慣用語的代名詞，往往不經過大腦直接說出。日常通話中口頭禪的無意識使用，往往影響著他人對使用者的感覺或印象。如果口頭禪是不夠積極向上的，特別是如果某些口頭禪被大眾認為是臟話，則往往使他人對說話者造成誤解，甚至會發生一些不必要的糾紛，還可能因此喪失一些機會。因此，人們普遍希望能夠發現自己的口頭禪、進而糾正自己不好的說話習慣。早期，人們普遍采取由他人提醒的方式，但這種方式不太適合語音通話，因為人們很難要求對話對象來提醒自己。為此，傳統技術中提出了一種在語音通話過程中檢測臟話的方法，其方式為預先輸入幾個語音數據作為檢測樣本，一旦檢測到與樣本相匹配的語音，便通過蜂鳴器予以提示，警示用戶說臟話。上述臟話檢測方法，只能根據用戶預先輸入的語音數據作為樣本，這樣可能會漏掉某些不易被察覺的口頭禪，這些被漏掉的口頭禪很難被補充進語音數據樣本庫中，由此導致上述檢測方法的使用效果有限。

發明內容
基于此，有必要針對根據用戶預先輸入的語音數據作為樣本，會漏掉某些不易被察覺的口頭禪的問題，提供一種能夠對語音數據樣本庫進行完善的語音處理方法。一種語音處理方法，包括如下步驟獲取用戶通話過程中的語音數據；檢測所述語音數據中的詞語；按預定要求提取所述詞語供用戶選取；將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中；在通話過程中如果檢測到所述候選詞語則進行提示。在其中一個實施例中，所述在通話過程中如果檢測到所述候選詞語則進行提示的步驟包括檢測用戶通話過程中出現的詞語；將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；判斷檢測到的詞語為候選詞語時發出提示。在其中一個實施例中，語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余少于N時，更改提示方式。
在其中一個實施例中，語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余為O時結束通話。在其中一個實施例中，當獲取到的語音數據的容量大小超過預設內存空間時停止所述獲取用戶通話過程中的語音數據的步驟。在其中一個實施例中，在按預定要求提取所述詞語供用戶選取的步驟中，統計出現頻率大于設定頻率的詞語并提取供用戶選取，或統計所述詞語的出現頻率并按頻率排序后供用戶選取。在其中一個實施例中，記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語，在下次統計所述詞語的出現頻率中不予統計。此外，還提出一種語音處理系統，包括
獲取模塊，獲取用戶通話過程中的語音數據；檢測模塊，檢測所述語音數據中的詞語；提取模塊，按預定要求提取所述詞語供用戶選取；加入模塊，將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中；提示模塊，在通話過程中如果檢測到所述候選詞語則進行提示。在其中一個實施例中，所述提示模塊包括檢測單元、比對單元和提示單元，所述檢測單元檢測用戶通話過程中出現的詞語，所述比對單元將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；所述提示單元在判斷檢測到的詞語為候選詞語時發出提示。在其中一個實施例中，所述提示模塊還包括計數單元，用以累積檢測到所述候選詞語的次數，當同一個候選詞語允許出現的上限次數的剩余少于N時，所述計數單元通知所述提示單元更改提示方式。在其中一個實施例中，所述提示模塊還包括通話結束單元,在所述計數單元統計到語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余為O時，所述通話結束單元結束通話。在其中一個實施例中，所述提取模塊包括統計單元,所述統計單元統計出現頻率大于設定頻率的詞語并提取供用戶選取，或者統計所述詞語的出現頻率并按頻率排序后供用戶選取。在其中一個實施例中，所述加入模塊包括加入單元和記錄單元，所述加入單元用以將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中，所述記錄單元將記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語并通知所述統計單元在下次統計所述詞語的出現頻率中不予統計。在其中一個實施例中，還包括容量檢測模塊，所述容量檢測模塊在所述獲取模塊獲取到的語音數據的容量大小超過預設內存空間時停止所述獲取模塊繼續獲取用戶通話過程中的語音數據。上述語音處理方法及系統，按預定要求提取所述詞語供用戶選取并將用戶選取的詞語加入到語音樣本數據庫中，在通話過程中如果檢測到所述候選詞語則進行提示，由此可以根據實際的通話過程中的語音數據來確定候選詞語，不會漏掉某些不易被察覺的口頭禪，從而避免疏漏，更好地幫助用戶改善不良的語言習慣。

圖I為實施方式一的語音處理方法的工作流程圖；圖2為實施方式二的語音處理方法的工作流程圖；圖3為語音處理系統的模塊圖。
具體實施例方式以下本實施方式的語音處理方法能夠利用實際的通話過程，對語音樣本數據庫進行完善，以保證通話過程中檢測的全面性，有效幫助用戶改善不良的語言習慣。如圖I所示，實施方式一的語音處理方法包括如下步驟步驟SI 10，獲取用戶通話過程中的語音數據。本步驟中，可以通過麥克風采集語音獲取語音數據。而這里的語音數據，可以是只獲取單次通話的語音數據，也可以是獲取多次通話的語音數據并進行累計存儲。獲取到的語音數據可以存儲在手機自身內存中，也可以存儲在擴展卡中。在其中一個實施例中，用戶可以根據需要預設用以存儲獲取到的語音數據的存儲空間的容量上限作為預設內存空間，避免占據手機過多內存，導致后續清理難度增大。當獲取到的語音數據的容量大小超過預設內存空間時停止本步驟，即停止獲取用戶通話過程中的語音數據。當然，也可以采用自動刪除的方式，即自動刪除早前存儲的語音數據。另外，也可以不設置容量上限。步驟S120，檢測所述語音數據中的詞語。本步驟中，可以采用語音識別技術獲得語音數據中的詞語。由于語音識別數據已經廣泛使用，在此不再詳述。如果步驟SllO中獲得的是單次通話的語音數據，則檢測該單次通話的語音數據中的詞語，還可以進一步統計檢測到的詞語的出現頻率；如果步驟S 110中獲得的是多次通話的語音數據，則獲得每次通話的語音數據中的詞語并累計后得到詞語的出現頻率。檢測出來詞語后可以刪掉原始語音數據，僅保留文本詞語，節省存儲空間。用戶可以自定義統計基準，例如可以是統計每分鐘(或每兩分鐘內等)同一詞語的出現頻率。統計的對象可以是語音數據中的所有詞語，也可以是除某些特定詞語之外的所有詞語，即排除掉一些因為專業問題需要常說的詞語，比如“專利”。步驟S130，按預定要求提取所述詞語供用戶選取。這里的預定要求可以是詞語的出現頻率大于設定頻率，這個設定頻率可以是默認值或是用戶根據需要自行修改，用戶可以設定將出現頻率大于設定頻率的詞語全部提取或排序后提取前幾名；預定要求還可以是直接按照詞語的出現頻率進行排序，將排序后的詞語供用戶選取，而不需要大于設定頻率，這里可以預先設定提取排序靠前的要求，如提取排序前三、前五等。本步驟中，供用戶選取的方式可以是將提取到的詞語顯示在用戶終端屏幕上，或語音詢問用戶是否選擇將該提取到的詞語設為語音數據樣本，然后通過語音識別技術獲取用戶選擇的詞語并設為語音數據樣本。語音詢問可以在通話結束后進行，也可以在通話過程中即時詢問。步驟S140，將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中。候選詞語加入到語音數據樣本庫中后，即成為語音數據樣本庫中的語音數據樣本。如果用戶同時選取了多個候選詞語，則同時將多個候選詞語加入到語音數據樣本庫中。可以理解，由于人的個體差異，語音數據樣本庫中將可能存在一個或多個語音數據樣本。
步驟S150，在通話過程中如果檢測到所述候選詞語則進行提示。本步驟中，可以一檢測到就即刻提示，也可以是檢測到預定次數后才提示，即允許用戶說預定次數的候選詞語。預定次數可以是系統的默認值，也可以由用戶自行設定。也可以在通話結束后顯示本次通話過程中檢測到候選詞語的次數。本實施方式中，步驟S150包括檢測用戶通話過程中出現的詞語；將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；及判斷檢測到的詞語為候選詞語時發出提示。語音數據樣本庫中可能有一個或多個候選詞語。當只有一個候選詞語時，可以是判斷每出現一次該候選詞語便通過蜂鳴器發聲予以提示，同一候選詞語出現次數增多時，可以采取蜂鳴器發聲音量提高、頻率改變或連響等方式予以用戶不同程度的警示。例如，用戶自定義某個候選詞語允許出現的上限次數，語音數據樣本庫中的同一個候選詞語每出現一次，蜂鳴器響一次；語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余少于N時，更改提示方式，例如可以采取蜂鳴器發聲音量提高、頻率改變或連響，還可以改為震動等方式予以用戶不同程度的警示；語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余為O時結束通話。前述的N是自然數，用戶可自定義設置，如設置N等于2或
3。同一個候選詞語允許出現的上限次數的剩余少于N時，此時N可能大于1，這樣可以給予用戶一定的緩沖。也可以采取更為簡單的方式設定某個候選詞語出現次數達到設定值時，蜂鳴器發聲予以提示，當該候選詞語再次出現時即強制結束通話。當語音數據樣本庫中有多個候選詞語時，不同的候選詞語出現時，蜂鳴器均發聲予以提示。為了區別，本步驟中，不同的候選詞語出現時，蜂鳴器發聲音量不同；或發聲頻率不同，以發出不同聲音；或采取不同的連響方式。不同的候選詞語允許出現的上限次數可以設置成不同，也可以相同。提示方式還可以是手機發出震動、屏幕閃爍、在屏幕上顯示提示信息等。如圖2所示，實施方式二的語音處理方法包括如下步驟步驟S210，獲取用戶通話過程中的語音數據。本步驟中，可以通過麥克風采集語音獲取語音數據。而這里的語音數據，可以是只獲取單次通話的語音數據，也可以是獲取多次通話的語音數據并進行累計存儲。獲取到的語音數據可以存儲在手機自身內存中，也可以存儲在擴展卡中。用戶可以根據需要預設用以存儲獲取到的語音數據的存儲空間的容量上限作為預設內存空間，避免占據手機過多內存，導致后續清理難度增大。當獲取到的語音數據的容量大小超過預設內存空間時停止本步驟，即停止獲取用戶通話過程中的語音數據。步驟S220，檢測所述語音數據中的詞語。本步驟中，使用語音識別技術獲取語音數據中的詞語。由于語音識別數據已經廣泛使用，在此不再詳述。本步驟中，檢測的所述語音數據中的詞語可能是單次通話的語音數據中的詞語，也可能累計存儲的多次通話的語音數據中的詞語。步驟S230，判斷是否為需要統計的詞語，是則進入步驟S240。本步驟中，檢測到語音數據中的詞語后，首先判斷該詞語是否為需要統計的詞語。因為有些詞語根據之前用戶的操作確定為不需要統計的詞語、有的詞語是積極向上的或者可能是特定場合下需要被多次談到的詞語，如奧運，這些詞不應當被統計到。用戶自定義一個或多個不需要統計的多個詞語，如此，檢測結果將更為準確快捷。如果判斷某詞語與預先設定的不需統計的詞語相符合，則不統計該詞語。如此，能提高對語音數據的處理效率。步驟S240，統計所述詞語的出現頻率。如果步驟S210中獲得的是單次通話的語音數據，則檢測該單次通話的語音數據中的詞語，還可以進一步統計檢測到側詞語的出現頻率；如果步驟S210中獲得的是多次通話的語音數據，則獲得每次通話的語音數據中的詞語并累計后得到詞語的出現頻率。本步驟中，用戶可以自定義統計標準，例如可以是統計每分鐘(或每兩分鐘內等)同一詞語的出現頻率。統計的對象可以是語音數據中的所有詞語，如果步驟S230中有設定一些不需統計的詞語，則統計的對象是除某些特定詞語之外的所有詞語。步驟S250，按預定要求提取所述詞語供用戶選取。這里的預定要求可以是詞語的出現頻率大于設定頻率，這個設定頻率可以是默認值或是用戶根據需要自行修改，用戶可以設定將出現頻率大于設定頻率的詞語全部提取或排序后提取前幾名；預定要求還可以是直接按照詞語的出現頻率進行排序，將排序靠前的提供給用戶選取，而不需要大于設定頻
率。·本步驟中，供用戶選取的方式可以是將提取到的詞語顯示在用戶終端屏幕上，或者語音詢問用戶意見是否選擇將該提取到的詞語設為語音數據樣本，然后通過語音識別技術將用戶選擇的詞語設為語音數據樣本。語音詢問可以在通話結束后進行，也可以在通話過程中即時詢問。步驟S260，將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中。本步驟中，將用戶選擇的一個或多個詞語作為候選詞語加入到語音數據樣本庫中。這里可以是用戶直接選取候選詞語，其他詞語默認為正常使用詞語；還可以是用戶選擇需要標記為正常使用狀態的詞語，其他詞語則自動加入到語音數據樣本庫中。步驟S270,記錄供用戶選取但未被選取的詞語,將其標記為正常使用詞語。由于供用戶選取的候選詞語可能有多個，但不一定都是需要糾正的，用戶不會選取這類的候選詞語。因此記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語，如此在下次統計詞語的出現頻率時不予統計(步驟S230判斷為不需要統計的詞語)。由此，能夠降低統計量，減少操作次數。本步驟中，還可以同時將準備標記為正常使用的詞語予以提示，供用戶進行確認，防止步驟S260中用戶漏掉應該選取的詞語。步驟S280，在通話過程中如果檢測到所述候選詞語則進行提示。本實施方式中，步驟S280包括檢測用戶通話過程中出現的詞語；將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；及判斷檢測到的詞語為候選詞語時發出提不。語音數據樣本庫中有一個或多個候選詞語時，蜂鳴器發聲方法可以參照實施方式一進行，不再贅述。步驟S290，通話結束后清理獲取到的語音數據。通話結束后，自動清理獲取到的語音數據，此時這些語音數據的容量大小可能超過或未超過預設內存空間，都可以免除用戶手工操作的辛苦。這里的語音數據可能是單次通話的語音數據，也可能是多次通話累計的語音數據。本步驟中，可以是按照通話時間的順序刪除一些較早的數據，使預設內存空間可利用部分增大，未被刪除的數據在后續的通話中可能被再次使用，使得統計同一詞語出現頻率時有更為客觀的基礎，不被某次對話所局限。由于某些特定場合會出現多個被反復提及的詞語，但這些詞語均不需要被糾正，也有一些詞語用戶可能不夠確定，因此本步驟中，還會給出提示，征求用戶意見是否刪除獲取的當前通話的語音數據，并根據用戶的選擇將其刪除，如此可避免特定場合的通話數據被再次使用作為檢測對象，由此避免產生誤報，影響體驗。實施方式二的語音處理方法與實施方式一處理流程相比，進一步增加了判斷是否為需要統計的詞語的步驟、增加了記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語的步驟，及增加了通話結束后自動清理獲取到的語音數據的步驟，這些步驟的設置能夠進一步降低處理量、減少對存儲空間的要求及減少用戶的操作。另外，請參考圖3，還提出了一種語音處理系統，包括獲取模塊310、檢測模塊320、提取模塊330、加入模塊340及提示模塊350。獲取模塊310獲取用戶通話過程中的語音數據。獲取模塊310可以通過麥克風采集語音獲取語音數據。而這里的語音數據，可以是只獲取單次通話的語音數據，也可以是獲取多次通話的語音數據并進行累計存儲。獲取到的語音數據可以存儲在手機自身內存中，也可以存儲在擴展卡中。在其中一個實施例中，用戶可以根據需要預設用以存儲獲取到的語音數據的存儲空間的容量上限作為預設內存空間，避免占據手機過多內存，導致后續清理難度增大。此時，語音處理系統還包括容量檢測模塊360，容量檢測模塊360在獲取模塊310獲取到的語音數據的容量大小超過預設內存空間時停止獲取模塊310繼續獲取用戶通話過程中的語音數據。當然，也可以采用自動刪除的方式，即自動刪除早前存儲的語音數據。另外，也可以不設置容量上限。檢測模塊320檢測所述語音數據中的詞語。檢測模塊320可以采用語音識別技術獲得語音數據中的詞語。由于語音識別數據已經廣泛使用，在此不再詳述。如果獲取模塊310獲得的是單次通話的語音數據，則檢測模塊320檢測該單次通話的語音數據中的詞語，還可以進一步統計檢測到側詞語的出現頻率；如果獲取模塊310中獲得的是多次通話的語音數據，則檢測模塊320獲得每次通話的語音數據中的詞語并累計后得到詞語的出現頻率。檢測出來詞語后可以刪掉原始語音數據，僅保留文本詞語，節省存儲空間。用戶可以自定義統計基準，例如可以是統計每分鐘(或每兩分鐘內等)同一詞語的出現頻率。統計的對象可以是語音數據中的所有詞語，也可以是除某些特定詞語之外的所有詞語，即排除掉一些因為專業問題需要常說的詞語，比如“專利”。提取模塊330按預定要求提取所述詞語供用戶選取。這里的預定要求可以是詞語的出現頻率大于設定頻率，這個設定頻率可以是默認值或是用戶根據需要自行修改，用戶可以設定將出現頻率大于設定頻率的詞語全部提取或排序后提取前幾名；預定要求還可以是直接按照詞語的出現頻率進行排序，將排序后的詞語供用戶選取，而不需要大于設定頻率，這里可以預先設定提取排序靠前的要求，如提取排序前三、前五等。供用戶選取的方式可以是將提取到的詞語顯示在用戶終端屏幕上，或語音詢問用戶是否選擇將該提取到的詞語設為語音數據樣本，然后通過語音識別技術獲取用戶選擇的詞語并設為語音數據樣本。語音詢問可以在通話結束后進行，也可以在通話過程中即時詢問。在其中一個實施例中，提取模塊330包括統計單元，統計單元統計出現頻率大于設定頻率的詞語并提取供用戶選取，或者統計所述詞語的出現頻率并按頻率排序后供用戶選取。通過這種方式可以方面用戶確定哪些是高頻的口頭禪。當然也可以按頻率排序，即可以省略統計單元。
加入模塊340將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中。候選詞語加入到語音數據樣本庫中后，即成為語音數據樣本庫中的語音數據樣本。如果用戶同時選取了多個候選詞語，則同時將多個候選詞語加入到語音數據樣本庫中?？梢岳斫?，由于人的個體差異，語音數據樣本庫中將可能存在一個或多個語音數據樣本。在其中一個實施例中，加入模塊包括加入單元和記錄單元，所述加入單元將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中，所述記錄單元將記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語并通知所述統計單元在下次統計所述詞語的出現頻率中不予統計。由于供用戶選取的候選詞語可能有多個，但不一定都是需要糾正的，用戶不會選取這類的候選詞語。因此記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語，如此在下次統計詞語的出現頻率時不予統計。由此，能夠降低統計量，減少操作次數。提示模塊350在通話過程中如果檢測到所述候選詞語則進行提示。提示模塊350可以一檢測到就即刻提示，也可以是檢測到預定次數后才提示，即允許用戶說預定次數的候選詞語。預定次數可以是系統的默認值，也可以由用戶自行設定。提示的方式可以是聲音提示，還可以是手機發出震動、屏幕閃爍、在屏幕上顯示提示信息等。在其中一個實施例中,提示模塊350包括檢測單元、比對單元和提示單元。檢測單元檢測用戶通話過程中出現的詞語，比對單元將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比，提示單元在判斷檢測到的詞語為候選詞語時發出提示。提示模塊350還可以包括計數單元，用以累積檢測到所述候選詞語的次數，當同一個候選詞語允許出現的上限次數的剩余少于N時，所述計數單元通知所述提示單元更改提示方式。例如可以采取蜂鳴器發聲音量提高、頻率改變或連響，還可以改為震動等方式予以用戶不同程度的警示。例如，用戶自定義某個候選詞語允許出現的上限次數，語音數據樣本庫中的同一個候選詞語每出現一次，蜂鳴器響一次；語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余少于N時，蜂鳴器發聲音量提高且連續響兩次以上。提示模塊還可以包括通話結束單元，在所述計數單元統計到語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余為O時，所述通話結束單元結束通話。前述的N是自然數，用戶可自定義設置，如設置N等于2或3。當語音數據樣本庫中有多個候選詞語時，不同的候選詞語出現時，蜂鳴器均發聲予以提示。為了區別，不同的候選詞語出現時，提示模塊350控制蜂鳴器發聲音量不同；或發聲頻率不同，以發出不同聲音；或采取不同的連響方式。不同的候選詞語允許出現的上限次數可以設置成不同，也可以相同。上述語音處理方法和系統，能夠根據實際的通話過程中的語音數據來確定候選詞語，不會漏掉某些不易被察覺的口頭禪，從而避免疏漏，更好地幫助用戶改善不良的語言習慣。當然，語音數據樣本除了可以通過從用戶通話語音中采集外，還可以通過其它方式獲取，例如I、用戶手動錄入到數據庫中；2、系統預先設置語音樣本數據庫，在樣本數據庫中預置有語音數據樣本；3、在網絡服務器中設置語音樣本數據庫，終端從網絡服務器中獲取語音數據樣本；終端可以向服務器上傳自定義的語音數據樣本，也可以從服務器中更新樣本數據。
以上所述實施例僅表達了本發明的幾種實施方式，其描述較為具體和詳細，但并不能因此而理解為對本發明專利范圍的限制。應當指出的是，對于本領域的普通技術人員來說，在不脫離本發明構思的前提下，還可以做出若干變形和改進，這些都屬于本發明的保護范圍。因此，本發明專利的保護范圍應以所附權利要求為準。
權利要求
1.一種語音處理方法，其特征在于，包括如下步驟獲取用戶通話過程中的語音數據；檢測所述語音數據中的詞語；按預定要求提取所述詞語供用戶選取；將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中；在通話過程中如果檢測到所述候選詞語則進行提示。
2.根據權利要求I所述的語音處理方法，其特征在于，所述在通話過程中如果檢測到所述候選詞語則進行提示的步驟包括檢測用戶通話過程中出現的詞語；將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；判斷檢測到的詞語為候選詞語時發出提示。
3.根據權利要求2所述的語音處理方法，其特征在于，語音數據樣本庫中的同一個候選詞語允許出現的上限次數的剩余少于N時，更改提示方式。
4.根據權利要求I所述的語音處理方法，其特征在于，在按預定要求提取所述詞語供用戶選取的步驟中，統計出現頻率大于設定頻率的詞語并提取供用戶選取，或統計所述詞語的出現頻率并按頻率排序后供用戶選取。
5.根據權利要求4所述的語音處理方法，其特征在于，還包括以下步驟記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語，在下次統計所述詞語的出現頻率中不予統計。
6.—種語音處理系統,其特征在于,包括獲取模塊，獲取用戶通話過程中的語音數據；檢測模塊，檢測所述語音數據中的詞語；提取模塊，按預定要求提取所述詞語供用戶選??；加入模塊，將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中；提示模塊，在通話過程中如果檢測到所述候選詞語則進行提示。
7.根據權利要求6所述的語音處理系統，其特征在于，所述提示模塊包括檢測單元、比對單元和提示單元，所述檢測單元檢測用戶通話過程中出現的詞語，所述比對單元將檢測到的詞語與所述語音數據樣本庫中的候選詞語進行對比；所述提示單元在判斷檢測到的詞語為候選詞語時發出提示。
8.根據權利要求7所述的語音處理系統，其特征在于，所述提示模塊還包括計數單元，用以累積檢測到所述候選詞語的次數，當同一個候選詞語允許出現的上限次數的剩余少于N時,所述計數單元通知所述提示單元更改提示方式。
9.根據權利要求6所述的語音處理系統，其特征在于，所述提取模塊包括統計單元，所述統計單元統計出現頻率大于設定頻率的詞語并提取供用戶選取，或者統計所述詞語的出現頻率并按頻率排序后供用戶選取。
10.根據權利要求9所述的語音處理系統，其特征在于，所述加入模塊包括加入單元和記錄單元，所述加入單元用以將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中，所述記錄單元將記錄供用戶選取但未被選取的詞語，將其標記為正常使用詞語并通知所述統計單元在下次統計所述詞語的出現頻率中不予統計。
全文摘要
本發明涉及一種語音處理方法，其步驟如下獲取用戶通話過程中的語音數據；檢測所述語音數據中的詞語；按預定要求提取所述詞語供用戶選??；將用戶選取的詞語作為候選詞語加入到語音數據樣本庫中；在通話過程中如果檢測到所述候選詞語則進行提示。上述語音處理方法，按預定要求提取所述詞語供用戶選取并將用戶選取的詞語加入到語音樣本數據庫中，在通話過程中如果檢測到所述候選詞語則進行提示，由此可以根據實際的通話過程中的語音數據來確定候選詞語，不會漏掉某些不易被察覺的口頭禪，從而避免疏漏，更好地幫助用戶改善不良的語言習慣。此外，還提出一種語音處理系統。
文檔編號G10L15/14GK102915730SQ201210402550
公開日2013年2月6日申請日期2012年10月19日優先權日2012年10月19日
發明者黑吉昌, 丁兆剛申請人:東莞宇龍通信科技有限公司, 宇龍計算機通信科技(深圳)有限公司

完整全部詳細技術資料下載