1.一種語音識別數(shù)據(jù)預處理方法,其特征在于,包括以下步驟:
步驟1)組織標準音頻文件,整理需要生成數(shù)據(jù)模型的音頻文件;
步驟2)編輯標準文本,整理編輯需要識別評分的文段,句子,單詞等文本;
步驟3)配置發(fā)音詞典,配置該文段需要用到的通用發(fā)音詞典或者特殊發(fā)音詞典;
步驟4)生成對應語音模型,根據(jù)以上步驟產(chǎn)出文件來生成對應語音模型,保存語音模型文件;
步驟5)采用生成的語音模型調(diào)用語音識別引擎進行對標準音特征數(shù)據(jù)進行識別處理,生成并保存標準音數(shù)據(jù)模型;
步驟6)采用預生成數(shù)據(jù)模型在應用產(chǎn)品中直接加載預生成數(shù)據(jù)模型進行對用戶錄音進行識別評分。
2.根據(jù)權(quán)利要求1所述的一種語音識別數(shù)據(jù)預處理方法,其特征在于:所述步驟1)中整理編輯文本的步驟如下:
11)由于用戶終端CPU計算能力限制,進行語音識別評分需要把識別目標設定在一定范圍內(nèi).如設定為一個單元的課文內(nèi)容。
3.根據(jù)權(quán)利要求1所述的一種語音識別數(shù)據(jù)預處理方法,其特征在于:所述步驟2)中整理編輯文本的步驟如下:創(chuàng)建一個XML配置文件,給每個句子或者單詞都在配置文件中創(chuàng)建一個節(jié)點,節(jié)點中包含音頻文件引用路徑和對應文本。
4.根據(jù)權(quán)利要求1所述的一種語音識別數(shù)據(jù)預處理方法,其特征在于:所述步驟3)中配置發(fā)音詞典的步驟如下:
31)完成單詞或句子配置后,針對每個單詞的節(jié)點對應配置發(fā)音詞典的發(fā)音,并進行關(guān)聯(lián);
32)進一步的,發(fā)音詞典分為常用發(fā)音詞典和特殊發(fā)音詞典,如果一篇文段里所有單詞都在常用發(fā)音詞典里,這時就不需要配置特殊發(fā)音詞典,否則就需要創(chuàng)建對每個常用詞典里沒有的單詞進行發(fā)音標注添加到特殊發(fā)音詞典。
5.根據(jù)權(quán)利要求1所述的一種語音識別數(shù)據(jù)預處理方法,其特征在于:所述步驟4)中標準音特征識別數(shù)據(jù)生成的步驟如下:使用步驟2)中編輯好的標準音頻和標準文本配置文件和步驟3)中編輯好的發(fā)音詞典使用語音識別引擎工具生成該文段的文段語音模型,文段語音模型是用于描述用戶發(fā)音空間,在識別用戶發(fā)音時,使語音識別引擎在約束詞匯條件下進行快速高效剪枝,快速識別出用戶發(fā)音內(nèi)容。
6.根據(jù)權(quán)利要求1所述的一種語音識別數(shù)據(jù)預處理方法,其特征在于:所述步驟5)中語音模型生成模塊的步驟如下:調(diào)用語音識別引擎,傳入聲學模型和在步驟4)中生成的文段語音模型,依次對在步驟2)中生成配置文件里面的每個節(jié)點配置單詞或者句子進行語音識別,保存識別引擎返回每個節(jié)點配置的音頻文件識別數(shù)據(jù)到本地文本文件,至此,已獲得每個單詞或者句子標準音的文本,發(fā)音,節(jié)奏,重音,語調(diào)的特征數(shù)據(jù)模型,在對用戶發(fā)音識別評分時只需把數(shù)據(jù)模型傳入識別引擎,識別引擎把用戶發(fā)音識別后直接跟標準音數(shù)據(jù)模型進行對比評分即可,無需對標準音進行識別來獲取標準音數(shù)據(jù)模型。