麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種語音識別數據預處理方法與流程

文檔序號:12065432閱讀:1405來源:國知局

本發明涉及語音識別領域,尤其涉及一種語音識別數據預處理方法。



背景技術:

語音識別技術已廣泛應用于手機,pc等用戶終端中.如:輸入法,語言學習系統,搜索系統產品.絕大部份語音識別應用產品在語音識別技術應用中都是采用用戶終端采集用戶錄音數據,發送到后臺服務器進行識別模式.例如公開號為CN103137129 A的一種語音識別方法及電子裝置,其通過電子裝置的用戶使用情況收集用戶特定信息,記錄用戶的發言,使遠程服務器產生記錄的發言的遠程語音識別結果等等,這種模式的缺點是后臺識別系統需要有強大性能的硬件系統支撐,搭建成本高,動輒上億才能基本滿足大用戶量訪問需求.而且用戶必須在網絡連接狀態下使用語音識別應用產品.如果能夠把用戶終端機器計算能力利用起來,就能極大的減少硬件成本.但用戶終端計算能力一般沒有服務器系統強,因此需要一種優化在用戶終端進行語音識別計算的處理,提高識別效率的方法。



技術實現要素:

本發明的目的是提供一種能夠優化利用用戶終端計算能力進行語音識別評分效率而進行的處理語音識別數據方法。

具體技術方案包含如下步驟:

步驟1)組織標準音頻文件,整理需要生成數據模型的音頻文件;

步驟2)編輯標準文本,整理編輯需要識別評分的文段,句子,單詞等文本;

步驟3)配置發音詞典,配置該文段需要用到的通用發音詞典或者特殊發音詞典;

步驟4)生成對應語音模型,根據以上步驟產出文件來生成對應語音模型,保存語音模型文件;

步驟5)采用生成的語音模型調用語音識別引擎進行對標準音特征數據進行識別處理,生成并保存標準音數據模型;

步驟6)采用預生成數據模型在應用產品中直接加載預生成數據模型進行對用戶錄音進行識別評分。

進一步的,所述步驟1)具體分為如下步驟:

11)由于用戶終端CPU計算能力限制,進行語音識別評分需要把識別目標設定在一定范圍內.如設定為一個單元的課文內容;

進一步的,所述步驟2)中整理編輯文本的步驟如下:創建一個XML配置文件,給每個句子或者單詞都在配置文件中創建一個節點,節點中包含音頻文件引用路徑和對應文本;

進一步的,所述步驟3)中配置發音詞典的步驟如下:31)完成單詞或句子配置后,針對每個單詞的節點對應配置發音詞典的發音,并進行關聯;32)進一步的,發音詞典分為常用發音詞典和特殊發音詞典,如果一篇文段里所有單詞都在常用發音詞典里,這時就不需要配置特殊發音詞典,否則就需要創建對每個常用詞典里沒有的單詞進行發音標注添加到特殊發音詞典;

進一步的,所述步驟4)中標準音特征識別數據生成的步驟如下:使用步驟2)中編輯好的標準音頻和標準文本配置文件和步驟3)中編輯好的發音詞典使用語音識別引擎工具生成該文段的文段語音模型,文段語音模型是用于描述用戶發音空間,在識別用戶發音時,使語音識別引擎在約束詞匯條件下進行快速高效剪枝,快速識別出用戶發音內容;

進一步的,所述步驟5)中語音模型生成模塊的步驟如下:調用語音識別引擎,傳入聲學模型和在步驟4)中生成的文段語音模型,依次對在步驟2)中生成配置文件里面的每個節點配置單詞或者句子進行語音識別,保存識別引擎返回每個節點配置的音頻文件識別數據到本地文本文件,至此,已獲得每個單詞或者句子標準音的文本,發音,節奏,重音,語調的特征數據模型.在對用戶發音識別評分時只需把數據模型傳入識別引擎,識別引擎把用戶發音識別后直接跟標準音數據模型進行對比評分即可,無需對標準音進行識別來獲取標準音數據模型。

本發明的有益效果在于:經過本發明的實施步驟,口語練習等語音識別應用在用戶終端中的語音識別用時減少一半,識別效率的提高使得可以利用用戶終端計算能力進行識別,無需搭建服務器系統,無需網絡訪問,用戶都可以在使用單機版語音識別應用中獲得較好體驗。

附圖說明

結合附圖對本發明作進一步詳細說明:

圖1為本申請的流程框圖。

具體實施方式

以下將根據附圖所示的優選實施例,對本發明進行詳細解釋,然而本發明不限于該實施例。

如圖1所示步驟如下,前三個步驟為資源準備步驟:

1組織標準音頻文件,整理需要生成數據模型的音頻文件;由于用戶終端CPU計算能力限制,進行語音識別評分需要把識別目標設定在一定范圍內.如設定為一個單元的課文內容;

2編輯標準文本,整理編輯需要識別評分的文段,句子,單詞等文本,創建一個XML配置文件,給每個句子或者單詞都在配置文件中創建一個節點,節點中包含音頻文件引用路徑和對應文本;

3配置發音詞典,配置該文段需要用到的通用發音詞典或者特殊發音詞典,完成單詞或句子配置后,針對每個單詞的節點對應配置發音詞典的發音,并進行關聯;進一步的,發音詞典分為常用發音詞典和特殊發音詞典,如果一篇文段里所有單詞都在常用發音詞典里,這時就不需要配置特殊發音詞典,否則就需要創建對每個常用詞典里沒有的單詞進行發音標注添加到特殊發音詞典;

資源準備完畢后,進行語音模型處理:

4生成對應語音模型,使用步驟2中編輯好的標準音頻和標準文本配置文件和步驟3)中編輯好的發音詞典使用語音識別引擎工具生成該文段的文段語音模型,文段語音模型是用于描述用戶發音空間,在識別用戶發音時,使語音識別引擎在約束詞匯條件下進行快速高效剪枝,快速識別出用戶發音內容;

5采用生成的語音模型調用語音識別引擎進行對標準音特征數據進行識別處理,生成并保存標準音數據模型;調用語音識別引擎,傳入聲學模型和在步驟4中生成的文段語音模型,依次對在步驟2)中生成配置文件里面的每個節點配置單詞或者句子進行語音識別,保存識別引擎返回每個節點配置的音頻文件識別數據到本地文本文件,至此,已獲得每個單詞或者句子標準音的文本,發音,節奏,重音,語調的特征數據模型.在對用戶發音識別評分時只需把數據模型傳入識別引擎,識別引擎把用戶發音識別后直接跟標準音數據模型進行對比評分即可,無需對標準音進行識別來獲取標準音數據模型;

6采用預生成數據模型在應用產品中直接加載預生成數據模型進行對用戶錄音進行識別評分;

本發明的語音識別數據方法,包括標準音頻文件組織模塊,標準文本編輯模塊,發音詞典配置模塊,語音模型生成模塊,標準音特征數據識別處理模塊.保存最終生成標準音數據模型到文件系統,在應用產品中直接加載預生成數據模型進行對用戶錄音進行識別評分,解決在實際應用中需要對標準音識別然后最對用戶錄音識別的效率低的問題。

以上具體實施方式僅用以說明本發明的技術方案而非限制,盡管參照實例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或者等同替換,而不脫離本發明技術方案的精神和范圍,其均應涵蓋在本發明的權利要求范圍當中。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 额尔古纳市| 普宁市| 麻阳| 固阳县| 德州市| 平舆县| 淅川县| 阜南县| 济源市| 城步| 德钦县| 叙永县| 望城县| 济宁市| 定南县| 扎兰屯市| 沁水县| 堆龙德庆县| 安图县| 岗巴县| 原阳县| 库尔勒市| 盐亭县| 涞水县| 正安县| 黎城县| 信宜市| 宣恩县| 潞城市| 台南县| 奉贤区| 电白县| 博白县| 长治县| 安平县| 福州市| 格尔木市| 正镶白旗| 南京市| 图木舒克市| 神农架林区|