麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

語音識別方法和系統的制作方法

文檔序號:2833747閱讀:318來源:國知局
專利名稱:語音識別方法和系統的制作方法
技術領域
本發明涉及語音識別技術領域,更具體地說,涉及語音識別方法和系統。
背景技術
語音識別技術是一種對用戶錄入的語音信號進行識別,最終轉化為文本/字符串(也即識別結果為文本)的技術,其為自然人性的人機交互提供了便利。以采用語音識別技術的移動設備為例,在語音識別技術的支持下,用戶只要對著移動設備說話,經過語音識別系統識別后就會自動形成文字,大大提高了用戶的輸入效率。但是,在大詞匯量隨意說的應用環境下,語音識別技術依然不能達到百分百正確的識別率,需要人工對識別結果進行修正編輯。移動設備(語音識別系統)將語音識別結果 顯示到屏幕的文本輸入區后,用戶如想對語音識別結果進行修改編輯,則首先需要在語音識別結果中定位需要修正(也可稱為待修改)的字符。而在移動設備上,特別是小屏幕的指觸屏設備上,由于屏幕尺寸受限,用戶在從連續大段文本中對某個確定的字符進行定位時,特別是在相鄰兩字符間插入編輯光標時,存在定位不便的問題。

發明內容
有鑒于此,本發明實施例目的在于提供語音識別方法和系統,以解決上述用戶人工進行定位存在的定位不便的問題。為實現上述目的,本發明實施例提供如下技術方案根據本發明實施例的一個方面,提供一種語音識別方法,包括對用戶輸入的語音信號進行語音識別,獲得第一最優解碼路徑,所述第一最優解碼路徑包括語音識別結果以及所述語音識別結果中各字符對應的語音片段;接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串,所述糾錯信息通過非語音方式或語音方式輸入;根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段;根據所述語音識別結果中各字符對應的語音片段,確定所述產生識別錯誤的語音段在所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串。根據本發明實施例的另一個方面,提供一種語音識別系統,包括語音識別單元,用于對用戶輸入的語音信號進行語音識別,獲得第一最優解碼路徑,所述第一最優解碼路徑包括語音識別結果以及所述語音識別結果中各字符對應的語音片段;糾錯字串輸入單元,用于接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串,所述糾錯信息通過非語音方式或語音方式輸入;自動糾錯單元,用于根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段;根據所述語音識別結果中各字符對應的語音片段,確定所述產生識別錯誤的語音段在所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串。從上述的技術方案可以看出,本發明實施例所公開的技術方案根據用戶單獨輸入的糾錯信息而生成的糾錯字符串確定產生識別錯誤的語音段,再通過該語音段找到其在語音識別結果中所對應的產生識別錯誤的錯誤字符串,實現了用戶所輸入的糾錯信息而生成的糾錯字符串與錯誤字符串的對應,進而實現了對語音識別結果中錯誤字符串的自動定位,解決了用戶人工進行定位存在的定位不便的問題。


為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本發明實施例提供的語音識別方法流程圖;圖2為本發明實施例提供的手寫輸入識別流程圖;圖3為本發明實施例提供字符覆蓋的最小區域示意圖;圖4為本發明實施例提供的自動糾錯過程流程圖;圖5為本發明實施例提供的糾錯字符串檢索網絡結構示意圖;圖6為本發明實施例提供的語音識別系統結構示意圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。作為一種簡單方便而又高效的輸入方式,語音識別改變了傳統的基于復雜編碼或拼音輸入的鍵盤模式,為自然人性的人機交互提供了便利條件。特別是近年來隨著科技的發展和無線通訊網絡的創新普及,各種在線語音識別應用,如發微博,寫短信,網絡即時通訊等受到了越來越多的關注。在語音識別技術的支持下,用戶只要對著移動設備說話,經過系統識別后就會自動形成文字,大大提高了用戶的輸入效率。但是,在大詞匯量隨意說的應用環境下,語音識別技術依然不能達到百分百正確的識別率,需要人工對識別結果進行修正編輯。移動設備(語音識別系統)將語音識別結果顯示到屏幕的文本輸入區后,用戶如想對語音識別結果進行修改編輯,則需要在識別結果中定位需要修正(也可稱為待修改)的字符。而在移動設備上,特別是小屏幕的指觸屏設備上,由于屏幕尺寸受限,用戶在從連續大段文本中對某個確定的字符進行定位時,特別是在相鄰兩字符間插入編輯光標時,存在定位不準的問題。為便于理解,現對語音識別介紹如下
如果將待識別的一段語音信號記作S,對S進行一系列處理后得到與之相對應的語音特征序列O,記作O = (O1,02,…,Oi,…,0T},其中Oi是第i個語音特征,T為語音特征總個數。語音信號S對應的句子可看作是由許多詞組成的一個詞串,記作W= Iw1,w2,…,WnI。語音識別的任務就是根 據已知的語音特征序列0,求出最可能的詞串r。在語音識別的具體過程中,一般首先提取語音信號對應的語音特征參數,隨后在由預置的聲學模型和語言模型構成的網絡搜索空間中,根據預設的搜索算法(比如Viterbi算法),搜索相對于所提取得語音特征參數的最優路徑(也即最優解碼路徑)。在了解了語音識別的一些概念后,現對本發明實施例的技術方案介紹如下。為解決上述定位不便的問題,本發明實施例所提供的語音識別方法至少包括如下步驟 語音識別過程對用戶輸入的語音信號進行語音識別,獲得最優解碼路徑,其中,最優解碼路徑包括語音識別結果以及語音識別結果中各字符對應的語音片段;糾錯字符串生成過程接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串,上述糾錯信息允許通過非語音方式或語音方式輸入;自動糾錯過程根據糾錯字符串確定用戶輸入的語音信號中產生識別錯誤的語音段;根據語音識別結果中各字符對應的語音片段,確定產生識別錯誤的語音段在所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;并利用糾錯字符串替換所述產生識別錯誤的錯誤字符串。為稱呼方便,本文后續一些記載使用錯誤字符串作為“產生識別錯誤的錯誤字符串”的簡稱。下面對各個過程進行一一介紹。一,語音識別過程為了最大可能的滿足用戶日常交互需求,本發明實施例采用大詞匯量連續語音識別技術,以實現對任意說語音的文本轉換。其中,參見圖1,上述語音識別過程具體包括S11、跟蹤采集用戶輸入的語音信號(也即上述待識別的一段語音信號);在本發明其他實施例中,可將上述語音信號存入數據緩存區;S12、對上述語音信號進行預處理,以得到經過預處理后的語音數據;上述預處理可包括語音信號采樣、反混疊帶通濾波、分幀處理、去除個體發音差異和設備、環境引起的噪聲影響,端點檢測。為了提高語音識別系統的魯棒性上述預處理具體還可包括前端降噪處理,以為后續語音處理提供較為純凈的語音。S13、對上述經過預處理的語音數據中每幀語音數據分別進行特征提取,以獲取特征矢量序列。在步驟S13中,對每幀語音數據進行特征提取后可提取出有效語音特征(或者特征矢量)。這樣,經特征提取后,每一幀語音數據形成一個特征矢量,相應的,上述語音數據即可用一特征矢量序列表示;本領域技術人員可以理解的是,如果對經過預處理后的語音數據包括30幀語音數據的話,那么這30幀語音數據就可提取出30個特征矢量,而這30個特征矢量按照時間先后順序即可組成上述特征矢量序列。在本發明其他實施例中,上述有效語音特征可為線性預測倒譜或MFCC (Mel倒譜)特征。具體的,以MFCC特征為例,可對窗長25ms幀移IOms的每幀語音數據通過短時分析得到MFCC參數和/或MFCC參數的一階/ 二階差分,共計39維。這樣,每幀語音數據經過特征提取可得到一個39維的特征矢量。在本發明其他實施例中,可將上述語音特征/語音特征矢量序列存入特征緩存區內。S14、在預先構建的檢索網絡中對上述特征矢量序列進行最優路徑搜索(上述檢索網絡主要由系統預設的聲學模型,詞典,語言模型等構成),以獲取與上述特征矢量序列具有最大模型似然概率的模型串作為語音識別結果輸出(顯出)。在具體實施時,可采用業內主流的基于動態規劃思想的Viterbi搜索算法,對每一特征矢量遍歷檢索網絡中滿足預設條件的活躍節點計算累計歷史路徑概率并保留滿足預設條件的歷史路徑作為后續搜索網絡的活躍節點,最后通過對具有最大歷史路徑概率的路徑(也即上述第一最優解碼路徑)回溯實現對輸入語音的識別解碼。在解碼中第一最優解碼路徑對每幀語音數據均保留其所對應的識別單元模型,進而對語音識別結果中的每一字符都可獲取其所對應的語音片段,當然,也可獲取每一字符所對應語音片段的起始位置信息和結束位置信息。需要說明的是,上述提及的語音片段既可為用戶輸入的語音信號中的語音片段,也可為經過預處理后的語音數據中的至少一幀語音數據,還可為特征矢量序列中的特征矢量子序列。為稱呼方便,本文后續將用戶輸入的語音信號、經過預處理后的語音數據以及特征矢量序列統稱為待識別語音信號。也即,本文下述提及的待識別語音信號具體可為用戶輸入的語音信號、經過預處理后的語音數據或特征矢量序列。而本文下述提及的語音片段具體可為用戶輸入的語音信號中的語音片段、至少一幀語音數據或特征矢量子序列。也就是說,我們可將步驟Sll中的語音信號或者步驟S12中經過預處理后的語音數據或者步驟S13中的特征矢量序列劃分成與語音識別結果中的字符相對應的語音片段,從而令語音識別結果中的每個字符對應一個確切的語音片段。舉例來講,如果語音識別結果為“我們去爬山”這一字符串,該字符串對應的解碼路徑信息可保存為(0000000 2200000),(2200000 3600000),(36000004300000),(4300000 5000000), (5000000 7400000)。上述(0000000 2200000)指示了“我”這個字符所對應的語音片斷的起始位置信息和結束位置信息。其中,0000000是“我”所對應的語音片斷在待識別語音信號中的起始位置(時刻),而2200000是“我”所對應的語音片斷在待識別語音信號中的結束位置(時刻)。二、糾錯字符串生成過程本發明實施例支持用戶以非語音方式或語音方式輸入糾錯信息并生成糾錯字符
串O在采用語音方式輸入糾錯信息時,所輸入的糾錯信息具體為語音信號,由于與語音識別過程一樣是以語音方式輸入,則系統可能無法確定當前的語音輸入是為了繼續新文本的語音輸入,還是為了對原始文本進行語音糾錯輸入。因此,可以設置單獨的糾錯信息輸入控制按鍵,控制從新文本的語音輸入切換至對原始文本的語音糾錯輸入。在以語音方式輸入糾錯信息的模式下,由于糾錯信息為語音信號,在將其轉化成糾錯字符串時的處理過程同上述語音識別過程相同,在此不作贅述,并且,還可提供多個識別候選字符串供用戶選擇以提高生成糾錯字符串的準確率。此外,本發明實施例還支持用戶以按鍵輸入(比如拼音輸入、筆劃輸入、區位碼輸入等等)、手寫輸入等非語音方式輸入糾錯信息,此時,如以按鍵輸入,所輸入的糾錯信息具體為按鍵序列,如以手寫輸入,所輸入的糾錯信息具體為書寫筆跡。現以拼音輸入和手寫輸入為例,對非語音方式輸入過程進行介紹。其具體流程仍請參見圖1 :S21、判斷用戶的輸入方式,如是拼音按鍵輸入轉入步驟S22,如果是手寫輸入轉入步驟S23。S22、將用戶輸入的按鍵序列轉換成侯選糾錯字符串。其中,步驟S22具體可包括S221,跟蹤采集用戶的按鍵序列,將其對應成字母串序列;S222,將采集到的字母串序列和預置的拼音辭典匹配以找到侯選糾錯字符串,并顯不O比如用戶在輸入qinghua后,系統可能顯示清華、青花、親華等多個侯選糾錯字符串供用戶選擇。S23、識別用戶輸入的書寫筆跡,將用戶輸入的書寫筆跡轉化為至少一個侯選糾錯
字符串;其中,參見圖2,步驟S23可具體包括S231,跟蹤用戶輸入的書寫筆跡,并將采集到的書寫筆跡保存在筆跡數據緩存區內;在聯機手寫識別系統中,用戶的書寫筆跡通常用一序列的二維(位置坐標)或三維點(位置坐標和抬筆/落筆狀態)坐標表示,用以描述字符書寫的空間和時間信息。S232,對上述書寫筆跡進行預處理。由于采集設備或用戶在書寫時抖動等原因,原始采集到的書寫筆跡中可能存在各種噪音干擾。為了提高系統的魯棒性,可對采集到的筆跡進行預處理。具體的,可通過字符大小歸一化、野點去除、平滑,重采樣等處理方式加以組合,以盡可能減少噪音干擾帶來的識別率下降的問題。S233,對經過預處理的書寫筆跡進行筆跡特征提取。和語音識別相類似,在手寫識別中,也需要從原始的筆跡軌跡上提取反映字符特點的字符特征。具體的,本實施例提取手寫識別領域常用的八方向特征,并通過LDA等技術提高筆跡特征的區分性。S234,將提取的字符特征與預置模型進行匹配,計算相似度。S235、選取與上述字符特征具有最高相似度的至少一個預置模型作為侯選糾錯字符串,并顯示。考慮到拼音輸入以及手寫識別技術的準確率往往很好,因而通常上述侯選糾錯字符串的個數可以選擇3到5。當然,本領域技術人員可以理解的是,當用戶的非語音輸入足夠長時,也可能只有一個侯選糾錯字符串。S25、從侯選糾錯字符串中確定糾錯字符串。步驟S25可具體包括接受用戶的選擇指定,從至少一個侯選糾錯字符串中確定唯一的糾錯字符串。S25可以單獨列出,作為對糾錯字符串的進一步確認,以兼容語音輸入和非語音輸入方式。三,自動糾錯過程考慮到糾錯字符串和語音識別結果中產生識別錯誤的錯誤字符串所對應的語音段往往具有一致性,本發明實施例自動糾錯的核心思想是將糾錯字符串映射到語音段上,再通過該語音段找到其在語音識別結果中所對應的字詞(也即產生識別錯誤的錯誤字符串),從而實現了糾錯字符串與錯誤字符串的對應。這樣,就實現了對語音識別結果中錯誤字符串的自動定位,解決了用戶人工進行定位存在的定位不便的問題。具體來說,首先在待識別語音信號中找到對應于上述糾錯字符串的語音段。隨后在語音識別結果中定位與該語音段相對應的字符串作為“產生識別錯誤的錯誤字符串”。上述“產生識別錯誤的錯誤字符串”是在步驟S14中得到的模型串中的子串,該子串在待識別語音信號中所對應的語音段的起始時刻和結束時刻,與上述糾錯字符串在待識別語音信號中所對應的語音段的起始時刻和結束時刻具有一致性。自動糾錯過程的流程請仍參見圖1,包括S31、根據糾錯字符串確定待識別語音信號中產生識別錯誤的語音段;S32、根據語音識別結果中各字符對應的語音片段,確定上述產生識別錯誤的語音段在第一最優解碼路徑的語音識別結果中所對應的字符串,將其作為“產生識別錯誤的錯誤字符串”;S33、利用糾錯字符串替換上述產生識別錯誤的錯誤字符串。在本發明其他實施例,步驟S33可包括如下步驟在產生識別錯誤的錯誤字符串的數目等于I時,直接利用用戶輸入的糾錯信息而生成的糾錯字符串替換該產生識別錯誤的錯誤字符串;在產生識別錯誤的錯誤字符串的數目大于I時,利用糾錯字符串替換用戶指定的產生識別錯誤的錯誤字符串。本發明一些實施例可接受用戶主動參與選擇,因此,上述“利用糾錯字符串替換用戶指定的產生識別錯誤的錯誤字符串”的具體流程可包括A,在語音識別結果中突出顯示所有產生識別錯誤的錯誤字符串。在本發明其他實施例中,除突出顯示所有產生識別錯誤的錯誤字符串外,還可以設置除錯誤字符串外的其它識別結果為非活躍狀態,以提高定位精確度;B,接受用戶的選擇指定,利用上述糾錯字符串更新用戶所選定的錯誤字符串。此外,在本發明其他實施例中,還可支持用戶的模糊選擇指定一即并不要求用戶精準定位錯誤字符串,而是通過近鄰方式進行定位當手寫筆的落筆點落入錯誤字符串近鄰區域時,自動將其定位到對應的錯誤字符串上。具體來說,計算落筆點距每個錯誤字符串所覆蓋的最小區域的最短距離,選擇具有最小“最短距離”的錯誤字符串作為用戶選定的錯誤字符串。例如,參見圖3,可設定一個字符(我)所覆蓋的最小區域的高度H為該字符字高h的A倍,而一個字符所覆蓋的最小區域的寬度W為該字符字寬w的B倍,A和B可為大于等于I的任意正數。那么,錯誤字符串所覆蓋的最小區域則為組成該錯誤字符串中所有字符所覆蓋的最小區域的總和。參見圖4,在本發明其他實施例中,上述步驟S31可具體包括如下步驟S311,根據上述糾錯字符串生成糾錯字符串檢索網絡。請參見圖5,上述糾錯字符串檢索網絡包括糾錯字符串模型以及預置的吸收模型。其中,糾錯字符串模型由糾錯字符串生成通過預置的詞典將糾錯字符串擴展為相應的模型序列得到對應的糾錯字符串模型。由于用戶每次輸入的糾錯信息而生成的糾錯字符串都不盡相同,因此,糾錯字符串網絡中的糾錯字符串模型需要實時更新。因此,上述步驟S31又可具體包括獲取糾錯字符串對應的糾錯字符串模型;獲取預置的吸收模型;根據獲取的糾錯字符串模型以及吸收模型生成糾錯字符串檢索網絡。需要說明的是,如果語音識別結果中存在不相鄰且不相干的多處識別錯誤,比如語音識別結果中存在“清華”和“西站”兩處識別錯誤,則需要多次通過語音或非語音方式輸入糾錯信息生成糾錯字符串。而對每次輸入的糾錯信息而生成的糾錯字符串,不管其包含多少字詞,都將其看作一個獨立的糾錯字符串。比如,用戶在某次輸入糾錯字符串時,共輸入了 3個漢字,則糾錯字符串包括3個漢字,隨后通過字典將包括該3個漢字的糾錯字符串擴展成對應的糾錯字符串模型。在將糾錯字符串擴展成糾錯字符串模型時,根據預置的聲學模型的不同可采用不同的擴展方式。比如,可基于音節模型單元的聲學模型(如基于音節模型單元的聲學模型,單個漢字由I個音節構成),也可基于音素模型單元的聲學模型(如基于音素模型單元的聲學模型,單個漢字由2個音素構成),具體由在進行語音識別時所采用的模型單元所決定。因此,如對上述包括3個漢字的糾錯字符串進行擴展,可擴展得到由3個音節模型單元相串聯的糾錯字符串模型或者由6個音素模型單元相串聯的糾錯字符串模型。至于吸收模型則是由系統預先在海量語音數據訓練得到的背景模型,也可采用多個吸收模型以提高復雜語音匹配的準確性。需要注意的是,多個單獨吸收模型是并聯的。S312,在糾錯字符串檢索網絡中對待識別語音信號重新解碼獲取第二最優解碼路徑。其中,第二最優解碼路徑包括糾錯字符串模型對應的語音段作為產生識別錯誤的語音段。具體的,上述糾錯字符串模型所對應的語音段可為用戶輸入的語音信號中的語音段,也可為經過預處理后的語音數據中的至少一幀語音數據,還可為特征矢量序列中的特征矢量子序列。為簡單化起見,可選用糾錯字符串模型所對應的特征矢量子序列作為產生識別錯誤的語音段。則步驟S312可具體包括在糾錯字符串檢索網絡中搜索相應于特征矢量序列的最優路徑(即第二最優路徑),得到上述糾錯字符串模型所對應的特征矢量子序列在整個特征矢量序列中的起始位置和結束位置。步驟S312中的解碼,與上述步驟S14相類似,二者的不同在于,步驟S312所利用的網絡是根據糾錯字符串生成的糾錯字符串檢索網絡,而步驟S14所利用的檢索網絡的范圍要大于上述糾錯字符串檢索網絡。因此,步驟S312的解碼,仍可采用業內主流的基于動態規劃思想的Viterbi搜索算法,對每幀特征矢量遍歷糾錯字符串檢索網絡中滿足預設條件的活躍節點并保留滿足預設條件的歷史路徑作為后續搜索網絡的活躍節點,最后通過對具有最大歷史路徑概率的路徑(即第二最優解碼路徑)獲得糾錯字符串模型對應的語音段,從而確定了產生識別錯誤的語音段。由于在步驟S312中,已經獲取了糾錯字符串模型對應的語音段的起始位置(時刻)和結束位置(時刻),因此,在后續的步驟S32中,可根據語音識別結果中各字符對應的語音片段,確定產生識別錯誤的語音段的起始位置在語音識別結果中所對應的起始字符。同時,可確定產生識別錯誤的語音段的結束位置在語音識別結果中所對應的結束字符,在確定了起始字符和結束字符后,就可確定出產生識別錯誤的錯誤字符串。更具體的,可通過如下方式來確定起始字符將起始位置對應的字符作為第一字符,并將該第一字符所對應的語音片斷作為第一語音片斷;若上述起始位置位于第一語音片斷的前部,則將該第一字符作為起始字符,否則選擇語音識別結果中的下一字符作為起始字符。而在確定結束字符時,可通過如下方式將結束位置對應的字符作為第二字符,將第二字符所對應的語音片斷作為第二語首片斷;若結束位置位于第二語音片斷的前部時,選擇語音識別結果中的上一字符作為結束字符,否則,將第二字符作為結束字符。仍以前述的“我們去爬山”這一語音識別結果為例,前已述及,該語音識別結果中各個字符所對應的語音片段的起始位置和結束位置分別為(00000002200000),(22000003600000),(3600000 4300000),(4300000 5000000),(5000000 7400000)。舉例來講,假設,在步驟S312中,產生識別錯誤的語音段的起始位置和結束位置為(0000050 3600000),由于起始位置0000050在(0000000 2200000)的前部,可確定“我”作為起始字符,而結束位置3600000在(2200000 3600000)的后部,可確定“們”為結束字符。則可知,“我們”即為上述產生識別錯誤的語音段在語音識別結果中所對應的錯誤字符串O與上述方法相對應,本發明實施例還提供語音識別系統。圖6示出了上述系統的一種結構,包括語音識別單元1,用于對用戶輸入的語音信號進行語音識別,獲得最優解碼路徑,其中,最優解碼路徑包括語音識別結果以及所述語音識別結果中各字符對應的語音片段;更具體的,語音識別單元可包括處理器,由處理器對用戶輸入的語音信號進行語音識別。糾錯字符串生成單元2,用于接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串;更具體的,如以語音方式輸入糾錯信息,則糾錯字符串生成單元仍可包括上述處理器,由處理器對糾錯信息進行語音識別生成糾錯字符串;
如以按鍵輸入方式輸入糾錯信息,則糾錯字符串生成單元至少可包括鍵盤和處理器,由處理器對將用戶輸入的按鍵序列轉換成侯選糾錯字符串,并接受用戶的選擇指定,從至少一個侯選糾錯字符串中確定唯一的糾錯字符串。當然也可由另一獨立的芯片或處理器來將用戶輸入的按鍵序列轉換成侯選糾錯字符串,并接受用戶的選擇指定,從至少一個侯選糾錯字符串中確定唯一的糾錯字符串。如以手寫輸入方式輸入糾錯信息,則糾錯字符串生成單元至少可包括手寫筆、觸摸屏和處理器,由處理器對將用戶輸入的書寫筆跡轉換成侯選糾錯字符串,并接受用戶的選擇指定,從至少一個侯選糾錯字符串中確定唯一的糾錯字符串。當然也可由另一獨立的芯片或處理器來將用戶輸入的書寫筆跡轉換成侯選糾錯字符串,并接受用戶的選擇指定,從至少一個侯選糾錯字符串中確定唯一的糾錯字符串。當然,為了保證用戶可采用多種方式輸入糾錯信息,糾錯字符串生成單元也可同時包括上述多種器件。自動糾錯單元3,用于根據糾錯字符串確述用戶輸入的語音信號中產生識別錯誤的語音段,根據語音識別結果中各字符對應的語音片段,確定產生識別錯誤的語音段在語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;并利用糾錯字符串替換產生識別錯誤的錯誤字符串。更具體的,自動糾錯單元3的功能也可通過上述處理器或其他獨立的芯片或處理器實現。上述各單元的更詳盡的功能可參見前述方法記載,在此不作贅述。本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現,為了清楚地說明硬件和軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的范圍。所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。
所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括U盤、移動硬盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM, Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
權利要求
1.一種語音識別方法,其特征在于,包括對用戶輸入的語音信號進行語音識別,獲得第一最優解碼路徑,所述第一最優解碼路徑包括語音識別結果以及所述語音識別結果中各字符對應的語音片段;接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串,所述糾錯信息通過非語音方式或語音方式輸入;根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段;根據所述語音識別結果中各字符對應的語音片段,確定所述產生識別錯誤的語音段在所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串。
2.如權利要求1所述的方法,其特征在于,所述根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段,包括根據所述糾錯字符串生成糾錯字符串檢索網絡,所述糾錯字符串檢索網絡包括所述糾錯字符串對應的糾錯字符串模型以及預置的吸收模型;在所述糾錯字符串檢索網絡內搜索相應于所述用戶輸入的語音信號的第二最優解碼路徑,所述第二最優解碼路徑包括所述糾錯字符串模型對應的語音段作為所述產生識別錯誤的語音段;確定所述產生識別錯誤的語音段在所述用戶輸入的語音信號中對應的起始位置和結束位置。
3.如權利要求2所述的方法,其特征在于,所述根據所述糾錯字符串生成糾錯字符串檢索網絡,包括獲取所述糾錯字符串對應的糾錯字符串模型;獲取預置的吸收模型;根據獲取的糾錯字符串模型以及吸收模型生成所述糾錯字符串檢索網絡。
4.如權利要求1至3任一項所述的方法,其特征在于,根據所述語音識別結果中各字符對應的語音片段,確定所述產生識別錯誤的語音段在所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串,包括確定所述產生識別錯誤的語音段的起始位置在所述語音識別結果中所對應的起始字確定所述產生識別錯誤的語音段的結束位置在所述語音識別結果中所對應的結束字根據所述起始字符和結束字符,確定出在所述語音識別結果中的字符串,作為產生識別錯誤的錯誤字符串。
5.如權利要求4所述的方法,確定所述產生識別錯誤的語音段的起始位置在所述語音識別結果中所對應的起始字符,包括將所述產生識別錯誤的語音段的起始位置對應的字符作為第一字符,并將所述第一字符所對應的語音片斷作為第一語音片斷;當所述產生識別錯誤的語音段的起始位置位于所述第一語音片斷的前部時,將所述第一字符作為起始字符;當所述產生識別錯誤的語音段的起始位置位于所述第一語音片斷的后部時,選擇所述語音識別結果中的下一字符作為起始字符。
6.如權利要求4所述的方法,確定所述產生識別錯誤的語音段的結束位置在所述語音識別結果中所對應的結束字符,包括將所述產生識別錯誤的語音段的結束位置對應的字符作為第二字符,并將所述第二字符所對應的語音片斷作為第二語音片斷;當所述產生識別錯誤的語音段的結束位置位于所述第二語音片斷的前部時,選擇所述語音識別結果中的上一字符作為結束字符;當所述產生識別錯誤的語音段的結束位置位于所述第二語音片斷的后部時,將所述第二字符作為結束字符。
7.如權利要求1至6任一項所述的方法,其特征在于,所述利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串具體包括在所述產生識別錯誤的錯誤字符串的數目等于I時,直接利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串;在所述產生識別錯誤的錯誤字符串的數目大于I時,利用所述糾錯字符串替換用戶指定的產生識別錯誤的錯誤字符串。
8.如權利要求7所述的方法,其特征在于,所述利用所述糾錯字符串替換用戶指定的產生識別錯誤的錯誤字符串具體包括在所述語音識別結果中突出顯示所有產生識別錯誤的錯誤字符串;接受用戶選擇,利用所述糾錯字符串更新用戶選定的產生識別錯誤的錯誤字符串。
9.一種語音識別系統,其特征在于,包括語音識別單元,用于對用戶輸入的語音信號進行語音識別,獲得第一最優解碼路徑, 所述第一最優解碼路徑包括語音識別結果以及所述語音識別結果中各字符對應的語音片段;糾錯字符串生成單元,用于接收用戶單獨輸入的糾錯信息并生成相應的糾錯字符串, 所述糾錯信息通過非語音方式或語音方式輸入;自動糾錯單元,用于根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段;在根據所述語音識別結果中各字符對應的語音片段,確定所述產生識別錯誤的語音段所述語音識別結果中所對應的字符串,作為產生識別錯誤的錯誤字符串;利用所述糾錯字符串替換所述產生識別錯誤的錯誤字符串。
10.如權利要求9所述的系統,其特征在于所述根據所述糾錯字符串確定所述用戶輸入的語音信號中產生識別錯誤的語音段,包括根據所述糾錯字符串生成糾錯字符串檢索網絡,所述糾錯字符串檢索網絡包括所述糾錯字符串對應的糾錯字符串模型以及預置的吸收模型;在所述糾錯字符串檢索網絡內搜索相應于所述用戶輸入的語音信號的第二最優解碼路徑,所述第二最優解碼路徑包括所述糾錯字符串模型對應的語音段作為所述產生識別錯誤的語音段;確定所述產生識別錯誤的語音段在所述用戶輸入的語音信號中對應的起始位置和結束位置。
全文摘要
本發明實施例公開了語音識別方法和系統。方法包括對用戶輸入的語音信號進行語音識別,獲得語音識別結果以及語音識別結果中各字符對應的語音片段;接收用戶單獨輸入的糾錯信息并生成糾錯字符串;根據糾錯字符串確定用戶輸入的語音信號中產生識別錯誤的語音段;根據語音識別結果中各字符對應的語音片段,確定產生識別錯誤的語音段在語音識別結果中所對應的字符串,作為錯誤字符串;利用糾錯字符串替換錯誤字符串。在本發明實施例中,根據用戶單獨輸入的糾錯信息而生成的糾錯字符串確定產生識別錯誤的語音段,再通過該語音段找到其在語音識別結果中所對應的錯誤字符串,實現了對語音識別結果中錯誤字符串的自動定位,解決了人工定位不便的問題。
文檔編號G10L15/26GK103021412SQ20121058474
公開日2013年4月3日 申請日期2012年12月28日 優先權日2012年12月28日
發明者何婷婷, 胡郁, 劉慶峰 申請人:安徽科大訊飛信息科技股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 运城市| 芦山县| 牡丹江市| 阿拉善左旗| 吴忠市| 大姚县| 二连浩特市| 隆德县| 南平市| 吴忠市| 依兰县| 青河县| 庆安县| 平舆县| 巴彦淖尔市| 团风县| 长子县| 彰武县| 文登市| 长垣县| 新乡县| 如东县| 瑞安市| 灌南县| 乌拉特前旗| 福海县| 松潘县| 高唐县| 富锦市| 建昌县| 永昌县| 徐闻县| 文成县| 中宁县| 龙川县| 武邑县| 鹤庆县| 泰来县| 衡南县| 沁源县| 南平市|