可進行語音識別處理的瀏覽器及處理方法

文檔序號：2833641閱讀：731來源：國知局

專利名稱：可進行語音識別處理的瀏覽器及處理方法
技術領域：
本發明涉及互聯網通信技術領域，特別涉及一種可進行語音識別處理的瀏覽器及瀏覽器中進行語音識別處理的方法。
背景技術：
語音識別是一門交叉學科。近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內，語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別技術所涉及的領域包括信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。瀏覽器是指可以顯示網頁服務器或者文件系統的HTML (Hypertext MarkupLanguage，超文本標記語言)文件內容，并讓用戶與這些文件交互的一種軟件。網頁瀏覽器主要通過HTTP (Hypertexttransfer protocol,超文本傳遞協議)協議與網頁服務器交互并獲取網頁，這些網頁由URL (Uniform/Universal Resource Locator,統一資源定位符)指定，文件格式通常為 HTML,并由 MIME (Multipurposelnternet Mail Extensions,多功能互聯網郵件擴充服務)在HTTP協議中指明。現有的瀏覽器大多沒有集成語音識別功能，即是個別瀏覽器集成了語音識別功能，一般只基于本地語音識別引擎或只基于WEB (網絡)語音識別引擎，識別效率低、準確性差。

發明內容
鑒于上述問題，提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種可進行語音識別處理的瀏覽器及瀏覽器中進行語音識別處理的方法。依據本發明的一個方面，提供了一種可進行語音識別處理的瀏覽器，其包括處理器，適于接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式；語音接收器，適于接收用戶的語音輸入，并轉換為語音數據；本地識別單元，適于調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；WEB識別單元，適于在所述本地識別單元識別失敗的情況下，調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。可選地，所述本地識別單元包括本地調用模塊，適于調用本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果；本地判斷模塊，適于判斷所述本地語音識別結果是否為空，如果是，認為識別失敗，向WEB識別單元發送啟動通知；否則，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本，否則，向本地匹配模塊發送本地匹配指令；所述本地匹配模塊，適于根據所述本地匹配指令，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作，否則，認為識別失敗，向WEB識別單元發送啟動通知。可選地，所述WEB識別單元包括通知接收模塊，適于接收所述本地識別單元發送的啟動通知；WEB調用模塊，適于調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果；WEB判斷模塊，適于判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，向WEB匹配模塊發送WEB匹配指令；WEB匹配模塊，適于根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。可選地，所述命令集包括所述瀏覽器的操作命令。可選地，所述瀏覽器還包括訓練語音識別單元；所述訓練語音識別單元包括訓練語音庫建立模塊，適于預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫；訓練語音匹配模塊，適于將所述語音數據與所述訓練語音庫中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。可選地，所述訓練語音識別單元還包括提示模塊；所述提示模塊，適于提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。可選地，所述訓練語音識別單元還包括建表模塊和查表模塊；所述建表模塊，適于生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表；其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應；所述訓練語音匹配模塊，還適于當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題；所述查表模塊，適于根據匹配獲得的網頁標題查詢所述對應關系表獲得相應的URL,并將獲得的URL輸入至所述瀏覽器的地址欄中。可選地，所述瀏覽器還包括歷史語音識別單元；所述歷史語音識別單元包括歷史語音庫建立模塊，適于將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫；
歷史語音匹配模塊，適于將所述語音數據與所述歷史語音庫中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。可選地，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中。可選地，所述本地識別單元，還適于在對所述語音數據部分識別成功的情況下，將未成功識別的語音數據發送給所述WEB識別單元；所述WEB識別單元，還適于調用WEB語音識別引擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。本發明還提供一種瀏覽器中進行語音識別處理的方法，其包括步驟接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式；接收用戶的語音輸入，并轉換為語音數據；調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別弓I擎對所述語音數據進行識別，接收來自WEB語音識別弓I擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。可選地，所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理的步驟包括調用本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果；在所述本地語音識別結果不為空的情況下，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本后結束流程，否則，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作后結束流程。可選地，所述調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理的步驟包括調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果；判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。可選地，所述命令集包括所述瀏覽器的操作命令。可選地，在所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，之前還包括步驟預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫；將所述語音數據與所述訓練語音庫中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別弓I擎對所述語音數據進行識別的步驟。可選地，所述預先對用戶的語音數據進行訓練之前包括步驟提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。可選地，所述生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫，之后還包括步驟生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表；其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應；當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題；在網頁標簽中打開所述網頁標題對應的URL。可選地，在所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，之前還包括步驟將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫；將所述語音數據與所述歷史語音庫中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別弓I擎對所述語音數據進行識別的步驟。可選地，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中。可選地，所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別弓I擎對所述語音數據進行識別，接收來自WEB語音識別弓I擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理，進一步為調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果完全識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別引擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。本發明所述可進行語音識別處理的瀏覽器及瀏覽器中進行語音識別處理的方法，綜合本地語音識別引擎和WEB語音識別引擎對語音數據進行識別，顯著提高了識別效率和識別準確度。同時，通過結合訓練語音庫和歷史語音庫，對語音數據進行前期預識別，能夠進一步提高識別效率和識別準確度。上述說明僅是本發明技術方案的概述，為了能夠更清楚了解本發明的技術手段，而可依照說明書的內容予以實施，并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂，以下特舉本發明的具體實施方式
。

通過閱讀下文優選實施方式的詳細描述，各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的，而并不認為是對本發明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中圖1示出了根據本發明一個實施例的可進行語音識別處理的瀏覽器的模塊結構示意圖；圖2示出了根據本發明一個實施例的本地識別單元的模塊結構示意圖；圖3示出了根據本發明一個實施例的WEB識別單元的模塊結構示意圖；圖4示出了根據本發明另一個實施例的可進行語音識別處理的瀏覽器的模塊結構示意圖；圖5示出了根據本發明另一個實施例的訓練語音識別單元的模塊結構示意圖；圖6示出了根據本發明另一個實施例的歷史語音識別單元的模塊結構示意圖；圖7示出了根據本發明一個實施例的瀏覽器中進行語音識別處理的方法流程圖；圖8示出了根據本發明另一個實施例的瀏覽器中進行語音識別處理的方法流程圖；圖9示出了根據本發明再一個實施例的瀏覽器中進行語音識別處理的方法流程圖。
具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例，然而應當理解，可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，并且能夠將本公開的范圍完整的傳達給本領域的技術人員。圖1示出了根據本發明一個實施例的可進行語音識別處理的瀏覽器的模塊結構示意圖，如圖1所示，所述瀏覽器100包括處理器110，適于接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式。在所述命令輸入模式下，用戶的輸入會被識別為對瀏覽器執行的操作命令，比如前進、后退；在文本輸入模式下，用戶的輸入會被識別為輸入文本，比如在地址欄中輸入相應的網頁地址。
語音接收器120，適于接收用戶的語音輸入，并轉換為語音數據。所述語音接收器120可以是麥克風等現有設備。本地識別單元130，適于調用瀏覽器側本地語音識別引擎對所述語音數據進行識另IJ，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。其中，所述本地語音識別引擎可以采用微軟的語音識別引擎等。參見圖2,所述本地識別單元130包括本地調用模塊131，適于調用本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果。本地判斷模塊132，適于判斷所述本地語音識別結果是否為空，如果是，認為識別失敗，向WEB識別單元發送啟動通知；否則，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本，否則，向本地匹配模塊發送本地匹配指令。所述本地匹配模塊133，適于根據所述本地匹配指令，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作，否則，認為識別失敗，向WEB識別單元發送啟動通知。 WEB識別單元140，適于在所述本地識別單元識別失敗的情況下，調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。所述WEB語音識別引擎可以采用谷歌的語音識別引擎等。參見圖3,所述WEB識別單元140包括通知接收模塊141，適于接收所述本地識別單元發送的啟動通知。WEB調用模塊142，適于調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果。WEB判斷模塊143，適于判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，向WEB匹配模塊發送WEB匹配指令。WEB匹配模塊144，適于根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。其中，所述命令集包括所述瀏覽器100的操作命令，比如前進、后退、向上滾動一頁瀏覽頁面、向下滾動一頁瀏覽頁面等。另外，所述本地識別單元130，還適于在對所述語音數據部分識別成功的情況下，將未成功識別的語音數據發送給所述WEB識別單元。所述WEB識別單元140，還適于調用WEB語音識別引擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。也就是說，當所述本地識別單元130對語音數據識別不清楚時，即部分數據未識別時，可以令所述WEB識別單元140對所述本地識別單元130的本地識別結果進行校正，即只對未成功識別的部分進行補充識別，這樣可以充分利用本地識別單元130的計算資源，減少對WEB識別單元140的依賴，從而可以提高識別效率。圖4示出了根據本發明另一個實施例的可進行語音識別處理的瀏覽器的模塊結構示意圖，如圖4所示，本實施例所述瀏覽器與上一實施例所述瀏覽器基本相同，其不同之處僅在于，該瀏覽器100還包括訓練語音識別單元150、訓練語音庫160、歷史語音識別單元170和歷史語音庫180。參見圖5，所述訓練語音識別單元150包括訓練語音庫建立模塊151，適于預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫160。訓練語音匹配模塊152，適于將所述語音數據與所述訓練語音庫160中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。所述訓練語音識別單元150還包括提示模塊153、建表模塊154和查表模塊155。所述提示模塊153，適于提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。所述建表模塊154，適于生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表。其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應。所述訓練語音匹配模塊152，還適于當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題。所述查表模塊155，適于根據匹配獲得的網頁標題查詢所述對應關系表獲得相應的URL，并將獲得的URL輸入至所述瀏覽器的地址欄中。例如，用戶可以將經常使用的“鳳凰網”作為網頁標題，生成其對應的訓練語音，同時在對應關系表中建立“鳳凰網”與其URL www.1feng. com的對應關系,這樣，當用戶通過語音輸入“鳳凰網”時，可以自動通過瀏覽器打開鳳凰網的主頁。參見圖6，所述歷史語音識別單元170包括歷史語音庫建立模塊171，適于將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫180。歷史語音匹配模塊172，適于將所述語音數據與所述歷史語音庫180中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。其中，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中，這樣當用戶憑賬號、密碼登錄瀏覽器后，瀏覽器自動調用相應的訓練語音庫和/或歷史語音庫對用戶輸入的語音數據進行輔助識別。圖7示出了根據本發明一個實施例的瀏覽器中進行語音識別處理的方法流程圖，如圖7所示，所述方法包括步驟S100、接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式。S200、接收用戶的語音輸入，并轉換為語音數據。S300、調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。所述步驟S300進一步包括調用本地語音識別弓I擎對所述語音數據進行識別，接收本地語音識別結果；在所述本地語音識別結果不為空的情況下，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本后結束流程，否則，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作后結束流程。S400、否則，調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。所述步驟S400進一步包括調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果；判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。其中，所述命令集包括所述瀏覽器的操作命令。另外，所述步驟S300和S400可以進一步為S300’、調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果完全識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；S400’、否則，調用WEB語音識別引擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。圖8示出了根據本發明另一個實施例的瀏覽器中進行語音識別處理的方法流程圖，如圖8所示，本實施例所述方法與上一實施例所述方法基本相同其不同之處在于，該方法在所述步驟S300之前還包括步驟P1、預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫；P2、將所述語音數據與所述訓練語音庫中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別弓I擎對所述語音數據進行識別的步驟。
另外，在所述步驟Pl之前還可以包括步驟提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。相應地，在所述步驟Pl之后還可以包括步驟生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表；其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應；當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題；在網頁標簽中打開所述網頁標題對應的URL。圖9示出了根據本發明再一個實施例的瀏覽器中進行語音識別處理的方法流程圖，如圖9所示，本實施例與第一個方法實施例基本相同，其不同之處僅在于，該實施例中方法在所述步驟S300之前還包括步驟Tl、將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫；T2、將所述語音數據與所述歷史語音庫中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別弓I擎對所述語音數據進行識別的步驟。另外，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中。并且，上述后兩個方法實施例中所增加的步驟(步驟PU P2和步驟Tl、T2)可以組合使用，也就是說同時利用所述訓練語音庫和歷史語音庫進行前期的輔助語音識別，以進一步提高識別效率。本發明實施例所述可進行語音識別處理的瀏覽器及瀏覽器中進行語音識別處理的方法，綜合本地語音識別引擎和WEB語音識別引擎對語音數據進行識別，顯著提高了識別效率和識別準確度。同時，通過結合訓練語音庫和歷史語音庫，對語音數據進行前期預識別，能夠進一步提高識別效率和識別準確度。在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的描述，構造這類系統所要求的結構是顯而易見的。此外，本發明也不針對任何特定編程語言。應當明白，可以利用各種編程語言實現在此描述的本發明的內容，并且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。在此處所提供的說明書中，說明了大量具體細節。然而，能夠理解，本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中，并未詳細示出公知的方法、結構和技術，以便不模糊對本說明書的理解。類似地，應當理解，為了精簡本公開并幫助理解各個發明方面中的一個或多個，在上面對本發明的示例性實施例的描述中，本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而，并不應將該公開的方法解釋成反映如下意圖即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說，如下面的權利要求書所反映的那樣，發明方面在于少于前面公開的單個實施例的所有特征。因此，遵循具體實施方式
的權利要求書由此明確地并入該具體實施方式
，其中每個權利要求本身都作為本發明的單獨實施例。本領域那些技術人員可以理解，可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件，以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外，可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述，本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外，本領域的技術人員能夠理解，盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征，但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如，在下面的權利要求書中，所要求保護的實施例的任意之一都可以以任意的組合方式來使用。本發明的各個部件實施例可以以硬件實現，或者以在一個或者多個處理器上運行的軟件模塊實現，或者以它們的組合實現。本領域的技術人員應當理解，可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的可進行語音識別處理的瀏覽器中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如，計算機程序和計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上，或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到，或者在載體信號上提供，或者以任何其他形式提供。應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制，并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中，不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中，這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
權利要求
1.一種可進行語音識別處理的瀏覽器，其包括處理器，適于接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式；語音接收器，適于接收用戶的語音輸入，并轉換為語音數據；本地識別單元，適于調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理； WEB識別單元，適于在所述本地識別單元識別失敗的情況下，調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。
2.如權利要求1所述的瀏覽器，其特征在于，所述本地識別單元包括本地調用模塊，適于調用本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果；本地判斷模塊，適于判斷所述本地語音識別結果是否為空，如果是，認為識別失敗，向WEB識別單元發送啟動通知；否則，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本，否則，向本地匹配模塊發送本地匹配指令；所述本地匹配模塊，適于根據所述本地匹配指令，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作，否則，認為識別失敗，向WEB識別單元發送啟動通知。
3.如權利要求2所述的瀏覽器，其特征在于，所述WEB識別單元包括通知接收模塊，適于接收所述本地識別單元發送的啟動通知； WEB調用模塊，適于調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果； WEB判斷模塊，適于判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，向WEB匹配模塊發送WEB匹配指令；WEB匹配模塊，適于根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。
4.如權利要求2或3所述的瀏覽器，其特征在于，所述命令集包括所述瀏覽器的操作命令。
5.如權利要求4所述的瀏覽器，其特征在于，所述瀏覽器還包括訓練語音識別單元；所述訓練語音識別單元包括訓練語音庫建立模塊，適于預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫；訓練語音匹配模塊，適于將所述語音數據與所述訓練語音庫中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。
6.如權利要求5所述的瀏覽器，其特征在于，所述訓練語音識別單元還包括提示模塊；所述提示模塊，適于提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。
7.如權利要求6所述的瀏覽器，其特征在于，所述訓練語音識別單元還包括建表模塊和查表模塊；所述建表模塊，適于生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表；其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應；所述訓練語音匹配模塊，還適于當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題；所述查表模塊，適于根據匹配獲得的網頁標題查詢所述對應關系表獲得相應的URL，并將獲得的URL輸入至所述瀏覽器的地址欄中。
8.如權利要求5所述的瀏覽器，其特征在于，所述瀏覽器還包括歷史語音識別單元；所述歷史語音識別單元包括歷史語音庫建立模塊，適于將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫；歷史語音匹配模塊，適于將所述語音數據與所述歷史語音庫中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作。
9.如權利要求8所述的瀏覽器，其特征在于，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中。
10.如權利要求1所述的瀏覽器，其特征在于，所述本地識別單元，還適于在對所述語音數據部分識別成功的情況下，將未成功識別的語音數據發送給所述WEB識別單元；所述WEB識別單元，還適于調用WEB語音識別引擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。
11.一種瀏覽器中進行語音識別處理的方法，其包括步驟接收用戶輸入指令設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式；接收用戶的語音輸入，并轉換為語音數據；調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別弓I擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。
12.如權利要求11所述的方法，其特征在于，所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理的步驟包括調用本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果；在所述本地語音識別結果不為空的情況下，判斷當前聲控模式是否是文本輸入模式，如果是，認為識別成功，在所述瀏覽器中輸入所述本地語音識別結果對應的輸入文本后結束流程，否則，將所述本地語音識別結果與所述瀏覽器的命令集進行匹配，如果匹配成功，按照所述本地語音識別結果執行相應的瀏覽器操作后結束流程。
13.如權利要求12所述的方法，其特征在于，所述調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理的步驟包括調用WEB語音識別引擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果；判斷當前聲控模式是否是文本輸入模式，如果是，在所述瀏覽器中輸入所述WEB語音識別結果對應的輸入文本，否則，根據所述WEB匹配指令將所述WEB語音識別結果與所述瀏覽器的命令集進行匹配，并按照所述WEB語音識別結果執行相應的瀏覽器操作。
14.如權利要求12或13所述的方法，其特征在于，所述命令集包括所述瀏覽器的操作命令。
15.如權利要求14所述的方法，其特征在于，在所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，之前還包括步驟預先對用戶的語音數據進行訓練，生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫；將所述語音數據與所述訓練語音庫中的訓練語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別引擎對所述語音數據進行識別的步驟。
16.如權利要求15所述的方法，其特征在于，所述預先對用戶的語音數據進行訓練之前包括步驟提示用戶對常用操作命令、地址欄中常用地址和/或搜索欄中常用搜索關鍵字進行語音訓練。
17.如權利要求16所述的方法，其特征在于，所述生成包含訓練語音及相應的輸入文本或相應的所述操作命令的訓練語音庫，之后還包括步驟生成地址欄中輸入和推薦的常用地址的URL與相應的網頁標題的對應關系表；其中，所述網頁標題還作為所述訓練語音庫中的輸入文本與相應的訓練語音相對應；當用戶在地址欄中進行語音輸入時，將用戶輸入的語音與所述訓練語音相匹配獲得對應的網頁標題；在網頁標簽中打開所述網頁標題對應的URL。
18.如權利要求15所述的方法，其特征在于，在所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，之前還包括步驟將所述系統已經識別的歷史語音及相應的輸入文本或相應的所述操作命令進行存儲生成歷史語音庫；將所述語音數據與所述歷史語音庫中的歷史語音相匹配，如果匹配成功，在文本輸入模式下，在所述瀏覽器中輸入相應的輸入文本后結束流程，或者，在命令輸入模式下，按照相應的操作命令執行相應的瀏覽器操作后結束流程；否則，執行所述調用本地語音識別引擎對所述語音數據進行識別的步驟。
19.如權利要求18所述的方法，其特征在于，所述訓練語音庫和/或歷史語音庫與相應的瀏覽器用戶綁定，并作為相應的瀏覽器用戶的個人信息存儲在瀏覽器側或者網絡服務器側的數據庫中。
20.如權利要求11所述的方法，其特征在于，所述調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別弓I擎對所述語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理，進一步為調用瀏覽器側本地語音識別引擎對所述語音數據進行識別，接收本地語音識別結果，如果完全識別成功，則依據本地語音識別結果在所述命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理；否則，調用WEB語音識別弓I擎對未成功識別的語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，整合本地語音識別結果和WEB語音識別結果得到最終識別結果，依據最終識別結果在命令輸入模式或者文本輸入模式下進行相應的瀏覽器側處理。
全文摘要
本發明公開了一種可進行語音識別處理的瀏覽器及瀏覽器中進行語音識別處理的方法。瀏覽器包括處理器，適于設置瀏覽器的聲控模式為命令輸入模式或者文本輸入模式；語音接收器，適于接收用戶的語音輸入，并轉換為語音數據；本地識別單元，適于調用瀏覽器側本地語音識別引擎對語音數據進行識別，接收本地語音識別結果，依據本地語音識別結果進行相應的瀏覽器側處理；WEB識別單元，調用WEB語音識別引擎對語音數據進行識別，接收來自WEB語音識別引擎的WEB語音識別結果，依據WEB語音識別結果進行相應的瀏覽器側處理。所述瀏覽器及方法，綜合本地語音識別引擎和WEB語音識別引擎對語音數據進行識別，提高了識別效率和準確度。
文檔編號G10L15/26GK103020165SQ20121048892
公開日2013年4月3日申請日期2012年11月26日優先權日2012年11月26日
發明者楊東, 任寰申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司

完整全部詳細技術資料下載