基于人工智能的語音喚醒方法和裝置與流程

文檔序號：12475944閱讀：751來源：國知局

本發明涉及語音識別技術領域，尤其涉及一種基于人工智能的語音喚醒方法和裝置。

背景技術：

語音喚醒技術是語音識別技術中的重要分支，語音喚醒技術通過監聽用戶語音來判斷用戶是否說出了指定喚醒詞來啟動設備。目前在車載、導航，以及智能家居等方面有著重要的應用，用于用聲音啟動程序或者服務。人工智能(Artificial Intelligence，AI)，是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支，它企圖了解智能的實質，并生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

相關技術中，通過在終端的后臺運行一個喚醒模塊，喚醒模塊可以在離線狀態下不斷循環判斷用戶是否輸入語音,當確定用戶輸入匹配的語音時,則開始啟動語音識別,然后持續進行檢測，在用戶停止錄入語音后,將識別到的語音的數據幀發送至服務器以啟動程序或者服務。

這種方式下，在通過匹配的語音進行喚醒的過程中，需要兩次問答才能夠啟動程序或者服務，語音喚醒識別效率不佳。

技術實現要素：

本發明旨在至少在一定程度上解決相關技術中的技術問題之一。

為此，本發明的一個目的在于提出一種基于人工智能的語音喚醒方法，能夠優化語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

本發明的另一個目的在于提出一種基于人工智能的語音喚醒裝置。

本發明的又一個目的在于提出一種基于人工智能的語音喚醒裝置。

本發明的另一個目的在于提出一種非臨時性計算機可讀存儲介質。

本發明的另一個目的在于提出一種計算機程序產品。

為達到上述目的，本發明第一方面實施例提出的基于人工智能的語音喚醒方法，包括：獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將所述終端喚醒的時間點；獲取所述時間點前后第一預設時間范圍之內所述語音的數據幀的識別文本；從所述識別文本中提取目標文本，并通過所述目標文本對所述用戶輸入的語音進行處理。

本發明第一方面實施例提出的基于人工智能的語音喚醒方法，通過本實施例中，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

為達到上述目的，本發明第二方面實施例提出的基于人工智能的語音喚醒裝置，包括：第一獲取模塊，用于獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將所述終端喚醒的時間點；第二獲取模塊，用于獲取所述時間點前后第一預設時間范圍之內所述語音的數據幀的識別文本；識別處理模塊，用于從所述識別文本中提取目標文本，并通過所述目標文本對所述用戶輸入的語音進行處理。

本發明第二方面實施例提出的基于人工智能的語音喚醒裝置，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

為達到上述目的，本發明第三方面實施例提出的基于人工智能的語音喚醒裝置，其特征在于，包括：

處理器；

用于存儲處理器可執行指令的存儲器；

其中，所述處理器被配置為：

獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將所述終端喚醒的時間點；

獲取所述時間點前后第一預設時間范圍之內所述語音的數據幀的識別文本；

從所述識別文本中提取目標文本，并通過所述目標文本對所述用戶輸入的語音進行處理。

本發明第三方面實施例提出的基于人工智能的語音喚醒裝置，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

為達到上述目的，本發明第四方面實施例提出的非臨時性計算機可讀存儲介質，當所述存儲介質中的指令由移動終端的處理器被執行時，使得移動終端能夠執行一種基于人工智能的語音喚醒方法，所述方法包括：

獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將所述終端喚醒的時間點；

獲取所述時間點前后第一預設時間范圍之內所述語音的數據幀的識別文本；

從所述識別文本中提取目標文本，并通過所述目標文本對所述用戶輸入的語音進行處理。

本發明第四方面實施例提出的非臨時性計算機可讀存儲介質，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

為達到上述目的，本發明第五方面實施例提出的計算機程序產品，當所述計算機程序產品中的指令處理器執行時，執行一種基于人工智能的語音喚醒方法，所述方法包括：

獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將所述終端喚醒的時間點；

獲取所述時間點前后第一預設時間范圍之內所述語音的數據幀的識別文本；

從所述識別文本中提取目標文本，并通過所述目標文本對所述用戶輸入的語音進行處理。

本發明第五方面實施例提出的計算機程序產品，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

本發明附加的方面和優點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發明的實踐了解到。

附圖說明

本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解，其中：

圖1是本發明一實施例提出的基于人工智能的語音喚醒方法的流程示意圖；

圖2是本發明另一實施例提出的基于人工智能的語音喚醒方法的流程示意圖；

圖3是本發明另一實施例提出的基于人工智能的語音喚醒裝置的結構示意圖；

圖4是本發明另一實施例提出的基于人工智能的語音喚醒裝置的結構示意圖。

具體實施方式

下面詳細描述本發明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發明，而不能理解為對本發明的限制。相反，本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。

圖1是本發明一實施例提出的基于人工智能的語音喚醒方法的流程示意圖。

應用在具有語音識別喚醒功能的終端中。

其中，終端可以是智能手機、平板電腦、個人數字助理、電子書等具有各種操作系統的硬件設備。

參見圖1，該方法包括：

S11：獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點。

其中，用戶可以在終端的麥克風處錄入一段語音，終端中的語音采集模塊采集到該語音后，可以觸發用聲音啟動終端中的程序或者服務，例如，用戶在終端處錄入“你好小度”，語音采集模塊采集到“你好小度”的語音，將該語音發送至語音識別模塊，語音識別模塊對其進行識別后得到識別結果，將識別結果發送至后臺服務器，以觸發終端提供查詢天氣的程序或者服務。

可選地，可以由終端中的語音識別模塊在識別出用戶錄入的語音后，判斷該語音是否為匹配的喚醒詞，并在該語音為匹配的喚醒詞之后，觸發喚醒模塊對終端的程序或者服務進行喚醒處理，進而在喚醒成功時，對喚醒成功的時間點進行記錄。

S12：獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本。

可選地，可以將終端切換至連續喚醒模式之后，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本。

其中，將終端切換至連續喚醒模式的方法流程可以參見后續實施例。

可選地，第一預設時間范圍例如為0s～2s，第一預設時間范圍可以由終端的出廠程序預先設定，或者，也可以由提供程序或者服務的應用開發商預先設定，其設定過程可以參照多數的用戶語音錄入的習慣，對此不作限制。

在本發明的實施例中，以用戶錄入的語音不僅包含喚醒詞，還包含喚醒詞之外的語音示例，用戶錄入的語音具體如“你好小度,幫我查下今天的天氣”，喚醒詞具體如“你好小度”。

S13：從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理。

其中，目標文本為從識別文本中將喚醒詞刪除后的識別文本，喚醒詞即通過語音對終端的程序或者服務進行喚醒觸發的預設的語音文本。

可選地，從識別文本中提取目標文本，包括：從識別文本中識別出喚醒詞；將喚醒詞從識別文本中刪除，并將刪除后的識別文本作為目標文本。

在本發明的實施例中，可以由終端從識別文本中識別出喚醒詞；將喚醒詞從識別文本中刪除，并將刪除后的識別文本作為目標文本，實現該過程中終端與服務器的解耦和，避免終端多次向服務器發網絡請求，提升識別效率。

相關技術中，終端通過將“你好小度,幫我查下今天的天氣”發送至后臺服務器，由后臺服務器進行識別，終端與服務器的耦合性較高，觸發較多次數的網絡請求，識別效率低，用戶體驗不佳。

而本發明的實施例中，通過在終端側獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，并采用語音識別模塊對“你好小度,幫我查下今天的天氣”進行識別，從識別得到的識別文本中提取目標文本，其中，目標文本中不包含喚醒詞，可以實現直接通過目標文本對用戶輸入的語音進行處理，避免了兩次錄入語音數據才能夠觸發終端提供查詢天氣的程序或者服務。

進一步地，通過目標文本對用戶輸入的語音進行處理，包括：根據目標文本生成處理請求；將處理請求發送至語音服務器，以使語音服務器根據處理請求對用戶輸入的語音進行處理。

通過直接根據目標文本生成處理請求，其中，該處理請求用于觸發終端中程序或者服務從語音服務器獲取與用戶錄入的語音對應的處理結果，直接通過目標文本對用戶輸入的語音進行處理，有效提升語音喚醒識別效率。

本實施例中，通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

圖2是本發明另一實施例提出的基于人工智能的語音喚醒方法的流程示意圖。

參見圖2，該方法包括：

S201：獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點。

S201的執行過程可以參見上述實施例，在此不再贅述。

S202：對終端的麥克風持續進行語音信號檢測。

可選地，可以在終端中設置語音檢測模塊，語音檢測模塊可以采用語音活動檢測技術(Voice activity detection，VAD)檢測終端麥克風處用戶輸入的語音。

相關技術中，由終端向后臺服務器發起網絡請求，由后臺服務器根據該網絡請求檢測語音信號，終端與服務器的耦合性較高，觸發較多次數的網絡請求，識別效率低。

而本發明的實施例中，通過由終端側的語音檢測模塊對終端的麥克風持續進行語音信號檢測，實現簡單，實現終端與服務器解耦合。

S203：判斷在時間點之后的第二預設時間范圍之內是否檢測到語音信號，若是，執行S206，否則，執行S204。

其中，第二預設時間范圍例如為0s～2s，第二預設時間范圍可以由終端的出廠程序預先設定，或者，也可以由提供程序或者服務的應用開發商預先設定，其設定過程可以參照多數的用戶語音錄入的習慣，對此不作限制。

在本發明的實施例中，通過判斷在時間點之后的第二預設時間范圍之內是否檢測到語音信號，來確定用戶是否輸入完畢語音，根據不同的判斷結果觸發終端實現不同的功能，切換靈活，滿足用戶不同的語音錄入需求，提升用戶體驗。

S204：將終端切換至非連續喚醒模式。

可以理解的是，用戶輸入的語音的識別文本只包含喚醒詞，或者，也可能不僅包含喚醒詞，還包含用于交互的目標文本，相對應的，在一些應用場景下，若用戶輸入的語音僅僅包含喚醒詞，則可以在終端處于非連續喚醒模式下對用戶輸入的語音進行喚醒識別處理。

例如，用戶輸入的語音的識別文本為“你好小度”，該語音對終端喚醒成功之后，在喚醒時間點之后的2s之內未檢測到語音信號，則表明用戶僅僅觸發了喚醒事件，此時，可以將終端切換為非連續喚醒模式，并在該模式下對“你好小度”進行識別處理。

S205：生成用于提示用戶終端已被喚醒的信息，并根據信息對用戶進行提示。

可選地，終端已被喚醒的信息例如為，“你好主人”的提示語音，可以通過終端的麥克風播放“你好主人”，以對用戶進行喚醒提示。

通過生成用于提示用戶終端已被喚醒的信息，并根據信息對用戶進行提示，進一步提升用戶體驗。

S206：將終端切換至連續喚醒模式。

例如，用戶輸入的語音的識別文本為“你好小度”，該語音對終端喚醒成功之后，在喚醒時間點之后的2s之內檢測到語音信號，則表明用戶不僅僅觸發了喚醒事件，還觸發了后續程序或者服務，此時，可以將終端切換為連續喚醒模式，并在該模式下對“你好小度”以及后續連續的語音(即“你好小度,幫我查下今天的天氣”)進行識別處理。

S207：獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本。

S208：從識別文本中識別出喚醒詞。

S209：將喚醒詞從識別文本中刪除，并將刪除后的識別文本作為目標文本。

S210：根據目標文本生成處理請求。

S211：將處理請求發送至語音服務器，以使語音服務器根據處理請求對用戶輸入的語音進行處理。

S207-S211的執行過程可以參見上述實施例，在此不再贅述。

本實施例中，通過由終端的語音檢測模塊對終端的麥克風持續進行語音信號檢測，實現簡單，實現終端與服務器解耦合。通過判斷在時間點之后的第二預設時間范圍之內是否檢測到語音信號，來確定用戶是否輸入完畢語音，根據不同的判斷結果觸發終端實現不同的功能，切換靈活，滿足用戶不同的語音錄入需求，提升用戶體驗。通過生成用于提示用戶終端已被喚醒的信息，并根據信息對用戶進行提示，進一步提升用戶體驗。通過獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本，以及從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理，由于是從識別文本中提取目標文本，而不是二次接收用戶輸入的語音，優化了語音喚醒處理過程，實現連續地語音喚醒識別，有效提升語音喚醒識別效率。

圖3是本發明另一實施例提出的基于人工智能的語音喚醒裝置的結構示意圖。該基于人工智能的語音喚醒裝置30可以通過軟件、硬件或者兩者的結合來實現。

參見圖3，該基于人工智能的語音喚醒裝置30包括：第一獲取模塊301、第二獲取模塊302，以及識別處理模塊303。其中，

第一獲取模塊301，用于獲取用戶輸入的語音，并在判定對終端喚醒成功之后，獲取將終端喚醒的時間點。

第二獲取模塊302，用于獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本。

識別處理模塊303，用于從識別文本中提取目標文本，并通過目標文本對用戶輸入的語音進行處理。

一些實施例中，參見圖4，該基于人工智能的語音喚醒裝置30還包括：

可選地，第二獲取模塊302包括：

切換子模塊3021，用于將終端切換至連續喚醒模式；

獲取子模塊3022，用于在將終端切換至連續喚醒模式之后，獲取時間點前后第一預設時間范圍之內語音的數據幀的識別文本。

可選地，切換子模塊3022具體用于：

在獲取將終端喚醒的時間點之后，對終端的麥克風持續進行語音信號檢測；

判斷在時間點之后的第二預設時間范圍之內是否檢測到語音信號；

在檢測到語音信號時，將終端切換至連續喚醒模式。

可選地，切換子模塊3022還用于：

在未檢測到語音信號時，將終端切換至非連續喚醒模式。

可選地，識別處理模塊303具體用于：

從識別文本中識別出喚醒詞；

將喚醒詞從識別文本中刪除，并將刪除后的識別文本作為目標文本。

生成模塊304，用于生成用于提示用戶終端已被喚醒的信息，并根據信息對用戶進行提示。

可選地，識別處理模塊303具體用于：

根據目標文本生成處理請求；

將處理請求發送至語音服務器，以使語音服務器根據處理請求對用戶輸入的語音進行處理。

需要說明的是，前述圖1-圖2實施例中對基于人工智能的語音喚醒方法實施例的解釋說明也適合用于該實施例的基于人工智能的語音喚醒裝置30，其實現原理類似，此處不再贅述。

需要說明的是，在本發明的描述中，術語“第一”、“第二”等僅用于描述目的，而不能理解為指示或暗示相對重要性。此外，在本發明的描述中，除非另有說明，“多個”的含義是兩個或兩個以上。

流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為，表示包括一個或更多個用于實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分，并且本發明的優選實施方式的范圍包括另外的實現，其中可以不按所示出或討論的順序，包括根據所涉及的功能按基本同時的方式或按相反的順序，來執行功能，這應被本發明的實施例所屬技術領域的技術人員所理解。

應當理解，本發明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中，多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟件或固件來實現。例如，如果用硬件來實現，和在另一實施方式中一樣，可用本領域公知的下列技術中的任一項或他們的組合來實現：具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用集成電路，可編程門陣列(PGA)，現場可編程門陣列(FPGA)等。

本技術領域的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成，所述的程序可以存儲于一種計算機可讀存儲介質中，該程序在執行時，包括方法實施例的步驟之一或其組合。

此外，在本發明各個實施例中的各功能單元可以集成在一個處理模塊中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現，也可以采用軟件功能模塊的形式實現。所述集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時，也可以存儲在一個計算機可讀取存儲介質中。

上述提到的存儲介質可以是只讀存儲器，磁盤或光盤等。

在本說明書的描述中，參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發明的至少一個實施例或示例中。在本說明書中，對上述術語的示意性表述不一定指的是相同的實施例或示例。而且，描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。

盡管上面已經示出和描述了本發明的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本發明的限制，本領域的普通技術人員在本發明的范圍內可以對上述實施例進行變化、修改、替換和變型。

完整全部詳細技術資料下載

當前第1頁1 2 3