一種智能設(shè)備的語音交互控制方法和裝置與流程

文檔序號：12609061閱讀：598來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及智能設(shè)備語音交互技術(shù)領(lǐng)域，具體涉及一種智能設(shè)備的語音交互控制方法和裝置。

背景技術(shù)：

目前，消費(fèi)類智能設(shè)備通常具有語音交互功能，能夠?qū)τ脩舻恼Z音指令進(jìn)行識別和理解，并進(jìn)行語音對話。現(xiàn)有的智能設(shè)備在進(jìn)行語音交互之前，通常需要進(jìn)行語音喚醒。

語音喚醒的過程主要為：用戶首先需要說喚醒詞，喚醒詞可以是針對某一特定智能設(shè)備而預(yù)先設(shè)置的。智能設(shè)備對語音進(jìn)行檢測，提取語音特征，確定提取到的語音特征與預(yù)設(shè)的喚醒詞的語音特征是否匹配，如果匹配，喚醒識別功能對后續(xù)用戶發(fā)出的語音指令進(jìn)行語音識別和語義解析。例如，用戶想和智能機(jī)器人進(jìn)行聊天，需要先說出喚醒詞“哈利，哈利”，智能機(jī)器人采集并識別出用戶發(fā)出的語音信號中的詞語與預(yù)定喚醒詞匹配時，喚醒語音交互功能，并回復(fù)：“您好，……”

但是，現(xiàn)有技術(shù)中在喚醒智能設(shè)備以及和智能設(shè)備語音交互過程中，智能設(shè)備的位置都是固定的。當(dāng)用戶和智能設(shè)備之間離的較遠(yuǎn)時，智能設(shè)備往往不能有效識別用戶發(fā)出的語音信號，導(dǎo)致用戶體驗(yàn)較差。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種智能設(shè)備的語音交互控制方法和裝置，以解決現(xiàn)有的智能設(shè)備在與用戶相距較遠(yuǎn)時往往不能有效識別用戶發(fā)出的語音信號，導(dǎo)致用戶體驗(yàn)較差的問題。

根據(jù)本發(fā)明的一個方面，提供了一種智能設(shè)備的語音交互控制方法，該方法包括：

實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號；

對采集的語音信號進(jìn)行語音識別；

根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制所述智能設(shè)備執(zhí)行相應(yīng)的操作。

可選地，獲取用戶的位置，控制智能設(shè)備朝向用戶移動包括：

控制智能設(shè)備朝向用戶移動至第一預(yù)定位置，第一預(yù)定位置與用戶之間的距離小于第一距離閥值。

可選地，還包括：

根據(jù)智能設(shè)備對用戶再次發(fā)出的語音信號的語音識別結(jié)果，確定是否再次控制智能設(shè)備移動，是則，控制智能設(shè)備朝向用戶移動至第二預(yù)定位置，第二預(yù)定位置與用戶之間的距離小于第二距離閾值。

可選地，對采集的語音信號進(jìn)行語音識別包括：從采集的語音信號中識別出喚醒詞；

根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動包括：

當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；或者，

對采集的語音信號進(jìn)行語音識別包括：從采集的語音信號中識別出喚醒詞和命令詞；

根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動包括：

當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配，識別出的命令詞與保存的預(yù)定命令詞不相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；

當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配，且識別出的命令詞與保存的預(yù)定命令詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并根據(jù)命令詞的指示控制智能設(shè)備執(zhí)行相應(yīng)的操作。

可選地，獲取用戶的位置，控制智能設(shè)備朝向用戶移動包括：

根據(jù)采集的語音信號，利用聲源定位計(jì)算得到聲源相對于智能設(shè)備的位置信息，根據(jù)位置信息確定出該用戶與智能設(shè)備間的距離及方位；

利用確定出的用戶與智能設(shè)備間的距離和方位，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號。

可選地，利用確定出的用戶與智能設(shè)備間的距離和方位，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離包括：

利用距離定位確定出室內(nèi)空間中用戶的位置坐標(biāo)以及智能設(shè)備當(dāng)前的位置坐標(biāo)，

根據(jù)確定出的用戶的位置坐標(biāo)以及預(yù)設(shè)的第一距離閥值，計(jì)算得到第一預(yù)定位置對應(yīng)的位置坐標(biāo)，

利用室內(nèi)導(dǎo)航生成以智能設(shè)備當(dāng)前的位置坐標(biāo)為起點(diǎn)，以第一預(yù)定位置對應(yīng)的位置坐標(biāo)為終點(diǎn)的預(yù)設(shè)路徑，實(shí)時控制智能設(shè)備按照該預(yù)設(shè)路徑并以預(yù)設(shè)的固定步長移動到第一預(yù)定位置。

根據(jù)本發(fā)明的另一個方面，提供了一種智能設(shè)備的語音交互控制裝置，該裝置包括：

信號采集單元，用于實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號；

語音識別單元，用于對采集的語音信號進(jìn)行語音識別；

交互控制單元，用于根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制智能設(shè)備執(zhí)行相應(yīng)的操作。

可選地，交互控制單元，具體用于控制智能設(shè)備朝向用戶移動至第一預(yù)定位置，第一預(yù)定位置與用戶之間的距離小于第一距離閥值；

和/或，

交互控制單元，還用于根據(jù)智能設(shè)備對用戶再次發(fā)出的語音信號的語音識別結(jié)果，確定是否再次控制智能設(shè)備移動，是則，控制智能設(shè)備向用戶移動至第二預(yù)定位置，第二預(yù)定位置與用戶之間的距離小于第二距離閾值。

可選地，語音識別單元，用于從采集的語音信號中識別出喚醒詞；

交互控制單元，用于當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；或者，

語音識別單元，用于從采集的語音信號中識別出喚醒詞和命令詞；

交互控制單元，用于當(dāng)喚醒詞與保存的預(yù)定喚醒詞相匹配，命令詞與保存的預(yù)定命令詞不相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；當(dāng)喚醒詞與保存的預(yù)定喚醒詞相匹配，且命令詞與保存的預(yù)定命令詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并根據(jù)命令詞的指示控制智能設(shè)備執(zhí)行相應(yīng)的操作；

可選地，交互控制單元，還用于根據(jù)采集的語音信號，利用聲源定位計(jì)算得到聲源相對于智能設(shè)備的位置信息，根據(jù)位置信息確定出該用戶與智能設(shè)備間的距離及方位；利用確定出的用戶與智能設(shè)備間的距離和方位，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；

以及，利用距離定位確定出室內(nèi)空間中用戶的位置坐標(biāo)以及智能設(shè)備當(dāng)前的位置坐標(biāo)，根據(jù)確定出的用戶的位置坐標(biāo)以及預(yù)設(shè)的第一距離閥值，計(jì)算得到第一預(yù)定位置對應(yīng)的位置坐標(biāo)，利用室內(nèi)導(dǎo)航生成以智能設(shè)備當(dāng)前的位置坐標(biāo)為起點(diǎn)，以第一預(yù)定位置對應(yīng)的位置坐標(biāo)為終點(diǎn)的預(yù)設(shè)路徑，實(shí)時控制智能設(shè)備按照該預(yù)設(shè)路徑并以預(yù)設(shè)的固定步長移動到第一預(yù)定位置。

本發(fā)明的有益效果是：本發(fā)明的這種語音交互控制技術(shù)方案，通過實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號，對采集的語音信號進(jìn)行語音識別；根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制智能設(shè)備執(zhí)行相應(yīng)的操作。如此，實(shí)現(xiàn)了在遠(yuǎn)場語音識別效果不佳的情況下，控制智能設(shè)備移動到說話人近前，并再次進(jìn)行近場語音識別，提高語音識別率的有益效果，彌補(bǔ)了遠(yuǎn)場語音識別效果差，智能設(shè)備不能有效識別用戶語音的缺點(diǎn)，優(yōu)化了用戶語音交互體驗(yàn)。

附圖說明

圖1是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制方法流程示意圖；

圖2是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制方法的流程示意圖；

圖3是本發(fā)明一個實(shí)施例的語音識別和聲源定位的原理示意圖；

圖4是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

本發(fā)明的設(shè)計(jì)構(gòu)思在于：本發(fā)明技術(shù)方案通過對用戶發(fā)出的一次語音信號進(jìn)行識別，當(dāng)在智能設(shè)備初始位置(遠(yuǎn)場)無法有效識別出語音信號后，根據(jù)語音識別結(jié)果控制智能設(shè)備向用戶移動到一個預(yù)定位置(近場)，以縮短智能設(shè)備和用戶的距離，并當(dāng)移動到近場后，再次與用戶交互，從而能夠根據(jù)用戶語音信號適應(yīng)調(diào)整位置，以準(zhǔn)確識別出用戶語音信號中的指令，優(yōu)化了用戶語音交互體驗(yàn)。

本發(fā)明以下實(shí)施例中以智能機(jī)器人為例來具體說明本發(fā)明的語音交互控制方案的應(yīng)用。

現(xiàn)有的智能機(jī)器人語音交互的喚醒方式通常有兩種，一是單喚醒詞喚醒，舉例而言，在語音交互之前，用戶需要先發(fā)出喚醒詞如，“哈利，哈利”，并聽到機(jī)器人的答復(fù)(如，“hi，我是哈利……”)之后，用戶再發(fā)出命令詞，如“我想聽講故事”。這種喚醒方式需要說話人在說完喚醒詞后等待一段時間再發(fā)出命令詞，不符合用戶正常的說話習(xí)慣。

一種改進(jìn)的方式是采用喚醒詞加命令詞同時識別方式。例如，用戶在語音交互之前，發(fā)出的語音指令“哈利，哈利，我想聽講故事”。但是，由于用戶和智能機(jī)器人之間的距離遠(yuǎn)近不確定，所以，當(dāng)用戶與智能機(jī)器人之間相距較遠(yuǎn)時，智能機(jī)器人的遠(yuǎn)距離拾音效果不佳，對命令詞的識別往往存在一定的偏差，進(jìn)而導(dǎo)致用戶交互體驗(yàn)也不理想。

為此，本發(fā)明實(shí)施例提供了一種語音交互控制方案，改善智能機(jī)器人對遠(yuǎn)距離識音效果差的問題。

實(shí)施例一

圖1是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制方法流程示意圖，參見圖1，該語音交互控制方法包括：

步驟S11，實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號；

步驟S12，對采集的語音信號進(jìn)行語音識別；

步驟S13，根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制所述智能設(shè)備執(zhí)行相應(yīng)的操作。

這里喚醒智能設(shè)備的相應(yīng)功能可以是喚醒智能設(shè)備的語音交互功能，實(shí)際應(yīng)用過程中，智能設(shè)備在沒有用戶和其對話的時候，可以處于休眠/待機(jī)狀態(tài)以節(jié)省功耗，并且智能設(shè)備中可以設(shè)置麥克風(fēng)陣列，用來實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號。

由圖1所示的方法可知，通過對用戶發(fā)出的語音信號進(jìn)行識別，當(dāng)語音識別結(jié)果不理想時，控制智能設(shè)備朝向用戶移動，縮短用戶與智能設(shè)備的距離，當(dāng)移動到與用戶相距較近的位置后，再次對用戶發(fā)出的語音信號進(jìn)行識別(如，識別用戶發(fā)出的命令詞)從而實(shí)現(xiàn)了在識別效果不好的情況下，控制設(shè)備移動到說話人近前，進(jìn)行近場語音識別，彌補(bǔ)了遠(yuǎn)場語音識別效果差的缺點(diǎn)。并且，只需用戶發(fā)出一次語音指令，即可同時完成喚醒、指令識別和定位移動功能，優(yōu)化了用戶體驗(yàn)。

實(shí)施例二

圖2是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制方法的流程示意圖，以下結(jié)合圖2對本發(fā)明實(shí)施例的語音交互控制方法的實(shí)現(xiàn)步驟和原理進(jìn)行具體說明。參見圖2，本實(shí)施例的方法包括如下步驟S21至步驟S27。

流程開始；

步驟S21，判斷是否有用戶語音輸入；是則，執(zhí)行步驟S22，否則可結(jié)束流程。

步驟S22，執(zhí)行喚醒算法和聲源定位；

在采集到用戶發(fā)出的語音信號后，智能機(jī)器人內(nèi)部的語音信號處理功能根據(jù)該語音信號執(zhí)行喚醒算法和聲源定位。

圖3是本發(fā)明一個語音識別和聲源定位的原理示意圖，參見圖3，包括：

流程開始，

執(zhí)行步驟S32：對采集的語音信號進(jìn)行語音信號識別，判斷出語音信號中只有喚醒詞時，識別喚醒詞，得到單喚醒詞識別結(jié)果；或執(zhí)行步驟S31：對采集的語音信號進(jìn)行語音信號識別，判斷出語音信號中既包括喚醒詞又包括命令詞(或命令語句)時，識別喚醒詞及命令詞，得到喚醒詞和命令詞識別結(jié)果；

在步驟S32中得到單喚醒詞語音識別結(jié)果(如，“哈利哈利”)，可控制喚醒智能機(jī)器人并等待用戶再次說話。在步驟S31中，得到喚醒詞和命令詞識別結(jié)果(如，“哈利哈利，我想聽講故事”)，可根據(jù)識別出的喚醒詞喚醒智能機(jī)器人，并控制智能機(jī)器人根據(jù)命令詞的指示做相應(yīng)的操作。由此滿足支持不同喚醒識別方式的智能機(jī)器人的交互需求。例如，針對支持單一喚醒詞識別方式的智能機(jī)器人而言，可以選擇按照步驟S32及其后的步驟執(zhí)行。而對于喚醒語音指令中包括命令詞時，支持喚醒詞及命令詞同時識別的識別方式的智能機(jī)器人則可以按照步驟S31→步驟S33→步驟S35的順序執(zhí)行。

本實(shí)施例中，根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動包括三種情形分別為：

第一種情形，當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；這種情況下，支持單一喚醒詞喚醒模式，即，用戶只需要說出預(yù)定的喚醒詞，即可喚醒智能機(jī)器人的例如語音交互功能，并觸發(fā)機(jī)器人內(nèi)部的移動控制實(shí)現(xiàn)移動到用戶近前的效果。

第二種情形，當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配，識別出的命令詞與保存的預(yù)定命令詞不相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動。這種情況下，支持喚醒詞和命令詞喚醒模式，即，智能機(jī)器人能夠識別用戶說出了預(yù)定喚醒詞和不確定的命令詞，但是由于語音的模糊性，環(huán)境噪聲干擾致使無法準(zhǔn)確識別出命令詞是否是預(yù)定命令詞，這時可喚醒智能機(jī)器人的相應(yīng)功能例如語音交互功能，并觸發(fā)機(jī)器人內(nèi)部的移動控制實(shí)現(xiàn)移動到用戶的近前的效果。當(dāng)移動到用戶近前后，可以控制智能機(jī)器人引導(dǎo)用戶再次說出命令詞，從而基于近場語音識別，更有效的識別出用戶說出的命令詞。

第三種情形，當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配，且識別出的命令詞與保存的預(yù)定命令詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并根據(jù)命令詞的指示控制智能設(shè)備執(zhí)行相應(yīng)的操作。這種情形也是支持喚醒詞和命令詞喚醒模式，當(dāng)可以識別出用戶說出的預(yù)定喚醒詞和預(yù)定命令詞，控制智能機(jī)器人直接根據(jù)命令詞的指示執(zhí)行相應(yīng)動作而無須控制智能機(jī)器人移動。由于能夠準(zhǔn)確識別出喚醒詞和命令詞，說明智能機(jī)器人和用戶的距離是是合適的，此時可不必控制機(jī)器人移動而直接執(zhí)行用戶要求的動作，以向用戶提供自然流暢的交互體驗(yàn)。

需要強(qiáng)調(diào)的是，如何對用戶發(fā)出的語音信號進(jìn)行語音識別不是本發(fā)明實(shí)施例的重點(diǎn)，可以采用現(xiàn)有技術(shù)任一可行的技術(shù)手段來實(shí)現(xiàn)，本實(shí)施例中沒有說明的技術(shù)細(xì)節(jié)可以參見現(xiàn)有技術(shù)，這里不再贅述。

根據(jù)步驟S32中的語音信號識別結(jié)果，在識別出喚醒詞后，執(zhí)行步驟S34，聲源定位。即，根據(jù)用戶本次發(fā)出的只包括了喚醒詞的語音信號進(jìn)行聲源定位。

根據(jù)步驟S31中的語音信號識別結(jié)果，在識別出喚醒詞和命令詞后，執(zhí)行步驟S33，聲源定位。即，根據(jù)用戶本次發(fā)出的既包括了喚醒詞又包括了命令詞的語音信號進(jìn)行聲源定位。

需要說明的是，本實(shí)施例中，聲源定位和語音識別之間的執(zhí)行順序沒有嚴(yán)格限定，即，可以在進(jìn)行語音識別的同時執(zhí)行聲源定位，或者先執(zhí)行聲源定位后執(zhí)行語音識別，或者，先執(zhí)行語音識別后執(zhí)行聲源定位。

聲源定位是通過計(jì)算用戶發(fā)出的聲音，到達(dá)智能機(jī)器人的時間差和聲強(qiáng)差對聲源進(jìn)行準(zhǔn)確的定位，確定出說話人的方向或位置。舉例而言，現(xiàn)有技術(shù)中可以利用麥克風(fēng)(MIC)陣列，通常是環(huán)MIC(4+1)或者(6+1)完成360°的聲源定位；或者，利用線性雙MIC或四MIC，完成180°的聲源定位。這里，步驟S33和步驟S34中聲源定位可以采用現(xiàn)有技術(shù)來實(shí)現(xiàn)，并且步驟S33和步驟S34中的聲源定位的實(shí)現(xiàn)過程可以相同。

在步驟S34執(zhí)行之后，執(zhí)行步驟S36，輸出位置信息。在步驟S33執(zhí)行之后，執(zhí)行步驟S35，輸出位置信息。

這里，步驟S35和步驟S36中的輸出位置信息，具體是輸出用戶(即，說話人)相對于智能機(jī)器人的距離和方位信息給智能機(jī)器人的移動控制處理功能，使得移動控制處理功能可以根據(jù)用戶的方向或位置信息在需要時進(jìn)行移動控制，縮短用戶和智能機(jī)器人的距離。流程結(jié)束。

通過圖3所示可知，當(dāng)用戶與智能機(jī)器人進(jìn)行語音交互，發(fā)出了語音信號時，智能機(jī)器人的語音識別功能，利用語音識別算法識別出用戶本次發(fā)出的語音信號中的喚醒詞，或者同時識別出語音信號中的喚醒詞和命令詞后可得到兩種語音識別結(jié)果，如圖2中步驟S231和步驟S232所示。

步驟S231，單喚醒詞；步驟S232，喚醒詞和命令詞；

這里和圖3中的步驟S31和步驟S32類似，都可以根據(jù)智能機(jī)器人的具體情況來選擇一個分支執(zhí)行。

如果在步驟S231中識別出用戶當(dāng)前的發(fā)出語音信號的是單一喚醒詞，則智能機(jī)器人可直接執(zhí)行步驟S25，結(jié)合聲源定位、距離定位和室內(nèi)導(dǎo)航實(shí)現(xiàn)自動移動到用戶身邊。

具體的，本實(shí)施例的方法先通過聲源定位確定出用戶相對于智能機(jī)器人的位置信息(包括距離和方位信息)，然后先控制智能設(shè)備朝向用戶移動至第一預(yù)定位置，第一預(yù)定位置與用戶之間的距離小于第一距離閥值。例如，根據(jù)聲源定位確定出用戶與智能機(jī)器人相距5米，則可以控制智能機(jī)器人朝向用戶移動到第一預(yù)定位置，第一預(yù)定位置與用戶之間的距離小于第一距離閥值，例如第一距離閾值為3米，則可以控制智能機(jī)器人移動到相距用戶2.5米的位置。

當(dāng)智能機(jī)器人移動到相距用戶2.5米的位置之后，可以對用戶再次發(fā)出的語音信號的語音識別結(jié)果，確定是否再次控制智能設(shè)備移動，是則，控制智能設(shè)備朝向用戶移動至第二預(yù)定位置，第二預(yù)定位置與用戶之間的距離小于第一距離閾值。舉例而言，如果在與用戶相距2.5米的位置仍然不能有效的識別出用戶的語音信號中的命令詞，則可以考慮進(jìn)一步縮短用戶和智能機(jī)器人之間的距離以提高語音識別率。

如果在步驟S232中識別出用戶當(dāng)前的發(fā)出的語音信號是既包括喚醒詞又包括命令詞時，則執(zhí)行步驟S24。

步驟S24，語音指令識別，若識別出命令，則執(zhí)行步驟S27，若未識別出命令，則執(zhí)行步驟S25，

步驟S25，結(jié)合聲源定位、距離定位和室內(nèi)導(dǎo)航實(shí)現(xiàn)自動移動到用戶身邊(近場)。

本實(shí)施例中，控制智能設(shè)備朝向用戶移動是利用了聲源定位、距離定位和室內(nèi)導(dǎo)航算法來具體實(shí)現(xiàn)的，以下詳細(xì)說明。

首先，本實(shí)施例根據(jù)采集的用戶說出的語音信號，利用聲源定位計(jì)算得到聲源(即說話人)相對于智能設(shè)備的位置信息，根據(jù)位置信息確定出該用戶與智能設(shè)備間的距離及方位；

接著，在確定出的用戶與智能設(shè)備間的距離和方位后，利用距離定位方式確定出室內(nèi)空間中用戶的位置坐標(biāo)以及智能設(shè)備當(dāng)前的位置坐標(biāo)，根據(jù)確定出的用戶的位置坐標(biāo)以及預(yù)設(shè)的第一距離閥值，計(jì)算得到第一預(yù)定位置對應(yīng)的位置坐標(biāo)，這里的距離定位有兩種具體實(shí)現(xiàn)方式，一種是利用視覺識別，例如，3D深度視覺，通過帶有深度信息采集功能的攝像頭，能夠識別平面圖像之外的三維立體數(shù)據(jù)，直接得到用戶在室內(nèi)空間的深度距離信息。另一種實(shí)現(xiàn)方式是，紅外線測距，通過紅外線傳感器來識別和確定用戶在室內(nèi)空間中的具體位置坐標(biāo)。

最后，利用室內(nèi)導(dǎo)航生成以智能設(shè)備當(dāng)前的位置坐標(biāo)為起點(diǎn)，以第一預(yù)定位置對應(yīng)的位置坐標(biāo)為終點(diǎn)的預(yù)設(shè)路徑，實(shí)時控制智能設(shè)備按照該預(yù)設(shè)路徑并以預(yù)設(shè)的固定步長移動到第一預(yù)定位置。

這里的室內(nèi)導(dǎo)航也可以采用現(xiàn)有技術(shù)來實(shí)現(xiàn)。例如，SLAM(Simultaneous Localization and Mapping，即時定位與地圖構(gòu)建)能夠增強(qiáng)環(huán)境感知的能力，在不依賴Wi-Fi或藍(lán)牙的前提下，也能獨(dú)立感知所在的室內(nèi)環(huán)境并輔助智能機(jī)器人構(gòu)建在室內(nèi)場景中的三維數(shù)據(jù)生產(chǎn)及環(huán)境感知系統(tǒng)，助力機(jī)器人的自主行走。

需要強(qiáng)調(diào)的是，本實(shí)施例中在具體導(dǎo)航時，是控制智能機(jī)器人按照預(yù)定的固定步長移動的，即控制機(jī)器人每一步移動固定的距離從而向說話人靠近，以獲得更優(yōu)的語音識別效果。

步驟S26，語音交互并再次進(jìn)行語音指令識別，識別到準(zhǔn)確的命令詞，則控制執(zhí)行該命令詞相應(yīng)的操作；若仍然無法準(zhǔn)確識別到命令詞，則返回執(zhí)行步驟S25或直接結(jié)束。

本實(shí)施例中，當(dāng)控制智能機(jī)器人移動到合適的位置(例如，與用戶相距1米的位置)后，可以控制智能機(jī)器人說一些引導(dǎo)詞，以引導(dǎo)用戶再說一遍命令詞，并再次進(jìn)行語音指令識別，如果在該位置能夠正確識別出命令詞，則控制控制執(zhí)行該命令詞相應(yīng)的操作，滿足用戶使用需求。如果還是不能準(zhǔn)確識別出命令詞，則可以返回執(zhí)行步驟25，繼續(xù)控制智能機(jī)器人移動，縮短智能機(jī)器人與用戶間的距離，避免由于智能機(jī)器人與用戶距離較遠(yuǎn)而導(dǎo)致智能機(jī)器人無法準(zhǔn)確識別出用戶說出的命令詞。或者，直接結(jié)束流程。

本實(shí)施例中，還可以對語音識別的次數(shù)進(jìn)行限制，例如，設(shè)置語音識別的次數(shù)閾值，如三次，當(dāng)用戶說了三次命令詞，而進(jìn)行了相應(yīng)的三次語音識別后，智能機(jī)器人仍然不能有效識別出命令詞，則可以控制結(jié)束流程，以保證提供良好的用戶交互體驗(yàn)。或者，在智能機(jī)器人未準(zhǔn)確識別出命令詞時，對未準(zhǔn)確識別出命令詞設(shè)定次數(shù)閾值，對每次進(jìn)行的命令詞識別進(jìn)行累計(jì)，當(dāng)未準(zhǔn)確識別出命令詞的次數(shù)超過次數(shù)閾值時，再控制智能機(jī)器人移動，縮短智能機(jī)器人與用戶間的距離。之所以設(shè)定未準(zhǔn)確識別出命令詞次數(shù)，是為了防止實(shí)際應(yīng)用時，由于用戶說話聲音太小并非兩者距離太遠(yuǎn)而未準(zhǔn)確識別出命令詞，這時控制智能機(jī)器人移動既不能解決問題并會增加系統(tǒng)功耗。

至此，通過本發(fā)明實(shí)施例的語音交互控制方法優(yōu)化了智能設(shè)備由喚醒到進(jìn)入工作狀態(tài)的流程，保證了智能設(shè)備可支持通過單喚醒詞喚醒以及喚醒詞加命令語句同時識別直接進(jìn)行命令動作兩種工作狀態(tài)，并且，當(dāng)識別到用戶說出的命令詞不清晰時，可以通過聲源定位輔助控制智能設(shè)備移動到用戶近前交互，提高語音識別的識別率，給用戶提供了自然、流暢的交互體驗(yàn)，解決了用戶對交互流程不熟悉造成的交互體驗(yàn)差的問題。

實(shí)施例三

本實(shí)施例以列舉一個本發(fā)明實(shí)施例的智能設(shè)備的語音交互控制方法的具體應(yīng)用場景。

在本實(shí)施例中，智能設(shè)備具體為服務(wù)機(jī)器人，該服務(wù)器機(jī)器人能夠執(zhí)行本發(fā)明實(shí)施例的智能設(shè)備的語音交互控制方法。

機(jī)器人和3歲的小明都在客廳中，小明對機(jī)器人進(jìn)行語音喚醒，如果機(jī)器人沒有被喚醒，不進(jìn)行任何反應(yīng)。

小明和機(jī)器人的初始距離在2米內(nèi)，小明對機(jī)器人說：“哈利，我想聽講故事。”若沒有聽清則機(jī)器人詢問：“我沒有聽清，請?jiān)僬f一遍吧。”

同時，機(jī)器人根據(jù)小明發(fā)出的聲音信號，計(jì)算出哪個方位發(fā)出的聲音，面部轉(zhuǎn)向這一方向進(jìn)行響應(yīng)，并移動到小明面前(距離在1米之內(nèi))。再次對小明發(fā)出的語音信號進(jìn)行識別，當(dāng)機(jī)器人識別出小明再次發(fā)出的預(yù)定命令詞：“講故事”后，查找保存的預(yù)先錄制好的故事音頻并播放，完成小明要求的動作。

實(shí)施例四

圖4是本發(fā)明一個實(shí)施例的一種智能設(shè)備的語音交互控制裝置的結(jié)構(gòu)框圖，參見圖4，智能設(shè)備的語音交互控制裝置40包括：

信號采集單元401，用于實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號；

語音識別單元402，用于對采集的語音信號進(jìn)行語音識別；

交互控制單元403，用于根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制智能設(shè)備執(zhí)行相應(yīng)的操作。

本實(shí)施例中，交互控制單元403，具體用于控制智能設(shè)備朝向用戶移動至第一預(yù)定位置，第一預(yù)定位置與用戶之間的距離小于第一距離閥值；

和/或，

交互控制單元403，還用于根據(jù)智能設(shè)備對用戶再次發(fā)出的語音信號的語音識別結(jié)果，確定是否再次控制智能設(shè)備移動，是則，控制智能設(shè)備向用戶移動至第二預(yù)定位置，第二預(yù)定位置與用戶之間的距離小于第二距離閾值。

在本發(fā)明的一個實(shí)施例中，語音識別單元402，用于從采集的語音信號中識別出喚醒詞；

交互控制單元403，用于當(dāng)識別出的喚醒詞與保存的預(yù)定喚醒詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；

語音識別單元402，還用于從采集的語音信號中識別出喚醒詞和命令詞；

交互控制單元403，用于當(dāng)喚醒詞與保存的預(yù)定喚醒詞相匹配，命令詞與保存的預(yù)定命令詞不相匹配時，喚醒智能設(shè)備的相應(yīng)功能并控制智能設(shè)備移動；當(dāng)喚醒詞與保存的預(yù)定喚醒詞相匹配，且命令詞與保存的預(yù)定命令詞相匹配時，喚醒智能設(shè)備的相應(yīng)功能并根據(jù)命令詞的指示控制智能設(shè)備執(zhí)行相應(yīng)的操作；

在本發(fā)明的一個實(shí)施例中，交互控制單元403，還用于根據(jù)采集的語音信號，利用聲源定位計(jì)算得到聲源相對于智能設(shè)備的位置信息，根據(jù)位置信息確定出該用戶與智能設(shè)備間的距離及方位；利用確定出的用戶與智能設(shè)備間的距離和方位，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；以及，利用距離定位確定出室內(nèi)空間中用戶的位置坐標(biāo)以及智能設(shè)備當(dāng)前的位置坐標(biāo)，根據(jù)確定出的用戶的位置坐標(biāo)以及預(yù)設(shè)的第一距離閥值，計(jì)算得到第一預(yù)定位置對應(yīng)的位置坐標(biāo)，利用室內(nèi)導(dǎo)航生成以智能設(shè)備當(dāng)前的位置坐標(biāo)為起點(diǎn)，以第一預(yù)定位置對應(yīng)的位置坐標(biāo)為終點(diǎn)的預(yù)設(shè)路徑，實(shí)時控制智能設(shè)備按照該預(yù)設(shè)路徑并以預(yù)設(shè)的固定步長移動到第一預(yù)定位置。

通過圖4所示的智能設(shè)備的語音交互控制裝置，當(dāng)用戶發(fā)出語音指令后，語音交互控制裝置自動實(shí)現(xiàn)語音喚醒和聲源定位，若智能設(shè)備被喚醒，將語音數(shù)據(jù)發(fā)送到被喚醒的主程序以實(shí)現(xiàn)指令識別，若指令識別正確，則直接執(zhí)行指令操作，若識別可信度較低，則利用聲源定位的結(jié)果定位到說話人的方位，并結(jié)合距離定位(如視覺識別、紅外等)確定說話人的具體位置，再運(yùn)用室內(nèi)導(dǎo)航技術(shù)(如SLAM算法)，控制智能設(shè)備移動到說話人身邊，達(dá)到近場(如，與用戶相距1米內(nèi))語音交互，再次實(shí)現(xiàn)語音指令識別，提高語音識別率。

需要說明的是，本實(shí)施例中的智能設(shè)備的語音交互控制裝置是與前述智能設(shè)備的語音交互控制方法相對應(yīng)的，因而本實(shí)施例中對智能設(shè)備人物識別的裝置實(shí)現(xiàn)步驟沒有描述的部分可以參見本發(fā)明前述實(shí)施例的相關(guān)說明，這里不再贅述。

本發(fā)明的這種語音交互控制技術(shù)方案，通過實(shí)時監(jiān)測并采集智能設(shè)備用戶發(fā)出的語音信號，對采集的語音信號進(jìn)行語音識別；根據(jù)智能設(shè)備對語音信號的語音識別結(jié)果，喚醒智能設(shè)備的相應(yīng)功能并確定是否控制智能設(shè)備移動，是則，獲取用戶的位置，控制智能設(shè)備朝向用戶移動，縮短智能設(shè)備與用戶之間的距離，識別用戶再次發(fā)出的語音信號；否則，直接根據(jù)語音識別結(jié)果控制智能設(shè)備執(zhí)行相應(yīng)的操作。如此，實(shí)現(xiàn)了在遠(yuǎn)場語音識別效果不佳的情況下，控制智能設(shè)備自動移動到說話人近前，并再次進(jìn)行近場語音識別提高語音識別率的有益效果，彌補(bǔ)了遠(yuǎn)場語音識別效果差，智能設(shè)備不能有效識別用戶語音的缺點(diǎn)，優(yōu)化了用戶語音交互體驗(yàn)。

以上所述僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均包含在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3