機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：41742502發(fā)布日期：2025-04-25 17:23閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及機(jī)器人，尤其涉及一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的發(fā)展，機(jī)器人在多個(gè)領(lǐng)域中的應(yīng)用變得越來(lái)越廣泛，機(jī)器人能夠通過(guò)交互來(lái)學(xué)習(xí)用戶的需求和偏好，進(jìn)而提供更為個(gè)性化和精準(zhǔn)的服務(wù)；但是，在交互過(guò)程中，需要準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)容，并根據(jù)識(shí)別結(jié)果做出相應(yīng)的反應(yīng)。

2、相關(guān)技術(shù)中，通常使用常規(guī)的機(jī)器學(xué)習(xí)算法對(duì)用戶語(yǔ)音進(jìn)行識(shí)別，僅可以識(shí)別出與語(yǔ)音對(duì)應(yīng)的文字內(nèi)容，并不能夠識(shí)別出用戶的情緒和聲音事件，從而降低機(jī)器人對(duì)用戶需求理解的準(zhǔn)確性，降低機(jī)器人的交互能力。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，通過(guò)注意力處理能夠提高語(yǔ)音識(shí)別的準(zhǔn)確性，得到準(zhǔn)確的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，從而通過(guò)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，機(jī)器人能夠更準(zhǔn)確的理解和響應(yīng)用戶的需求，提升機(jī)器人的交互能力。

2、本申請(qǐng)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的：

3、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法，所述方法包括：對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別，得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段；對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取，得到語(yǔ)音特征向量；對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理，得到所述有聲語(yǔ)音片段的注意力特征向量；基于所述注意力特征向量，確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果；控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。

4、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制裝置，包括：識(shí)別模塊，用于對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別，得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段；特征提取模塊，用于對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取，得到語(yǔ)音特征向量；注意力處理模塊，用于對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理，得到所述有聲語(yǔ)音片段的注意力特征向量；確定模塊，用于基于所述注意力特征向量，確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果；控制模塊，用于控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。

5、在上述方案中，所述識(shí)別模塊，還用于：對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行第一預(yù)處理，得到預(yù)處理語(yǔ)音幀序列；調(diào)用預(yù)訓(xùn)練的語(yǔ)音活動(dòng)檢測(cè)模型，對(duì)所述預(yù)處理語(yǔ)音幀序列進(jìn)行第一特征映射，得到所述預(yù)處理語(yǔ)音幀序列中每一語(yǔ)音幀的語(yǔ)音概率值；所述語(yǔ)音概率值用于表征所述語(yǔ)音幀存在聲音的概率；基于所述每一語(yǔ)音幀的語(yǔ)音概率值，確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段。

6、在上述方案中，所述識(shí)別模塊，還用于：獲取預(yù)設(shè)的第一語(yǔ)音概率閾值和預(yù)設(shè)的第二語(yǔ)音概率閾值；其中，所述第二語(yǔ)音概率閾值小于所述第一語(yǔ)音概率閾值；將所述語(yǔ)音概率值大于所述第一語(yǔ)音概率閾值的語(yǔ)音幀，確定為有聲語(yǔ)音幀；響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第一前一幀為無(wú)聲語(yǔ)音幀，且所述兩個(gè)語(yǔ)音幀中的第一后一幀為所述有聲語(yǔ)音幀，將所述第一后一幀確定為有聲語(yǔ)音起始幀，并從所述有聲語(yǔ)音起始幀開始對(duì)語(yǔ)音幀進(jìn)行緩存；在對(duì)語(yǔ)音幀進(jìn)行緩存的過(guò)程中，響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第二前一幀為所述有聲語(yǔ)音幀，且所述兩個(gè)語(yǔ)音幀中的第二后一幀的所述語(yǔ)音概率值小于所述第二語(yǔ)音概率閾值，獲取所述有聲語(yǔ)音起始幀至所述第二后一幀的語(yǔ)音幀時(shí)長(zhǎng)；響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)大于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng)，將所述第二前一幀確定為有聲語(yǔ)音終止幀，并在緩存所述有聲語(yǔ)音終止幀之后停止緩存語(yǔ)音幀；將所述有聲語(yǔ)音起始幀、所述有聲語(yǔ)音終止幀，以及所述有聲語(yǔ)音起始幀和所述有聲語(yǔ)音終止幀之間的語(yǔ)音幀，確定為所述有聲語(yǔ)音片段。

7、在上述方案中，所述識(shí)別模塊，還用于：響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)小于或等于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng)，將所述第二后一幀確定為所述有聲語(yǔ)音幀，并繼續(xù)緩存所述第二后一幀。

8、在上述方案中，所述特征提取模塊，還用于：對(duì)所述有聲語(yǔ)音片段進(jìn)行第二預(yù)處理，得到預(yù)處理聲音特征；對(duì)所述預(yù)處理聲音特征進(jìn)行特征提取，得到預(yù)處理聲音特征向量；獲取預(yù)設(shè)的索引數(shù)據(jù)，并對(duì)所述索引數(shù)據(jù)進(jìn)行數(shù)據(jù)編碼，得到編碼特征向量；對(duì)所述預(yù)處理聲音特征向量和所述編碼特征向量進(jìn)行第一特征拼接，得到所述語(yǔ)音特征向量。

9、在上述方案中，所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作；所述特征提取模塊，還用于：對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作，得到預(yù)處理特征；對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作，得到所述預(yù)處理聲音特征。

10、在上述方案中，所述特征提取模塊，還用于：對(duì)所述有聲語(yǔ)音片段進(jìn)行分幀處理，得到n個(gè)分析幀，n為大于1的整數(shù)；對(duì)所述n個(gè)分析幀進(jìn)行規(guī)范化處理，得到規(guī)范化特征；對(duì)所述規(guī)范化特征進(jìn)行快速傅里葉變換，得到幅度譜；對(duì)所述幅度譜進(jìn)行梅爾特征提取，得到梅爾譜特征；基于所述梅爾譜特征，確定所述預(yù)處理特征。

11、在上述方案中，所述特征提取模塊，還用于：對(duì)所述預(yù)處理特征進(jìn)行下采樣，得到下采樣特征；對(duì)所述下采樣特征進(jìn)行歸一化處理，得到所述預(yù)處理聲音特征。

12、在上述方案中，所述確定模塊，還用于：對(duì)所述注意力特征向量進(jìn)行解碼，得到屬性標(biāo)簽概率值集合和內(nèi)容概率值集合；所述屬性標(biāo)簽概率值集合中的每一標(biāo)簽概率值對(duì)應(yīng)預(yù)設(shè)標(biāo)簽集合中的一個(gè)預(yù)設(shè)標(biāo)簽；所述標(biāo)簽概率值用于表征對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽與所述有聲語(yǔ)音片段匹配的概率；將所述屬性標(biāo)簽概率值集合中最大標(biāo)簽概率值對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽，確定為目標(biāo)標(biāo)簽；基于所述內(nèi)容概率值集合中的內(nèi)容概率值，確定文本內(nèi)容中每個(gè)文本單元的索引；基于所述目標(biāo)標(biāo)簽確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果，以及，基于所述索引確定所述有聲語(yǔ)音片段的語(yǔ)音內(nèi)容識(shí)別結(jié)果。

13、本申請(qǐng)實(shí)施例提供一種電子設(shè)備，包括：存儲(chǔ)器，用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令；處理器，用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令時(shí)，實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

14、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序或可執(zhí)行指令，所述計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)，實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

15、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可執(zhí)行指令，計(jì)算機(jī)可執(zhí)行指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中；其中，電子設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取計(jì)算機(jī)可執(zhí)行指令，并執(zhí)行計(jì)算機(jī)可執(zhí)行指令時(shí)，實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

16、本申請(qǐng)實(shí)施例具有以下有益效果：

17、在對(duì)機(jī)器人進(jìn)行控制時(shí)，通過(guò)語(yǔ)音狀態(tài)識(shí)別，能夠在連續(xù)語(yǔ)音中有效的過(guò)濾掉無(wú)聲或無(wú)效語(yǔ)音片段，僅提取有聲語(yǔ)音片段，從而減少無(wú)用數(shù)據(jù)的干擾；而且，通過(guò)引入注意力機(jī)制，使得語(yǔ)音特征向量能夠聚焦于關(guān)鍵特征部分，從而提升語(yǔ)音特征的表達(dá)能力，提高語(yǔ)音識(shí)別的準(zhǔn)確性；另外，本申請(qǐng)的語(yǔ)音識(shí)別結(jié)果包括語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，實(shí)現(xiàn)了對(duì)語(yǔ)音信息的多層次解析，使得機(jī)器人能夠更準(zhǔn)確的理解用戶需求；并且，根據(jù)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果控制機(jī)器人行為，使得機(jī)器人能夠根據(jù)語(yǔ)音輸入執(zhí)行精準(zhǔn)、個(gè)性化的目標(biāo)行為，提高機(jī)器人的交互能力。

技術(shù)特征：

1.一種機(jī)器人控制方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別，得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述基于所述每一語(yǔ)音幀的語(yǔ)音概率值，確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取，得到語(yǔ)音特征向量，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作；

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作，得到預(yù)處理特征，包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作，得到所述預(yù)處理聲音特征，包括：

9.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述注意力特征向量，確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，包括：

10.一種機(jī)器人控制裝置，其特征在于，包括：

11.一種電子設(shè)備，其特征在于，包括：

12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序，所述計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人控制方法。

技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┝艘环N機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)；包括：對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別，得到連續(xù)語(yǔ)音中的有聲語(yǔ)音片段；對(duì)有聲語(yǔ)音片段進(jìn)行特征提取，得到語(yǔ)音特征向量；對(duì)語(yǔ)音特征向量進(jìn)行注意力處理，得到有聲語(yǔ)音片段的注意力特征向量；基于注意力特征向量，確定有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果；控制機(jī)器人執(zhí)行與語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。本申請(qǐng)通過(guò)注意力處理能夠提高語(yǔ)音識(shí)別的準(zhǔn)確性，得到準(zhǔn)確的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，從而通過(guò)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果，機(jī)器人能夠更準(zhǔn)確的理解和響應(yīng)用戶的需求，提升機(jī)器人的交互能力。

技術(shù)研發(fā)人員：鄭澤鴻,陳朝烽,潘柏宇
受保護(hù)的技術(shù)使用者：深圳市優(yōu)必選科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/4/24

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭澤鴻,陳朝烽,潘柏宇
技術(shù)所有人：深圳市優(yōu)必選科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程