麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41742502發(fā)布日期:2025-04-25 17:23閱讀:5來(lái)源:國(guó)知局
機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及機(jī)器人,尤其涉及一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著人工智能技術(shù)的發(fā)展,機(jī)器人在多個(gè)領(lǐng)域中的應(yīng)用變得越來(lái)越廣泛,機(jī)器人能夠通過(guò)交互來(lái)學(xué)習(xí)用戶的需求和偏好,進(jìn)而提供更為個(gè)性化和精準(zhǔn)的服務(wù);但是,在交互過(guò)程中,需要準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)容,并根據(jù)識(shí)別結(jié)果做出相應(yīng)的反應(yīng)。

2、相關(guān)技術(shù)中,通常使用常規(guī)的機(jī)器學(xué)習(xí)算法對(duì)用戶語(yǔ)音進(jìn)行識(shí)別,僅可以識(shí)別出與語(yǔ)音對(duì)應(yīng)的文字內(nèi)容,并不能夠識(shí)別出用戶的情緒和聲音事件,從而降低機(jī)器人對(duì)用戶需求理解的準(zhǔn)確性,降低機(jī)器人的交互能力。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過(guò)注意力處理能夠提高語(yǔ)音識(shí)別的準(zhǔn)確性,得到準(zhǔn)確的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,從而通過(guò)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,機(jī)器人能夠更準(zhǔn)確的理解和響應(yīng)用戶的需求,提升機(jī)器人的交互能力。

2、本申請(qǐng)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:

3、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法,所述方法包括:對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段;對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量;對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理,得到所述有聲語(yǔ)音片段的注意力特征向量;基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果;控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。

4、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制裝置,包括:識(shí)別模塊,用于對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段;特征提取模塊,用于對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量;注意力處理模塊,用于對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理,得到所述有聲語(yǔ)音片段的注意力特征向量;確定模塊,用于基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果;控制模塊,用于控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。

5、在上述方案中,所述識(shí)別模塊,還用于:對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行第一預(yù)處理,得到預(yù)處理語(yǔ)音幀序列;調(diào)用預(yù)訓(xùn)練的語(yǔ)音活動(dòng)檢測(cè)模型,對(duì)所述預(yù)處理語(yǔ)音幀序列進(jìn)行第一特征映射,得到所述預(yù)處理語(yǔ)音幀序列中每一語(yǔ)音幀的語(yǔ)音概率值;所述語(yǔ)音概率值用于表征所述語(yǔ)音幀存在聲音的概率;基于所述每一語(yǔ)音幀的語(yǔ)音概率值,確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段。

6、在上述方案中,所述識(shí)別模塊,還用于:獲取預(yù)設(shè)的第一語(yǔ)音概率閾值和預(yù)設(shè)的第二語(yǔ)音概率閾值;其中,所述第二語(yǔ)音概率閾值小于所述第一語(yǔ)音概率閾值;將所述語(yǔ)音概率值大于所述第一語(yǔ)音概率閾值的語(yǔ)音幀,確定為有聲語(yǔ)音幀;響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第一前一幀為無(wú)聲語(yǔ)音幀,且所述兩個(gè)語(yǔ)音幀中的第一后一幀為所述有聲語(yǔ)音幀,將所述第一后一幀確定為有聲語(yǔ)音起始幀,并從所述有聲語(yǔ)音起始幀開始對(duì)語(yǔ)音幀進(jìn)行緩存;在對(duì)語(yǔ)音幀進(jìn)行緩存的過(guò)程中,響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第二前一幀為所述有聲語(yǔ)音幀,且所述兩個(gè)語(yǔ)音幀中的第二后一幀的所述語(yǔ)音概率值小于所述第二語(yǔ)音概率閾值,獲取所述有聲語(yǔ)音起始幀至所述第二后一幀的語(yǔ)音幀時(shí)長(zhǎng);響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)大于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng),將所述第二前一幀確定為有聲語(yǔ)音終止幀,并在緩存所述有聲語(yǔ)音終止幀之后停止緩存語(yǔ)音幀;將所述有聲語(yǔ)音起始幀、所述有聲語(yǔ)音終止幀,以及所述有聲語(yǔ)音起始幀和所述有聲語(yǔ)音終止幀之間的語(yǔ)音幀,確定為所述有聲語(yǔ)音片段。

7、在上述方案中,所述識(shí)別模塊,還用于:響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)小于或等于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng),將所述第二后一幀確定為所述有聲語(yǔ)音幀,并繼續(xù)緩存所述第二后一幀。

8、在上述方案中,所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行第二預(yù)處理,得到預(yù)處理聲音特征;對(duì)所述預(yù)處理聲音特征進(jìn)行特征提取,得到預(yù)處理聲音特征向量;獲取預(yù)設(shè)的索引數(shù)據(jù),并對(duì)所述索引數(shù)據(jù)進(jìn)行數(shù)據(jù)編碼,得到編碼特征向量;對(duì)所述預(yù)處理聲音特征向量和所述編碼特征向量進(jìn)行第一特征拼接,得到所述語(yǔ)音特征向量。

9、在上述方案中,所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作;所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作,得到預(yù)處理特征;對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作,得到所述預(yù)處理聲音特征。

10、在上述方案中,所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行分幀處理,得到n個(gè)分析幀,n為大于1的整數(shù);對(duì)所述n個(gè)分析幀進(jìn)行規(guī)范化處理,得到規(guī)范化特征;對(duì)所述規(guī)范化特征進(jìn)行快速傅里葉變換,得到幅度譜;對(duì)所述幅度譜進(jìn)行梅爾特征提取,得到梅爾譜特征;基于所述梅爾譜特征,確定所述預(yù)處理特征。

11、在上述方案中,所述特征提取模塊,還用于:對(duì)所述預(yù)處理特征進(jìn)行下采樣,得到下采樣特征;對(duì)所述下采樣特征進(jìn)行歸一化處理,得到所述預(yù)處理聲音特征。

12、在上述方案中,所述確定模塊,還用于:對(duì)所述注意力特征向量進(jìn)行解碼,得到屬性標(biāo)簽概率值集合和內(nèi)容概率值集合;所述屬性標(biāo)簽概率值集合中的每一標(biāo)簽概率值對(duì)應(yīng)預(yù)設(shè)標(biāo)簽集合中的一個(gè)預(yù)設(shè)標(biāo)簽;所述標(biāo)簽概率值用于表征對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽與所述有聲語(yǔ)音片段匹配的概率;將所述屬性標(biāo)簽概率值集合中最大標(biāo)簽概率值對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽,確定為目標(biāo)標(biāo)簽;基于所述內(nèi)容概率值集合中的內(nèi)容概率值,確定文本內(nèi)容中每個(gè)文本單元的索引;基于所述目標(biāo)標(biāo)簽確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果,以及,基于所述索引確定所述有聲語(yǔ)音片段的語(yǔ)音內(nèi)容識(shí)別結(jié)果。

13、本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令;處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

14、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序或可執(zhí)行指令,所述計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

15、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中;其中,電子設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取計(jì)算機(jī)可執(zhí)行指令,并執(zhí)行計(jì)算機(jī)可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。

16、本申請(qǐng)實(shí)施例具有以下有益效果:

17、在對(duì)機(jī)器人進(jìn)行控制時(shí),通過(guò)語(yǔ)音狀態(tài)識(shí)別,能夠在連續(xù)語(yǔ)音中有效的過(guò)濾掉無(wú)聲或無(wú)效語(yǔ)音片段,僅提取有聲語(yǔ)音片段,從而減少無(wú)用數(shù)據(jù)的干擾;而且,通過(guò)引入注意力機(jī)制,使得語(yǔ)音特征向量能夠聚焦于關(guān)鍵特征部分,從而提升語(yǔ)音特征的表達(dá)能力,提高語(yǔ)音識(shí)別的準(zhǔn)確性;另外,本申請(qǐng)的語(yǔ)音識(shí)別結(jié)果包括語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,實(shí)現(xiàn)了對(duì)語(yǔ)音信息的多層次解析,使得機(jī)器人能夠更準(zhǔn)確的理解用戶需求;并且,根據(jù)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果控制機(jī)器人行為,使得機(jī)器人能夠根據(jù)語(yǔ)音輸入執(zhí)行精準(zhǔn)、個(gè)性化的目標(biāo)行為,提高機(jī)器人的交互能力。



技術(shù)特征:

1.一種機(jī)器人控制方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述每一語(yǔ)音幀的語(yǔ)音概率值,確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作;

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作,得到預(yù)處理特征,包括:

8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作,得到所述預(yù)處理聲音特征,包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,包括:

10.一種機(jī)器人控制裝置,其特征在于,包括:

11.一種電子設(shè)備,其特征在于,包括:

12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序,所述計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人控制方法。


技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┝艘环N機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì);包括:對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到連續(xù)語(yǔ)音中的有聲語(yǔ)音片段;對(duì)有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量;對(duì)語(yǔ)音特征向量進(jìn)行注意力處理,得到有聲語(yǔ)音片段的注意力特征向量;基于注意力特征向量,確定有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果;控制機(jī)器人執(zhí)行與語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。本申請(qǐng)通過(guò)注意力處理能夠提高語(yǔ)音識(shí)別的準(zhǔn)確性,得到準(zhǔn)確的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,從而通過(guò)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,機(jī)器人能夠更準(zhǔn)確的理解和響應(yīng)用戶的需求,提升機(jī)器人的交互能力。

技術(shù)研發(fā)人員:鄭澤鴻,陳朝烽,潘柏宇
受保護(hù)的技術(shù)使用者:深圳市優(yōu)必選科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/4/24
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 青神县| 广州市| 工布江达县| 土默特左旗| 客服| 临猗县| 瓦房店市| 金堂县| 阜新市| 安徽省| 齐河县| 凌海市| 鲜城| 安岳县| 鄄城县| 四子王旗| 清河县| 洛隆县| 修文县| 广德县| 天门市| 开鲁县| 岑巩县| 乌兰浩特市| 将乐县| 萨嘎县| 明水县| 雷波县| 平顺县| 德令哈市| 蓬莱市| 靖远县| 鱼台县| 屯门区| 巩义市| 中山市| 离岛区| 土默特左旗| 登封市| 郓城县| 崇义县|