本申請(qǐng)涉及機(jī)器人,尤其涉及一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,機(jī)器人在多個(gè)領(lǐng)域中的應(yīng)用變得越來(lái)越廣泛,機(jī)器人能夠通過(guò)交互來(lái)學(xué)習(xí)用戶的需求和偏好,進(jìn)而提供更為個(gè)性化和精準(zhǔn)的服務(wù);但是,在交互過(guò)程中,需要準(zhǔn)確的識(shí)別語(yǔ)音內(nèi)容,并根據(jù)識(shí)別結(jié)果做出相應(yīng)的反應(yīng)。
2、相關(guān)技術(shù)中,通常使用常規(guī)的機(jī)器學(xué)習(xí)算法對(duì)用戶語(yǔ)音進(jìn)行識(shí)別,僅可以識(shí)別出與語(yǔ)音對(duì)應(yīng)的文字內(nèi)容,并不能夠識(shí)別出用戶的情緒和聲音事件,從而降低機(jī)器人對(duì)用戶需求理解的準(zhǔn)確性,降低機(jī)器人的交互能力。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過(guò)注意力處理能夠提高語(yǔ)音識(shí)別的準(zhǔn)確性,得到準(zhǔn)確的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,從而通過(guò)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,機(jī)器人能夠更準(zhǔn)確的理解和響應(yīng)用戶的需求,提升機(jī)器人的交互能力。
2、本申請(qǐng)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制方法,所述方法包括:對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段;對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量;對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理,得到所述有聲語(yǔ)音片段的注意力特征向量;基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果;控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。
4、本申請(qǐng)實(shí)施例提供一種機(jī)器人控制裝置,包括:識(shí)別模塊,用于對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段;特征提取模塊,用于對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量;注意力處理模塊,用于對(duì)所述語(yǔ)音特征向量進(jìn)行注意力處理,得到所述有聲語(yǔ)音片段的注意力特征向量;確定模塊,用于基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果;控制模塊,用于控制機(jī)器人執(zhí)行與所述語(yǔ)音屬性識(shí)別結(jié)果和所述語(yǔ)音內(nèi)容識(shí)別結(jié)果相匹配的目標(biāo)行為。
5、在上述方案中,所述識(shí)別模塊,還用于:對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行第一預(yù)處理,得到預(yù)處理語(yǔ)音幀序列;調(diào)用預(yù)訓(xùn)練的語(yǔ)音活動(dòng)檢測(cè)模型,對(duì)所述預(yù)處理語(yǔ)音幀序列進(jìn)行第一特征映射,得到所述預(yù)處理語(yǔ)音幀序列中每一語(yǔ)音幀的語(yǔ)音概率值;所述語(yǔ)音概率值用于表征所述語(yǔ)音幀存在聲音的概率;基于所述每一語(yǔ)音幀的語(yǔ)音概率值,確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段。
6、在上述方案中,所述識(shí)別模塊,還用于:獲取預(yù)設(shè)的第一語(yǔ)音概率閾值和預(yù)設(shè)的第二語(yǔ)音概率閾值;其中,所述第二語(yǔ)音概率閾值小于所述第一語(yǔ)音概率閾值;將所述語(yǔ)音概率值大于所述第一語(yǔ)音概率閾值的語(yǔ)音幀,確定為有聲語(yǔ)音幀;響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第一前一幀為無(wú)聲語(yǔ)音幀,且所述兩個(gè)語(yǔ)音幀中的第一后一幀為所述有聲語(yǔ)音幀,將所述第一后一幀確定為有聲語(yǔ)音起始幀,并從所述有聲語(yǔ)音起始幀開始對(duì)語(yǔ)音幀進(jìn)行緩存;在對(duì)語(yǔ)音幀進(jìn)行緩存的過(guò)程中,響應(yīng)于相鄰兩個(gè)語(yǔ)音幀中的第二前一幀為所述有聲語(yǔ)音幀,且所述兩個(gè)語(yǔ)音幀中的第二后一幀的所述語(yǔ)音概率值小于所述第二語(yǔ)音概率閾值,獲取所述有聲語(yǔ)音起始幀至所述第二后一幀的語(yǔ)音幀時(shí)長(zhǎng);響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)大于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng),將所述第二前一幀確定為有聲語(yǔ)音終止幀,并在緩存所述有聲語(yǔ)音終止幀之后停止緩存語(yǔ)音幀;將所述有聲語(yǔ)音起始幀、所述有聲語(yǔ)音終止幀,以及所述有聲語(yǔ)音起始幀和所述有聲語(yǔ)音終止幀之間的語(yǔ)音幀,確定為所述有聲語(yǔ)音片段。
7、在上述方案中,所述識(shí)別模塊,還用于:響應(yīng)于所述語(yǔ)音幀時(shí)長(zhǎng)小于或等于預(yù)設(shè)檢測(cè)靜音時(shí)長(zhǎng),將所述第二后一幀確定為所述有聲語(yǔ)音幀,并繼續(xù)緩存所述第二后一幀。
8、在上述方案中,所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行第二預(yù)處理,得到預(yù)處理聲音特征;對(duì)所述預(yù)處理聲音特征進(jìn)行特征提取,得到預(yù)處理聲音特征向量;獲取預(yù)設(shè)的索引數(shù)據(jù),并對(duì)所述索引數(shù)據(jù)進(jìn)行數(shù)據(jù)編碼,得到編碼特征向量;對(duì)所述預(yù)處理聲音特征向量和所述編碼特征向量進(jìn)行第一特征拼接,得到所述語(yǔ)音特征向量。
9、在上述方案中,所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作;所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作,得到預(yù)處理特征;對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作,得到所述預(yù)處理聲音特征。
10、在上述方案中,所述特征提取模塊,還用于:對(duì)所述有聲語(yǔ)音片段進(jìn)行分幀處理,得到n個(gè)分析幀,n為大于1的整數(shù);對(duì)所述n個(gè)分析幀進(jìn)行規(guī)范化處理,得到規(guī)范化特征;對(duì)所述規(guī)范化特征進(jìn)行快速傅里葉變換,得到幅度譜;對(duì)所述幅度譜進(jìn)行梅爾特征提取,得到梅爾譜特征;基于所述梅爾譜特征,確定所述預(yù)處理特征。
11、在上述方案中,所述特征提取模塊,還用于:對(duì)所述預(yù)處理特征進(jìn)行下采樣,得到下采樣特征;對(duì)所述下采樣特征進(jìn)行歸一化處理,得到所述預(yù)處理聲音特征。
12、在上述方案中,所述確定模塊,還用于:對(duì)所述注意力特征向量進(jìn)行解碼,得到屬性標(biāo)簽概率值集合和內(nèi)容概率值集合;所述屬性標(biāo)簽概率值集合中的每一標(biāo)簽概率值對(duì)應(yīng)預(yù)設(shè)標(biāo)簽集合中的一個(gè)預(yù)設(shè)標(biāo)簽;所述標(biāo)簽概率值用于表征對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽與所述有聲語(yǔ)音片段匹配的概率;將所述屬性標(biāo)簽概率值集合中最大標(biāo)簽概率值對(duì)應(yīng)的預(yù)設(shè)標(biāo)簽,確定為目標(biāo)標(biāo)簽;基于所述內(nèi)容概率值集合中的內(nèi)容概率值,確定文本內(nèi)容中每個(gè)文本單元的索引;基于所述目標(biāo)標(biāo)簽確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果,以及,基于所述索引確定所述有聲語(yǔ)音片段的語(yǔ)音內(nèi)容識(shí)別結(jié)果。
13、本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令;處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。
14、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序或可執(zhí)行指令,所述計(jì)算機(jī)程序或計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。
15、本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中;其中,電子設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中讀取計(jì)算機(jī)可執(zhí)行指令,并執(zhí)行計(jì)算機(jī)可執(zhí)行指令時(shí),實(shí)現(xiàn)本申請(qǐng)實(shí)施例提供的機(jī)器人控制方法。
16、本申請(qǐng)實(shí)施例具有以下有益效果:
17、在對(duì)機(jī)器人進(jìn)行控制時(shí),通過(guò)語(yǔ)音狀態(tài)識(shí)別,能夠在連續(xù)語(yǔ)音中有效的過(guò)濾掉無(wú)聲或無(wú)效語(yǔ)音片段,僅提取有聲語(yǔ)音片段,從而減少無(wú)用數(shù)據(jù)的干擾;而且,通過(guò)引入注意力機(jī)制,使得語(yǔ)音特征向量能夠聚焦于關(guān)鍵特征部分,從而提升語(yǔ)音特征的表達(dá)能力,提高語(yǔ)音識(shí)別的準(zhǔn)確性;另外,本申請(qǐng)的語(yǔ)音識(shí)別結(jié)果包括語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,實(shí)現(xiàn)了對(duì)語(yǔ)音信息的多層次解析,使得機(jī)器人能夠更準(zhǔn)確的理解用戶需求;并且,根據(jù)語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果控制機(jī)器人行為,使得機(jī)器人能夠根據(jù)語(yǔ)音輸入執(zhí)行精準(zhǔn)、個(gè)性化的目標(biāo)行為,提高機(jī)器人的交互能力。
1.一種機(jī)器人控制方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)采集的連續(xù)語(yǔ)音的語(yǔ)音幀序列進(jìn)行語(yǔ)音狀態(tài)識(shí)別,得到所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述每一語(yǔ)音幀的語(yǔ)音概率值,確定所述連續(xù)語(yǔ)音中的有聲語(yǔ)音片段,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述有聲語(yǔ)音片段進(jìn)行特征提取,得到語(yǔ)音特征向量,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二預(yù)處理包括第一預(yù)處理操作和第二預(yù)處理操作;
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)所述有聲語(yǔ)音片段進(jìn)行所述第一預(yù)處理操作,得到預(yù)處理特征,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述對(duì)所述預(yù)處理特征進(jìn)行所述第二預(yù)處理操作,得到所述預(yù)處理聲音特征,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述注意力特征向量,確定所述有聲語(yǔ)音片段的語(yǔ)音屬性識(shí)別結(jié)果和語(yǔ)音內(nèi)容識(shí)別結(jié)果,包括:
10.一種機(jī)器人控制裝置,其特征在于,包括:
11.一種電子設(shè)備,其特征在于,包括:
12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序,所述計(jì)算機(jī)可執(zhí)行指令或計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人控制方法。