本發(fā)明提出了基于多語音助理的智能識(shí)別控制方法,屬于語音識(shí)別。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,語音助理已經(jīng)成為智能家居、智能辦公、智能車載系統(tǒng)等領(lǐng)域的重要組成部分。這些語音助理通過接收用戶的語音指令,實(shí)現(xiàn)對(duì)各類智能設(shè)備的控制,極大地提升了用戶體驗(yàn)和系統(tǒng)的智能化水平。然而,在現(xiàn)有的智能識(shí)別控制系統(tǒng)中,當(dāng)面對(duì)多用戶同時(shí)發(fā)出語音指令的場(chǎng)景時(shí),系統(tǒng)往往會(huì)出現(xiàn)識(shí)別混亂和控制錯(cuò)誤的問題。
2、傳統(tǒng)的單語音助理系統(tǒng)在設(shè)計(jì)時(shí),主要考慮了單一用戶與系統(tǒng)的交互,對(duì)于同時(shí)接收到的多個(gè)語音信號(hào),系統(tǒng)往往缺乏有效的區(qū)分和處理機(jī)制。這導(dǎo)致在多用戶環(huán)境中,系統(tǒng)可能無法準(zhǔn)確識(shí)別每個(gè)用戶的指令,甚至可能出現(xiàn)誤識(shí)別、誤操作的情況。例如,在智能家居場(chǎng)景中,如果家庭成員同時(shí)向語音助理發(fā)出不同的控制指令,系統(tǒng)可能會(huì)混淆這些指令,導(dǎo)致錯(cuò)誤的設(shè)備控制。為了解決這一問題,一些現(xiàn)有技術(shù)嘗試通過增加語音識(shí)別模塊的復(fù)雜度和算法精度來提高系統(tǒng)的識(shí)別能力。然而,這些方法雖然在一定程度上提高了單用戶指令的識(shí)別準(zhǔn)確率,但在多用戶同時(shí)發(fā)言的情況下,仍然難以有效區(qū)分和正確處理每個(gè)用戶的指令。此外,這些方法往往需要消耗更多的計(jì)算資源和時(shí)間,降低了系統(tǒng)的實(shí)時(shí)性和響應(yīng)速度。
3、因此,迫切需要一種能夠有效應(yīng)對(duì)多用戶同時(shí)發(fā)出語音指令的智能識(shí)別控制方法。這種方法需要能夠?qū)崟r(shí)監(jiān)測(cè)接收到的用戶語音數(shù)據(jù),根據(jù)用戶數(shù)量智能地選擇語音處理策略,以確保在多用戶環(huán)境中系統(tǒng)能夠準(zhǔn)確識(shí)別并處理每個(gè)用戶的指令。同時(shí),該方法還需要具備高效、實(shí)時(shí)的特點(diǎn),以滿足現(xiàn)代智能系統(tǒng)對(duì)響應(yīng)速度和穩(wěn)定性的要求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了基于多語音助理的智能識(shí)別控制方法,用以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,所采取的技術(shù)方案如下:
2、基于多語音助理的智能識(shí)別控制方法,所述基于多語音助理的智能識(shí)別控制方法包括:
3、實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù),根據(jù)發(fā)出語音數(shù)據(jù)的用戶數(shù)量確定多語音助理的語音處理策略;其中,所述語音處理策略包括第一語音處理策略和第二語音處理策略;并且,所述第一語音處理策略是指多語音助理協(xié)同處理一個(gè)用戶語音數(shù)據(jù)的語音處理策略;所述第二語音處理策略是指多語音助理協(xié)同處理多個(gè)用戶語音數(shù)據(jù)的語音處理策略;
4、按照所述語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理,獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令;
5、按照所述語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制。
6、進(jìn)一步地,實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù),根據(jù)發(fā)出語音數(shù)據(jù)的用戶數(shù)量確定多語音助理的語音處理策略,包括:
7、實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù);
8、根據(jù)所述收到的用戶發(fā)出的語音數(shù)據(jù)判定當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量;
9、當(dāng)所述用戶數(shù)量為一個(gè)用戶時(shí),則調(diào)取取第一語音處理策略作為語音處理策略;
10、當(dāng)所述用戶數(shù)量為多個(gè)用戶時(shí),則調(diào)取取第二語音處理策略作為語音處理策略。
11、進(jìn)一步地,所述按照所述語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理,獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令,包括:
12、按照第一語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理,獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令;
13、或者
14、按照第二語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理,獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令。
15、進(jìn)一步地,所述第一語音處理策略的語音識(shí)別處理過程包括:
16、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為一個(gè)用戶時(shí),將所述語音數(shù)據(jù)進(jìn)行語音劃分,獲得多個(gè)語音片段數(shù)據(jù);
17、對(duì)當(dāng)前多個(gè)語音片段數(shù)據(jù)進(jìn)行音頻質(zhì)量分級(jí),獲取多個(gè)語音片段的音頻質(zhì)量等級(jí);
18、根據(jù)當(dāng)前多語音助理的語音識(shí)別質(zhì)量結(jié)合多個(gè)語音片段的音頻質(zhì)量等級(jí),獲取每個(gè)音頻質(zhì)量等級(jí)的語音片段對(duì)應(yīng)的目標(biāo)語音助理;
19、將所述每個(gè)音頻質(zhì)量等級(jí)的語音片段分配至其對(duì)應(yīng)的目標(biāo)語音助理進(jìn)行語音識(shí)別處理,獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令。
20、進(jìn)一步地,對(duì)當(dāng)前多個(gè)語音片段數(shù)據(jù)進(jìn)行音頻質(zhì)量分級(jí),獲取多個(gè)語音片段的音頻質(zhì)量等級(jí),包括:
21、提取每個(gè)語音片段數(shù)據(jù)的音頻參數(shù),其中,所述音頻參數(shù)包括總諧波失真數(shù)值、頻譜動(dòng)態(tài)范圍、頻譜寬度、頻譜中心與頻率中心之間的距離和字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值;
22、利用所述頻譜動(dòng)態(tài)范圍、頻譜寬度和頻譜中心與頻率中心之間的距離獲取音頻質(zhì)量調(diào)節(jié)系數(shù);
23、其中,所述音頻質(zhì)量調(diào)節(jié)系數(shù)通過如下公式獲取:
24、
25、其中,u表示音頻質(zhì)量調(diào)節(jié)系數(shù);sr表示頻譜動(dòng)態(tài)范圍;sw表示頻譜寬度;sd表示頻譜中心與頻率中心之間的距離;λ01和λ02分別表示頻譜動(dòng)態(tài)范圍和頻譜寬度對(duì)應(yīng)的權(quán)重值;
26、將所述音頻質(zhì)量調(diào)節(jié)系數(shù)與總諧波失真數(shù)值和字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值獲取音頻質(zhì)量評(píng)價(jià)系數(shù);
27、其中,所述音頻質(zhì)量評(píng)價(jià)系數(shù)通過如下公式獲取:
28、
29、其中,r表示音頻質(zhì)量評(píng)價(jià)系數(shù);th表示總諧波失真數(shù)值;b表示字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值;u表示音頻質(zhì)量調(diào)節(jié)系數(shù);
30、將所述音頻質(zhì)量評(píng)價(jià)系數(shù)與預(yù)設(shè)的第一系數(shù)閾值和第二系數(shù)閾值進(jìn)行比較;
31、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)超過預(yù)設(shè)的第一系數(shù)閾值,則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)超過預(yù)設(shè)的第一系數(shù)閾值的語音片段數(shù)據(jù)作為高質(zhì)量語音片段;
32、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第一系數(shù)閾值,但,超過第二系數(shù)閾值,則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第一系數(shù)閾值,但,超過第二系數(shù)閾值的語音片段數(shù)據(jù)作為中質(zhì)量語音片段;
33、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第二系數(shù)閾值,則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第二系數(shù)閾值的語音片段數(shù)據(jù)作為低質(zhì)量語音片段。
34、進(jìn)一步地,根據(jù)當(dāng)前多語音助理的語音識(shí)別質(zhì)量結(jié)合多個(gè)語音片段的音頻質(zhì)量等級(jí),獲取每個(gè)音頻質(zhì)量等級(jí)的語音片段對(duì)應(yīng)的目標(biāo)語音助理,包括:
35、提取每個(gè)語音助理的識(shí)別準(zhǔn)確率和識(shí)別處理時(shí)長(zhǎng);
36、根據(jù)所述每個(gè)語音助理對(duì)應(yīng)的識(shí)別準(zhǔn)確率和識(shí)別處理時(shí)長(zhǎng)獲取識(shí)別評(píng)定系數(shù);
37、其中,所述識(shí)別評(píng)定系數(shù)通過如下公式獲取:
38、
39、其中,j表示識(shí)別評(píng)定系數(shù);n表示每個(gè)語音助理完成識(shí)別的次數(shù);ti表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的識(shí)別處理時(shí)長(zhǎng);pzi表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的識(shí)別準(zhǔn)確率;ci表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的語音數(shù)據(jù)量;cd表示預(yù)設(shè)的單位語音數(shù)據(jù)量;tc表示每個(gè)語音助理對(duì)應(yīng)的單位語音數(shù)據(jù)量的理論識(shí)別處理時(shí)長(zhǎng);
40、將所述識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為低質(zhì)量語音片段的目標(biāo)語音助理;
41、將所述識(shí)別評(píng)定系數(shù)僅次于識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為中質(zhì)量語音片段的目標(biāo)語音助理;
42、將所述識(shí)別評(píng)定系數(shù)僅次于中質(zhì)量語音片段的目標(biāo)語音助理的識(shí)別評(píng)定系數(shù)所對(duì)應(yīng)的語音助理作為高質(zhì)量語音片段的目標(biāo)語音助理。
43、進(jìn)一步地,所述第二語音處理策略的語音識(shí)別處理過程包括:
44、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶,且,多個(gè)用戶的數(shù)量低于或等于語音助理的數(shù)量時(shí),則根據(jù)所述音頻強(qiáng)度比值對(duì)用戶進(jìn)行語音助理分配,利用分配后的語音助理對(duì)其對(duì)應(yīng)用戶的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理;
45、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶,且,多個(gè)用戶的數(shù)量高于語音助理的數(shù)量時(shí),則控制多個(gè)語音助理通過用戶標(biāo)簽,協(xié)同進(jìn)行語音識(shí)別處理。
46、進(jìn)一步地,根據(jù)所述音頻強(qiáng)度比值對(duì)用戶進(jìn)行語音助理分配,包括:
47、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶時(shí),對(duì)多個(gè)用戶的語音數(shù)據(jù)進(jìn)行拆分,獲取每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù);
48、提取所述每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度;
49、利用所述每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度與多個(gè)用戶對(duì)應(yīng)的整體音頻強(qiáng)度進(jìn)行比較,獲取音頻強(qiáng)度比值;
50、利用所述音頻強(qiáng)度比值結(jié)合每個(gè)用戶的語音數(shù)據(jù)對(duì)應(yīng)的字節(jié)頻率獲取第一音頻識(shí)別難度系數(shù);
51、其中,所述第一音頻識(shí)別難度系數(shù)通過如下公式獲取:
52、
53、其中,j01表示第一音頻識(shí)別難度系數(shù);pd01表示每個(gè)用戶對(duì)應(yīng)的音頻強(qiáng)度比值;f表示每個(gè)用戶的語音數(shù)據(jù)對(duì)應(yīng)的字節(jié)頻率;fc表示預(yù)設(shè)的字節(jié)頻率參考值;
54、將識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為第一音頻識(shí)別難度系數(shù)最大值的對(duì)應(yīng)用戶的目標(biāo)語音助理;
55、按照第一音頻識(shí)別難度系數(shù)從高到低對(duì)應(yīng)識(shí)別評(píng)定系數(shù)從低到高的分配策略,依次將除了第一音頻識(shí)別難度系數(shù)最大值之外的其他用戶與剩余的語音助理進(jìn)行匹配。
56、進(jìn)一步地,控制多個(gè)語音助理通過用戶標(biāo)簽,協(xié)同進(jìn)行語音識(shí)別處理,包括:
57、對(duì)每個(gè)用戶的語音數(shù)據(jù)進(jìn)行唯一標(biāo)識(shí)處理,使每個(gè)用戶的語音數(shù)據(jù)具備與用戶唯一關(guān)聯(lián)的唯一標(biāo)識(shí);
58、對(duì)所有用戶的語音數(shù)據(jù)進(jìn)行劃分,獲取多個(gè)語音片段數(shù)據(jù),并且,對(duì)所述語音片段數(shù)據(jù)賦予與所述語音數(shù)據(jù)一致的唯一標(biāo)識(shí);
59、利用每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度比值和每個(gè)語音片段中字節(jié)音頻強(qiáng)度變化幅度;獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的第二音頻識(shí)別難度系數(shù);
60、其中,所述第二音頻識(shí)別難度系數(shù)通過如下公式獲取:
61、
62、其中,j02表示第二音頻識(shí)別難度系數(shù);pd02表示每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度比值;k表示每個(gè)語音片段數(shù)據(jù)所包含的字節(jié)數(shù)量;qi表示第i個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度;qi+1表示第i+1個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度;qb表示k個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度標(biāo)準(zhǔn)差;
63、將所述第二音頻識(shí)別難度系數(shù)與預(yù)設(shè)的識(shí)別難度系數(shù)閾值進(jìn)行比較;
64、將所述第二音頻識(shí)別難度系數(shù)超過預(yù)設(shè)的識(shí)別難度系數(shù)閾值的語音片段數(shù)據(jù)分配至識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理進(jìn)行語音識(shí)別處理,獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果,并對(duì)所述語音識(shí)別結(jié)果賦予與語音片段數(shù)據(jù)一致的唯一標(biāo)識(shí);
65、將所述第二音頻識(shí)別難度系數(shù)未超過預(yù)設(shè)的識(shí)別難度系數(shù)閾值的語音片段數(shù)據(jù)按照趨近均勻分配的原則分配至剩余的語音助理進(jìn)行語音識(shí)別處理,獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果,并對(duì)所述語音識(shí)別結(jié)果賦予與語音片段數(shù)據(jù)一致的唯一標(biāo)識(shí);
66、按照每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)標(biāo)識(shí)對(duì)語音結(jié)果進(jìn)行篩選,將具備相同唯一標(biāo)識(shí)的語音結(jié)果進(jìn)行整合,獲取與用戶進(jìn)行唯一關(guān)聯(lián)的語音數(shù)據(jù)對(duì)應(yīng)的識(shí)別結(jié)果。
67、進(jìn)一步地,按照所述語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制,包括:
68、當(dāng)所述用戶的數(shù)量為一個(gè)時(shí),則按照語音助理識(shí)別的語音結(jié)果對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制;
69、當(dāng)所述用戶的數(shù)量為多個(gè)時(shí),則判定多個(gè)用戶對(duì)應(yīng)的語音指令是否針對(duì)相同被控目標(biāo)參數(shù);當(dāng)所述多個(gè)用戶對(duì)應(yīng)的語音指令中存在針對(duì)相同被控目標(biāo)參數(shù)的控制指令,則按照用戶權(quán)限優(yōu)先級(jí)篩選權(quán)限優(yōu)先的用戶的語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制。
70、本發(fā)明有益效果:
71、本發(fā)明提出的基于多語音助理的智能識(shí)別控制方法通過實(shí)時(shí)監(jiān)測(cè)接收到的用戶語音數(shù)據(jù),并根據(jù)用戶數(shù)量確定多語音助理的語音處理策略(包括協(xié)同處理單個(gè)用戶語音數(shù)據(jù)的策略和協(xié)同處理多個(gè)用戶語音數(shù)據(jù)的策略),從而實(shí)現(xiàn)了在多用戶環(huán)境中對(duì)語音指令的準(zhǔn)確識(shí)別和處理。這種方法不僅提高了系統(tǒng)的識(shí)別準(zhǔn)確率和穩(wěn)定性,還保證了在多用戶同時(shí)發(fā)言的情況下,系統(tǒng)能夠正確、快速地響應(yīng)每個(gè)用戶的指令,避免了控制混亂和錯(cuò)誤的發(fā)生。