基于多語音助理的智能識(shí)別控制方法與流程

文檔序號(hào)：41223680發(fā)布日期：2025-03-11 14:02閱讀：103來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明提出了基于多語音助理的智能識(shí)別控制方法，屬于語音識(shí)別。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，語音助理已經(jīng)成為智能家居、智能辦公、智能車載系統(tǒng)等領(lǐng)域的重要組成部分。這些語音助理通過接收用戶的語音指令，實(shí)現(xiàn)對(duì)各類智能設(shè)備的控制，極大地提升了用戶體驗(yàn)和系統(tǒng)的智能化水平。然而，在現(xiàn)有的智能識(shí)別控制系統(tǒng)中，當(dāng)面對(duì)多用戶同時(shí)發(fā)出語音指令的場(chǎng)景時(shí)，系統(tǒng)往往會(huì)出現(xiàn)識(shí)別混亂和控制錯(cuò)誤的問題。

2、傳統(tǒng)的單語音助理系統(tǒng)在設(shè)計(jì)時(shí)，主要考慮了單一用戶與系統(tǒng)的交互，對(duì)于同時(shí)接收到的多個(gè)語音信號(hào)，系統(tǒng)往往缺乏有效的區(qū)分和處理機(jī)制。這導(dǎo)致在多用戶環(huán)境中，系統(tǒng)可能無法準(zhǔn)確識(shí)別每個(gè)用戶的指令，甚至可能出現(xiàn)誤識(shí)別、誤操作的情況。例如，在智能家居場(chǎng)景中，如果家庭成員同時(shí)向語音助理發(fā)出不同的控制指令，系統(tǒng)可能會(huì)混淆這些指令，導(dǎo)致錯(cuò)誤的設(shè)備控制。為了解決這一問題，一些現(xiàn)有技術(shù)嘗試通過增加語音識(shí)別模塊的復(fù)雜度和算法精度來提高系統(tǒng)的識(shí)別能力。然而，這些方法雖然在一定程度上提高了單用戶指令的識(shí)別準(zhǔn)確率，但在多用戶同時(shí)發(fā)言的情況下，仍然難以有效區(qū)分和正確處理每個(gè)用戶的指令。此外，這些方法往往需要消耗更多的計(jì)算資源和時(shí)間，降低了系統(tǒng)的實(shí)時(shí)性和響應(yīng)速度。

3、因此，迫切需要一種能夠有效應(yīng)對(duì)多用戶同時(shí)發(fā)出語音指令的智能識(shí)別控制方法。這種方法需要能夠?qū)崟r(shí)監(jiān)測(cè)接收到的用戶語音數(shù)據(jù)，根據(jù)用戶數(shù)量智能地選擇語音處理策略，以確保在多用戶環(huán)境中系統(tǒng)能夠準(zhǔn)確識(shí)別并處理每個(gè)用戶的指令。同時(shí)，該方法還需要具備高效、實(shí)時(shí)的特點(diǎn)，以滿足現(xiàn)代智能系統(tǒng)對(duì)響應(yīng)速度和穩(wěn)定性的要求。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了基于多語音助理的智能識(shí)別控制方法，用以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題，所采取的技術(shù)方案如下：

2、基于多語音助理的智能識(shí)別控制方法，所述基于多語音助理的智能識(shí)別控制方法包括：

3、實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù)，根據(jù)發(fā)出語音數(shù)據(jù)的用戶數(shù)量確定多語音助理的語音處理策略；其中，所述語音處理策略包括第一語音處理策略和第二語音處理策略；并且，所述第一語音處理策略是指多語音助理協(xié)同處理一個(gè)用戶語音數(shù)據(jù)的語音處理策略；所述第二語音處理策略是指多語音助理協(xié)同處理多個(gè)用戶語音數(shù)據(jù)的語音處理策略；

4、按照所述語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理，獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令；

5、按照所述語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制。

6、進(jìn)一步地，實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù)，根據(jù)發(fā)出語音數(shù)據(jù)的用戶數(shù)量確定多語音助理的語音處理策略，包括：

7、實(shí)時(shí)監(jiān)測(cè)接收到的用戶發(fā)出的語音數(shù)據(jù)；

8、根據(jù)所述收到的用戶發(fā)出的語音數(shù)據(jù)判定當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量；

9、當(dāng)所述用戶數(shù)量為一個(gè)用戶時(shí)，則調(diào)取取第一語音處理策略作為語音處理策略；

10、當(dāng)所述用戶數(shù)量為多個(gè)用戶時(shí)，則調(diào)取取第二語音處理策略作為語音處理策略。

11、進(jìn)一步地，所述按照所述語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理，獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令，包括：

12、按照第一語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理，獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令；

13、或者

14、按照第二語音處理策略對(duì)所述用戶發(fā)出的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理，獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令。

15、進(jìn)一步地，所述第一語音處理策略的語音識(shí)別處理過程包括：

16、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為一個(gè)用戶時(shí)，將所述語音數(shù)據(jù)進(jìn)行語音劃分，獲得多個(gè)語音片段數(shù)據(jù)；

17、對(duì)當(dāng)前多個(gè)語音片段數(shù)據(jù)進(jìn)行音頻質(zhì)量分級(jí)，獲取多個(gè)語音片段的音頻質(zhì)量等級(jí)；

18、根據(jù)當(dāng)前多語音助理的語音識(shí)別質(zhì)量結(jié)合多個(gè)語音片段的音頻質(zhì)量等級(jí)，獲取每個(gè)音頻質(zhì)量等級(jí)的語音片段對(duì)應(yīng)的目標(biāo)語音助理；

19、將所述每個(gè)音頻質(zhì)量等級(jí)的語音片段分配至其對(duì)應(yīng)的目標(biāo)語音助理進(jìn)行語音識(shí)別處理，獲取語音數(shù)據(jù)對(duì)應(yīng)的語音指令。

20、進(jìn)一步地，對(duì)當(dāng)前多個(gè)語音片段數(shù)據(jù)進(jìn)行音頻質(zhì)量分級(jí)，獲取多個(gè)語音片段的音頻質(zhì)量等級(jí)，包括：

21、提取每個(gè)語音片段數(shù)據(jù)的音頻參數(shù)，其中，所述音頻參數(shù)包括總諧波失真數(shù)值、頻譜動(dòng)態(tài)范圍、頻譜寬度、頻譜中心與頻率中心之間的距離和字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值；

22、利用所述頻譜動(dòng)態(tài)范圍、頻譜寬度和頻譜中心與頻率中心之間的距離獲取音頻質(zhì)量調(diào)節(jié)系數(shù)；

23、其中，所述音頻質(zhì)量調(diào)節(jié)系數(shù)通過如下公式獲取：

24、

25、其中，u表示音頻質(zhì)量調(diào)節(jié)系數(shù)；sr表示頻譜動(dòng)態(tài)范圍；sw表示頻譜寬度；sd表示頻譜中心與頻率中心之間的距離；λ01和λ02分別表示頻譜動(dòng)態(tài)范圍和頻譜寬度對(duì)應(yīng)的權(quán)重值；

26、將所述音頻質(zhì)量調(diào)節(jié)系數(shù)與總諧波失真數(shù)值和字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值獲取音頻質(zhì)量評(píng)價(jià)系數(shù)；

27、其中，所述音頻質(zhì)量評(píng)價(jià)系數(shù)通過如下公式獲取：

28、

29、其中，r表示音頻質(zhì)量評(píng)價(jià)系數(shù)；th表示總諧波失真數(shù)值；b表示字節(jié)音頻強(qiáng)度與背景音頻強(qiáng)度之間的比值；u表示音頻質(zhì)量調(diào)節(jié)系數(shù)；

30、將所述音頻質(zhì)量評(píng)價(jià)系數(shù)與預(yù)設(shè)的第一系數(shù)閾值和第二系數(shù)閾值進(jìn)行比較；

31、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)超過預(yù)設(shè)的第一系數(shù)閾值，則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)超過預(yù)設(shè)的第一系數(shù)閾值的語音片段數(shù)據(jù)作為高質(zhì)量語音片段；

32、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第一系數(shù)閾值，但，超過第二系數(shù)閾值，則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第一系數(shù)閾值，但，超過第二系數(shù)閾值的語音片段數(shù)據(jù)作為中質(zhì)量語音片段；

33、當(dāng)所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第二系數(shù)閾值，則判定所述音頻質(zhì)量評(píng)價(jià)系數(shù)未超過預(yù)設(shè)的第二系數(shù)閾值的語音片段數(shù)據(jù)作為低質(zhì)量語音片段。

34、進(jìn)一步地，根據(jù)當(dāng)前多語音助理的語音識(shí)別質(zhì)量結(jié)合多個(gè)語音片段的音頻質(zhì)量等級(jí)，獲取每個(gè)音頻質(zhì)量等級(jí)的語音片段對(duì)應(yīng)的目標(biāo)語音助理，包括：

35、提取每個(gè)語音助理的識(shí)別準(zhǔn)確率和識(shí)別處理時(shí)長(zhǎng)；

36、根據(jù)所述每個(gè)語音助理對(duì)應(yīng)的識(shí)別準(zhǔn)確率和識(shí)別處理時(shí)長(zhǎng)獲取識(shí)別評(píng)定系數(shù)；

37、其中，所述識(shí)別評(píng)定系數(shù)通過如下公式獲取：

38、

39、其中，j表示識(shí)別評(píng)定系數(shù)；n表示每個(gè)語音助理完成識(shí)別的次數(shù)；ti表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的識(shí)別處理時(shí)長(zhǎng)；pzi表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的識(shí)別準(zhǔn)確率；ci表示每個(gè)語音助理的第i次語音識(shí)別對(duì)應(yīng)的語音數(shù)據(jù)量；cd表示預(yù)設(shè)的單位語音數(shù)據(jù)量；tc表示每個(gè)語音助理對(duì)應(yīng)的單位語音數(shù)據(jù)量的理論識(shí)別處理時(shí)長(zhǎng)；

40、將所述識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為低質(zhì)量語音片段的目標(biāo)語音助理；

41、將所述識(shí)別評(píng)定系數(shù)僅次于識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為中質(zhì)量語音片段的目標(biāo)語音助理；

42、將所述識(shí)別評(píng)定系數(shù)僅次于中質(zhì)量語音片段的目標(biāo)語音助理的識(shí)別評(píng)定系數(shù)所對(duì)應(yīng)的語音助理作為高質(zhì)量語音片段的目標(biāo)語音助理。

43、進(jìn)一步地，所述第二語音處理策略的語音識(shí)別處理過程包括：

44、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶，且，多個(gè)用戶的數(shù)量低于或等于語音助理的數(shù)量時(shí)，則根據(jù)所述音頻強(qiáng)度比值對(duì)用戶進(jìn)行語音助理分配，利用分配后的語音助理對(duì)其對(duì)應(yīng)用戶的語音數(shù)據(jù)進(jìn)行語音識(shí)別處理；

45、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶，且，多個(gè)用戶的數(shù)量高于語音助理的數(shù)量時(shí)，則控制多個(gè)語音助理通過用戶標(biāo)簽，協(xié)同進(jìn)行語音識(shí)別處理。

46、進(jìn)一步地，根據(jù)所述音頻強(qiáng)度比值對(duì)用戶進(jìn)行語音助理分配，包括：

47、當(dāng)所述當(dāng)前發(fā)出語音數(shù)據(jù)的用戶數(shù)量為多個(gè)用戶時(shí)，對(duì)多個(gè)用戶的語音數(shù)據(jù)進(jìn)行拆分，獲取每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù)；

48、提取所述每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度；

49、利用所述每個(gè)用戶對(duì)應(yīng)的語音數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度與多個(gè)用戶對(duì)應(yīng)的整體音頻強(qiáng)度進(jìn)行比較，獲取音頻強(qiáng)度比值；

50、利用所述音頻強(qiáng)度比值結(jié)合每個(gè)用戶的語音數(shù)據(jù)對(duì)應(yīng)的字節(jié)頻率獲取第一音頻識(shí)別難度系數(shù)；

51、其中，所述第一音頻識(shí)別難度系數(shù)通過如下公式獲取：

52、

53、其中，j01表示第一音頻識(shí)別難度系數(shù)；pd01表示每個(gè)用戶對(duì)應(yīng)的音頻強(qiáng)度比值；f表示每個(gè)用戶的語音數(shù)據(jù)對(duì)應(yīng)的字節(jié)頻率；fc表示預(yù)設(shè)的字節(jié)頻率參考值；

54、將識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理作為第一音頻識(shí)別難度系數(shù)最大值的對(duì)應(yīng)用戶的目標(biāo)語音助理；

55、按照第一音頻識(shí)別難度系數(shù)從高到低對(duì)應(yīng)識(shí)別評(píng)定系數(shù)從低到高的分配策略，依次將除了第一音頻識(shí)別難度系數(shù)最大值之外的其他用戶與剩余的語音助理進(jìn)行匹配。

56、進(jìn)一步地，控制多個(gè)語音助理通過用戶標(biāo)簽，協(xié)同進(jìn)行語音識(shí)別處理，包括：

57、對(duì)每個(gè)用戶的語音數(shù)據(jù)進(jìn)行唯一標(biāo)識(shí)處理，使每個(gè)用戶的語音數(shù)據(jù)具備與用戶唯一關(guān)聯(lián)的唯一標(biāo)識(shí)；

58、對(duì)所有用戶的語音數(shù)據(jù)進(jìn)行劃分，獲取多個(gè)語音片段數(shù)據(jù)，并且，對(duì)所述語音片段數(shù)據(jù)賦予與所述語音數(shù)據(jù)一致的唯一標(biāo)識(shí)；

59、利用每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度比值和每個(gè)語音片段中字節(jié)音頻強(qiáng)度變化幅度；獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的第二音頻識(shí)別難度系數(shù)；

60、其中，所述第二音頻識(shí)別難度系數(shù)通過如下公式獲取：

61、

62、其中，j02表示第二音頻識(shí)別難度系數(shù)；pd02表示每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的音頻強(qiáng)度比值；k表示每個(gè)語音片段數(shù)據(jù)所包含的字節(jié)數(shù)量；qi表示第i個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度；qi+1表示第i+1個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度；qb表示k個(gè)字節(jié)對(duì)應(yīng)的音頻強(qiáng)度標(biāo)準(zhǔn)差；

63、將所述第二音頻識(shí)別難度系數(shù)與預(yù)設(shè)的識(shí)別難度系數(shù)閾值進(jìn)行比較；

64、將所述第二音頻識(shí)別難度系數(shù)超過預(yù)設(shè)的識(shí)別難度系數(shù)閾值的語音片段數(shù)據(jù)分配至識(shí)別評(píng)定系數(shù)最大值對(duì)應(yīng)的語音助理進(jìn)行語音識(shí)別處理，獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果，并對(duì)所述語音識(shí)別結(jié)果賦予與語音片段數(shù)據(jù)一致的唯一標(biāo)識(shí)；

65、將所述第二音頻識(shí)別難度系數(shù)未超過預(yù)設(shè)的識(shí)別難度系數(shù)閾值的語音片段數(shù)據(jù)按照趨近均勻分配的原則分配至剩余的語音助理進(jìn)行語音識(shí)別處理，獲取每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別結(jié)果，并對(duì)所述語音識(shí)別結(jié)果賦予與語音片段數(shù)據(jù)一致的唯一標(biāo)識(shí)；

66、按照每個(gè)語音片段數(shù)據(jù)對(duì)應(yīng)標(biāo)識(shí)對(duì)語音結(jié)果進(jìn)行篩選，將具備相同唯一標(biāo)識(shí)的語音結(jié)果進(jìn)行整合，獲取與用戶進(jìn)行唯一關(guān)聯(lián)的語音數(shù)據(jù)對(duì)應(yīng)的識(shí)別結(jié)果。

67、進(jìn)一步地，按照所述語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制，包括：

68、當(dāng)所述用戶的數(shù)量為一個(gè)時(shí)，則按照語音助理識(shí)別的語音結(jié)果對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制；

69、當(dāng)所述用戶的數(shù)量為多個(gè)時(shí)，則判定多個(gè)用戶對(duì)應(yīng)的語音指令是否針對(duì)相同被控目標(biāo)參數(shù)；當(dāng)所述多個(gè)用戶對(duì)應(yīng)的語音指令中存在針對(duì)相同被控目標(biāo)參數(shù)的控制指令，則按照用戶權(quán)限優(yōu)先級(jí)篩選權(quán)限優(yōu)先的用戶的語音指令對(duì)目標(biāo)系統(tǒng)進(jìn)行智能控制。

70、本發(fā)明有益效果：

71、本發(fā)明提出的基于多語音助理的智能識(shí)別控制方法通過實(shí)時(shí)監(jiān)測(cè)接收到的用戶語音數(shù)據(jù)，并根據(jù)用戶數(shù)量確定多語音助理的語音處理策略（包括協(xié)同處理單個(gè)用戶語音數(shù)據(jù)的策略和協(xié)同處理多個(gè)用戶語音數(shù)據(jù)的策略），從而實(shí)現(xiàn)了在多用戶環(huán)境中對(duì)語音指令的準(zhǔn)確識(shí)別和處理。這種方法不僅提高了系統(tǒng)的識(shí)別準(zhǔn)確率和穩(wěn)定性，還保證了在多用戶同時(shí)發(fā)言的情況下，系統(tǒng)能夠正確、快速地響應(yīng)每個(gè)用戶的指令，避免了控制混亂和錯(cuò)誤的發(fā)生。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高鵬飛,白峻峰,高爽
技術(shù)所有人：北京基智科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于多語音助理的智能識(shí)別控制方法與流程