本技術(shù)涉及計算機,尤其涉及一種語音識別方法、裝置、語音識別設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著物聯(lián)網(wǎng)和人工智能技術(shù)的快速發(fā)展,智能家居已成為現(xiàn)代家庭生活的重要組成部分。智能空調(diào)、智能照明和智能安防等設(shè)備通過語音交互,為用戶提供了便捷的控制和服務(wù)。
2、然而,現(xiàn)有的語音識別系統(tǒng)無法適應(yīng)多變的家庭環(huán)境及用戶需求,無法提供用戶滿意的語音識別結(jié)果。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本技術(shù)提供了一種語音識別方法、裝置、語音識別設(shè)備及存儲介質(zhì)。
2、第一方面,本技術(shù)提供了一種語音識別方法,包括:
3、獲取用戶的輸入的語音信號,基于所述語音信號確定語音信號特征;
4、獲取多個預(yù)設(shè)的語音識別模式影響因子對應(yīng)的語音識別影響數(shù)據(jù);
5、根據(jù)多個所述語音識別影響數(shù)據(jù)在多個預(yù)設(shè)候選語音模式中確定目標(biāo)語音識別模式;
6、利用所述目標(biāo)語音識別模式對所述語音信號特征進(jìn)行語音識別,得到語音識別結(jié)果。
7、可選地,根據(jù)多個所述語音識別影響數(shù)據(jù)在多個預(yù)設(shè)候選語音模式中確定目標(biāo)語音識別模式,包括:
8、根據(jù)多個所述語音識別影響數(shù)據(jù)及關(guān)于各所述語音識別模式影響因子的綜合效用函數(shù)確定最優(yōu)模式選擇變量;
9、根據(jù)所述最優(yōu)模式選擇變量確定所述目標(biāo)語音識別模式。
10、可選地,根據(jù)多個所述語音識別影響數(shù)據(jù)及關(guān)于各所述語音識別模式影響因子的綜合效用函數(shù)確定最優(yōu)模式選擇變量,包括:
11、將各所述語音識別影響數(shù)據(jù)輸入所述綜合效用函數(shù);
12、計算使所述綜合效用函數(shù)最大化的最優(yōu)模式選擇變量。
13、可選地,根據(jù)所述最優(yōu)模式選擇變量確定所述目標(biāo)語音識別模式,包括:
14、獲取語音識別模式選擇時考慮的約束條件;
15、根據(jù)所述最優(yōu)模式選擇變量及所述約束條件確定所述目標(biāo)語音識別模式。
16、可選地,根據(jù)所述最優(yōu)模式選擇變量及所述約束條件確定所述目標(biāo)語音識別模式,包括:
17、若所述最優(yōu)模式選擇變量對應(yīng)離線模式且設(shè)備的計算能力大于或等于離線模式所需的最小計算能力,確定所述目標(biāo)語音識別模式為離線模式;
18、若所述最優(yōu)模式選擇變量對應(yīng)在線模式且當(dāng)前網(wǎng)絡(luò)帶寬大于或等于在線模式所需的最小網(wǎng)絡(luò)帶寬,確定所述目標(biāo)語音識別模式為在線模式;
19、否則,確定所述目標(biāo)語音識別模式為混合模式。
20、可選地,在目標(biāo)語音識別模式為混合模式的情況下,利用所述目標(biāo)語音識別模式對所述語音信號特征進(jìn)行語音識別,得到語音識別結(jié)果,包括:
21、對所述語音信號特征分別進(jìn)行離線語音識別和在線語音識別,得到離線識別結(jié)果、離線識別置信度、在線識別結(jié)果及在線識別置信度;
22、對所述離線識別置信度及所述在線識別置信度進(jìn)行歸一化處理,得到離線識別置信度權(quán)重及在線識別置信度權(quán)重;
23、獲取離線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第一離線預(yù)測概率;以及,在線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第一在線預(yù)測概率;
24、針對所述語音信號特征中的每個指令特征,基于所述第一離線預(yù)測概率、所述第一在線預(yù)測概率、所述離線識別置信度權(quán)重及在線識別置信度權(quán)重計算融合概率;
25、若所述離線識別結(jié)果與所述在線識別結(jié)果存在部分重合,在所述離線識別結(jié)果及所述在線識別結(jié)果中,選擇使所述融合概率最大的詞序列作為所述語音識別結(jié)果。
26、可選地,在目標(biāo)語音識別模式為混合模式的情況下,利用所述目標(biāo)語音識別模式對所述語音信號特征進(jìn)行語音識別,得到語音識別結(jié)果,還包括:
27、若所述離線識別結(jié)果與所述在線識別結(jié)果不存在部分重合,獲取離線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第二離線預(yù)測概率;以及,在線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第二在線預(yù)測概率;
28、基于所述第二離線預(yù)測概率及所述第二在線預(yù)測概率計算聯(lián)合后驗概率;
29、基于所述聯(lián)合后驗概率計算對數(shù)概率;
30、在所述離線識別結(jié)果及所述在線識別結(jié)果中,選擇使對數(shù)概率和最大的詞序列作為最終結(jié)果。
31、第二方面,本技術(shù)提供了一種語音識別裝置,包括:
32、第一獲取模塊,用于獲取用戶的輸入的語音信號,基于所述語音信號確定語音信號特征;
33、第二獲取模塊,用于獲取多個預(yù)設(shè)的語音識別模式影響因子對應(yīng)的語音識別影響數(shù)據(jù);
34、第一確定模塊,用于根據(jù)多個所述語音識別影響數(shù)據(jù)在多個預(yù)設(shè)候選語音模式中確定目標(biāo)語音識別模式;
35、語音識別模塊,用于利用所述目標(biāo)語音識別模式對所述語音信號特征進(jìn)行語音識別,得到語音識別結(jié)果。
36、可選地,所述第一確定模塊包括:
37、第一確定子模塊,用于根據(jù)多個所述語音識別影響數(shù)據(jù)及關(guān)于各所述語音識別模式影響因子的綜合效用函數(shù)確定最優(yōu)模式選擇變量;
38、第二確定子模塊,用于根據(jù)所述最優(yōu)模式選擇變量確定所述目標(biāo)語音識別模式。
39、可選地,所述第一確定子模塊包括:
40、輸入單元,用于將各所述語音識別影響數(shù)據(jù)輸入所述綜合效用函數(shù);
41、計算單元,用于計算使所述綜合效用函數(shù)最大化的最優(yōu)模式選擇變量。
42、可選地,所述第二確定子模塊包括:
43、獲取單元,用于獲取語音識別模式選擇時考慮的約束條件;
44、確定單元,用于根據(jù)所述最優(yōu)模式選擇變量及所述約束條件確定所述目標(biāo)語音識別模式。
45、可選地,所述確定單元包括:
46、第一確定子單元,用于若所述最優(yōu)模式選擇變量對應(yīng)離線模式且設(shè)備的計算能力大于或等于離線模式所需的最小計算能力,確定所述目標(biāo)語音識別模式為離線模式;
47、第二確定子單元,用于若所述最優(yōu)模式選擇變量對應(yīng)在線模式且當(dāng)前網(wǎng)絡(luò)帶寬大于或等于在線模式所需的最小網(wǎng)絡(luò)帶寬,確定所述目標(biāo)語音識別模式為在線模式;
48、第三確定子單元,用于若所述最優(yōu)模式選擇變量對應(yīng)離線模式且設(shè)備的計算能力小于離線模式所需的最小計算能力,和/或,若所述最優(yōu)模式選擇變量對應(yīng)在線模式且當(dāng)前網(wǎng)絡(luò)帶寬小于在線模式所需的最小網(wǎng)絡(luò)帶寬,確定所述目標(biāo)語音識別模式為混合模式。
49、可選地,在目標(biāo)語音識別模式為混合模式的情況下,所述語音識別模塊包括:
50、識別子模塊,用于對所述語音信號特征分別進(jìn)行離線語音識別和在線語音識別,得到離線識別結(jié)果、離線識別置信度、在線識別結(jié)果及在線識別置信度;
51、歸一化處理子模塊,用于對所述離線識別置信度及所述在線識別置信度進(jìn)行歸一化處理,得到離線識別置信度權(quán)重及在線識別置信度權(quán)重;
52、第一獲取子模塊,用于獲取離線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第一離線預(yù)測概率;以及,在線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第一在線預(yù)測概率;
53、第一計算子模塊,用于針對所述語音信號特征中的每個指令特征,基于所述第一離線預(yù)測概率、所述第一在線預(yù)測概率、所述離線識別置信度權(quán)重及在線識別置信度權(quán)重計算融合概率;
54、第一選擇子模塊,用于若所述離線識別結(jié)果與所述在線識別結(jié)果存在部分重合,在所述離線識別結(jié)果及所述在線識別結(jié)果中,選擇使所述融合概率最大的詞序列作為所述語音識別結(jié)果。
55、可選地,在目標(biāo)語音識別模式為混合模式的情況下,所述語音識別模塊還包括:
56、第二獲取子模塊,用于若所述離線識別結(jié)果與所述在線識別結(jié)果不存在部分重合,獲取離線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第二離線預(yù)測概率;以及,在線語音識別模型對所述語音信號特征中每個指令特征進(jìn)行預(yù)測的第二在線預(yù)測概率;
57、第二計算子模塊,用于基于所述第二離線預(yù)測概率及所述第二在線預(yù)測概率計算聯(lián)合后驗概率;
58、第三計算子模塊,用于基于所述聯(lián)合后驗概率計算對數(shù)概率;
59、第二選擇子模塊,用于在所述離線識別結(jié)果及所述在線識別結(jié)果中,選擇使對數(shù)概率和最大的詞序列作為最終結(jié)果。
60、第三方面,本技術(shù)提供了一種語音識別設(shè)備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
61、存儲器,用于存放計算機程序;
62、處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)第一方面任一所述的語音識別方法。
63、第四方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有語音識別方法的程序,所述語音識別方法的程序被處理器執(zhí)行時實現(xiàn)第一方面任一所述的語音識別方法的步驟。
64、本技術(shù)實施例提供的上述技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點:
65、本技術(shù)實施例可以根據(jù)多個預(yù)設(shè)的語音識別模式影響因子對應(yīng)的語音識別影響數(shù)據(jù),在多個預(yù)設(shè)候選語音模式中確定目標(biāo)語音識別模式,并利用目標(biāo)語音識別模式對語音信號特征進(jìn)行語音識別,可以通過綜合考慮多個語音識別模式影響因子,以適應(yīng)多變的應(yīng)用場景,為不同應(yīng)用場景確定與之匹配的目標(biāo)語音識別模式進(jìn)行語音識別,進(jìn)而,提供快速、準(zhǔn)確的語音響應(yīng),減少延遲和誤識別,提供用戶滿意的語音識別結(jié)果,提高智能家居設(shè)備的用戶滿意度。