本技術(shù)實施例涉及人工智能,尤其涉及一種語音指令的流式識別方法、語音指令的流式識別裝置、計算機可讀存儲介質(zhì)以及電子設(shè)備。
背景技術(shù):
1、語音識別(speech?recognition,sr)是指將語音轉(zhuǎn)換為文本的技術(shù)。語音識別的一種應(yīng)用包括多指令的流式識別系統(tǒng)。具體的,該系統(tǒng)的輸入信息可以是包含多個指令的一段音頻,在對上述一段音頻進行識別后輸出多個指令,而不是在輸出單個指令后再識別下一個指令。例如,駕駛員可以說:“打開座椅按摩、打開空調(diào)、調(diào)大音量”,一句話多指令識別系統(tǒng)可以識別到這三個指令,并依次執(zhí)行三個指令。
2、相關(guān)技術(shù)中,對于用戶的語音輸入,先經(jīng)過語音活動檢測得到其中的語音活動段落,進一步地,對每個語音活動段落進行語音識別。具體地,為了提升響應(yīng)速度,sr模型每當識別出語音活動段落的部分語音,便及時地將流式語音識別結(jié)果下發(fā)至自然語言理解(natural?language?processing,nlp)模型,從而nlp模型對每次接收到的語音識別結(jié)果進行指令提取。例如,用戶語音為“關(guān)閉天窗,打開空調(diào)”,則每次下發(fā)至自然語言理解模型的語音識別結(jié)果,依次如“關(guān)”、“關(guān)閉”、“關(guān)閉天”、“關(guān)閉天窗”、“關(guān)閉天窗打”、“關(guān)閉天窗打開”、“關(guān)閉天窗打開空”,以及“關(guān)閉天窗打開空調(diào)”。
3、然而,相關(guān)技術(shù)存在計算資源量消耗較多的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種語音指令的流式識別方法、語音指令的流式識別裝置、計算機可讀存儲介質(zhì)以及電子設(shè)備,能夠在提升指令識別準確度的同時節(jié)省計算資源。
2、第一方面,本技術(shù)實施例提供一種語音指令的流式識別方法,該方法包括:對待處理音頻進行語音活動檢測,以確定上述待處理音頻中的語音活動子段落,其中,上述語音活動子段落為經(jīng)檢測依次得到的起始狀態(tài)和準結(jié)束狀態(tài)之間的音頻;在對當前的第i語音活動子段落進行語音識別的過程中,響應(yīng)于檢測得到準結(jié)束狀態(tài),獲取對應(yīng)于上述第i語音活動子段落的第i流式語音識別結(jié)果,其中,i的取值為不大于上述待處理音頻中語音活動子段落的總量的正整數(shù);將上述第i流式語音識別結(jié)果輸入自然語言處理nlp模型,其中,上述nlp模型輸出上述第i語音活動子段落對應(yīng)的第i指令。
3、第二方面,本技術(shù)實施例提供一種語音指令的流式識別裝置,該裝置包括:語音檢測模塊、流式結(jié)果獲取模塊以及指令提取模塊。
4、其中,上述語音檢測模塊,用于對待處理音頻進行語音活動檢測,以確定上述待處理音頻中的語音活動子段落,其中,上述語音活動子段落為經(jīng)檢測依次得到的起始狀態(tài)和準結(jié)束狀態(tài)之間的音頻;上述流式結(jié)果獲取模塊,用于在對當前的第i語音活動子段落進行語音識別的過程中,響應(yīng)于檢測得到準結(jié)束狀態(tài),獲取對應(yīng)于上述第i語音活動子段落的第i流式語音識別結(jié)果,其中,i的取值為不大于上述待處理音頻中語音活動子段落的總量的正整數(shù);以及,上述指令提取模塊,用于將上述第i流式語音識別結(jié)果輸入自然語言處理nlp模型,其中,上述nlp模型輸出上述第i語音活動子段落對應(yīng)的第i指令。
5、在示例性的實施例中,基于上述方案,上述語音檢測模塊,具體用于:通過將待處理音頻輸入語音活動檢測vad處理模塊,在上述vad處理模塊檢測到音頻信號的特征滿足第一預(yù)設(shè)條件的情況下,輸出起始狀態(tài);在上述vad處理模塊檢測到音頻信號的特征不滿足上述第一預(yù)設(shè)條件且持續(xù)第一預(yù)設(shè)時長的情況下,輸出準結(jié)束狀態(tài);
6、其中,上述第一預(yù)設(shè)時長小于第一閾值;
7、上述音頻信號的特征包括以下至少一項:音頻信號的能量水平、頻譜特征、在時域上的變化特性。
8、在示例性的實施例中,基于上述方案,上述流式結(jié)果獲取模塊,包括:比對單元和第一獲取單元;其中,上述比對單元用于:在對當前的第i語音活動子段落進行語音識別的過程中,在檢測得到準結(jié)束狀態(tài)之前,將已生成且未輸入過上述nlp模型的語音識別結(jié)果子集,與第二預(yù)設(shè)條件繼續(xù)比對;以及,上述第一獲取單元用于:若比對結(jié)果為上述語音識別結(jié)果子集不滿足上述第二預(yù)設(shè)條件,則響應(yīng)于檢測得到準結(jié)束狀態(tài),獲取對應(yīng)于上述第i語音活動子段落的第i流式語音識別結(jié)果。
9、在示例性的實施例中,基于上述方案,上述第一獲取單元,具體用于:獲取上述第i語音活動子段落的語音識別結(jié)果,得到當前子段落語音信息;獲取上述待處理音頻中已輸入過上述nlp模型的所有語音識別結(jié)果,得到當前子段落的上下文語音信息;以及,合并上述當前子段落語音信息和上述當前子段落的上下文語音信息,得到上述第i流式語音識別結(jié)果。
10、在示例性的實施例中,基于上述方案,上述流式結(jié)果獲取模塊,還包括:第二獲取單元;
11、其中,第二獲取單元用于:若比對結(jié)果為上述語音識別結(jié)果子集滿足上述第二預(yù)設(shè)條件,則獲取對應(yīng)于上述語音識別結(jié)果子集的第i流式語音識別結(jié)果;其中,上述第i流式語音識別結(jié)果輸入自然語言處理nlp模型后,上述nlp模型輸出上述第i語音活動子段落對應(yīng)的指令集合中的一個指令。
12、在示例性的實施例中,基于上述方案,上述第二獲取單元,具體用于:獲取上述第i語音活動子段落當前的語音識別結(jié)果,得到上述第i語音活動子段落中當前子集語音信息;獲取上述待處理音頻中已輸入過上述nlp模型的所有語音識別結(jié)果,得到當前子集的上下文語音信息;以及,合并上述當前子集語音信息和上述當前子集的上下文語音信息,得到上述第i流式語音識別結(jié)果。
13、在示例性的實施例中,基于上述方案,上述語音識別結(jié)果的類型為文本字符串,上述第二預(yù)設(shè)條件包括文本字符串的長度大于第二閾值。
14、在示例性的實施例中,基于上述方案,上述裝置還包括:語義完整度檢測模塊;
15、其中,上述語義完整性檢測模塊用于:在上述指令提取模塊將上述第i流式語音識別結(jié)果輸入自然語言處理nlp模型之前,對上述第i流式語音識別結(jié)果執(zhí)行語義完整性檢測,以確定其語義完整度是否大于第三閾值;其中,在上述語義完整度大于上述第三閾值的情況下,將上述第i流式語音識別結(jié)果輸入自然語言處理nlp模型。
16、在示例性的實施例中,基于上述方案,上述語義完整性檢測模塊還用于:在上述語義完整性小于或等于上述第三閾值的情況下,暫停向上述nlp模型輸入信息,并等待對上述第i+1流式語音識別結(jié)果執(zhí)行語義完整性檢測;在上述語義完整度連續(xù)不達標次數(shù)達到第四閾值的情況下,按照預(yù)設(shè)策略調(diào)低上述第三閾值,以基于調(diào)整后的第三閾值再次執(zhí)行語義完整性檢測;其中,調(diào)整后的第三閾值大于第五閾值。
17、在示例性的實施例中,基于上述方案,上述語義完整性檢測模塊具體用于:將上述第i流式語音識別結(jié)果輸入經(jīng)過訓練的大語言模型,以通過上述大語言模型對上述第i流式語音識別結(jié)果進行語義完整性分析。
18、在示例性的實施例中,基于上述方案,上述裝置還包括:執(zhí)行模塊;其中,上述執(zhí)行模塊用于:在上述指令提取模塊識別上述第i指令的在后指令的過程中,執(zhí)行上述第i指令;和/或,在上述指令提取模塊識別上述第i指令的在后指令的過程中,根據(jù)上述第i指令生成對應(yīng)于上述待處理音頻的應(yīng)答信息,以及,輸出上述應(yīng)答信息。
19、第三方面,本技術(shù)實施例提供一種電子設(shè)備,包括處理器和存儲器。上述存儲器用于存儲計算機程序,上述處理器用于調(diào)用并運行上述存儲器中存儲的計算機程序,以執(zhí)行上述第一方面所提供的語音指令的流式識別方法。
20、第六方面,本技術(shù)實施例提供一種芯片,用于實現(xiàn)上述第一方面或第二方面所提供的語音指令的流式識別方法。具體地,上述芯片包括:處理器,用于從存儲器中調(diào)用并運行計算機程序,使得安裝有上述芯片的設(shè)備執(zhí)行上述第一方面所提供的語音指令的流式識別方法。
21、第七方面,本技術(shù)實施例提供一種計算機可讀存儲介質(zhì),用于存儲計算機程序,上述計算機程序使得計算機執(zhí)行上述第一方面所提供的語音指令的流式識別方法。
22、第八方面,本技術(shù)實施例提供一種計算機程序產(chǎn)品,包括計算機程序指令,上述計算機程序指令使得計算機執(zhí)行上述第一方面所提供的語音指令的流式識別方法。
23、第九方面,本技術(shù)實施例提供一種計算機程序,當其在計算機上運行時,使得計算機執(zhí)行上述第一方面所提供的語音指令的流式識別方法。
24、綜上,本技術(shù)實施例提供的語音指令的流式識別方案中,對待處理音頻進行語音活動檢測,以確定出待處理音頻中的語音活動子段落,其中,語音活動子段落為經(jīng)檢測依次得到的起始狀態(tài)和準結(jié)束狀態(tài)之間的音頻。進一步地,在對當前的第i語音活動子段落進行語音識別的過程中,響應(yīng)于檢測得到準結(jié)束狀態(tài),獲取對應(yīng)于所述第i語音活動子段落的第i流式語音識別結(jié)果。將所述第i流式語音識別結(jié)果輸入自然語言處理nlp模型,其中,所述nlp模型輸出所述第i語音活動子段落對應(yīng)的第i指令。可見,本技術(shù)實施例中sr模型以語音活動子段落為單元,將語音識別結(jié)果輸入至nlp模型,以使nlp模型每次識別過程以語音活動子段落對應(yīng)的語義識別結(jié)果,從而識別出待處理音頻中所包含的多個指令。相較于相關(guān)技術(shù),本技術(shù)實施例中nlp模型每個語音活動子段落為單元來提取指令,能夠減少nlp模型的計算量,有利于減少資源占用。