本發明涉及汽車,具體涉及一種車內語音的識別處理方法、裝置、電子設備及介質。
背景技術:
1、隨著車輛的發展,車輛出行逐漸成為人們日常生活中主要的出現手段。由于車輛出行過程中,時常會伴隨著車內用戶的交流,若車內存在多名用戶共同交流時,此時車內不僅有用戶交流語音,還存在多種噪音如媒體音樂、導航播報、語音助手交互聲音、車輛行駛噪音等;使得用戶無法準確的獲取交流內容,極易錯過交流內容,導致車內用戶交流體驗差的問題。
技術實現思路
1、本申請提供了一種車內語音的識別處理方法、裝置、電子設備及介質,以解決現有相關技術因用戶無法準確獲取車內交流內容所導致的車內用戶交流體驗差的問題。
2、第一方面,本申請提供了一種車內語音的識別處理方法,包括:
3、獲取車內的混合音頻信息和視頻信息;
4、對所述混合音頻信息進行語音分離,得到子音頻信息;
5、根據所述子音頻信息和/或所述視頻信息確定每一條所述子音頻信息對應的目標用戶;
6、基于所述目標用戶,結合所述視頻信息進行用戶匹配,得到所述目標用戶對應的圖像狀態信息,所述圖像狀態信息為所述目標用戶在車內的乘坐狀態;
7、根據所述圖像狀態信息和所述目標用戶對應的子音頻信息,生成用戶交流畫面,并將所述用戶交流畫面進行輸出顯示。
8、可選的,所述根據所述子音頻信息和/或所述視頻信息確定每一條所述子音頻信息對應的目標用戶,包括:
9、獲取至少一個預設用戶對應的預設語音特征;
10、從每條所述子音頻信息中提取用戶語音特征;
11、將所述用戶語音特征與各個預設語音特征進行對比,得到語音特征對比結果;
12、在所述語音特征對比結果為特征匹配結果的情況下,則將所述語音特征對比結果對應的預設用戶確定為目標用戶。
13、可選的,車內語音的識別處理方法還包括:
14、在所述語音特征對比結果為特征不匹配結果的情況下,從所述子音頻信息中提取音頻時間信息;
15、從所述視頻信息中,提取與所述音頻時間信息時間匹配的目標視頻幀;
16、結合所述用戶語音特征和所述目標視頻幀,確定所述子音頻信息對應的所述目標用戶。
17、可選的,所述基于所述目標用戶,結合所述視頻信息進行用戶匹配,得到所述目標用戶對應的圖像狀態信息,包括:
18、對所述視頻信息進行用戶識別,得到圖像用戶;
19、將所述目標用戶與所述圖像用戶進行匹配,得到匹配結果;
20、在所述匹配結果為用戶匹配結果的情況下,從所述視頻信息中提取所述圖像用戶對應的用戶狀態信息;
21、將所述用戶狀態信息,確定為所述目標用戶對應的所述圖像狀態信息。
22、可選的,所述將所述目標用戶與所述圖像用戶進行匹配,得到匹配結果,包括:
23、在所述目標用戶屬于預設用戶的情況下,獲取所述目標用戶對應的第一生理特征信息,以及獲取所述圖像用戶對應的第二生理特征信息;
24、將所述第一生理特征信息與所述第二生理特征信息進行匹配,得到生理特征結果;
25、依據所述生理特征結果,生成所述匹配結果。
26、可選的,所述將所述目標用戶與所述圖像用戶進行匹配,得到匹配結果,包括:
27、在所述目標用戶不屬于預設用戶的情況下,獲取所述目標用戶對應的第一生理特征信息和所述子音頻信息;
28、依據所述視頻信息,獲取所述圖像用戶對應的第二生理特征信息和唇部動作信息;
29、將所述第一生理特征信息與所述第二生理特征信息進行匹配,得到生理特征結果;
30、將所述子音頻信息對應的語音文本和所述唇部動作信息進行匹配,得到唇形匹配結果;
31、依據所述生理特征結果和所述唇形匹配結果,得到所述匹配結果。
32、可選的,所述將所述用戶交流畫面進行輸出顯示,包括:
33、確定每一個所述目標用戶對應的用戶位置和目標顯示屏標識;
34、根據用戶位置對所述用戶交流畫面進行調整,得到顯示輸出畫面;
35、通過所述目標顯示屏標識對應的目標顯示屏,輸出顯示所述顯示輸出畫面。
36、可選的,所述對所述混合音頻信息進行語音分離,得到多條子音頻信息之后,還包括:
37、對各個所述子音頻信息進行關鍵詞提取,得到用戶關鍵詞;
38、在所述用戶關鍵詞屬于預設控制關鍵詞的情況下,輸出控制執行提示信息。
39、第二方面,提供了一種車內語音的識別處理裝置,包括:
40、獲取模塊,用于獲取車內的混合音頻信息和視頻信息;
41、語音分離模塊,用于對所述混合音頻信息進行語音分離,得到子音頻信息;
42、確定模塊,用于根據所述子音頻信息和/或所述視頻信息確定每一條所述子音頻信息對應的目標用戶;
43、用戶匹配模塊,用于基于所述目標用戶,結合所述視頻信息進行用戶匹配,得到所述目標用戶對應的圖像狀態信息,所述圖像狀態信息為所述目標用戶在車內的乘坐狀態;
44、生成模塊,用于根據所述圖像狀態信息和所述目標用戶對應的子音頻信息,生成用戶交流畫面,并將所述用戶交流畫面進行輸出顯示。
45、第三方面,提供了一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
46、存儲器,用于存放計算機程序;
47、處理器,用于執行存儲器上所存放的程序時,實現第一方面任一項所述的車內語音的識別處理方法。
48、第四方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如第一方面任一項所述的車內語音的識別處理方法。
49、第四方面,提供了一種車輛,所述車輛包含第二方面所述的車內語音的識別處理裝置。
50、本申請實施例通過獲取車內的混合音頻信息和視頻信息,對混合音頻信息進行語音分離,得到子音頻信息;隨后根據子音頻信息和/或視頻信息確定每一條子音頻信息對應的目標用戶;并基于目標用戶,結合視頻信息進行用戶匹配,得到目標用戶對應的圖像狀態信息,圖像狀態信息為目標用戶在車內的乘坐狀態;以根據圖像狀態信息和目標用戶對應的子音頻信息,生成用戶交流畫面,然后將用戶交流畫面進行輸出顯示;使得車內用戶可以通過用戶交流畫面實時、準確的得獲取到交流內容,方便車內用戶實時、準確了解車內交流情況,進而解決了現有相關技術因車內用戶無法準確獲取交流內容所導致的車內用戶交流體驗差的問題,能夠有效提高車內用戶交流的體驗。
1.一種車內語音的識別處理方法,其特征在于,包括:
2.根據權利要求1所述車內語音的識別處理方法,其特征在于,所述根據所述子音頻信息和/或所述視頻信息確定每一條所述子音頻信息對應的目標用戶,包括:
3.根據權利要求1所述車內語音的識別處理方法,其特征在于,所述基于所述目標用戶,結合所述視頻信息進行用戶匹配,得到所述目標用戶對應的圖像狀態信息,包括:
4.根據權利要求3所述車內語音的識別處理方法,其特征在于,所述將所述目標用戶與所述圖像用戶進行匹配,得到匹配結果,包括:
5.根據權利要求3所述車內語音的識別處理方法,其特征在于,所述將所述目標用戶與所述圖像用戶進行匹配,得到匹配結果,包括:
6.根據權利要求1所述車內語音的識別處理方法,其特征在于,所述將所述用戶交流畫面進行輸出顯示,包括:
7.根據權利要求1所述車內語音的識別處理方法,其特征在于,所述對所述混合音頻信息進行語音分離,得到多條子音頻信息之后,還包括:
8.一種車內語音的識別處理裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-7任一項所述的車內語音的識別處理方法。