本發明涉及語音識別?,尤其涉及一種車載語音識別方法、裝置、電子設備及存儲介質。
背景技術:
1、隨著汽車智能化的演進,語音識別技術確實已經成為現代車輛不可或缺的一部分,被廣泛應用于車輛控制、導航指引、娛樂系統操控等多個領域。
2、當前,車載語音控制系統僅能同時識別和響應一個語音指令,通常由駕駛員發出。當駕駛員和副駕駛同時發出指令時,系統往往難以分辨指令來源,從而導致誤響應或指令被忽略。同時傳統車載語音系統缺乏對多個座位乘客的區分,無法滿足主駕駛和副駕駛同時控制不同系統的需求。例如,主駕駛希望設定導航路徑,而副駕駛希望調整娛樂系統,傳統系統難以同時滿足這兩個需求。
3、因此,亟需一種車載語音識別方法以解決現有車載語音識別方案僅能識別單一指令的問題。
技術實現思路
1、本發明提供一種車載語音識別方法、裝置、電子設備及存儲介質,用以解決現有技術中車載語音識別方案僅能識別單一指令的缺陷。
2、本發明提供一種車載語音識別方法,包括如下步驟:
3、對駕駛室的語音識別結果和唇語識別結果進行融合,得到多模態識別結果,所述語音識別結果是對實時采集的語音信號進行識別得到的,所述唇語識別結果是對實時采集的口型圖像進行識別得到的;
4、對所述多模態識別結果進行解析,得到各語音的語音來源,以及各所述語音對應的意圖;
5、基于各所述語音的語音來源和意圖,分別生成車輛控制指令。
6、根據本發明提供的一種車載語音識別方法,所述語音識別結果是基于如下步驟獲得的:
7、對實時采集得到的語音信號進行噪聲消除處理,得到去噪語音信號;
8、使用預置語音識別模型對所述去噪語音信號進行解析,得到語音識別結果,所述語音識別結果包括各發聲者的語音信號識別結果。
9、根據本發明提供的一種車載語音識別方法,所述對實時采集得到的語音信號進行噪聲消除處理,得到去噪語音信號,包括:
10、基于預置濾波器,對使用麥克風陣列實時采集得到的語音信號進行環境噪聲去除,得到降噪語音信號;
11、基于所述麥克風陣列中各麥克風接收到聲音的時間差,確定所述語音信號中各聲源的位置信息;
12、對使用攝像頭實時采集得到的駕駛室視頻流進行識別,得到視覺識別結果;
13、基于各所述聲源的位置信息和所述視覺識別結果,過濾車外語音信號,得到去噪語音信號。
14、根據本發明提供的一種車載語音識別方法,所述唇語識別結果是基于如下步驟獲得的:
15、對實時采集得到的駕駛室視頻流進行臉部區域識別,得到每一幀圖像中的臉部區域;
16、對所述每一幀圖像中的臉部區域進行口部提取,得到口部感興趣區域;
17、將所述口部感興趣區域輸入至預訓練的唇語識別模型,得到所述唇語識別模型輸出的唇語識別結果,其中,所述唇語識別模型包含卷積神經網絡和長短期記憶網絡。
18、根據本發明提供的一種車載語音識別方法,所述基于各所述語音的語音來源和意圖,分別生成車輛控制指令,包括:
19、若各所述語音的意圖不互相干涉,則分別基于各所述語音的意圖,生成相應的車輛控制指令。
20、根據本發明提供的一種車載語音識別方法,所述基于各所述語音的語音來源和意圖,分別生成車輛控制指令,包括:
21、若各所述語音的意圖互相干涉,則對所有意圖進行分離,得到干涉意圖和非干涉意圖,所述干涉意圖是存在干涉關系的意圖,所述非干涉意圖是不存在干涉關系的意圖;
22、對于所述干涉意圖,基于對應語音來源的優先級,生成相應的車輛控制指令;
23、對于所述非干涉意圖,分別生成相應的車輛控制指令。
24、本發明還提供一種車載語音識別裝置,包括如下模塊:
25、多模態識別模塊,用于:對駕駛室的語音識別結果和唇語識別結果進行融合,得到多模態識別結果,所述語音識別結果是對實時采集的語音信號進行識別得到的,所述唇語識別結果是對實時采集的口型圖像進行識別得到的;
26、語音解析模塊,用于:對所述多模態識別結果進行解析,得到各語音的語音來源,以及各所述語音對應的意圖;
27、指令生成模塊,用于:基于各所述語音的語音來源和意圖,分別生成車輛控制指令。
28、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述車載語音識別方法。
29、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述車載語音識別方法。
30、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述車載語音識別方法。
31、本發明提供的車載語音識別方法、裝置、電子設備及存儲介質,對駕駛室的語音識別結果和唇語識別結果進行融合,得到多模態識別結果,所述語音識別結果是對實時采集的語音信號進行識別得到的,所述唇語識別結果是對實時采集的口型圖像進行識別得到的;對所述多模態識別結果進行解析,得到各語音的語音來源,以及各所述語音對應的意圖;基于各所述語音的語音來源和意圖,分別生成車輛控制指令。本發明通過將語音識別結果和唇語識別結果進行結合,以區分不同來源的語音,從而在主駕駛和副駕駛同時發出語音指令時,能夠對兩者進行響應,同時滿足兩者的需求,提高用戶使用體驗。
1.一種車載語音識別方法,其特征在于,包括:
2.根據權利要求1所述的車載語音識別方法,其特征在于,所述語音識別結果是基于如下步驟獲得的:
3.根據權利要求2所述的車載語音識別方法,其特征在于,所述對實時采集得到的語音信號進行噪聲消除處理,得到去噪語音信號,包括:
4.根據權利要求1所述的車載語音識別方法,其特征在于,所述唇語識別結果是基于如下步驟獲得的:
5.根據權利要求1所述的車載語音識別方法,其特征在于,所述基于各所述語音的語音來源和意圖,分別生成車輛控制指令,包括:
6.根據權利要求1所述的車載語音識別方法,其特征在于,所述基于各所述語音的語音來源和意圖,分別生成車輛控制指令,包括:
7.一種車載語音識別裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述車載語音識別方法。
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述車載語音識別方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述車載語音識別方法。