本申請涉及語音識別,尤其涉及一種語音識別方法、裝置、設備和計算機程序產品。
背景技術:
1、隨著人工智能和物聯網技術的快速發展,語音識別作為人機交互的關鍵入口技術,其應用場景日益廣泛,從智能家居、智能車載到工業制造、智能安防等領域都有涉及。然而,在實際應用場景中噪音問題常常難以避免,使得語音識別的準確性受到影響。
技術實現思路
1、有鑒于此,本申請提出一種語音識別方法、裝置、設備和計算機程序產品,以解決現有技術中語音識別的準確性受到影響的問題。
2、本申請提出的技術方案具體如下:
3、第一方面,本申請的實施例提供一種語音識別方法,包括:
4、從語音識別對象的圖像中提取圖像特征,從所述語音識別對象的音頻中提取語音特征;所述語音識別對象的圖像和音頻均是在所述語音識別對象講話時采集到的,所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征;
5、根據所述語音識別對象所處的環境條件,分別確定所述圖像特征和所述語音特征的權重;所述環境條件包括光線條件和聲學條件;
6、根據所述圖像特征和所述語音特征的權重,對所述圖像特征和所述語音特征進行加權融合得到融合特征,通過所述融合特征確定語音識別結果。
7、進一步地,以上所述的方法中,所述根據所述語音識別對象所處的環境條件,分別確定所述圖像特征和所述語音特征的權重,包括:
8、若檢測到所述光線條件不滿足所述圖像的拍攝需求,則確定所述語音特征的權重大于所述圖像特征的權重;或者,若檢測到所述聲學條件不滿足所述音頻的采集需求,則確定所述圖像特征的權重大于所述語音特征的權重。
9、進一步地,以上所述的方法中,所述從語音識別對象的圖像中提取圖像特征,從所述語音識別對象的音頻中提取語音特征之前,包括:
10、在檢測到喚醒信息的情況下,采集所述語音識別對象講話時的圖像和音頻;所述喚醒信息包括語音喚醒信息、人臉喚醒信息、手勢喚醒信息、注視喚醒信息和近場喚醒信息中的至少一種。
11、進一步地,以上所述的方法中,所述喚醒信息包括手勢喚醒信息,所述方法還包括:
12、在所述語音識別對象的手勢動作包括設定喚醒動作的情況下,通過分析所述語音識別對象的視線和/或全身動作確定所述語音識別對象的意圖;
13、若所述語音識別對象的意圖包括手勢喚醒,則表示所述語音識別對象的手勢動作包括所述手勢喚醒信息。
14、進一步地,以上所述的方法中,所述喚醒信息包括語音喚醒信息,所述方法還包括:
15、在所述語音識別對象的語音內容包括設定喚醒語音的情況下,通過分析所述語音識別對象的語音內容確定所述語音識別對象的意圖;
16、若所述語音識別對象的意圖包括語音喚醒,則表示所述語音識別對象的語音內容包括所述語音喚醒信息。
17、進一步地,以上所述的方法中,所述根據所述圖像特征和所述語音特征的權重,對所述圖像特征和所述語音特征進行加權融合得到融合特征,包括:
18、將所述圖像特征和所述語音特征歸一化到同一尺度,并在時間上進行對齊處理,得到處理后的圖像特征和語音特征;
19、將處理后的圖像特征和語音特征加權融合得到融合特征。
20、第二方面,本申請的實施例提供一種語音識別裝置,包括:
21、提取單元,用于從語音識別對象的圖像中提取圖像特征,從所述語音識別對象的音頻中提取語音特征;所述語音識別對象的圖像和音頻均是在所述語音識別對象講話時采集到的,所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征;
22、確定單元,用于根據所述語音識別對象所處的環境條件,分別確定所述圖像特征和所述語音特征的權重;所述環境條件包括光線條件和聲學條件;
23、融合單元,用于根據所述圖像特征和所述語音特征的權重,對所述圖像特征和所述語音特征進行加權融合得到融合特征,通過所述融合特征確定語音識別結果。
24、第三方面,本申請的實施例提供一種電子設備,包括:
25、存儲器和處理器;其中,所述存儲器用于存儲程序;所述處理器,用于通過運行所述存儲器中的程序,實現以上任意一項所述的方法。
26、第四方面,本申請的實施例提供一種語音識別設備,包括:攝像頭、麥克風陣列和處理設備;
27、所述攝像頭用于在語音識別對象講話時采集所述語音識別對象的圖像,所述麥克風陣列用于在所述語音識別對象講話時采集所述語音識別對象的音頻;
28、所述處理設備用于從所述語音識別對象的圖像中提取圖像特征,從所述語音識別對象的音頻中提取語音特征,所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征;根據所述語音識別對象所處的環境條件,分別確定所述圖像特征和所述語音特征的權重,所述環境條件包括光線條件和聲音條件;根據所述圖像特征和所述語音特征的權重,對所述圖像特征和所述語音特征進行加權融合得到融合特征,通過所述融合特征確定語音識別結果。
29、第五方面,本申請的實施例提供一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時,實現以上任意一項所述的方法。可選地,所述計算機程序可以存儲在計算機設備的可讀存儲介質或云端;所述計算機設備的處理器從所述可讀存儲介質或云端讀取所述計算機程序。
30、本申請提出的語音識別方法,能夠從語音識別對象的圖像中提取圖像特征,從語音識別對象的音頻中提取語音特征,其中語音識別對象的圖像和音頻均是在語音識別對象講話時采集到的,圖像特征包括唇部動作特征、手勢特征以及面部表情特征。然后根據語音識別對象所處的光線條件和聲學條件等,分別確定圖像特征和語音特征的權重。最后根據圖像特征和語音特征的權重,對圖像特征和語音特征進行加權融合得到融合特征,通過融合特征確定語音識別結果。如此設置,可以從識別對象的語音、唇部動作、手勢動作、面部表情動作等多個維度對語音進行識別,同時根據環境條件適應性調整不同維度對應的權重,進而避免環境對語音識別結果的影響,提高語音識別的準確性。
1.一種語音識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述語音識別對象所處的環境條件,分別確定所述圖像特征和所述語音特征的權重,包括:
3.根據權利要求1所述的方法,其特征在于,所述從語音識別對象的圖像中提取圖像特征,從所述語音識別對象的音頻中提取語音特征之前,包括:
4.根據權利要求3所述的方法,其特征在于,所述喚醒信息包括手勢喚醒信息,所述方法還包括:
5.根據權利要求3所述的方法,其特征在于,所述喚醒信息包括語音喚醒信息,所述方法還包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述圖像特征和所述語音特征的權重,對所述圖像特征和所述語音特征進行加權融合得到融合特征,包括:
7.一種語音識別裝置,其特征在于,包括:
8.一種電子設備,其特征在于,包括:
9.一種語音識別設備,其特征在于,包括:攝像頭、麥克風陣列和處理設備;
10.一種計算機程序產品,其特征在于,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時,實現如權利要求1至6中任意一項所述的方法。