語音識別方法、裝置、設備和計算機程序產品與流程

文檔序號：41737647發布日期：2025-04-25 17:11閱讀：6來源：國知局

導航： X技術> 最新專利>樂器;聲學設備的制造及制作,分析技術

本申請涉及語音識別，尤其涉及一種語音識別方法、裝置、設備和計算機程序產品。

背景技術：

1、隨著人工智能和物聯網技術的快速發展，語音識別作為人機交互的關鍵入口技術，其應用場景日益廣泛，從智能家居、智能車載到工業制造、智能安防等領域都有涉及。然而，在實際應用場景中噪音問題常常難以避免，使得語音識別的準確性受到影響。

技術實現思路

1、有鑒于此，本申請提出一種語音識別方法、裝置、設備和計算機程序產品，以解決現有技術中語音識別的準確性受到影響的問題。

2、本申請提出的技術方案具體如下：

3、第一方面，本申請的實施例提供一種語音識別方法，包括：

4、從語音識別對象的圖像中提取圖像特征，從所述語音識別對象的音頻中提取語音特征；所述語音識別對象的圖像和音頻均是在所述語音識別對象講話時采集到的，所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征；

5、根據所述語音識別對象所處的環境條件，分別確定所述圖像特征和所述語音特征的權重；所述環境條件包括光線條件和聲學條件；

6、根據所述圖像特征和所述語音特征的權重，對所述圖像特征和所述語音特征進行加權融合得到融合特征，通過所述融合特征確定語音識別結果。

7、進一步地，以上所述的方法中，所述根據所述語音識別對象所處的環境條件，分別確定所述圖像特征和所述語音特征的權重，包括：

8、若檢測到所述光線條件不滿足所述圖像的拍攝需求，則確定所述語音特征的權重大于所述圖像特征的權重；或者，若檢測到所述聲學條件不滿足所述音頻的采集需求，則確定所述圖像特征的權重大于所述語音特征的權重。

9、進一步地，以上所述的方法中，所述從語音識別對象的圖像中提取圖像特征，從所述語音識別對象的音頻中提取語音特征之前，包括：

10、在檢測到喚醒信息的情況下，采集所述語音識別對象講話時的圖像和音頻；所述喚醒信息包括語音喚醒信息、人臉喚醒信息、手勢喚醒信息、注視喚醒信息和近場喚醒信息中的至少一種。

11、進一步地，以上所述的方法中，所述喚醒信息包括手勢喚醒信息，所述方法還包括：

12、在所述語音識別對象的手勢動作包括設定喚醒動作的情況下，通過分析所述語音識別對象的視線和/或全身動作確定所述語音識別對象的意圖；

13、若所述語音識別對象的意圖包括手勢喚醒，則表示所述語音識別對象的手勢動作包括所述手勢喚醒信息。

14、進一步地，以上所述的方法中，所述喚醒信息包括語音喚醒信息，所述方法還包括：

15、在所述語音識別對象的語音內容包括設定喚醒語音的情況下，通過分析所述語音識別對象的語音內容確定所述語音識別對象的意圖；

16、若所述語音識別對象的意圖包括語音喚醒，則表示所述語音識別對象的語音內容包括所述語音喚醒信息。

17、進一步地，以上所述的方法中，所述根據所述圖像特征和所述語音特征的權重，對所述圖像特征和所述語音特征進行加權融合得到融合特征，包括：

18、將所述圖像特征和所述語音特征歸一化到同一尺度，并在時間上進行對齊處理，得到處理后的圖像特征和語音特征；

19、將處理后的圖像特征和語音特征加權融合得到融合特征。

20、第二方面，本申請的實施例提供一種語音識別裝置，包括：

21、提取單元，用于從語音識別對象的圖像中提取圖像特征，從所述語音識別對象的音頻中提取語音特征；所述語音識別對象的圖像和音頻均是在所述語音識別對象講話時采集到的，所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征；

22、確定單元，用于根據所述語音識別對象所處的環境條件，分別確定所述圖像特征和所述語音特征的權重；所述環境條件包括光線條件和聲學條件；

23、融合單元，用于根據所述圖像特征和所述語音特征的權重，對所述圖像特征和所述語音特征進行加權融合得到融合特征，通過所述融合特征確定語音識別結果。

24、第三方面，本申請的實施例提供一種電子設備，包括：

25、存儲器和處理器；其中，所述存儲器用于存儲程序；所述處理器，用于通過運行所述存儲器中的程序，實現以上任意一項所述的方法。

26、第四方面，本申請的實施例提供一種語音識別設備，包括：攝像頭、麥克風陣列和處理設備；

27、所述攝像頭用于在語音識別對象講話時采集所述語音識別對象的圖像，所述麥克風陣列用于在所述語音識別對象講話時采集所述語音識別對象的音頻；

28、所述處理設備用于從所述語音識別對象的圖像中提取圖像特征，從所述語音識別對象的音頻中提取語音特征，所述圖像特征包括唇部動作特征、手勢特征以及面部表情特征；根據所述語音識別對象所處的環境條件，分別確定所述圖像特征和所述語音特征的權重，所述環境條件包括光線條件和聲音條件；根據所述圖像特征和所述語音特征的權重，對所述圖像特征和所述語音特征進行加權融合得到融合特征，通過所述融合特征確定語音識別結果。

29、第五方面，本申請的實施例提供一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現以上任意一項所述的方法。可選地，所述計算機程序可以存儲在計算機設備的可讀存儲介質或云端；所述計算機設備的處理器從所述可讀存儲介質或云端讀取所述計算機程序。

30、本申請提出的語音識別方法，能夠從語音識別對象的圖像中提取圖像特征，從語音識別對象的音頻中提取語音特征，其中語音識別對象的圖像和音頻均是在語音識別對象講話時采集到的，圖像特征包括唇部動作特征、手勢特征以及面部表情特征。然后根據語音識別對象所處的光線條件和聲學條件等，分別確定圖像特征和語音特征的權重。最后根據圖像特征和語音特征的權重，對圖像特征和語音特征進行加權融合得到融合特征，通過融合特征確定語音識別結果。如此設置，可以從識別對象的語音、唇部動作、手勢動作、面部表情動作等多個維度對語音進行識別，同時根據環境條件適應性調整不同維度對應的權重，進而避免環境對語音識別結果的影響，提高語音識別的準確性。

技術特征：

1.一種語音識別方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述根據所述語音識別對象所處的環境條件，分別確定所述圖像特征和所述語音特征的權重，包括：

3.根據權利要求1所述的方法，其特征在于，所述從語音識別對象的圖像中提取圖像特征，從所述語音識別對象的音頻中提取語音特征之前，包括：

4.根據權利要求3所述的方法，其特征在于，所述喚醒信息包括手勢喚醒信息，所述方法還包括：

5.根據權利要求3所述的方法，其特征在于，所述喚醒信息包括語音喚醒信息，所述方法還包括：

6.根據權利要求1所述的方法，其特征在于，所述根據所述圖像特征和所述語音特征的權重，對所述圖像特征和所述語音特征進行加權融合得到融合特征，包括：

7.一種語音識別裝置，其特征在于，包括：

8.一種電子設備，其特征在于，包括：

9.一種語音識別設備，其特征在于，包括：攝像頭、麥克風陣列和處理設備；

10.一種計算機程序產品，其特征在于，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時，實現如權利要求1至6中任意一項所述的方法。

技術總結
本申請提出一種語音識別方法、裝置、設備和計算機程序產品，該方法能夠從語音識別對象的圖像中提取圖像特征，從語音識別對象的音頻中提取語音特征，其中圖像特征包括唇部動作特征、手勢特征以及面部表情特征。然后根據語音識別對象所處的光線條件和聲學條件等，分別確定圖像特征和語音特征的權重。最后根據圖像特征和語音特征的權重，對圖像特征和語音特征進行加權融合得到融合特征，通過融合特征確定語音識別結果。如此設置，可以從識別對象的語音、唇部動作、手勢動作、面部表情動作等多個維度對語音進行識別，同時根據環境條件適應性調整不同維度對應的權重，進而避免環境對語音識別結果的影響，提高語音識別的準確性。

技術研發人員：王磊磊,劉可為,陳健祥,武珺珺,鄭辰
受保護的技術使用者：科大訊飛股份有限公司
技術研發日：
技術公布日：2025/4/24

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：王磊磊,劉可為,陳健祥,武珺珺,鄭辰
技術所有人：科大訊飛股份有限公司
我是此專利的發明人

上一篇：一種主軸軸承壽命預測方法與流程
上一篇：一種基于Sagnac環的全光纖隨機拉曼激光器的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

語音識別方法、裝置、設備和計算機程序產品與流程