本發明涉及語音處理領域,適用于金融科技領域,尤其涉及一種語音識別方法、裝置、計算機設備及存儲介質。
背景技術:
1、隨著金融科技(fintech)行業的快速發展,客戶服務、交易處理和金融咨詢等業務流程對自動化和智能化的需求日益增長。語音識別技術作為人工智能的一個重要分支,在提升用戶體驗、優化運營效率方面展現了巨大的潛力。特別是在金融科技領域,通過語音交互實現賬戶查詢、轉賬支付、投資建議等功能不僅能夠簡化操作流程,還能為用戶提供更加便捷的服務體驗。
2、現有的語音識別模型,如whisper(由開源人工智能公司openai開發的一種多語言語音識別模型)等,在跨語言識別和魯棒性方面表現出色,廣泛應用于語音轉錄和自然語言處理任務。然而,在處理長文本或復雜語音輸入時,語音識別模型易出現詞語或句子重復的問題,影響識別效率和準確性,增加后續處理難度,降低用戶體驗。現有優化手段如參數調優和數據增強,雖有一定效果,但無法從根本上解決模型內部結構冗余導致的重復現象。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種語音識別方法、裝置、計算機設備及存儲介質,以減少語音識別模型出現詞語或句子重復的問題。
2、一種語音識別方法,包括:
3、通過自適應采樣實時獲取待識別語音;
4、對待識別語音進行預處理,獲得滿足預設處理要求的優化語音;
5、通過去重語音識別模型處理所述優化語音,獲得去重文本;所述去重語音識別模型為經過剪枝處理后具有去重功能的語音識別模型。
6、可選地,所述通過去重語音識別模型處理所述優化語音,獲得去重文本之前,還包括:
7、獲取與預訓練模型匹配的剪枝規則;
8、根據所述剪枝規則對所述預訓練模型進行剪枝,獲得待評估語音識別模型;
9、對所述待評估語音識別模型進行優化和驗證,獲得所述去重語音識別模型。
10、可選地,所述獲取與預訓練模型匹配的剪枝規則,包括:
11、獲取與所述預訓練模型關聯的特征數據;
12、提取所述特征數據的特征分布;
13、獲取與所述特征分布對應的所述剪枝規則。
14、可選地,所述根據所述剪枝規則對所述預訓練模型進行剪枝,獲得待評估語音識別模型,包括:
15、評估所述預訓練模型中各個線性層的權重;
16、根據所述各個線性層的權重和所述剪枝規則確定權重閾值;
17、將所述預訓練模型中權重絕對值小于所述權重閾值的線性層剪除,獲得所述待評估語音識別模型。
18、可選地,所述根據所述各個線性層的權重和所述剪枝規則確定權重閾值,包括:
19、將所述各個線性層的權重按權重值大小排列,形成權重序列;
20、從剪枝規則提取全局剪枝比例;
21、根據所述權重序列和所述全局剪枝比例確定所述權重閾值。
22、可選地,所述對所述待評估語音識別模型進行優化和驗證,獲得所述去重語音識別模型,包括:
23、分別對所述待評估語音識別模型的編碼器和解碼器進行局部剪枝,獲得優化模型;
24、評估所述優化模型的錯詞指標;
25、當所述錯詞指標滿足預設要求時,將所述優化模型確定為所述去重語音識別模型。
26、可選地,所述通過去重語音識別模型處理所述待識別語音,獲得去重文本之后,還包括:
27、從所述去重文本中提取關鍵信息;
28、根據所述關鍵信息生成摘要數據。
29、一種語音識別裝置,包括:
30、獲取語音模塊,用于通過自適應采樣實時獲取待識別語音;
31、預處理模塊,用于對待識別語音進行預處理,獲得滿足預設處理要求的優化語音;
32、模型識別模塊,用于通過去重語音識別模型處理所述優化語音,獲得去重文本;所述去重語音識別模型為經過剪枝處理后具有去重功能的語音識別模型。
33、一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機可讀指令,所述處理器執行所述計算機可讀指令時實現上述語音識別方法。
34、一個或多個存儲有計算機可讀指令的可讀存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得所述一個或多個處理器執行如上述語音識別方法。
35、上述語音識別方法、裝置、計算機設備及存儲介質,使用去重語音識別模型處理待識別語音,獲取去重文本,解決了語音識別模型出現詞語或句子重復的問題,特別是長時間語音轉錄和復雜對話記錄等場景下,顯著減少語詞重復現象,優化了模型效率和體驗。
1.一種語音識別方法,其特征在于,包括:
2.如權利要求1所述的語音識別方法,其特征在于,所述通過去重語音識別模型處理所述優化語音,獲得去重文本之前,還包括:
3.如權利要求2所述的語音識別方法,其特征在于,所述獲取與預訓練模型匹配的剪枝規則,包括:
4.如權利要求2所述的語音識別方法,其特征在于,所述根據所述剪枝規則對所述預訓練模型進行剪枝,獲得待評估語音識別模型,包括:
5.如權利要求4所述的語音識別方法,其特征在于,所述根據所述各個線性層的權重和所述剪枝規則確定權重閾值,包括:
6.如權利要求2所述的語音識別方法,其特征在于,所述對所述待評估語音識別模型進行優化和驗證,獲得所述去重語音識別模型,包括:
7.如權利要求1所述的語音識別方法,其特征在于,所述通過去重語音識別模型處理所述優化語音,獲得去重文本之后,還包括:
8.一種語音識別裝置,其特征在于,包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機可讀指令,其特征在于,所述處理器執行所述計算機可讀指令時實現如權利要求1至7中任一項所述語音識別方法。
10.一個或多個存儲有計算機可讀指令的可讀存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得所述一個或多個處理器執行如權利要求1至7中任一項所述語音識別方法。