1.一種音頻數據的自動增益控制方法,其特征在于,包括:
對音頻數據進行分幀處理,并提取各幀數據的特征參數;
根據當前幀數據的特征參數與預先配置的語音類別高斯混合模型得到所述當前幀數據的語音類條件概率;以及根據所述當前幀數據的特征參數與預先配置的噪聲類別高斯混合模型,得到所述當前幀數據的噪聲類條件概率;
根據所述當前幀數據的語音類條件概率與所述當前幀數據的噪聲類條件概率計算所述當前幀數據屬于語音幀的概率以及屬于噪聲幀的概率;
當所述當前幀數據屬于語音幀的概率大于屬于噪聲幀的概率時,將當前幀音頻數據判定為語音幀;以及當所述當前幀數據屬于語音幀的概率小于屬于噪聲幀的概率時,將當前幀數據判定為噪聲幀;
當所述當前幀數據被判定為語音幀時,按照預先配置的語音幀增益控制規則控制所述當前幀數據的增益,以及所述當前幀數據被判定為噪聲幀時按照預先配置的噪聲幀增益控制規則控制所述當前幀數據的增益。
2.如權利要求1所述的音頻數據的自動增益控制方法,其特征在于,所述音頻數據的自動增益控制方法還包括構建語音類別高斯混合模型的步驟以及構建噪聲類別高斯混合模型的步驟;
所述構建語音類別高斯混合模型的步驟具體包括:
通過與所述音頻數據相同的處理方法,對語音樣本數據進行分幀處理并提取各幀數據的特征參數;
根據K-means算法將所述語音樣本數據的特征參數劃分為若干個語音類別;
獲取每個語音類別所對應的高斯子模型的初始權重、初始均值以及初始協方差;
通過EM算法對每個語音類別所對應的高斯子模型的權重、均值以及協方差進行迭代優化,得到語音類別高斯混合模型;
所述構建噪聲類別高斯混合模型的步驟具體包括:
通過與所述音頻數據相同的處理方法,對噪聲樣本數據進行分幀處理并提取各幀數據的特征參數;
根據K-means算法將所述噪聲樣本數據的特征參數劃分為若干個噪聲類別;
獲取每個噪聲類別所對應的高斯子模型的初始權重、初始均值以及初始協方差;
通過EM算法對每個噪聲類別所對應的高斯子模型的權重、均值以及協方差進行迭代優化,得到噪聲類別高斯混合模型。
3.如權利要求1所述的音頻數據的自動增益控制方法,其特征在于,所述根據所述當前幀數據的語音類條件概率與所述當前幀數據的噪聲類條件概率計算所述當前幀數據屬于語音幀的概率以及屬于噪聲幀的概率,包括:
根據所述當前幀數據的語音類條件概率p(xT/Y1)與所述當前幀數據的噪聲類條件概率p(xT/Y2)結合貝葉斯公式,計算所述當前幀數據屬于語音幀的后驗概率p’(Y1/xT)以及屬于噪聲幀的后驗概率p’(Y2/xT);
根據p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)計算p(Y1/xT);
根據p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)計算p(Y2/xT);
其中,
T是所述當前幀數據在所述音頻數據中的幀序號;XT為所述當前幀數據的特征參數;T-W+1是所述當前幀數據的前W幀的幀序號;W與σ為預設值。
4.如權利要求1所述的音頻數據的自動增益控制方法,其特征在于,對所述音頻數據進行分幀處理后得到的任意相鄰的兩幀數據具有重疊的部分。
5.如權利要求1~4任一項所述的音頻數據的自動增益控制方法,其特征在于,所述當所述當前幀數據被判定為語音幀時,按照預先配置的語音幀增益控制規則控制所述當前幀數據的增益,以及所述當前幀數據被判定為噪聲幀時按照預先配置的噪聲幀增益控制規則控制所述當前幀數據的增益,包括:
當所述當前幀數據被判定為語音幀時,獲取所述當前幀數據的時域能量并計算預設的期望能量值與所述時域能量的比值,將所述當前幀數據的各數據點乘以所述比值以放大或縮小所述當前幀數據;
當所述當前幀數據被判定為噪聲幀時,保持所述當前幀數據不變。
6.一種音頻數據的自動增益控制裝置,其特征在于,包括:
預處理模塊,用于對音頻數據進行分幀處理,并提取各幀數據的特征參數;
第一概率獲取模塊,用于根據當前幀數據的特征參數與預先配置的語音類別高斯混合模型得到所述當前幀數據的語音類條件概率;以及根據所述當前幀數據的特征參數與預先配置的噪聲類別高斯混合模型,得到所述當前幀數據的噪聲類條件概率;
第二概率獲取模塊,用于根據所述當前幀數據的語音類條件概率與所述當前幀數據的噪聲類條件概率計算所述當前幀數據屬于語音幀的概率以及屬于噪聲幀的概率;
判定模塊,用于當所述當前幀數據屬于語音幀的概率大于屬于噪聲幀的概率時,將當前幀音頻數據判定為語音幀;以及當所述當前幀數據屬于語音幀的概率小于屬于噪聲幀的概率時,將當前幀數據判定為噪聲幀;
增益控制模塊,用于當所述當前幀數據被判定為語音幀時,按照預先配置的語音幀增益控制規則控制所述當前幀數據的增益,以及所述當前幀數據被判定為噪聲幀時按照預先配置的噪聲幀增益控制規則控制所述當前幀數據的增益。
7.如權利要求6所述的音頻數據的自動增益控制裝置,其特征在于,所述音頻數據的自動增益控制裝置還包括第一模型構建模塊以及第二模型構建模塊;
所述第一模型構建模塊包括:
第一預處理單元,用于通過與所述音頻數據相同的處理方法,對語音樣本數據進行分幀處理并提取各幀數據的特征參數;
第一分類單元,用于根據K-means算法將所述語音樣本數據的特征參數劃分為若干個語音類別;
第一初始參數獲取單元,用于獲取每個語音類別所對應的高斯子模型的初始權重、初始均值以及初始協方差;
第一模型優化單元,用于通過EM算法對每個語音類別所對應的高斯子模型的權重、均值以及協方差進行迭代優化,得到語音類別高斯混合模型;
所述第二模型構建模塊包括:
第二預處理單元,用于通過與所述音頻數據相同的處理方法,對噪聲樣本數據進行分幀處理并提取各幀數據的特征參數;
第二分類單元,用于根據K-means算法將所述噪聲樣本數據的特征參數劃分為若干個噪聲類別;
第二初始參數獲取單元,用于獲取每個噪聲類別所對應的高斯子模型的初始權重、初始均值以及初始協方差;
第二模型優化單元,用于通過EM算法對每個噪聲類別所對應的高斯子模型的權重、均值以及協方差進行迭代優化,得到噪聲類別高斯混合模型。
8.如權利要求6所述的音頻數據的自動增益控制裝置,其特征在于,所述第二概率獲取模塊包括:
后驗概率獲取單元,用于根據所述當前幀數據的語音類條件概率p(xT/Y1)與所述當前幀數據的噪聲類條件概率p(xT/Y2)結合貝葉斯公式,計算所述當前幀數據屬于語音幀的后驗概率p’(Y1/xT)以及屬于噪聲幀的后驗概率p’(Y2/xT);
概率加權平滑單元,用于
根據p(Y1/xT)=α1·p(Y1/xT-W+1)+…αW-1·p(Y1/xT-1)+αW·p'(Y1/xT)計算p(Y1/xT);以及用于
根據p(Y2/xT)=α1·p(Y2/xT-W+1)+…αW-1·p(Y2/xT-1)+αW·p'(Y2/xT)計算p(Y2/xT);
其中,
T是所述當前幀數據在所述音頻數據中的幀序號;XT為所述當前幀數據的特征參數;T-W+1是所述當前幀數據的前W幀的幀序號;W與σ為預設值。
9.如權利要求6所述的音頻數據的自動增益控制裝置,其特征在于,對所述音頻數據進行分幀處理后得到的任意相鄰的兩幀數據具有重疊的部分。
10.如權利要求6~9任一項所述的音頻數據的自動增益控制裝置,其特征在于,所述增益控制模塊包括:
第一增益控制單元,用于當所述當前幀數據被判定為語音幀時,獲取所述當前幀數據的時域能量并計算預設的期望能量值與所述時域能量的比值,將所述當前幀數據的各數據點乘以所述比值以放大或縮小所述當前幀數據;
第二增益控制單元,用于當所述當前幀數據被判定為噪聲幀時,保持所述當前幀數據不變。