本發(fā)明涉及語音識別領(lǐng)域,具體為一種基于雙權(quán)重有向圖語音識別系統(tǒng)及方法。
背景技術(shù):
1、使用基于有向圖的有權(quán)有限狀態(tài)轉(zhuǎn)換器,融合聲學模型與文字模型,使用平衡權(quán)重,來控制語音識別傾向聲學模型或文字模型,提高文字模型權(quán)重時輸出更符合語言邏輯,但影響無邏輯如電話號碼識別,提高聲學模型權(quán)重時,則提高無邏輯語言的識別率,但影響發(fā)音接近的識別率,并不能同時保證兩方面的效果提升,所以提出一種基于雙權(quán)重有向圖語音識別系統(tǒng)及方法是十分必要的。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于雙權(quán)重有向圖語音識別系統(tǒng)及方法,使得在語音識別過程中,使用語言模型去除影響發(fā)音接近的影響的同時,還能提高無邏輯語言的識別率,以解決現(xiàn)有的技術(shù)缺陷和不能達到的技術(shù)要求。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于雙權(quán)重有向圖語音識別系統(tǒng),包括:
3、語言流模塊,所述語言流模塊將語音轉(zhuǎn)換為視頻幀,再將視頻幀發(fā)送給聲學模塊;
4、聲學模塊,所述聲學模塊接收語言流模塊發(fā)送過來的視頻幀,并將音頻轉(zhuǎn)化為聲學模型,再將聲學模型發(fā)送給雙權(quán)寬搜模塊;
5、語言模塊,所述語言模塊將文本知識庫轉(zhuǎn)為有向有權(quán)解碼圖,并將有向有權(quán)解碼圖發(fā)送給雙權(quán)寬搜模塊;
6、雙權(quán)寬搜模塊,所述雙權(quán)寬搜模塊接收聲學模塊發(fā)送來的聲學模型,以及語言模塊發(fā)送來的有向有權(quán)解碼圖,并設置兩個平衡權(quán)重,使用兩個平衡權(quán)重對有向有權(quán)解碼圖進行寬度搜索,找到所有可能結(jié)果,將所有可能結(jié)果發(fā)送給識別輸出模塊;
7、識別輸出模塊,所述識別輸出模塊用于接收雙權(quán)寬搜模塊發(fā)送來的所有可能結(jié)果,并對所有可能結(jié)果進行識別,輸出語言識別結(jié)果。
8、一種基于雙權(quán)重有向圖語音識別方法,包括以下步驟:
9、1)、語言流模塊將連續(xù)的語音分為多個音頻幀,并將得到的多個音頻幀發(fā)送給聲學模塊;
10、2)、聲學模塊將音頻幀轉(zhuǎn)化為聲學模型
11、2.1)、聲學模塊接收語言流模塊發(fā)送來的音頻幀;
12、2.2)、聲學模塊將音頻幀乘以hamming窗函數(shù);
13、2.3)、聲學模塊步驟2.2)中處理后的音頻幀進行fft轉(zhuǎn)化為頻域數(shù)據(jù);
14、2.4)、聲學模塊對頻域數(shù)據(jù)進行處理,生成聲學模型;
15、2.5)、聲學模塊將聲學模型發(fā)送給雙權(quán)寬搜模塊;
16、3)、語言模塊根據(jù)文本知識庫生成一個有向有權(quán)解碼圖,并將此有權(quán)有向解碼圖發(fā)送給雙權(quán)寬搜模塊;
17、4)、雙權(quán)寬搜模塊對聲學模型和有權(quán)有向解碼圖進行處理,初步生成識別結(jié)果
18、4.1)、雙權(quán)寬搜模塊接收聲學模塊發(fā)送來的聲學模型和語言模塊發(fā)送來的有權(quán)有向解碼圖;
19、4.2)、雙權(quán)寬搜模塊設置兩個平衡權(quán)重;
20、4.3)、雙權(quán)寬搜模塊從有向有權(quán)解碼圖的起始節(jié)點開始寬度搜索,并把起始節(jié)點和路徑總損失值添加到下一輪寬搜隊列;
21、4.4)、雙權(quán)寬搜模塊每收到一個音頻幀的聲學模型,均遍歷寬搜隊列取出當前處理節(jié)點與路徑總損失值,并對其進行依次處理,得到新節(jié)點;
22、4.5)、雙權(quán)寬搜模塊使用新節(jié)點獲取詞匯的損失值,并對詞匯的損失值進一步處理得到詞匯的兩路的損失值;
23、4.6)、雙權(quán)寬搜模塊對步驟4.3中的路徑總損失值進一步處理,得到兩個路徑總損失值;
24、4.7)、雙權(quán)寬搜模塊將兩個路徑總損失值與截斷損失值對比,篩選出需要丟棄的路徑,并將未丟棄的路徑進一步處理。
25、4.8)、一段語音的音頻結(jié)束,雙權(quán)寬搜模塊生成路徑的識別結(jié)果和路徑總損失值;
26、4.9)、雙權(quán)寬搜模塊將識別結(jié)果與路徑總損失值發(fā)送識別輸出模塊;
27、5)、識別輸出模塊接收雙權(quán)寬搜模塊發(fā)送來的識別結(jié)果與路徑總損失值,并對二者進一步處理,得到語言識別結(jié)果,并將語言識別結(jié)果輸出。
28、本技術(shù)中需要補充說明的是,在步驟4.2)和步驟4.3之間)還存在一個對于音長的篩選過程:當前處理節(jié)點代表一個詞匯的音素在聲學模型輸出查詢概率值,如果概率值大與同詞閥值,則認為該詞匯的發(fā)音未結(jié)束,把當前處理節(jié)點與路徑總損失值添加下一輪寬搜隊列。如果概率值小于同詞閥值,代表當前處理節(jié)點在有向有權(quán)解碼圖無上下一個節(jié)點,則認為,已經(jīng)找到一些部分識別結(jié)果,把路徑損失值累加到路徑總損失值。再進行步驟4.3)的處理,即把向有權(quán)解碼圖的起始節(jié)點的初始節(jié)點與路徑總損失值初始為零,將路徑總損失值和初始節(jié)點添加到下一輪寬搜隊列,用于是識別剩余的語音,此處的剩余語音,就是經(jīng)過上述步驟后篩選剩余的語音,可以理解為4.3處理的內(nèi)容是經(jīng)過上述步驟音長篩選后的語音。
29、優(yōu)選的,所述步驟1)中,將連續(xù)的語音分為多個音頻幀的具體要求為:
30、兩個相鄰幀之間有1/2重疊區(qū)域。
31、優(yōu)選的,所述步驟2.4)中的具體內(nèi)容包括:
32、2.4.1)、聲學模塊應用mel濾波器組對頻域數(shù)據(jù)中的功率譜進行濾波,模擬人耳聽覺特性;
33、其中,mel濾波器組由一系列三角濾波器組成;
34、2.4.2)、聲學模塊對濾波后的信號取對數(shù),得到fbank特征;
35、2.4.3)、聲學模塊使用fbank特征輸入transformer神經(jīng)網(wǎng)絡編碼器中,輸出結(jié)果作為聲學模型。
36、優(yōu)選的,所述步驟4.4)中依次處理的具體內(nèi)容為:
37、4.4.1)、雙權(quán)寬搜模塊根據(jù)當前處理節(jié)點從有向有權(quán)解碼圖逐一取出所有下個一個節(jié)點與兩節(jié)點邊的權(quán)值,所有下個一個節(jié)點做為新節(jié)點逐一處理;
38、4.4.2)、雙權(quán)寬搜模塊使用一減去兩節(jié)點邊的權(quán)值,獲得兩個節(jié)點邊的損失值。
39、優(yōu)選的,所述步驟4.5)中的具體內(nèi)容為:
40、4.5.1)、雙權(quán)寬搜模塊使用新節(jié)點代表一個詞匯的音素在聲學模型輸出能查詢到的概率值,此概率值為該詞匯的可能性,雙權(quán)寬搜模塊使用一減去該概率值,得到詞匯的損失值;
41、4.5.2)、雙權(quán)寬搜模塊使用步驟4.2)中的兩個平衡權(quán)重乘以步驟4.5.1)中的詞匯的損失值,得到詞匯的兩路的損失值,即平衡權(quán)重高的損失值和平衡權(quán)重低的損失值。
42、優(yōu)選的,所述步驟4.6)的具體內(nèi)容為:雙權(quán)寬搜模塊把步驟4.3)中的路徑總損失值加上步驟4.4.2)兩個節(jié)點邊的損失值,再分別加上步驟4.5.2)中新節(jié)點的詞匯的兩路的損失值,得到兩個路徑總損失值。
43、8、根據(jù)權(quán)利要求2所述的一種基于雙權(quán)重有向圖語音識別方法,其特征在于,所述步驟4.7)中的具體內(nèi)容為:
44、4.7.1)、雙權(quán)寬搜模塊將步驟4.6)中的兩個路徑總損失值與截斷損失值比較;
45、4.7.2)、設定橫斷損失值,如果路徑總損失值大于截斷損失值,則丟棄該路徑;
46、4.7.3)、如果路徑總損失值小于截斷損失值,雙權(quán)寬搜模塊則把新節(jié)點與新路徑總損失值添加下一輪寬搜隊列,一個新節(jié)點最多添加下一輪兩次。
47、優(yōu)選的,所述步驟4.8)中雙權(quán)寬搜模塊生成路徑的識別結(jié)果和路徑總損失值的具體內(nèi)容為:
48、4.8.1)、雙權(quán)寬搜模塊遍歷寬搜隊列取出路徑總損失值;
49、4.8.2)、取路徑的上詞匯,組合成該路徑的初步識別結(jié)果。
50、10、根據(jù)權(quán)利要求2所述的一種基于雙權(quán)重有向圖語音識別方法,其特征在于,所述步驟5)中對識別結(jié)果與路徑總損失值進一步處理的具體內(nèi)容包括:
51、5.1)、設定降低系數(shù)和字符數(shù)閥值,識別輸出模塊對步驟4.8.2)中的初步識別結(jié)果進行特殊詞匯統(tǒng)計,如果超過設定字符數(shù)閥值,則路徑總損失值除以降低系數(shù);字符數(shù)閥值的意思就是對于字符數(shù)量的設定值。
52、5.2)、識別輸出模塊把調(diào)整后路徑總損失值進行從小到大排序;
53、5.3)、識別輸出模塊把路徑總損失值最小的識別結(jié)果作為最終的語言識別結(jié)果輸出。
54、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
55、1、本技術(shù)通過能夠兼顧邏輯語言輸出與非邏輯語音的識別,保留使用語言模型去除影響發(fā)音接近的影響的同時,提高如電話號碼等無邏輯語言的識別率。