麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于特征融合的英語口語自動評分方法與流程

文檔序號:12678422閱讀:350來源:國知局
一種基于特征融合的英語口語自動評分方法與流程

本發明涉及音頻處理領域,尤其涉及一種基于特征融合的英語口語自動評分方法。



背景技術:

當前計算機輔助評估系統已經逐漸成為研究的熱點之一。尤其在大規模考試中,它已經開始逐漸取代老師,這將成為教育界的一場重大變革。隨著語音識別技術的發展,語音評估系統也逐漸發展起來。它主要通過計算機給人的發音進行評測,這樣的系統不僅評分準確,而且可以大大提高效率,節約人力。

針對口語考試題型的評分大體分為兩類:一類是從語音的角度評分,一類是從文本的角度評分。純粹基于語音的評分主要涉及到發音、頻率和韻律等聲學層面的特征。如果一個評分系統僅僅從語音的角度評分,而不考慮所表達內容的語法結構,那么這個自動評分系統仍舊不是一個完整的理想系統。



技術實現要素:

為了克服上述現有技術中的不足,本發明的目的在于,提供一種評測效率且降低了對人力工作的依賴程度的基于特征融合的英語口語自動評分方法,方法包括:

S1:輸入語音信號和文本;

S2:對輸入的語音信號提取特征參數;

S3:利用模式對比的方式對標準語音和待評語音的特征參數進行比較;

S4:利用文本對齊方式對朗讀文本和待評語音識別文本進行特征比較;

S5:評分機制根據特征相似度對語音作出評價。

優選地,所述步驟S1包括如下步驟:

S1.1輸入標準語音信號;

S1.2輸入標準朗讀文本;

S1.3輸入英語縮略詞及完整形式對照.

優選地,所述步驟S2還包括如下步驟:

S2.1提取梅爾倒譜參數特征;

S2.2提取基頻變化軌跡特征;

優選地,所述步驟S2.1還包括如下步驟:

S2.11將信號進行分幀,預加重和加漢明窗處理,然后進行短時傅里葉變換并得到其頻譜;

S2.12求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的。因此將每個濾波器頻帶內的能量進行疊加,這時第k個濾波器輸出功率譜x'(k);

S2.13將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜;并進行反離散余弦變換,得到L個MFCC系數,一般L取12~16個左右。MFCC系數為

S2.14將這種直接得到的MFCC特征作為靜態特征,再將這種靜態特征做一階和二階差分,得到相應的動態特征。

優選地,所述步驟S3還包括如下步驟:

利用梅爾倒譜參數特征比較方式以及基音變化軌跡特征比較方式對標準語音和待評語音的特征參數進行比較。

優選地,所述利用梅爾倒譜參數特征比較方式包括:

(1)假設參考標準語音的MFCC特征向量為M1=[m1(1),m1(2),…,m1(T)],(T為參考語音的長度);

(2)待評價語音的MFCC特征向量為M2=[m2(1),m2(2),…,m2(S)],(S為待評價語音的長度);

(3)使用改進的DTW算法,得到一條誤差最小的對齊路徑和對應的DTW距離;

(4)該距離是待評價的輸入語音與參考標準語音的MFCC特征參數的比較結果,反映了兩段語音在內容上的發音差別。

優選地,所述利用基音變化軌跡特征比較方式包括:

(1)假設參考標準語音的基音特征向量為P1=[p1(1),p1(2),…,p1(R)],其一階差分向量為PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R為參考語音的長度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;

(2)待評價的輸入語音的基音特征向量為P2=[p2(1),p2(2),…,p2(T)],其一階差分向量為PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T為待評價語音的長度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;

(3)基于上節得到的DTW最佳對齊路徑,在對齊的位置進行基音特征比較;

(4)求取基音的差距dp,與其變化量的差距Δdp,來獲得輸入語音與參考標準語音的基音的相似度,即:

dp=|p1(n)-p2(m)| (2)

Δdp=|Δp1(n)-Δp2(m)| (3)

其中,Δpi(n)=|pi(n)-pi(n-1)|(4)。

優選地,所述步驟S4文本進行單詞填充對齊之前所做規定和假設為:

考生作答的答案均是字母字符、數字字符和標點符號字符,不包括圖形、圖案、圖片;

評分時考生答案與標準答案嚴格匹配,不考慮近義詞、同義詞或語義問題;

考生得分只與考生答案的答對字符數、漏字字符數和加字字符數有關。

優選地,所述步驟S4還包括如下步驟:

S4.1獲取標準答案A,查看標準答案中是否存在縮略詞(如I’m),若存在則將縮略詞展開(I am),統計標準答案單詞個數N(定冠詞、不定冠詞、標點符號不計),獲取詞頻(即某一個給定的詞語在文件中出現的次數)向量V,標記每個單詞的實際位置及單詞本身、前向單詞和后向單詞在向量V中的位置,判斷標準答案中是否有重復單詞;

S4.2獲取考生答案a,查看考生答案中是否存在縮略詞(如I’m),若存在則將縮略詞展開(I am),統計考生答案單詞個數n(定冠詞、不定冠詞、標點符號不計),將其在標準答案中不存在的單詞(即無效單詞)補充到向量V的后面形成新的詞頻向量v,標記有效單詞的實際位置及單詞本身、前向單詞和后向單詞在向量v中的位置,判斷考生答案中是否有重復單詞;S4.3創建長度為n的數組R用來標記考生答案中重復單詞的位置,逐個比較考生答案詞頻向量v與標準答案詞頻向量V的單詞位置信息,若v中某一單詞的前向單詞或后向單詞在向量中的位置與V中同一單詞的前向單詞或后向單詞在向量中的位置相同,則統計其出現的次數,當單詞出現次數大于1時則將該單詞實際位置標記為1表示重復,反之與V中同一單詞的前向單詞和后向單詞在向量中的位置都不相同,也將該單詞實際位置標記為1表示重復;S4.4依據標記數組R去掉考生答案中的重復單詞,更新考生答案字符串a和考生答案單詞個數n;

S4.5比較標準答案和考生答案的單詞個數,若是n/N<0.2,或N/n>1.5,則該考生答案判分為0,評分結束;否則繼續向下執行步驟S4.6S4.6設置長度為N的空字符數組B,并初始化為0的兩計數器C、D分別統計考生答案中有效單詞的個數和無效單詞的個數,且設置考生答案中的任一單詞與標答中的單詞最大比較次數為L;

S4.7將字符串a中的第一個單詞a0與字符串A中的第一個單詞A0進行比較,若相等,將a0賦值給B0,有效單詞個數C加1;若不相等,則繼續與標答中單詞Aj,(0<j<N)進行比較,直到比較結果相等或比較次數大于L或j=N則比較結束,若比較結果相等,則將a0賦值到Bj,(0<j<N)中,有效單詞個數C加1,若比較次數大于L或j=N則無效單詞個數D加1;

S4.8循環對字符串a中剩余的單詞ai,(0<i<n)與標答A中Aj之后的單詞進行比較,直到循環比較結束獲得新的字符數組B,有效單詞個數C和無效單詞個數D;

S4.9比較標準答案和有效單詞及無效單詞的個數,若是C/N<0.2,或D/N>0.5,則該考生答案判分為0,評分結束;否則繼續向下執行步驟S4.10;

S4.10統計R中連續單詞的個數,非連續單詞則認為是無效單詞;

S4.11有效單詞個數C與標準答案單詞個數N的百分比表示正確率,若考生答案單詞個數n減去重復單詞個數后長度仍大于標準答案單詞個數N則需要先計算標準答案單詞個數N與有效單詞個數C的差d,然后無效單詞D減去d得到長度與標答相同后仍多余的無效單詞c,用有效單詞個數C減去c的結果與標準答案單詞個數N的百分比表示正確率。優選地,所述步驟S5包括如下步驟:

S5.1評分參數相互獨立的加權組合;

S5.2評分參數之間的相互聯系性作為評分的一部分。

從以上技術方案可以看出,本發明具有以下優點:

本發明針對英語口語考試朗讀題型提出了基于特征融合的英語口語自動評分方法,綜合從語音角度和文本角度進行評分;提出了文本對齊比較的具體算法;設計了基于多個特征的關聯性評分機制,從一個比較全面的角度去衡量語音的朗讀質量。

附圖說明

為了更清楚地說明本發明的技術方案,下面將對描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為英語口語自動評分系統流程圖。

圖2為MFCC提取流程框圖。

圖3為文本評測方法流程圖。

圖4為DTW算法流程圖。

圖5為MFCC特征比較流程圖。

圖6為基音變化軌跡比較流程圖。

圖7為評分流程圖。

具體實施方式

為使得本發明的發明目的、特征、優點能夠更加的明顯和易懂,下面將運用具體的實施例及附圖,對本發明保護的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發明一部分實施例,而非全部的實施例?;诒緦@械膶嵤├?,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本專利保護的范圍。

本發明提供一種基于特征融合的英語口語自動評分方法,如圖1至7所示,方法包括:

目前,通過語音識別將語音轉寫為文本已不是難題,但由于參加考試的考生口語水平參差不齊,考生答案文本必定也是多種多樣,漏寫、加詞、換詞都是可能存在的情況,因此,在對考生答案文本進行判分之前,必須先對其進行詞對齊。

S1:輸入語音信號和文本;

S2:對輸入的語音信號提取特征參數;

S3:利用模式對比的方式對標準語音和待評語音的特征參數進行比較;

S4:利用文本對齊方式對朗讀文本和待評語音識別文本進行特征比較;

S5:評分機制根據特征相似度對語音作出評價。

其中,所述步驟S1包括如下步驟:

S1.1輸入標準語音信號;

S1.2輸入標準朗讀文本;

S1.3輸入英語縮略詞及完整形式對照.

本實施例中,所述步驟S2還包括如下步驟:

S2.1提取梅爾倒譜參數特征;

S2.2提取基頻變化軌跡特征;

本實施例中,所述步驟S2.1還包括如下步驟:

S2.11將信號進行分幀,預加重和加漢明窗處理,然后進行短時傅里葉變換并得到其頻譜;

S2.12求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的。因此將每個濾波器頻帶內的能量進行疊加,這時第k個濾波器輸出功率譜x'(k);

S2.13將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜;并進行反離散余弦變換,得到L個MFCC系數,一般L取12~16個左右。MFCC系數為

S2.14將這種直接得到的MFCC特征作為靜態特征,再將這種靜態特征做一階和二階差分,得到相應的動態特征。

本實施例中,所述步驟S3還包括如下步驟:

利用梅爾倒譜參數特征比較方式以及基音變化軌跡特征比較方式對標準語音和待評語音的特征參數進行比較。

本實施例中,所述利用梅爾倒譜參數特征比較方式包括:

(1)假設參考標準語音的MFCC特征向量為M1=[m1(1),m1(2),…,m1(T)],(T為參考語音的長度);

(2)待評價語音的MFCC特征向量為M2=[m2(1),m2(2),…,m2(S)],(S為待評價語音的長度);

(3)使用改進的DTW算法,得到一條誤差最小的對齊路徑和對應的DTW距離;

(4)該距離是待評價的輸入語音與參考標準語音的MFCC特征參數的比較結果,反映了兩段語音在內容上的發音差別。

本實施例中,所述利用基音變化軌跡特征比較方式包括:

(1)假設參考標準語音的基音特征向量為P1=[p1(1),p1(2),…,p1(R)],其一階差分向量為PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R為參考語音的長度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;

(2)待評價的輸入語音的基音特征向量為P2=[p2(1),p2(2),…,p2(T)],其一階差分向量為PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T為待評價語音的長度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;

(3)基于上節得到的DTW最佳對齊路徑,在對齊的位置進行基音特征比較;

(4)求取基音的差距dp,與其變化量的差距Δdp,來獲得輸入語音與參考標準語音的基音的相似度,即:

dp=|p1(n)-p2(m)| (2)

Δdp=|Δp1(n)-Δp2(m)| (3)

其中,Δpi(n)=|pi(n)-pi(n-1)| (4)。

本實施例中,所述步驟S4文本進行單詞填充對齊之前所做規定和假設為:

考生作答的答案均是字母字符、數字字符和標點符號字符,不包括圖形、圖案、圖片;

評分時考生答案與標準答案嚴格匹配,不考慮近義詞、同義詞或語義問題;

考生得分只與考生答案的答對字符數、漏字字符數和加字字符數有關。

本實施例中,在實際的英語口語考試中錄音中,經常會出現考生漏讀、重讀的問題,針對這種情況,需要特殊處理。所述步驟S4還包括如下步驟:

S4.1獲取標準答案A,查看標準答案中是否存在縮略詞(如I’m),若存在則將縮略詞展開(I am),統計標準答案單詞個數N(定冠詞、不定冠詞、標點符號不計),獲取詞頻(即某一個給定的詞語在文件中出現的次數)向量V,標記每個單詞的實際位置及單詞本身、前向單詞和后向單詞在向量V中的位置,判斷標準答案中是否有重復單詞;

S4.2獲取考生答案a,查看考生答案中是否存在縮略詞(如I’m),若存在則將縮略詞展開(I am),統計考生答案單詞個數n(定冠詞、不定冠詞、標點符號不計),將其在標準答案中不存在的單詞(即無效單詞)補充到向量V的后面形成新的詞頻向量v,標記有效單詞的實際位置及單詞本身、前向單詞和后向單詞在向量v中的位置,判斷考生答案中是否有重復單詞;

S4.3創建長度為n的數組R用來標記考生答案中重復單詞的位置,逐個比較考生答案詞頻向量v與標準答案詞頻向量V的單詞位置信息,若v中某一單詞的前向單詞或后向單詞在向量中的位置與V中同一單詞的前向單詞或后向單詞在向量中的位置相同,則統計其出現的次數,當單詞出現次數大于1時則將該單詞實際位置標記為1表示重復,反之與V中同一單詞的前向單詞和后向單詞在向量中的位置都不相同,也將該單詞實際位置標記為1表示重復;

S4.4依據標記數組R去掉考生答案中的重復單詞,更新考生答案字符串a和考生答案單詞個數n;

S4.5比較標準答案和考生答案的單詞個數,若是n/N<0.2,或N/n>1.5,則該考生答案判分為0,評分結束;否則繼續向下執行步驟S4.6

S4.6設置長度為N的空字符數組B,并初始化為0的兩計數器C、D分別統計考生答案中有效單詞的個數和無效單詞的個數,且設置考生答案中的任一單詞與標答中的單詞最大比較次數為L;

S4.7將字符串a中的第一個單詞a0與字符串A中的第一個單詞A0進行比較,若相等,將a0賦值給B0,有效單詞個數C加1;若不相等,則繼續與標答中單詞Aj,(0<j<N)進行比較,直到比較結果相等或比較次數大于L或j=N則比較結束,若比較結果相等,則將a0賦值到Bj,(0<j<N)中,有效單詞個數C加1,若比較次數大于L或j=N則無效單詞個數D加1;

S4.8循環對字符串a中剩余的單詞ai,(0<i<n)與標答A中Aj之后的單詞進行比較,直到循環比較結束獲得新的字符數組B,有效單詞個數C和無效單詞個數D;

S4.9比較標準答案和有效單詞及無效單詞的個數,若是C/N<0.2,或D/N>0.5,則該考生答案判分為0,評分結束;否則繼續向下執行步驟S4.10;

S4.10統計R中連續單詞的個數,非連續單詞則認為是無效單詞;

S4.11有效單詞個數C與標準答案單詞個數N的百分比表示正確率,若考生答案單詞個數n減去重復單詞個數后長度仍大于標準答案單詞個數N則需要先計算標準答案單詞個數N與有效單詞個數C的差d,然后無效單詞D減去d得到長度與標答相同后仍多余的無效單詞c,用有效單詞個數C減去c的結果與標準答案單詞個數N的百分比表示正確率。

語音評分的目的是為了顯示這段聲音的發音是否正確規范,語調是否符合要求。分數越高,則表明對這段聲音的滿意度越高,反之,低分數表明這段聲音的發音不夠準確或沒達到滿意的要求。評分機制除了把評分參數相互獨立的加權組合,還把評分參數之間的相互聯系性作為評分的一部分,從一個比較全面的角度去衡量語音的朗讀質量。

評價分數可定義為:

scores(P,M,T)=k1 P+k2M+k3 T+K4PMT (5)

其中k1,k2,k3,k4為各評分參數在評分中的權值,P為基頻變化相似度,M為MFCC特征相似度,T為文本相似度。權值的選擇可以根據不同的要求或評分的側重點不同而有所不同。為了使計算機能夠更好地模擬語言專家的評分,可以對權值進行訓練,找出計算機評分和人工評分的一個最佳映射關系。

本實施例中,所述步驟S5包括如下步驟:

S5.1評分參數相互獨立的加權組合;

S5.2評分參數之間的相互聯系性作為評分的一部分。

本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參考即可。

對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 普陀区| 营口市| 安泽县| 平安县| 成安县| 湾仔区| 公安县| 滦南县| 织金县| 白河县| 龙江县| 汕尾市| 大连市| 鹤峰县| 石嘴山市| 夏邑县| 疏勒县| 宝丰县| 襄汾县| 松溪县| 浦县| 托克逊县| 河南省| 青阳县| 即墨市| 黔西县| 达孜县| 都兰县| 鄂托克旗| 东宁县| 齐河县| 大邑县| 双柏县| 镇远县| 乌鲁木齐市| 依兰县| 石城县| 菏泽市| 宁安市| 余姚市| 利辛县|