專利名稱:半開放式口語試題的測試方法及系統的制作方法
技術領域:
本發明涉及語音識別、語音信號處理、計算機輔助語言學習等領域,尤其涉及一種運用計算機對半開放式口語試題的待測試人員進行錄音,然后通過計算機處理,得到待測試人員半開放式口語試題的總體評分的方法及系統。
背景技術:
語音是信息交流和傳播的主要途徑之一。作為人際交流的重要媒介,口語語言學習在實際生活中占有極其重要的地位。標準的語音是口語和聽力的基礎,它能夠增強日常交流的可靠性,提高交流的流暢度。隨著社會經濟的不斷發展和全球化趨勢的加劇,人們對語言學習的效率以及語言評估測試的客觀性、公正性和規模化測試提出了越來越高的要求。口語的自動評估是根據語音信號的生理特征(如發音準確度、聲調、重音、連讀、 同化、失去爆破、語調、韻律等)和行為特征(如詞匯、語法和句法等語言層次上的運用)對口語質量進行自動化的評估和診斷。口語自動評估和診斷技術以人的語音和語言特征為基礎,以信號處理和模式識別等信息處理技術為手段,融合語音學、語言學和教育學等多學科的理論和知識,具有巨大的發展潛力和應用前景,因此,近年來得到了研究人員的廣泛關注。目前現有的全自動口語評估主要集中在朗讀試題、跟讀試題這類封閉試題中,對半開放式試題、開放式試題則主要靠人工評分完成,其原因在于傳統的評估技術首先進行語音識別,然后在識別結果的基礎上進行發音、流利、韻律等信息的評估。申請人:意識到現有技術存在如下技術缺陷語音識別技術在半開放式口語中識別率較低,造成了在口語半開放式試題中無法真正的應用。
發明內容
(一)要解決的技術問題為解決上述缺陷,本發明提供了一種半開放式口語試題的測試方法及系統,從關鍵內容檢測和文本無關評估技術入手,跳過了對語音識別的依賴,實現了對半開放口語試題的全自動評分。( 二 )技術方案根據本發明的一個方面,提供了一種半開放式口語試題的測試方法。該測試方法包括選擇與被測試對象匹配的聲學模型,利用聲學模型對被測試人員的口語語音進行語音關鍵內容檢測;由檢測結果和得分點數據庫中得分點內容進行匹配;根據匹配情況結合得分點權重獲得被測試人員的內容評分;由檢測結果獲取被測試人員的口語發音質量特征;口語發音質量特征結合發音預測模型,獲得被測試人員的發音評分;對被測試人員的語音進行文本無關流利度評估,獲得語音流利度特征;由語音流利度特征結合流利度預測模型,獲得被測試人員的流利度評分;對被測試人員的語音進行文本無關語音韻律評估,獲
5得語音韻律特征;由語音韻律特征結合語音韻律預測模型,獲得被測試人員的語音韻律評分;利用被測試人員的內容評分、發音評分、流利度評分和語音韻律評分,利用總體預測模型,獲得被測試人員對口語半開放試題的總體評分。優選地,本發明半開放式口語試題的測試方法中,選擇與被測試對象匹配的聲學模型,利用聲學模型對被測試人員的口語語音進行語音關鍵內容檢測的步驟之前還包括: 構建針對被測試對象特點的語音數據庫;對語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型;構建包含半開放式口語試題的得分點內容與得分點權重的得分點數據庫;構建發音評估特征到發音評分的發音預測模型;構建語音流利度特征到語音流利度評分的流利度預測模型;構建語音韻律特征到語音韻律評分的語音韻律預測模型;構建內容評分、發音評分、流利度評分和語音韻律評分至總體評分的預測模型。優選地,本發明半開放式口語試題的測試方法中,構建針對被測試對象特點的語音數據庫的步驟包括分性別,按照對應被測試對象人群的年齡分布尋找年齡相近人群; 按照音素平衡的原則設計錄音樣本;人群中的指定人員按照錄音文本進行錄音,并將語音與對應的文本建立關聯,構建語音數據庫;對語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型的步驟包括對語音數據庫中的每條訓練語音提取12階Mel倒譜、歸一化能量構成共13維作為基本特征;對基本特征通過一階和二階差分得到39維特征;利用訓練語音的特征和語音對應的文本,通過強制對齊算法和前后向算法估計,得到單音子聲學模型;在單音子聲學模型的基礎上,通過設計決策樹和前后向算法,訓練得到三音子聲學模型;在三音子聲學模型的基礎上,通過區分度模型訓練算法,訓練得到具有區分度信息的三音子聲學模型。優選地,本發明半開放式口語試題的測試方法中,構建包含半開放式口語試題的得分點內容與得分點權重的得分點數據庫的步驟具體包括對每個半開放式口語試題收集得分點內容以及得分點的權重,生成關鍵內容檢測需要的得分點數據庫。優選地,本發明半開放式口語試題的測試方法中,選擇與被測試對象特點相符合的聲學模型,利用聲學模型對被測試人員的口語語音進行語音關鍵內容提取與檢測的步驟包括根據被測試人的性別和口語試題,選擇對應的聲學模型、得分點數據庫;對答題語音進行特征提取;運行聲學模型和得分點數據庫,通過語音特征的關鍵內容檢測得到其得分點內容的檢測結果;利用每個單詞的置信度,以及這個單詞每個音素的置信度,使用識別的置信度技術抑制錯誤檢測情況的發生。優選地,本發明半開放式口語試題的測試方法中,由檢測結果獲取被測試人員的口語發音質量特征,通過發音預測模型,獲得被測試人員的發音評分的步驟包括根據關鍵內容檢測的結果中的利用每個單詞的置信度,以及這個單詞每個音素的置信度,得到發音評估的特征;使用發音評估特征到發音評分的預測模型,得到當前語音的發音評分。優選地,本發明半開放式口語試題的測試方法中,對被測試人員的語音進行文本無關流利度評估,獲得語音的流利度特征,由語音的流利度特征和流利度預測模型,獲得被測試人員的流利度評分的步驟包括對句子進行文本無關韻律特征的切分,然后提取廣義流利度特征,該廣義流利度特征包括猶豫度、通順性、連讀和失去爆破;由廣義流利度特征獲取句子的流利度特征,并加權得到篇章總體的流利度特征;提取篇章一級全局廣義流利度特征、文本無關錯誤停頓特征、文本無關重復修正特征;使用流利評估特征到流利評分的預測模型,得到當前語音的流利評分。優選地,本發明半開放式口語試題的測試方法中,對被測試人員的語音進行文本無關語音韻律評估,獲得語音韻律特征,由語音韻律特征和語音韻律預測模型,獲得被測試人員的語音韻律評分的步驟包括提取篇章一級全局韻律特征;使用韻律評估特征到韻律評分預測模型,得到當前語音的韻律評分優選地,本發明半開放式口語試題的測試方法中,獲得被測試人員對口語半開放試題的總體評分的步驟之后還包括將被測試人員的發音、詞匯使用、句型使用、韻律的意見反饋至被測試人員。根據本發明的另一個方面,還提供了一種半開放式口語試題的測試系統。該測試系統包括聲學模型模塊,用于構建針對被測試對象特點的語音數據庫,對語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型;得分點數據庫模塊,用于構建包含半開放式口語試題的得分點內容與得分點權重的得分點數據庫;特征提取模塊,用于選擇與被測試對象特點相符合的聲學模型,利用聲學模型對被測試人員的口語語音進行語音關鍵內容提取;關鍵內容檢測模塊,用于關鍵內容檢測,并由檢測結果和得分點數據庫中得分點內容的匹配情況,結合得分點權重獲得被測試人員的內容評分;發音評分模塊,用于由檢測結果獲取被測試人員的口語發音質量特征,通過預存的發音評估特征到發音評分的發音預測模型,獲得被測試人員的發音評分;流利度評分模塊,用于對被測試人員的語音進行文本無關流利度評估,獲得語音流利度特征,通過預存的語音流利度特征和流利度預測模型,獲得被測試人員的流利度評分;語音韻律評分模塊,用于對被測試人員的語音進行文本無關語音韻律評估,獲得語音韻律特征;通過預存的語音韻律特征和語音韻律預測模型,獲得被測試人員的語音韻律評分;總體評分模塊,用于利用被測試人員的內容評分、發音評分、流利度評分和語音韻律評分,通過預存的內容評分、發音評分、流利度評分和語音韻律評分至總體評分的預測模型,獲得被測試人員對口語半開放試題的總體評分。優選地,本發明半開放式口語試題的測試系統中,關鍵內容檢測模塊,與特征提取模塊、聲學模型模塊和得分點數據庫模塊相連接;發音評分模塊與關鍵內容檢測模塊相連接;流利度評分模塊與特征提取模塊相連接;語音韻律評分模塊與特征提取模塊相連接; 總體評分模塊與內容評分模塊、發音評分模塊、流利度評分模塊、語音韻律評分模塊相連接。(三)有益效果本發明的半開放式口語試題的測試方法及系統具有以下有益效果(1)本發明提出把口語語音的評估分成內容、發音、流利、韻律四個部分,為口語評估工作奠定了基礎;(2)本發明提出了使用語音關鍵內容檢測技術用于半開放式口語試題自動評分, 避免了由于口語語音識別的不魯棒性影響評估的準確性;(3)本發明提出了語音關鍵內容檢測技術框架下的發音質量、流利度、韻律評估技術以提升評估的準確性,對口語評估起到了重要的補充;(4)本發明充分利用了積累的大量具有人工標注的語音數據,考慮了不同性別、不同年齡和不同地域的差異性,測試方法具有良好的推廣性;(5)本發明涉及的檢測出關鍵內容的置信度等參數均可以根據實際情況進行調節,便于用戶使用;(6)本發明不僅可以進行評分,還可以在評測過程中給出被測試人員詞匯使用、句型使用、韻律的一些意見,指導被測試人員矯正。
圖1為本分明實施例半開放式口語試題測試方法的流程圖;圖2為本發明實施例半開放式口語試題測試系統的結構框圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。本分明半開放式口語試題測試方法的完整流程由兩個階段組成模型訓練階段訓練部分包括訓練聲學模型、發音評估特征到發音評分的預測模型、流利度特征到流利評分的預測模型、韻律特征到韻律評分的預測模型、四個模塊評分到總體評分的預測模型。口語半開放式試題全自動評分的方法包括一個模型訓練部分,模型訓練過程包括以下步驟(A)構建針對被測試對象人群特點的語音數據庫,具體包括a. 1 分性別,按照對應被測試對象人群的年齡分布尋找一批年齡相近的人群;a. 2 按照音素平衡的原則設計錄音樣本;a. 3 指定人員按照錄音文本進行錄音,并將語音與對應的文本建立關聯,語音文件名和文本文件取相同的文件名,不同的文件后綴,這樣可以迅速從語音文件獲得其對應的文本內容,從而構建語音數據庫。(B)使用連續語音聲學模型訓練平臺訓練得到聲學模型b. 1 對每條訓練語音提取12階Mel倒譜、歸一化能量構成共13維作為基本特征, 然后通過一階和二階差分得到39維特征;b. 2 利用b. 1生成的訓練語音的特征和語音對應的文本,通過強制對齊算法和前后向算法估計,得到單音子聲學模型;b. 3 在單音子聲學模型的基礎上,通過設計決策樹和前后向算法,訓練得到三音子聲學模型;b. 4 在三音子聲學模型的基礎上,通過區分度模型訓練算法,訓練得到具有區分度信息的三音子聲學模型。(C)對每個半開放式口語試題收集專家制作的得分點內容以及得分點的權重,生成關鍵內容檢測需要的得分點數據庫。(D)預測模型的構建使用已有考題的專家打分和對應的各項特征進行機器打分預測模型估計,用于提高系統性能,對每類口語翻譯試題收集M道被考生試題,通過L個專家給出評分,并將專家的平均分作為每道題的人工評分,然后引入基于預測的方法,構建各個參數到人工分數的映射關系,并將得到的參數保存,作為各個特征到評分的映射模型,這個過程是一個標準調整的過程。這些參數和模型將起到調整和校正的作用。本發明方法涉
8及的預測模型包括發音評估特征到發音評分的預測模型、流利度特征到流利評分的預測模型、韻律特征到韻律評分的預測模型、四個模塊評分到總體評分的預測模型。此預測模型可以是線性模型,也可以是非線性模型(如支持向量機模型、神經網絡模型),以線性模型為
例,得到相應模型的步驟如下公式一所示
ky = β0 + Yj β jXj................................................公式一上述公式一中,β。是常數項,i3」(j = 1,2,3,……k)是第j個特征\的回歸系數,表示在其它特征不變的情況下,特征\每變動一個單位所引起的因變量的變化率;y就是人工分數。訓練步驟中通過對訓練數據各項特征的提取和人工分數的標注,可以通過上述公式計算得到各個回歸系數,這些回歸系數作為預測模型保存在系統中。測試步驟中,提取測試語音的各項特征,代入公式即可得到該語音的預測評分。需要說明的是,步驟B得到具有區分度信息的三音子聲學模型、步驟D使用的各分數預測模型保存到系統中,每次使用只需要重新裝載現有模型,不需要重新訓練模型。口語半開放式試題全自動評分的方法包括一個評分部分,用于利用上述的發音評估特征到發音評分的預測模型、流利度特征到流利評分的預測模型、韻律特征到韻律評分的預測模型、四個模塊評分到總體評分的預測模型對被測試人員的口語水平進行測試,評分過程包括以下步驟(E)語音關鍵內容檢測和內容評分獲取E. 1 根據被測試人的性別和試題,選擇對應的聲學模型、得分點數據庫;E. 2 對答題語音進行特征提取;E. 3 運行聲學模型和得分點數據庫,通過語音特征的關鍵內容檢測得到其得分點內容的檢測結果;E. 4 輸出每個單詞的置信度,以及這個單詞每個音素的置信度。(注置信度信息主要是為了據識)系統使用了拒識功能,使用識別的置信度技術來抑制錯誤檢測情況的發生。根據通過拒識后的檢測內容與得分點數據庫的匹配情況,得到內容評分。其中,檢測結果跟內容得分點的匹配情況是首先得到每道題得分點內容的分組和每個組的分數權重,然后生成一個帶加權信息的標準答案網絡,這個加權網絡作為得分點數據庫進行保存,在測試過程中根據關鍵內容檢測結果與此得分點數據庫進行匹配,將匹配率作為內容評分的來源。(F)發音評分的獲取F. 1 根據(E)中關鍵內容檢測的結果(單詞、時間點、置信度),得到發音評估的特征;F. 2 使用發音評估特征到發音評分的預測模型,得到當前語音的發音評分。(G)流利評分的獲取G. 1 采用多層次融合方法,首先對句子進行文本無關韻律特征的切分,然后提取句子級的廣義流利度特征,在這個基礎上對句子一級特征進行加權得到篇章總體的流利度特征,句子級廣義流利度特征包括G. 1. 1句子表述通順性如句子語速、句子平均語流長、句子有效停頓比例等。G. 1.2句子表達的音素段長這個步驟是為了補償各發音人在語速上的差異對所有發音部分進行歸一化。然后,通過統計相應的上下文無關音素的時長的離散概率分布計算歸一化后時長評分的對數概率,得到某個音素的段長評分。G. 1. 3句子表述的韻律性根據檢測結果,選取匹配的單詞和標準發音對應單詞進行韻律距離的比較,分能量、基頻、段長對所有音素進行打分,得到在能量、基頻、段長和標準音的距離得分,然后進行加權。G. 2 提取篇章一級全局廣義流利度特征(如整體語速、整體平均語流長、整體有效停頓比例等信息)、文本無關錯誤停頓特征、文本無關重復修正特征;G. 3 使用流利評估特征到流利評分的預測模型,得到當前語音的流利評分。(H)韻律評分的獲取H. 1 提取篇章一級全局韻律特征,其中包括4類特征H. 1. 1語調類型特征包括發音者發音過程中基頻隨時間的變化信息;H. 1. 2重音類型特征包含詞匯重音和韻律重音的準確性;H. 1. 3停頓類型特征包含句子和意群停頓的準確性;H. 1. 4段長類型特征整體語流中各音素段長的宏觀分布情況。H. 2 使用韻律評估特征到韻律評分的預測模型,得到當前語音的韻律評分。需要說明的是,綜合E、F、G、H提到的四項評分,通過使用四個模塊評分到總體評分的預測模型,獲得最終評分,并且給出反饋意見。需要說明的是,以上利用預測模型對各項評分的順序可以根據需要調整,并不一定按照上述的順序進行,同樣應包含在本發明的保護范圍之內。此外,步驟F、G、H涉及的被測試人員發音質量、流利度、韻律的評估是用于具備一定口語能力的被測試人員,如果測試過程步驟E中內容得分低于一個閥值,將不進行這三項評估。評分階段運用數字信號處理理論和計算機語言處理技術對被測試人的口語翻譯錄音進行評分,使得系統給出的最終評分盡可能的接近專家的人工評分。以上步驟A-H從原理角度對本發明的模型準備、訓練、測試各階段進行了說明。以下從具體實施測試的角度,對本發明進行具體闡述。圖1是本發明實施例半開放式口語試題測試方法的流程圖,如圖1所示,本實施例包括以下步驟步驟100,被測試人員根據顯示的文字或者一組圖片(視頻)進行口語半開放試題的作答;步驟101,進行語音信號采集,將被測試人員發音的模擬信號轉變為數字信號,并保存在計算機中;步驟102,對語音的數字信號分幀處理,并且對每幀提取相應的特征。其中特征分成三類用于關鍵內容檢測引擎的特征包括能量,MFCC參數等共39維,在本實施例中,此特征采用現有技術手段提取,如英國劍橋大學發布的Hidden Makov Model Toolkit 3. 4版本中有工具HCopy提取39維特征;用于文本無關流利評估引擎的特征包括時長特征、基頻特征、能量特征、停頓特征,這些特征都采用現有技術手段提取;用于文本無關韻律評估引擎的特征包括語調類型特征、重音類型特征、停頓類型特征、段長類型特征,這些特征都采用現有技術手段提取。步驟103,根據被測試人員的性別和當前口語半開放式試題,選擇使用的聲學模型和得分點數據庫,利用語音關鍵內容檢測引擎對特征序列進行檢測,識別得到一系列得分點內容,同時生成每個內容的置信度,起始終止時間,以及內容中每個音素的置信度、起始終止時間,通過得分點內容和置信度可以獲得答題的內容得分,關鍵內容檢測可以通過現有關鍵詞檢測技術手段獲得,如通過發明人之一的已發表文獻“A System Combination Based Keyword-spotting Method Using Complementary Acoustic Models(Meng MENG, Xiao-Rui WANG, Jia-En LIANG, Bo XU, Journal :Acta Automatica Sinica, vol. 35, no. 1, pp. 39-45,2009)”進行,通過對檢測出內容的發音評估可以獲取發音評分。同時利用文本無關流利評估引擎對答題語音進行文本無關流利度評估,可以獲得流利評分,此技術可以通過現有技術手段獲得,如通過發明人之一的已發表文獻“輔助語音測試系統中一種流利度自動測試方法(黃申,李宏言,王士進,梁家恩,徐波,第十屆全國人機語音通訊學術會議,2009) ” ;同時利用文本無關韻律評估引擎對答題語音進行文本無關韻律評估,可以獲得韻律評分,此技術可以通過現有技術手段獲得,如通過發明人之一的已發表文獻 “automatic reference independent evaluation of prosody quality using multiple knowledge fusions(Shen Huang, Hongyan Li, Shijin Wang, Jiaen Liang, Bo Xu, In INTERSPEECH-2010,610-613,2010)”。當然以上信息的提取也可用所屬技術領域人員知悉的其他方法獲取。步驟104,根據步驟103得到的四項評分,使用相應的標準調校模型得到最終的評分。此模型可以是線性回歸預測模型、SVM預測模型、人工神經網絡預測模型或者其他所屬技術領域人員知悉的方法實現。步驟105,根據以上結果對本次測試做出評判,同時根據發音評分的結果給出發音的指導意見;根據關鍵內容檢測的結果給出詞匯、句型使用的指導意見;根據韻律評分的結果給出韻律的指導意見。圖2為本發明實施例半開放式口語試題測試系統的結構框圖。實現本實施例的半開放式口語試題測試系統運行于微軟視窗操作系統,包括聲學模型模塊202、得分點數據庫模塊204、語音特征提取模塊206、關鍵內容檢測模塊208、發音評分模塊210、流利度評分模塊212、語音韻律評分模塊214、總體評分模塊216、評價反饋模塊218。其中,聲學模型模塊202,用于構建針對被測試對象特點的語音數據庫,對語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型。得分點數據庫模塊204,用于構建包含半開放式口語試題的得分點內容與得分點權重的得分點數據庫。特征提取模塊202, 用于選擇與被測試對象特點相符合的聲學模型,利用聲學模型對被測試人員的口語語音進行語音關鍵內容提取。關鍵內容檢測模塊208,與特征提取模塊、聲學模型模塊和得分點數據庫模塊相連接,用于關鍵內容檢測,并由檢測結果和得分點數據庫中得分點內容的匹配情況,結合得分點權重獲得被測試人員的內容評分。發音評分模塊210,與關鍵內容檢測模塊相連接,用于由檢測結果獲取被測試人員的口語發音質量特征,通過預存的發音評估特征到發音評分的發音預測模型,獲得被測試人員的發音評分。流利度評分模塊212,與特征提取模塊相連接,用于對被測試人員的語音進行文本無關流利度評估,獲得語音流利度特征,通過預存的語音流利度特征和流利度預測模型,獲得被測試人員的流利度評分。語音韻律評分模塊214,與特征提取模塊相連接,用于對被測試人員的語音進行文本無關語音韻律評估,獲得語音韻律特征;通過預存的語音韻律特征和語音韻律預測模型,獲得被測試人員的語音韻律評分。總體評分模塊216,與內容評分模塊、發音評分模塊、流利度評分模塊、語音韻律評分模塊相連接,用于利用被測試人員的內容評分、發音評分、流利度評分和語音韻律評分,通過預存的內容評分、發音評分、流利度評分和語音韻律評分至總體評分的預測模型,獲得被測試人員對口語半開放試題的總體評分。評價反饋模塊218,與總體評分模塊相連接,用于將被測試人員的發音、詞匯使用、句型使用、韻律的意見反饋至被測試人員。本發明半開放式口語試題測試系統對被測試人員的口語進行評測的過程包括步驟一被測試人員口語半開放式試題被錄音后,首先進入語音特征提取模塊 206提取分幀的特征,該語音特征包含供關鍵內容檢測模塊208使用的特征、供流利度評分模塊212使用的特征、供語音韻律評分模塊214使用的特征;步驟二 進入關鍵內容檢測模塊208,根據被測試人員的性別和當前試題,選擇合適的聲學模型202、得分點數據庫模塊204,對提取出的供關鍵內容檢測模塊208使用的特征,利用語音關鍵內容檢測引擎對特征序列進行關鍵內容檢測,流轉至內容評分模塊,得到內容評分;步驟三發音評分模塊210對檢測到的內容進行發音評估,得到發音評分;步驟四對提取出的供流利度評分模塊212使用的特征,流利度評分模塊212進行文本無關的流利度評估,得到流利度評分;步驟五對提取出的供語音韻律評分模塊214使用的特征,文本無關的語音韻律評分模塊210進行文本無關的韻律評估,得到韻律評分;步驟六最后,進入總體評分模塊216,根據四個模塊的評分,得到被測試人員的語音總體評分;步驟七評價反饋模塊218把被測試人員的發音、詞匯使用、句型使用、韻律的一些意見反饋出來。綜上所述,本發明針對口語半開放式試題中語音識別準確率低的特點,綜合使用了計算機語音關鍵內容檢測技術、發音評估技術、文本無關流利度評估技術、文本無關韻律評估技術得到被測試人員的半開放式口語試題答題的總體評分,可以達到與專家打分接近的水平,在大規模考試系統中有較大的應用價值,并且不受語種的限制。本發明可以用于口語考試或者口語訓練軟件中的口語問答試題、看圖說話、看視頻說話和相似試題的口語評分;可以運用于漢語、英語等各種語言的口語半開放式試題評分。以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施例而已,并不用于限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種半開放式口語試題的測試方法,其特征在于,該測試方法包括步驟A,選擇與被測試對象匹配的聲學模型,利用所述聲學模型對被測試人員的口語語音進行語音關鍵內容提取與檢測;步驟B,由所述檢測結果和得分點數據庫中得分點內容進行匹配;根據匹配情況結合得分點權重獲得所述被測試人員的內容評分;步驟C,由所述檢測結果獲取所述被測試人員的口語發音質量特征;所述口語發音質量特征結合發音預測模型,獲得所述被測試人員的發音評分;步驟D,對所述被測試人員的語音進行文本無關流利度評估,獲得語音流利度特征;由所述語音流利度特征結合流利度預測模型,獲得所述被測試人員的流利度評分;步驟E,對所述被測試人員的語音進行文本無關語音韻律評估,獲得語音韻律特征;由所述語音韻律特征結合語音韻律預測模型,獲得所述被測試人員的語音韻律評分;步驟F,利用所述被測試人員的內容評分、發音評分、流利度評分和語音韻律評分,利用總體預測模型,獲得所述被測試人員對所述口語半開放試題的總體評分。
2.根據權利要求1所述的半開放式口語試題的測試方法,其特征在于,所述步驟A之前還包括構建聲學模型、發音預測模型、流利度預測模型、語音韻律預測模型及預測模型,該構建過程具體包括步驟A',構建針對被測試對象特點的語音數據庫;對所述語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型;步驟B',構建包含所述半開放式口語試題的得分點內容與得分點權重的得分點數據庫;步驟C',構建發音評估特征到發音評分的發音預測模型; 步驟D',構建語音流利度特征到語音流利度評分的流利度預測模型; 步驟E',構建語音韻律特征到語音韻律評分的語音韻律預測模型; 步驟F',構建所述內容評分、發音評分、流利度評分和語音韻律評分至總體評分的預測模型。
3.根據權利要求2所述的半開放式口語試題的測試方法,其特征在于,所述步驟A'中所述構建針對被測試對象特點的語音數據庫的步驟包括分性別,按照對應被測試對象人群的年齡分布尋找年齡相近人群;按照音素平衡的原則設計錄音樣本;所述人群中的指定人員按照錄音文本進行錄音,并將語音與對應的文本建立關聯,構建語音數據庫;所述對語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型的步驟包括對所述語音數據庫中的每條訓練語音提取12階Mel倒譜、歸一化能量構成共13維作為基本特征;對所述基本特征通過一階和二階差分得到39維特征;利用訓練語音的特征和語音對應的文本,通過強制對齊算法和前后向算法估計,得到單音子聲學模型;在單音子聲學模型的基礎上,通過設計決策樹和前后向算法,訓練得到三音子聲學模型;在三音子聲學模型的基礎上,通過區分度模型訓練算法,訓練得到具有區分度信息的三音子聲學模型。
4.根據權利要求3所述的半開放式口語試題的測試方法,其特征在于,所述步驟B'具體包括對每個半開放式口語試題收集得分點內容以及得分點的權重,生成關鍵內容檢測需要的得分點數據庫。
5.根據權利要求1所述的半開放式口語試題的測試方法,其特征在于,所述步驟A包括根據被測試人的性別和口語試題,選擇對應的聲學模型、得分點數據庫; 對答題語音進行特征提取;運行聲學模型和得分點數據庫,通過語音特征的關鍵內容檢測得到其得分點內容的檢測結果;利用所述每個單詞的置信度,以及這個單詞每個音素的置信度,使用識別的置信度技術抑制錯誤檢測情況的發生。
6.根據權利要求5所述的半開放式口語試題的測試方法,其特征在于,所述步驟C包括根據關鍵內容檢測的結果中的所述每個單詞的置信度,以及這個單詞每個音素的置信度,得到發音評估的特征;使用發音評估特征到發音評分的預測模型,得到當前語音的發音評分。
7.根據權利要求6所述的半開放式口語試題的測試方法,其特征在于,所述步驟D包括對句子進行文本無關韻律特征的切分,然后提取廣義流利度特征,該廣義流利度特征包括猶豫度、通順性、連讀和失去爆破;由所述廣義流利度特征獲取句子的流利度特征,并加權得到篇章總體的流利度特征; 提取篇章一級全局廣義流利度特征、文本無關錯誤停頓特征、文本無關重復修正特征;使用所述語音流利度特征和流利度預測模型,得到當前語音的流利評分。
8.根據權利要求7所述的半開放式口語試題的測試方法,其特征在于,所述步驟E中, 所述語音韻律特征為篇章一級全局韻律特征。
9.根據權利要求8所述的半開放式口語試題的測試方法,其特征在于,所述獲得所述被測試人員對所述口語半開放試題的總體評分的步驟之后還包括將被測試人員的發音、詞匯使用、句型使用、韻律的意見反饋至被測試人員。
10.一種半開放式口語試題的測試系統,其特征在于,該測試系統包括聲學模型模塊,用于構建針對被測試對象特點的語音數據庫,對所述語音數據庫使用連續語音聲學模型訓練平臺訓練得到聲學模型;得分點數據庫模塊,用于構建包含所述半開放式口語試題的得分點內容與得分點權重的得分點數據庫;特征提取模塊,用于選擇與被測試對象特點相符合的聲學模型,利用所述聲學模型對被測試人員的口語語音進行語音關鍵內容提取;關鍵內容檢測模塊,用于關鍵內容檢測,并由所述檢測結果和得分點數據庫中得分點內容的匹配情況,結合得分點權重獲得所述被測試人員的內容評分;發音評分模塊,用于由所述檢測結果獲取所述被測試人員的口語發音質量特征,通過預存的發音評估特征到發音評分的發音預測模型,獲得所述被測試人員的發音評分;所述流利度評分模塊,用于對所述被測試人員的語音進行文本無關流利度評估,獲得語音流利度特征,通過預存的所述語音流利度特征和所述流利度預測模型,獲得所述被測試人員的流利度評分;語音韻律評分模塊,用于對所述被測試人員的語音進行文本無關語音韻律評估,獲得語音韻律特征;通過預存的所述語音韻律特征和所述語音韻律預測模型,獲得所述被測試人員的語音韻律評分;總體評分模塊,用于利用所述被測試人員的內容評分、發音評分、流利度評分和語音韻律評分,通過預存的內容評分、發音評分、流利度評分和語音韻律評分至總體評分的預測模型,獲得所述被測試人員對所述口語半開放試題的總體評分。
11.根據權利要求10所述的半開放式口語試題的測試系統,其特征在于,所述關鍵內容檢測模塊,與所述特征提取模塊、所述聲學模型模塊和所述得分點數據庫模塊相連接;所述發音評分模塊與所述關鍵內容檢測模塊相連接; 所述流利度評分模塊與所述特征提取模塊相連接; 所述語音韻律評分模塊與所述特征提取模塊相連接;所述總體評分模塊與所述內容評分模塊、發音評分模塊、流利度評分模塊、語音韻律評分模塊相連接。
12.根據權利要求10所述的半開放式口語試題的測試系統,其特征在于,該系統還包括評價反饋模塊,與所述總體評分模塊相連接,用于將被測試人員的發音、詞匯使用、句型使用、韻律的意見反饋至被測試人員。
全文摘要
本發明提供了一種半開放式口語試題的測試方法及系統,從關鍵內容檢測和文本無關評估技術入手,跳過了對語音識別的依賴,實現了對半開放口語試題的全自動評分。本發明提出把口語語音的評估分成內容、發音、流利、韻律四個部分,為口語評估工作奠定了基礎。
文檔編號G10L11/00GK102354495SQ20111025421
公開日2012年2月15日 申請日期2011年8月31日 優先權日2011年8月31日
發明者徐波, 李宏言, 李鵬, 柯登峰, 王士進, 陳振標, 高鵬 申請人:中國科學院自動化研究所