一種適用于混響環境的漢語語音清晰度評測算法的制作方法

文檔序號：12476060閱讀：934來源：國知局

本發明屬于聲頻測量領域，特別涉及一種適用于混響環境的漢語語音清晰度客觀評測算法。

背景技術：

語音清晰度是衡量語音傳輸系統性能優劣的重要評價指標，清晰度評測在通信、擴聲、音質設計等領域廣泛應用，一般用正確接收的語言單位(比如單音節)與全部發送語言單位的比值度量清晰度。清晰度的評測方法分為主觀評測和客觀評測兩類，主觀評測方法是組織人員進行現場清晰度測試打分，盡管主觀評測結果直接準確，但實際操作困難，因此工程中更多采用客觀評測方法。清晰度客觀評測是用某個客觀量評價系統的清晰度，這個客觀量是根據一定的計算模型計算得到的，并且是與主觀評測結果高度相關的。聲頻技術領域使用的語音清晰度客觀評測指標主要有：清晰度指數AI(Articulation Index)，輔音損失率％Alcon(Articulation loss of consonant)，語言傳輸指數STI(Speech Transmission Index)等，這些客觀評測方法均有其各自的計算模型，采用不同的信號處理方法，適用于不同的條件和場合。然而，將這些評測方法直接應用到漢語聲傳播環境的清晰度評測時會出現失效的問題，即客觀評測結果與漢語語音清晰度主觀測試結果不匹配，客觀評測結果較差對應的漢語實際聽聞感受可能尚可，而客觀評測結果較好對應的漢語實際聽感可能不佳。

分析現有技術評測漢語語音清晰度失效原因可知清晰度客觀評測算法的可靠性與評測對象自身的特性有關，現有的清晰度客觀評測方法是根據荷蘭語或英語等印歐語系語言特性提出的，并沒有考慮漢語的語音學和語言學特性。漢語屬于漢藏語系，是一種聲調語言，聲調起到辨義作用，漢語以單音節為主，一個漢字就是一個單音節，每個音節包含聲母、韻母和聲調三個部分，有別于傳統輔-元-輔的音節構造，由于存在較多的同音字，漢語的單字可以視作無語義，這些語音特點都與外語存在顯著區別，因此在語音傳輸過程中各干擾要素對漢語語音清晰度的影響結果與外語會有所不同。此外，傳統的清晰度客觀評測算法是將語音傳輸系統視作一個整體，饋給系統一個標準測試信號，根據系統的輸出信號相對輸入信號的變化衰減程度，進而給出一個具體的客觀量值，計算過程中不涉及傳輸系統中干擾因素的聲學屬性，因此不能反映傳輸系統的聲學特性是如何導致語音清晰度的下降，評測結果難以對清晰度降低的原因起到“診斷”和“治療”作用，無法指導聲傳輸系統的功能設計。語音傳輸過程中影響清晰度的聲學因素有很多，其中混響是一類主要的干擾條件，如果房間吸聲或反射面處理不當，混響作用下語音信號的直達聲和混響聲混疊導致接收端清晰度下降。目前并沒有專門針對混響環境的并且考慮了漢語語音學和與語言學特性的清晰度評測方法。

技術實現要素：

本發明給出了一種適用于純混響環境的漢語聽感清晰度客觀評測方法，建立了以混響時間為自變量的漢語單音節、聲母、韻母和聲調清晰度的客觀評測模型。只需要測量傳輸系統的混響時間就可以直接計算出相應的漢語語音清晰度值，該方法針對漢語的語音學和聽感特性，適用于漢語傳播為主的聲傳輸系統，同時計算結果還可以對傳輸系統的混響條件設置起到一定的指導作用。

提出了一種適用于混響環境的漢語語音清晰度客觀評測算法，包括測量能夠表征影響漢語語音清晰度的混響條件下的客觀聲學參數的步驟，其特征在于，根據所建立的客觀聲學參數與漢語的主觀聽感清晰度間的對應函數關系，得到當前傳輸帶寬有限條件下的漢語語音清晰度，其中，客觀聲學參數為自變量；其中，混響時間T對應混響條件下的客觀聲學參數。

給出了在混響條件下的漢語單音節清晰度Q_F與混響時間T之間的函數關系

進一步給出了在混響條件下的漢語聲母清晰度Q_Fsm、韻母清晰度Q_Fsm及聲調清晰度Q_Fsd與混響時間T之間的函數。

附圖說明

圖1為混響條件下漢語語音清晰度主觀聽感實驗示意圖

圖2為漢語單音節、聲母、韻母和聲調清晰度與混響時間的關系圖

圖3為混響環境中漢語語音清晰度實測值與預測值的誤差表示圖

具體實施方式

本發明的思路是根據傳輸系統混響特性和漢語實際聽感清晰度的關系，提出一種符合漢語語音清晰度感知規律并且能對混響環境下漢語語音清晰度進行評測的方法。通過開展不同混響條件下的漢語語音清晰度主觀聽感實驗，建立以混響時間為客觀變量的漢語聽感清晰度函數模型，依據此計算模型可以實現混響環境下的漢語語音清晰度評測，并能夠根據清晰度預測結果對傳輸系統的混響時間設置進行針對性的調整。需要說明的是本發明所指的漢語語音清晰度指的是漢語主觀聽感清晰度，具體指的是漢語單音節清晰度，語料使用的是不涉及語義的漢語單音節，與語言可懂度有所不同。

漢語語音清晰度主觀聽感實驗示意圖如圖1所示，實驗方法參照國家標準GB-T 15508-1995《聲學—語言清晰度測試方法》進行。預先錄制純凈的語音信號，制備不同混響時間的房間沖擊響應，將語音信號與一定混響時間的房間沖擊響應函數進行卷積，以模擬受到混響混疊作用的語音信號，實驗中采用的混響時間范圍0.1s～6.0s，按照混響感差別閾限設計混響時間間距，實驗條件設置確保清晰度分布范圍足夠廣。在聽音室用隔聲性能較好的監聽耳機將這些處理后的語音信號回放給聽音人進行清晰度測試。聽音人聽力正常，熟悉漢語普通話，聽音人在答題紙上記錄下自認為聽到的音節拼音。比如聽到：“序號X切哈宗”，被試記錄“qièhāzōng”。只有當被試記錄的拼音與實際播放的拼音一致時，才認為聽對，否則記為錯。為保證實驗的信度，當某一被試記錄表的得分與全體被試清晰度平均得分相差大于標準差3倍時，剔除掉該被試數據，重新計算清晰度得分。實驗結束后通過多元回歸分析的方法建立漢語節清晰度、聲母清晰度、韻母清晰度、聲調清晰度與混響時間的函數關系，從而得到漢語語音清晰度的客觀評測模型。

本發明提出的混響環境下的漢語語音清晰度客觀評測算法模型可概括為式(1)所示的函數形式，其中混響時間T對應的是混響傳遞條件的客觀控制變量。

Q_R＝f(T) (1)

本發明提出的漢語語音清晰度客觀評測算法模型如式(2)～(5)所示，該算法給出了漢語語音清晰度與混響時間T的函數關系，二者呈對數關系，擬合精度R²可以達到0.90。其中Q_R表示混響環境的單音節清晰度，Q_Rsm表示噪聲環境的聲母清晰度，Q_Rym表示噪聲環境的韻母清晰度，Q_Rsd表示噪聲環境的聲調清晰度。

Q_R＝-0.14×ln(T)+0.40 (2)

Q_Rsm＝-0.12×ln(T)+0.54 (3)

Q_Rym＝-0.10×ln(T)+0.77 (4)

Q_Rsd＝-0.06×ln(T)+0.89 (5)

本算法采用對數函數的形式，清晰度評測時，先確定傳輸系統客觀聲學參量混響時間的取值，隨后根據公式計算，計算結果直接就是漢語聽感清晰度。

混響環境中的漢語單音節、聲母、韻母、聲調清晰度與混響時間的關系如圖2所示，混響環境中漢語語音清晰度實測值與預測值的誤差如圖3所示。

進一步的，本領域技術人員應當知曉，表征混響干擾條件的客觀參量也存在除混響時間T以外的客觀參量，本發明僅針對用混響時間T表征頻帶有限情況下的漢語語音清晰度評測，對于存在的其他客觀參量，本領域技術人員完全可以根據本發明給出的方法得到對應的評測算法。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：章斯宇;孟子厚
技術所有人：中國傳媒大學
我是此專利的發明人

上一篇：一種逆向爆音檢測方法及其裝置與流程
上一篇：電路控制系統及方法、自主清潔設備與流程

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音清晰度相關技術

語音清晰度測試相關技術

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種適用于混響環境的漢語語音清晰度評測算法的制作方法