語音交互過程中的多音字播報方法及系統與流程

文檔序號：12065430閱讀：2474來源：國知局

本發明涉及語音交互技術領域，具體來說涉及語音交互過程中的多音字播報方法及系統。

背景技術：

語音合成，又稱文語轉換(Text To Speech)技術，是一種能夠將文字信息轉化為語音并進行朗讀的技術，其涉及聲學、語言學、數字信號處理、計算機科學等多個學科基礎，是中文信息處理領域的一項前沿技術，解決的主要問題是如何將文字信息轉化為可聽的聲音信息。

在語音合成系統中，將文本信息轉換為聲音信息的過程為：首先需要對輸入的文本進行處理，包括預處理、分詞、詞性標注、多音字預測、韻律層級預測等，然后再通過聲學模型，預測各個單元對應的聲學特征，最后利用聲學參數直接通過聲碼器合成聲音，或者從錄音詞庫中挑選單元進行拼接，以生成與文本對應的聲音信息。

其中多音字預測是整個語音合成系統的基礎之一，多音字朗讀的正確與否，極大地影響了聽者對合成聲音語義的理解情況，如果多音字預測準確率高，可以大大改善用戶體驗，使合成出來的語音易于理解，聽起來也更佳自然流暢。

現有的多音字發音策略多采用如下方法：

若多音字可以和上下文組成詞語，則按照固定搭配中的多音字來進行播報，例如重點、重新；若多音字以單字形式出現，則基于大量數據訓練模型的方法來決定發音，例如為人民服務、結果為零。在語音合成技術中，常用的大量訓練數據模型的方法包括但不限于：CRF(條件隨機場)方法，HMM(隱馬爾科夫模型)方法，決策樹方法等等。這些方法的特點是需要大量多音字的標注信息來進行訓練。優點是可以僅憑文本信息來預測多音字的發音，且對于出現在常見上下文語境中的多音字預測準確率較高；缺點是對于訓練數據中不包含的多音字或者是上下文語境中沒有包含過的多音字的處理能力很差。

但上述方法對于專有名詞比如人名、地名、公司名稱中的多音字播報效果較差。這是由于在語音交互過程中，用戶的提問或指令信息中通常包含有多音字的發音，特別是對于人名、地名和公司名稱的發音，但是在語音交互系統中，卻將語音識別和語音合成分離開來，即語音識別中獲得的對應文本信息的音素信息未被語音合成模塊利用，而語音合成信息在播報該專有名詞中的多音字時，根據自身事先設定的策略進行發音的選擇。

技術實現要素：

鑒于上述情況，本發明提供一種語音交互過程中的多音字播報方法及系統，解決了現有的多音字發音策略對專有名詞(人名、地名、公司名稱)中的多音字播報效果較差的技術問題，提高了專有名詞中的多音字播報準確率。

為實現上述目的，本發明采取的技術方案是：

一種語音交互過程中的多音字播報方法，包括如下步驟：

a.獲取語音信息；

b.識別所述語音信息，通過語音識別得出所述語音信息對應的文本信息和音素信息；

c.執行所述文本信息的指令并形成相應的反饋信息；

d.對反饋信息進行注音：首先查找所述反饋信息中是否包括多音字，若查找到多音字，首先將反饋信息與所述文本信息進行比對，若比對成功，從所述音素信息中獲取發音并對反饋信息中的多音字進行注音；若比對不成功，則依據大量數據訓練模型的方法來對反饋信息中的多音字進行注音；

e.對所述反饋信息進行播報。

本發明的進一步改進在于，在所述步驟b中，還包括將所述文本信息和音素信息作為先驗信息進行存儲。

本發明的進一步改進在于，所述反饋信息播報結束后，釋放預先存儲的先驗信息。

本發明的進一步改進在于，在所述步驟c中，所述反饋信息為文本形式的信息。

本發明的進一步改進在于，在所述步驟d中，還包括對所述反饋信息中的單音字進行注音。

本發明的更進一步改進在于，在所述步驟d中，若在所述反饋信息中未查找到多音字，則直接對反饋信息進行注音。

此外，本發明還提供一種用于實施以上所述多音字播報方法的播報系統，所述系統包括錄音模塊、語音識別模塊、處理及控制模塊、語音合成模塊以及語音播報模塊：

所述錄音模塊，與所述語音識別模塊以及所述處理及控制模塊連接，用于獲取語音信息并將所述語音信息傳送給所述語音識別模塊；

語音識別模塊，與所述處理及控制模塊連接，用于識別所述語音信息并得出與所述語音信息對應的文本信息和音素信息，將所述文本信息和音素信息傳送給所述處理及控制模塊；

所述處理及控制模塊，與所述語音合成模塊及語音播報模塊連接，用于執行所述文本信息的指令并形成相應的反饋信息，將所述反饋信息傳送給所述語音合成模塊；

所述語音合成模塊，與所述語音播報模塊連接，用于查找所述反饋信息中是否包含多音字并對所述反饋信息進行注音，并將已注音的反饋信息傳送給所述語音播報模塊；

所述語音播報模塊，用于播報所述已注音的反饋信息。

所述系統的更進一步改進在于，所述反饋信息是文本形式的信息；所述系統還包括臨時存儲模塊，所述臨時存儲模塊與所述處理及控制模塊連接，所述語音識別模塊通過所述處理及控制模塊將所述文本信息和音素信息作為先驗信息存儲到所述臨時存儲模塊中；所述處理及控制模塊將所述先驗信息從所述臨時存儲模塊中釋放。

本發明的有益效果在于，本發明通過將獲取的語音信息通過識別存儲為文本信息和音素信息，利用所述音素信息對反饋信息進行注音再進行播報，能有效提高專有名詞中的多音字播報準確率，改善多音字播報效果。

附圖說明

圖1是本發明語音交互過程中的多音字播報方法的示意性流程圖。

圖2是本發明語音交互過程中的多音字播報系統的結構示意圖。

附圖標記與部件的對應關系如下：

S1-語音信息，S2-先驗信息，S21-文本信息，S22-音素信息，S3-反饋信息，S4-已注音的反饋信息。

具體實施方式

為利于對本發明的了解，以下結合附圖及實施例進行說明。

請參閱圖1，本發明提供一種語音交互過程中的多音字播報方法，以提高專有名詞中的多音字播報準確率，可廣泛適用于車載、導航、電話、短信等場景，還可以適用于智能設備中的語音助手、智能機器人等任何語音交互的場景。所述多音字播報方法包括如下步驟：

a.獲取語音信息；

b.識別所述語音信息，通過識別得出所述語音信息對應的文本信息和音素信息，并將所述文本信息和音素信息作為先驗信息予以存儲；

c.執行所述文本信息的指令并形成相應的反饋信息；

d.對反饋信息進行注音：首先查找所述反饋信息中是否包括多音字，若查找到多音字，首先將反饋信息與所述先驗信息進行比對，若比對成功，從所述音素信息中獲取發音并對反饋信息中的多音字進行注音；若比對不成功，則依據大量數據訓練模型的方法來對反饋信息中的多音字進行注音；

e.對所述反饋信息進行播報；

在上述步驟中，所述反饋信息為文本形式的信息，即TTS文本；在步驟d中，若未查找到多音字，則直接對反饋信息進行注音；步驟d中在所述反饋信息中的多音字進行注音的同時還包括對單音字的注音。反饋信息的播報結束后，則釋放預先存儲的先驗信息。

此外，請參閱圖2，本發明還提供一種用于實施上述多音字播報方法的系統，所述系統包括錄音模塊、語音識別模塊、處理及控制模塊、語音合成模塊以及語音播報模塊：

所述錄音模塊，與所述語音識別模塊以及所述處理及控制模塊連接，用于獲取語音信息S1并將所述語音信息S1傳送給所述語音識別模塊；

語音識別模塊，與所述處理及控制模塊連接，用于識別所述語音信息S1并得出與所述語音信息對應的文本信息S21和音素信息S22，將所述文本信息S21和音素信息S22傳送給所述處理及控制模塊；

所述處理及控制模塊，與所述語音合成模塊及語音播報模塊連接，用于執行所述文本信息S21的指令并形成相應的反饋信息S3，將所述反饋信息S3傳送給所述語音合成模塊；

所述語音合成模塊，與所述語音播報模塊連接，用于查找所述反饋信息S3中是否包含多音字并對所述反饋信息S3進行注音，并將已注音的反饋信息S4傳送給所述語音播報模塊；

所述語音播報模塊，用于播報所述已注音的反饋信息S4。

所述系統還包括臨時存儲模塊，所述臨時存儲模塊與所述處理及控制模塊連接，所述語音識別模塊還用于在識別所述語音信息時，通過所述處理及控制模塊將所述文本信息S21和音素信息S22作為先驗信息S2存儲到所述臨時存儲模塊中；在播報結束后，所述處理及控制模塊將所述先驗信息S2從所述臨時存儲模塊中釋放。

以下實施例選取本發明在導航交互場景中的應用來詳細說明：

開啟導航后，用戶說“導航到莘松新村”，錄音模塊將該信息獲取為語音信息S1；

語音識別模塊將錄音模塊獲取的語音信息S1進行識別得出對應的文本信息S21和音素信息S22，并將所述文本信息S21和音素信息S22存儲為先驗信息S2；

處理及控制模塊執行所述文本信息S21的指令并形成反饋信息S3“好的，為您導航到莘松新村”，即執行導航的動作；

語音合成模塊將該反饋信息S3作為TTS文本并進行注音：首先查找反饋信息S3“好的，為您導航到莘松新村”中是否包含多音字，查找到包含兩個多音字“為”和“莘”，然后語音合成模塊讀取預先存儲的先驗信息S2中的文本信息S21與該文本形式的反饋信息S3進行比對，語音合成模塊讀取到反饋信息S3中的“莘”與先驗信息S2“導航到莘松新村”中的“莘”相匹配，則從先驗信息S2的音素信息S22中獲取“XIN(一聲)”對“莘”進行注音；語音合成模塊沒有讀取到先驗信息S2中與“為”匹配的讀音，則依據大量訓練模型的方法對“為”注音成“WEI(四聲)”；同時語音合成模塊對該反饋信息S3中的單音字進行注音。

語音播報模塊對上述已注音的反饋信息S4進行播報；

處理及控制模塊釋放預先存儲的先驗信息S2。

于本實施例中，“莘”是一個多音字，由于是專有名詞，無法使用現有的方法做很好的消歧處理，用戶在發出指令的時候包含該專有名詞的詞組，因此在該場景下多音字“莘”的發音是可以確定的。本發明通過語音識別模塊獲取的音素信息來輔助判斷反饋信息中多音字的發音，提高了多音字播報的準確率，改善了多音字播報效果。

以上結合附圖及實施例對本發明進行了詳細說明，本領域中普通技術人員可根據上述說明對本發明做出種種變化例。因而，實施例中的某些細節不應構成對本發明的限定，本發明將以所附權利要求書界定的范圍作為本發明的保護范圍。

完整全部詳細技術資料下載

當前第1頁1 2 3