本發明涉及人工智能語音領域,尤其涉及文本語音播報方法及系統。
背景技術:
文本語音播報應用于電信、銀行、交通運輸及智能機器人等,主要是對給定的文本進行語言學分析,逐句進行詞匯的、語法的和語義的分析,以確定句子的低層結構和每個字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數字的處理、縮略語的處理等,把文本所對應的單字或短語從語音合成庫中提取,把語言學描述轉化成言語波形。目前市面上有不少類似的功能,但大多效果不佳,主要表現為播出的語音吐字生硬,音色單一。
技術實現要素:
為了克服現有技術的不足,本發明的目的在于提供文本語音播報方法及系統,其能對任意文本進行流暢圓潤的播報。
本發明的目的采用以下技術方案實現:
文本語音播報方法,包括:
采集文本信息;
分析所述文本信息,并提取出文本特征;
基于所述文本特征以及神經網絡韻律模型預測所述文本信息對應的韻律特征參數;
根據所述韻律特征參數進行語音合成并播放。
優選的,所述分析文本信息,具體為:
根據預先添加的添加語法知識庫和語法詞典,利用最大匹配算法對文本信息進行切分。
優選的,所述提取出文本特征,具體為:
根據詞語的屬性計算詞語權重,提取出文本關鍵詞;將切分得到的字和/或詞對應的詞性以及關鍵詞及關鍵詞對應的詞性作為文本信息對應的文本特征。
優選的,所述神經網絡韻律模型是預先通過對語音材料庫基于神經網絡模型進行訓練得到的。
優選的,所述語音材料庫包括:用于語調短語修正的韻律詞匯庫以及用于參數解碼音變規則的編碼數據庫和音變規則庫。
本發明還涉及文本語音播報系統,包括:采集模塊、分析模塊、預測模塊和合成模塊;
所述采集模塊,用于采集文本信息;
所述分析模塊,用于分析所述文本信息,并提取出文本特征;
所述預測模塊,用于基于所述文本特征以及神經網絡韻律模型預測所述文本信息對應的韻律特征參數;
所述合成模塊,用于根據所述韻律特征參數進行語音合成并播放。
優選的,還包括:切分模塊;
所述切分模塊,根據預先添加的添加語法知識庫和語法詞典,利用最大匹配算法對文本信息進行切分。
優選的,還包括:提取模塊;
所述提取模塊,用于根據詞語的屬性計算詞語權重,提取出文本關鍵詞;將切分得到的字和/或詞對應的詞性以及關鍵詞及關鍵詞對應的詞性作為文本信息對應的文本特征。
優選的,所述神經網絡韻律模型是預先通過對語音材料庫基于神經網絡模型進行訓練得到的。
優選的,所述語音材料庫包括:用于語調短語修正的韻律詞匯庫以及用于參數解碼音變規則的編碼數據庫和音變規則庫。
相比現有技術,本發明的有益效果在于:根據神經網絡韻律模型預測所述文本信息對應的韻律特征參數進行語音合成,文本語音播報自然流暢。
附圖說明
圖1為本發明一實施例提供的文本語音播報方法流程示意圖;
圖2為本發明一實施例提供的文本語音播報系統結構示意圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
如圖1所示,本發明一實施例提供的文本語音播報方法,包括以下步驟:
步驟S101:采集文本信息。
具體的,智能設備上的應用程序與文本播放模塊接口連接,應用程序采集文本信息通過文本播放模塊接口將采集到的文本信息發送給對應的文本播放模塊。文本播放模塊對文本進行分析處理、特征提取已經合成。
步驟S102:分析所述文本信息,并提取出文本特征。
具體的,文本播放模塊預先添加語法知識庫和語法詞典,本發明實施例中根據最大匹配算法確定分詞,并濾除不能反映主題的功能詞。
對采集到的文本信息,按照正向最大匹配算法,從左邊開始取出等于預設最大詞長數量的詞語,查找語法知識庫和語法詞典中是否有所述詞語,若沒有查找到,則去掉右邊第一個字繼續查找,依次循環,直到從語法知識庫和語法詞典中查找到相應的詞語,則輸出詞語,完成分詞過程。
能標識文本特性的一般為文本中的名詞、動詞、形容詞等,文本中的虛詞如感嘆詞、介詞、連詞等對標識文本特性往往沒有貢獻,不能反映主題,在提取文本特征前去掉不能反映主題的功能詞,提高文本特征提取的效率和準確率。完成文本切分后,得到對應的字和/或詞,將對應的字和/或詞與其詞性關聯。
同時,本發明實施例還根據詞語的屬性計算詞語權重,提取出文本關鍵詞。
詞語的詞性、詞語的長度、詞語在文中出現的位置和頻率等多個因素影響詞語的權重,根據文本特征提取算法,將多種詞語影響因素引入評價函數計算詞語的權重提取出文本關鍵詞。
將得到的字和/或詞對應的詞性以及關鍵詞及關鍵詞對應的詞性作為文本信息對應的文本特征。
步驟S103:基于所述文本特征以及神經網絡韻律模型預測所述文本信息對應的韻律特征參數。
具體的,本發明實施例中文本播放模塊包括預先建立的神經網絡韻律模型。該神經網絡韻律模型是通過對語音材料庫基于神經網絡模型訓練得到的,可以是基于現有的深度神經網絡和雙向LSTM神經網絡進行訓練得到。語音材料庫中的語句涵蓋了漢語中常見的句型、漢語中所有的語音、文字上下文的特性、聲調、重音等信息,使用語音材料庫中的句子對神經網絡模型進行訓練和測試,合成的語音能體現不同的韻律特征,增加了系統的靈活性和風格的多樣性。當然具體的韻律模型也可以采用其他模型,比如隱馬克科夫韻律模型等。
在分析得到文本特征后,將對應的文本特征輸入到神經網絡韻律模型進行預測,得到對應的字、詞的韻律特征參數。韻律特征參數包括譜參數以及基頻參數等。
優選的,所述語音材料庫還包括:用于語調短語修正的韻律詞匯庫以及用于參數解碼音變規則的編碼數據庫和音變規則庫。用戶可以根據需要設置不同的音色,語音播報更多樣化。
步驟S104:根據所述韻律特征參數進行語音合成并播放。
具體的,本發明實施例中,文本播報模塊的語音合成模塊,將韻律特征參數發送到聲碼器進行語音合成,輸出音頻文件并發送到文本播報模塊的音頻播放器,完成語音播報的過程。
優選的,步驟S104之前即在韻律特征參數發送給聲碼器進行語音合成之前,還可以對神經網絡韻律模型預測的韻律特征參數進行優化,比如對基頻參數進行基頻重構,或者對譜參數以及重構后的基頻參數進行平滑處理。然后再將優化后的韻律特征參數發送給聲碼器進行語音合成。
本實施例提供的語音播報方法,克服了市面上類似產品播報語音生硬不自然,音色單一的不足,讓文本的語音播報自然流暢,有更多不同的音色選擇,更大程度上接近于人的語言溝通。
本發明實施例還提供文本語音播報系統,如圖2所示,包括:采集模塊11、分析模塊14、預測模塊15和合成模塊16;
所述采集模塊11,用于采集文本信息;
所述分析模塊14,用于分析所述文本信息,并提取出文本特征;
所述預測模塊15,用于基于所述文本特征以及神經網絡韻律模型預測所述文本信息對應的韻律特征參數;
所述合成模塊16,用于根據所述韻律特征參數進行語音合成并播放。
優選的,還包括:切分模塊12;
所述切分模塊12,根據預先添加的添加語法知識庫和語法詞典,利用最大匹配算法對文本信息進行切分。
優選的,還包括:提取模塊13;
所述提取模塊13,用于根據詞語的屬性計算詞語權重,提取出文本關鍵詞;將切分得到的字和/或詞對應的詞性以及關鍵詞及關鍵詞對應的詞性作為文本信息對應的文本特征。
優選的,所述神經網絡韻律模型是預先通過對語音材料庫進行訓練得到的。
優選的,所述語音材料庫包括:用于語調短語修正的韻律詞匯庫以及用于參數解碼音變規則的編碼數據庫和音變規則庫。
本實施例中的系統與前述實施例中的方法是基于同一發明構思下的兩個方面,在前面已經對方法實施過程作了詳細的描述,所以本領域技術人員可根據前述描述清楚地了解本實施例中的系統的結構及實施過程,為了說明書的簡潔,在此就不再贅述。
為了描述的方便,描述以上系統時以功能分為各種模塊分別描述。當然,在實施本發明時可以把各模塊的功能在同一個或多個軟件和/或硬件中實現。
通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本發明可借助軟件加必需的通用硬件平臺的方式來實現?;谶@樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲介質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。
本發明提供的語音播報方法及系統,克服了市面上類似產品播報語音生硬不自然,音色單一的不足,讓文本的語音播報自然流暢,有更多不同的音色選擇,更大程度上接近于人的語言溝通。
對本領域的技術人員來說,可根據以上描述的技術方案以及構思,做出其它各種相應的改變以及形變,而所有的這些改變以及形變都應該屬于本發明權利要求的保護范圍之內。