麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于文本信息的波形拼接語音合成方法

文檔序號:2827671閱讀:205來源:國知局
一種基于文本信息的波形拼接語音合成方法
【專利摘要】本發明一種基于文本信息的波形拼接語音合成方法,該方法包括:步驟S1:通過音段切分,提取原始音頻中所有基元的聲學參數與文本參數,根據提取的參數訓練時長預測模型與權重預測模型;步驟S2:采用分層預選方法,利用文本分析的目標基元、時長預測模型預測的時長對語料庫中的基元進行初步預選,獲得候選基元;步驟S3:對目標基元、候選基元和權重預測模型預測的權重信息計算,得到目標代價;對相鄰兩個基元的契合度進行計算,得到拼接代價;用維特比搜索方法對目標代價和拼接代價進行搜索,得到最小代價路徑,進而得到最佳基元并經過平滑拼接得到合成語音。
【專利說明】一種基于文本信息的波形拼接語音合成方法

【技術領域】
[0001] 本發明屬于智能信息處理領域,涉及一種基于文本信息的波形拼接系統。

【背景技術】
[0002] 語音作為人機交互的主要手段之一,語音合成主要目的是讓計算機能夠產生高清 晰度、高自然度的連續語音。語音合成主要有兩種方式,早期的研究主要是采用參數語音合 成,最常用的合成方法是基于隱馬爾柯夫的參數語音合成方法。該方法作為一種基于統計 聲學建模方法的具休實現,對語音的聲學參數進行隱馬爾柯夫建模,并通過參數生成算法 來重構聲學參數軌跡,最后調用語音合成器來產生語音波形。該方法的不足在于合成語音 的音質、自然度和清晰度都不夠理想,與實際語音具有較大的差距。另一種方法是基于語料 庫的語音拼接合成方法,該方法是直接從原始錄制的語料庫中挑選合適的基元來進行拼接 合成語音。
[0003] 但該方法雖能合成出較為接近原始語音的波形,但受限于語料庫大小的制約,合 成語音的穩定性不夠理想(音庫過大,合成語音速度較慢,無法實時合成;音庫過小,合成 語音不穩定),很大程度上影響的聽感。并且現有的拼接合成系統,在計算代價時缺少考慮 文本信息對基元的影響,合成出的語音在韻律表現上也不是很好。


【發明內容】

[0004] (一)要解決的技術問題
[0005] 為解決上述的一個或多個問題,本發明的目的是提供一種基于文本信息的波形拼 接語音合成方法。
[0006] (二)技術方案
[0007] 為達成所述目的,本發明提供的一種基于文本信息的波形拼接語音合成方法實現 的步驟包括:
[0008] 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學參數與文本參數,根據 提取的參數訓練時長預測模型與權重預測模型;
[0009] 步驟S2 :采用分層預選方法,利用文本分析的目標基元、時長預測模型預測的時 長對語料庫中的基元進行初步預選,獲得候選基元;
[0010] 步驟S3 :對目標基元、候選基元和權重預測模型預測的權重信息計算,得到目標 代價;對相鄰兩個基元的契合度進行計算,得到拼接代價;用維特比搜索方法對目標代價 和拼接代價進行搜索,得到最小代價路徑,進而得到最佳基元并經過平滑拼接得到合成語 音。
[0011] (三)有益效果
[0012] 從上述技術方案可以看出,本發明基于文本特征的波形拼接語音合成方法具有以 下有益效果:
[0013] (1)該方法結合待合成語音與原始語音的文本特征,在基元預選時用分層預選方 法,不僅能有效率的在保證候選基元接近目標基元的情況下,減少基元的個數,降低后期代 價計算的時間開銷,提高了合成語音的效率,增強拼接合成的實時性;并且加入的時長預測 模型能保證選到的基元在時長上的連續性,提高了合成語音自然度;
[0014] (2)目標代價的計算方法采用的是基于文本信息結合預測得到的權重信息得到的 代價,保證了代價最小的基元在韻律上與目標基元的一致性,拼接合成出高自然度,并提高 了合成語音的韻律表現;
[0015] 該方法包括:對原始切分過的大音庫進行參數提?。ò晫W參數與文本參數)。 結合相應文本標注信息,對基元的時長信息進行建模,結合基元的上下文信息與基元所在 詞的詞性等信息,生成分層預選模型對基元進行預選。這種預選方法不僅可以達到在大語 料庫的情況下縮短系統運行時間、增強系統合成語音的實時性和提高基元選取的準確率的 目的,而且保證了候選基元在時長上的連續性。在計算目標代價時,在訓練階段,用決策樹 算法與線性回歸算法結合文本特征與聲學特征進行建模,預測出相關文本特征的權重信 息。在拼接合成語音時,輸入相應的候選基元與目標基元的文本信息距離,結合決策樹與線 性回歸模型預測出的權重信息,就得到相對應候選基元的目標代價,再結合拼接代價的計 算,最后就能拼接合成出語音,本發明合成出較高音質的語音。

【專利附圖】

【附圖說明】
[0016] 圖1為根據本發明基于文本信息的波形拼接語音合成方法流程圖;
[0017] 圖2為本發明中訓練時長預測模型一實施例的流程圖;
[0018] 圖3為本發明中訓練權重預測模型一實施例的流程圖;
[0019] 圖4為根據本發明一實施例的分層預選流程圖;
[0020] 圖5為根據本發明一實施例的基于文本特征的目標代價的計算。

【具體實施方式】
[0021] 為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照 附圖,對本發明進一步詳細說明。
[0022] 需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附 圖中未繪示或描述的實現方式,為所屬【技術領域】中普通技術人員所知的形式。另外,雖然本 文可提供包含特定值的參數的示范,但應了解,參數無需確切等于相應的值,而是可在可接 受的誤差容限或設計約束內近似于相應的值。
[0023] 本發明方法結合待合成語音與原始語音的文本特征,首先對音庫中的基元進行分 層預選,提高了合成語音的效率,增強了合成語音的實時性,然后結合基于文本信息預測出 的權重信息,計算代價,挑選合適的基元,最后拼接合成出高自然度與高韻律表現的語音。
[0024] 如圖1示出本發明基于文本信息的的波形拼接語音合成方法流程圖,該方法包括 以下步驟:
[0025] 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學參數與文本參數,根據 提取的參數訓練時長預測模型與權重預測模型;模型訓練模塊,根據訓練文本與對應的音 頻提取基元的文本參數與聲學參數進行模型訓練,獲取分層預選中的時長預測模型與目標 代價計算時所需的權重預測模型;
[0026] 如圖2所示為本發明中訓練時長預測模型一實施例的流程圖;所述訓練時長預測 模型包括以下步驟:
[0027] 步驟S11 :對音庫進行音段切分,切分為波形拼接所需的最小基本單元,以切分后 的基元為單位,按巾貞提取基頻參數、梅爾倒譜參數與能量;在本發明一實施例中,譜參數是 提取的12階梅爾倒譜系數。
[0028] 步驟S12 :對所述原始音頻對應文本進行文本分析,根據音段切分結果,提取所有 基兀對應的上下文文本特征信息與時長信息,并與提取的聲學參數 對應;
[0029] 步驟S13 :根據與聲學參數一一對應的文本特征與時長信息,采用決策樹訓練時 長預測模型。
[0030] 如圖3所示為本發明中訓練權重預測模型一實施例的流程圖,所述訓練權重預測 模型的包括以下步驟:
[0031] 步驟S1A :對音庫進行音段切分,切分為波形拼接系統所需的最小基本單元,并以 切分后的基元為單位,按幀提取基頻參數、梅爾倒譜參數與能量;在本發明一實施例中,譜 參數是提取的12階梅爾倒譜系數。
[0032] 步驟S1B :對所述原始音頻對應文本進行文本分析,根據音段切分結果,提取所有 基兀對應的上下文文本特征信息與時長信息,并與提取的聲學參數 對應;
[0033] 步驟S1C :根據提取的所有基元的文本特征與聲學特征,按基元進行分類;
[0034] 步驟S1D :對于每一類基元,計算所有任意兩個基元對應的文本特征參數與聲學 參數之間的距離,存儲所有距離信息作為訓練樣本;
[0035] 步驟S1F :采用決策樹和線性回歸算法(M5P),進行權重預測模型的訓練:文本的 距離信息作為決策樹的節點,在葉節點處與聲學參數的距離作線性回歸。即可得到文本信 息對應的權重。
[0036] 葉節點處的回歸可以用以下公式表示:
[0037] WoIxq-x' ol+wJxfX' J+...+Wnlxn-χ' η| = Πο?ΡΟ-ΡΟ' + π 11Dur-Dur' | + π 2 Ε-Ε/ (1)
[0038] 其中f i和Xi為兩基元對應的文本特征,R)和RV為對應的基頻信息,Dur和 Dur'為對應的時長信息,E和E'為能量信息。本實例取[^,^,ji2]的值為[1,1,0. 5]。 經過葉節點處的回歸運算,Wl,...,wn)即為預測得到的權重信息。
[0039] 步驟S2 :采用分層預選方法,利用文本分析的目標基元、時長預測模型預測的時 長對語料庫中的基元進行初步預選,獲得候選基元;基元預選模塊,采用分層預選方法,對 語料庫中的基元進行初步預選,以減少后期代價計算的復雜度,提高合成效率。
[0040] 如圖4所示為根據本發明一實施例的分層預選流程圖,所述分層預選包括以下步 驟:
[0041] 步驟S21 :設置標識參數flag = 0,第一層預選采用基元上下文特征信息作為預選 信息進行預選;
[0042] 步驟S22 :第二層預選是在第一層預選的基礎上,采用文本特征信息、詞性和重音 信息作為預選信息進行基元預選,如果標識參數flag = 0,則執行步驟S23 ;如果標識參數 flag = 1,則輸出第二層候選基元;
[0043] 步驟S23 :第三層預選是在第二層預選的基礎上,采用根據文本特征預測出來的 時長信息作為預選信息進行預選,如果候選基元個數不為〇,設置標識參數flag = 1,返回 步驟S21 ;如果候選基元個數不為0,則輸出第三層候選基元。
[0044] 步驟S3 :對目標基元、候選基元和權重預測模型預測的權重信息計算,得到目標 代價;對相鄰兩個基元的契合度進行計算,得到拼接代價;用維特比搜索方法對目標代價 和拼接代價進行搜索,得到最小代價路徑,進而得到最佳基元并經過平滑拼接得到合成語 音。
[0045] 選音合成模塊,包括目標代價與拼接代價的計算。利用代價和最小原則挑選得到 最佳基兀。
[0046] 如圖5所示為本發明的基于文本特征的目標代價的計算,獲取所述目標代價包括 以下步驟:
[0047] 步驟S31 :根據待合成語句的文本分析結果提取的相關基元的文本參數作為目標 基元的參數,經過分層預選后的基元的文本參數作為候選基元的參數;
[0048] 步驟S32 :計算目標基元與候選基元文本特征之間的距離,結合預測出的權重信 息,經過線性回歸運算得到的結果即為目標代價;
[0049] 在拼接代價計算中,計算相鄰兩個基元的相鄰N幀(本實例中N = 3)的聲學參數 距離,作為拼接代價;
[0050] 表格1為根據本發明一實施例的所需要的文本特征。
[0051]

【權利要求】
1. 一種基于文本信息的波形拼接語音合成方法,其特征在于,該方法包括: 步驟S1 :通過音段切分,提取原始音頻中所有基元的聲學參數與文本參數,根據提取 的參數訓練權重預測模型與時長預測模型; 步驟S2 :采用分層預選方法,利用文本分析的目標基元、時長預測模型預測的時長對 語料庫中的基元進行初步預選,獲得候選基元; 步驟S3 :對目標基元、候選基元和權重預測模型預測的權重信息計算,得到目標代價; 對相鄰兩個基元的契合度進行計算,得到拼接代價;用維特比搜索方法對目標代價和拼接 代價進行搜索,得到最小代價路徑,進而得到最佳基元并經過平滑拼接得到合成語音。
2. 根據權利要求1所述的方法,其特征在于,所述訓練權重預測模型包括以下步驟: 步驟S11 :對音庫進行音段切分,切分為波形拼接系統所需的最小基本單元,并以切分 后的基元為單位,按巾貞提取基頻參數、梅爾倒譜參數與能量; 步驟S12 :對原始音頻對應文本進行文本分析,提取所有基元對應的上下文文本特征 信息與時長信息,并與提取的聲學參數 對應; 步驟S13:根據與聲學參數一一對應的文本特征與時長信息,采用決策樹訓練時長預 測模型。
3. 根據權利要求1所述的方法,其特征在于,所述訓練權重預測模型包括以下步驟: 步驟S1A :對音庫進行音段切分,切分為波形拼接系統所需的最小基本單元,并以切分 后的基元為單位,按巾貞提取基頻參數、梅爾倒譜參數與能量; 步驟S1B :對所述原始音頻對應文本進行文本分析,提取所有基元對應的上下文文本 特征信息與時長信息,并與提取的聲學參數一一對應; 步驟S1C :根據提取的所有基元的文本特征與聲學特征,按基元進行分類; 步驟S1D :對于每一類基元,計算所有任意兩個基元對應的文本特征參數與聲學參數 之間的距離,存儲所有距離信息作為訓練樣本; 步驟S1F :采用決策樹和線性回歸算法,訓練權重預測模型。
4. 根據權利要求2或3所述的方法,其特征在于,所述文本特征的距離信息作為決策樹 的節點,在葉節點處與聲學參數的距離作線性回歸,即可得到文本信息對應的權重。
5. 根據權利要求1所述的方法,其特征在于,所述分層預選包括以下步驟: 步驟S21 :設置標識參數flag = 0,第一層預選采用基元上下文特征信息進行預選; 步驟S22 :第二層預選是在第一層預選的基礎上,采用文本特征信、詞性和重音信息作 為預選信息進行基元預選,如果標識參數flag = 0,則執行步驟S23 ;如果標識參數flag = 1,則輸出第二層候選基元; 步驟S23 :第三層預選是在第二層預選的基礎上,采用根據文本特征預測出來的時長 信息作為預選信息進行預選,如果候選基元個數不為〇,設置標識參數flag = 1,返回步驟 S21 ;如果候選基元個數不為0,則輸出第三層候選基元。
6. 根據權利要求1所述的方法,其特征在于,獲取所述目標代價包括以下步驟: 步驟S31 :根據待合成語句的文本分析結果提取的相關基元的文本參數作為目標基元 的參數,將分層預選后的基元的文本參數作為候選基元的參數; 步驟S32 :計算目標基元與候選基元文本特征間的距離,結合預測出的權重信息,經過 線性回歸運算得到的結果即為目標代價。
【文檔編號】G10L13/02GK104112444SQ201410362838
【公開日】2014年10月22日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】陶建華, 劉善峰 申請人:中國科學院自動化研究所
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 高青县| 横峰县| 松江区| 中宁县| 临桂县| 呼和浩特市| 鄂伦春自治旗| 阳春市| 石首市| 鄂托克前旗| 兰西县| 唐海县| 鄢陵县| 永登县| 龙游县| 邢台县| 德格县| 五寨县| 菏泽市| 台江县| 镶黄旗| 山东省| 潼南县| 哈密市| 板桥市| 绍兴市| 南靖县| 开封县| 太湖县| 兴业县| 开阳县| 华池县| 交城县| 太原市| 偏关县| 育儿| 饶阳县| 石柱| 航空| 福贡县| 云南省|