聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質的制作方法

文檔序號：10595510閱讀：658來源：國知局

聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質的制作方法
【專利摘要】本發明提供了聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質。一種聲音合成方法，用于通過提取自參考聲音的語音片段的連接而產生聲音信號，所述方法包括：由片段選擇單元順序地選擇所述語音片段；由音高設置單元設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。
【專利說明】聲音合成方法、聲音合成裝置和存儲聲音合成程序的介質
[0001]相關申請的交叉引用
[0002]本申請要求日本申請JP 2015-043918的優先權，所述申請的內容通過引用合并于本申請。
技術領域
[0003]本發明的一個或多個實施例涉及用于控制例如待合成的聲音的音高的暫時性變動(下面被稱作“音高過渡”)的技術。
【背景技術】
[0004]迄今，已經提出了聲音合成技術，其用于對由用戶在時間序列中指定的具有任意音高的歌唱聲音進行合成。例如，在日本專利申請公開N0.2014-098802中，描述了一種配置，該配置通過設置與被指定為待合成對象的多個音符的時間序列相對應的音高過渡(音高曲線)、沿著音高過渡調整與聲產生細節相對應的語音片段的音高、并隨后使各個語音片段彼此連結，來合成歌唱聲音。
[0005]作為用于產生音高過渡的技術，還存在以下配置:例如，Fujisaki發表在MacNeilage ,P.F.(Ed.)The Product1n of Speech, (Springer-Verlag，紐約，美國)的第39-55頁的 “Dynamic Characteristics of Voice Fundamental Frequency in Speechand Singing”中所公開的使用Fujisaki模型的配置；以及Keiichi Tokuda發表在TheInstitute of Electronics , Informat1n and Communicat1n Engineers, TechnicalResearch Report，Vol.100,N0.392，SP2000-74，第43-50頁，(2000).的“Basics of VoiceSynthesis based on HMM”中所公開的配置，該配置使用通過應用了大量聲音的機器學習產生的HMM。此外，在Suni，A.S.,Aalto1D.,Rait11T.,Alku,P.,Vain1，Μ.等人發表在2013年8月31日至2013年9月2日于巴塞羅那召開的第八屆語音合成ISCA工作會議會刊(8thISCA Workshop on Speech Synthesis ,Proceedings)中的 “Wavelets for Intonat1nModeling in HMM Speech Synthesis”中公開了這樣的配置，其用于通過將音高過渡分解為句子、短語、詞語、音節、音素(phoneme)而執行HMM的機器學習。

【發明內容】

[0006]附帶地，在人類發出的實際聲音中，觀察到了這一現象:音高根據聲產生目標的音素而在較短的時間段內顯著變動(下面被稱作“音素相關變動”)。例如，如圖9所示，可在被發聲輔音的區段(在圖9的示例中，音素[m]和音素[g]的區段)以及其中進行不發聲輔音和元音中的一個到另一個的過渡的區段(在圖9的示例中，在其中進行從音素[k]到音素[i]的過渡的區段)中確認音素相關變動(所謂微韻律)。
[0007]在Fuj i saki發表在MacNei Iage，P.F.(Ed.) The Product1n of Speech ,(Springer-Verlag，紐約，美國)的第39-55頁的 “Dynamic Characteristics of VoiceFundamental Frequency in Speech and Singing”的技術中，容易出現較長時間段期間的音高變動(例如句子)，因而難以重現各個音素單元中出現的音素相關變動。另一方面，在Keiichi Tokuda發表在The Institute of Electronics , Informat1n andCommunicat1n Engineers,Technical Research Report,Vol.100，N0.392，SP2000_74，第43-50頁，(2000).的 “Basics of Voice Synthesis based on HMM” 的技術以及Suni，A.S.，Aalto1D.,Rait11T.，Alku，P.，Vain1，M.等人發表在2013年8月31 日至2013年9月2日于巴塞羅那召開的第八屆語音合成ISCA工作會議會刊(8th ISCA Workshop on SpeechSynthesis ,Proceedings)的技術中，當在用于機器學習的大量聲音中包括音素相關變動時，期望產生如實重現實際音素相關變動的音高過渡。然而，除音素相關變動之外的音素的簡單錯誤也被反映在音高過渡中，這會使人擔心通過使用音高過渡而合成的聲音會被聽眾感知為走調(即，偏離開適當音高的五音不全歌唱聲音)。鑒于上述情形，本發明的一個或多個實施例的目的在于，產生音高過渡，在該音高過渡中反映了音素相關變動而同時減小了對被感知為走調的擔憂。
[0008]在本發明的一個或多個實施例中，一種聲音合成方法用于通過提取自參考聲音的語音片段的連接而產生聲音信號，所述聲音合成方法包括:由片段選擇單元順序地選擇所述語音片段；由音高設置單元設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。
[0009]在本發明的一個或多個實施例中，一種聲音合成裝置被配置為通過提取自參考聲音的語音片段的連接而產生聲音信號，所述聲音合成裝置包括被配置為順序地選擇聲音片段的片段選擇單元。所述聲音合成裝置還包括:音高設置單元，其被配置為設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。
[0010]在本發明的一個或多個實施例中，一種非暫時性計算機可讀記錄介質，其存儲用于通過提取自參考聲音的語音片段的連接而產生聲音信號的聲音合成程序，所述程序使得計算機充當:片段選擇單元，其被配置為順序地選擇所述語音片段;音高設置單元，其被配置為設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。
【附圖說明】
[0011]圖1是根據本發明的第一實施例的聲音合成裝置的框圖。
[0012]圖2是音高設置單元的框圖。
[0013]圖3是用于示出所述音高設置單元的操作的曲線圖。
[0014]圖4是用于示出參考音高和觀測音高之間的差值與調整值之間的關系的曲線圖。
[0015]圖5是變動分析單元的操作的流程圖。
[0016]圖6是根據本發明的第二實施例的音高設置單元的框圖。
[0017]圖7是用于示出平滑處理單元的操作的曲線圖。
[0018]圖8是用于示出根據本發明的第三實施例的差值與調整值之間的關系的曲線圖。
[0019]圖9是用于不出首素相關變動的曲線圖。
【具體實施方式】
[0020]〈第一實施例〉
[0021]圖1是根據本發明的第一實施例的聲音合成裝置100的框圖。根據第一實施例的聲音合成裝置100是被配置為產生任意歌曲(下面被稱作“目標歌曲”)的歌唱聲音的聲音信號V的信號處理裝置，并且通過包括處理器12、存儲裝置14和發聲裝置16的計算機系統實現。例如，便攜式信息處理裝置(例如移動電話或智能電話)或者便攜式或固定式信息處理裝置(例如個人計算機)可用作聲音合成裝置100。
[0022]存儲裝置14存儲由處理器12執行的程序以及由處理器12使用的各種類型的數據。已知的記錄介質(例如半導體記錄介質或磁性記錄介質)或者多種類型的記錄介質的組合可任意地用作存儲裝置14。根據第一實施例的存儲裝置14存儲語音片段組L和合成信息S。
[0023]語音片段組L是預先從特定發聲者發出的聲音(下面被稱作“參考聲音”)提取的多個語音片段P的一個集合(所謂聲音合成庫)。每個語音片段P為單個音素(例如，元音和輔音)或通過連結多個音素而獲得的音素鏈(例如，雙音或三音)。每個語音片段P被表示為時間域中的聲音波形的采樣序列或者頻域中的頻譜的時間序列。
[0024]參考聲音是利用預定音高(下面被稱作“參考音高”)FR作為參考而產生的聲音。具體地，發聲者發出參考聲音，使得他/她自己的聲音達到參考音高Fr。因此，每個語音片段P的音高與參考音高Fr基本匹配，但是每個語音片段P的音高可包含可歸于音素相關變動的從參考音高Fr的變動等。如圖1所示，根據第一實施例的存儲裝置14存儲參考音高Fr。
[0025]合成信息S指定作為要由聲音合成裝置100合成的目標的聲音。根據第一實施例的合成信息S是時間序列數據，其用于指定形成目標歌曲的多個音符的時間序列，并且合成信息S針對目標歌曲的每個音符指定如圖1所示的音高X1、聲產生周期X2以及聲產生細節(聲產生特性W3t3X1被指定為例如符合樂器數字接口(MIDI)標準的音符編號。聲產生周期X2是持續產生所述音符的聲音的周期，并且被指定為例如聲產生的起始點及其持續時間(音值)。聲產生細節X3是合成的聲音的語音單元(具體地，所述目標歌曲的歌詞的音節)。
[0026]根據第一實施例的處理器12執行存儲在存儲裝置14中的程序，從而用作合成處理單元20，該合成處理單元20通過利用存儲在存儲裝置14中的語音片段組L和合成信息S來產生聲音信號V。具體地，根據第一實施例的合成處理單元20基于音高X1和聲產生周期X2，來調整在語音片段組L之中與合成信息S在時間序列中指定的聲產生細節X3相對應的各個語音片段P，并隨后將各個語音片段P彼此連接，從而產生聲音信號V。注意的是，可采用處理器12的各功能分布到多個裝置中的配置或者聲音合成專用的電子電路實現處理器12的所有功能或一部分功能的配置。圖1所示的發聲裝置16(例如，揚聲器或耳機)發出與處理器12所產生的聲音信號V相對應的音響效果。注意的是，為了方便起見，省略了被配置為將聲音信號V從數字信號轉換為模擬信號的D/A轉換器的示意。
[0027]如圖1所示，根據第一實施例的合成處理單元20包括片段選擇單元22、音高設置單元24和聲音合成單元26。片段選擇單元22順序地選擇各個語音片段P，該語音片段P對應于由合成信息S在時間序列中從存儲裝置14內的語音片段組L中指定的聲產生細節X3。音高設置單元24設置合成的聲音的音高的暫時性過渡(下面被稱作“音高過渡”)C。簡言之，基于合成信息S的音高X1和聲產生周期X2來設置音高過渡(音高曲線)C，以便跟隨由合成信息S針對每個首符指定的首尚Xi的時間序列。聲首合成單兀26基于首尚設置單兀24所廣生的首尚過渡C來調整由片段選擇單元22順序地選擇的各語音片段P的音高，并且將已調整的各個語音片段P在時間軸上彼此連結，從而產生聲音信號V。
[0028]根據第一實施例的音高設置單元24對音高過渡C進行設置，在所述音高過渡C中，音素相關變動(所述音高在短時間段內根據聲產生目標的因素而變動)被反映在不會被收聽者感知為走調的范圍內。圖2是音高設置單元24的具體框圖。如圖2所示，根據第一實施例的音高設置單元24包括基礎設置過渡單元32、變動產生單元34以及變動添加單元36。
[0029]基礎過渡設置單元32設置音高的暫時性過渡(下面被稱作“基礎過渡”)B，所述音高的暫時性過渡對應于由合成信息S針對每個音符而指定的音高X1。可采用任何已知的用于設置基礎過渡B的方法。具體地，設置所述基礎過渡B，以使得所述音高在時間軸上彼此相鄰的音符之間不斷變動。換言之，基礎過渡B對應于形成目標歌曲的旋律的多個音符之中的音高的粗略軌跡。在參考聲音中觀測到的音高的變動(例如，音素相關變動)并不反映在基礎過渡B中。
[0030]變動產生單元34產生變動分量A，其表示音素相關變動。具體地，根據第一實施例的變動產生單元34產生變動分量A，使得由片段選擇單元22順序地選擇的語音片段P中所包含的音素相關變動被反映在變動分量A中。另一方面，在各個語音片段P中，除音素相關變動之外的音高變動(具體地，會被收聽者感知為走調的音高變動)未被反映在變動分量A中。[0031 ] 變動添加單元36通過將變動產生單元34所產生的變動分量A添加至基礎過渡設置單元32所設置的基礎過渡B來產生音高過渡C。因此，產生了音高過渡C，在該音高過渡C中反映了各個語音片段P的音素相關變動。
[0032]相比于除音素相關變動之外的變動(下面被稱作“錯誤變動”)，音素相關變動大略傾向于展現音高的較大變動量。考慮到上述趨勢，在第一實施例中，各語音片段P之中展現出與參考音高Fr的較大音高差(隨后描述為差值D)的區段中的音高變動被估計為音素相關變動，并且被反映在音高過渡C中，而展現出與參考音高Fr的較小音高差的區段中的音高變動被估計為除音素相關變動之外的錯誤變動，并且不被反映在音高過渡C中。
[0033]如圖2所示，根據第一實施例的變動產生單元34包括音高分析單元42和變動分析單元44。音高分析單元42順序地識別片段選擇單元22所選擇的每個語音片段P的音高Fv(下面被稱作“觀測音高”)。按照足夠短于語音片段P的時間長度的周期，順序地識別觀測音高Fv。可采用任何已知的音高檢測技術來識別觀測音高Fv。
[0034]圖3是用于示出觀測音高Fv與參考音高Fr(_700森特(cent))之間的關系的曲線圖，為了方便起見，通過假設以西班牙語發出的參考聲音的多個音素的時間序列([n]、[a]、[B]、[D]和[ο])來示出所述關系。在圖3中，為了方便起見，還示出了參考聲音的聲音波形。參照圖3，可確認這樣的趨勢:觀測音高Fv以各音素之中不同的音級降至參考音高Fr之下。具體地，在音素[B]和[D]作為發聲的輔音的各個區段中，相比于音素[η]作為另一個發聲的輔音以及音素[a]或[O]作為元音的區段，觀測音高Fv相對于參考音高Fr的變動可以更加明顯地觀測到。音素[B]和[D]的區段中的觀測音高Fv的變動為音素相關變動，而音素[n]、[a]和
[O]的區段中的觀測音高Fv的變動為錯誤變動。換言之，還可從圖3中確認上文提到的這一趨勢:音素相關變動比錯誤變動展現出更大的變動量。
[0035]圖2所示的變動分析單元44產生當語音片段P的音素相關變動被估計時獲得的變動分量A。具體地，根據第一實施例的變動分析單元44計算存儲在存儲裝置14中的參考音高Fr與由音高分析單元42識別的觀測音高Fv之間的差值D(D = Fr-Fv),并且將差值D乘以調整值α，從而產生變動分量A(A = aD = a(FR_Fv))。根據第一實施例的變動分析單元44根據差值D可變地設置調整值a，以重現上文提到的這一趨勢:將展現出較大差值D的區段中的音高變動估計為音素相關變動并且將其反映在音高過渡C中，而將展現出較小差值D的區段中的音高變動估計為除音素相關變動之外的錯誤變動并且未將其反映在音高過渡C中。簡言之，變動分析單元44計算調整值a，使得調整值a隨著差值D變大(S卩，音高變動更有可能是音素相關變動)而增加(即，音高變動更為主導地反映在音高過渡C中)。
[0036]圖4是用于示出差值D和調整值a之間的關系的曲線圖。如圖4所示，差值D的數值范圍被分為第一范圍R1、第二范圍R2和第三范圍R3,其中以預定閾值Dth1和預定閾值Dth2設為邊界。閾值Dth2是超過閾值Dthi的預定值。第一范圍Ri是降至閾值Dthi以下的范圍，第二范圍R2是超過閾值Dth2的范圍。第三范圍R3是閾值Dthi與閾值Dth2之間的范圍。經驗性地或統計地預先選擇閾值Dthi和閾值DTH2，使得差值D在觀測音高Fv的變動是音素相關變動時成為第二范圍R2內的數值，并且差值D在觀測音高Fv的變動是除音素相關變動之外的錯誤變動時成為第一范圍Ri內的數值。在圖4的示例中，假設這樣的情況，其中將閾值Dthi設為近似170森特，并將閾值Dth2設為近似220森特。當差值D為200森特(在第三范圍R3內)時，調整值a被設為0.6。
[0037]如同根據圖4理解的那樣，當參考音高Fr與觀測音高Fv之間的差值D是第一范圍R1內的數值(即，當觀測音高Fv的變動被估計為錯誤變動)時，將調整值a設為最小值O。另一方面，當差值D是第二范圍R2內的數值(即，當觀測音高Fv的變動被估計為音素相關變動)時，將調整值a設為最大值I。此外，當差值D是第三范圍R3內的數值時，將調整值a設為在大于或等于O且小于或等于I的范圍內的對應于差值D的值。具體地，調整值a與第三范圍R3內的差值D成正比。
[0038]如上所述，根據第一實施例的變動分析單元44通過將差值D與上述條件下設置的調整值a相乘而產生變動分量A。因此，當差值D是第一范圍R1內的數值時將調整值a設為最小值0，從而使變動分量A為0，并且禁止觀測音高Fv的變動(錯誤變動)被反映在音高過渡C中。另一方面，當差值D是第二范圍R2內的數值時將調整值a設為最大值I，從而產生與觀測音高Fv的音素相關變動相對應的差值D作為變動分量A，其結果為觀測音高Fv的變動被反映在音高過渡C中。如同根據以上描述理解的那樣，調整值a的最大值I意指觀測音高Fv的變動被反映在變動分量A中(作為音素相關變動而被提取)，而調整值a的最小值O意指觀測音高Fv的變動未被反映在變動分量A中(作為錯誤變動而被忽略)。注意的是，就元音音素而言，觀測音高Fv與參考音高Fr之間的差值D降至閾值Dthi以下。因此，元音的觀測音高Fv的變動(除音素相關變動之外的變動)未被反映在音高過渡C中。
[0039]圖2所示的變動添加單元36通過將由變動產生單元34(變動分析單元44)根據上述過程產生的變動分量A添加至基礎過渡B來產生音高過渡C。具體地，根據第一實施例的變動添加單元36從基礎過渡B中減去變動分量A，從而產生音高過渡C(C = B-A)。在圖3中，同時用虛線表示在為方便起見而將基礎過渡B假設為參考音高Fr時獲得的音高過渡C。如同根據圖3理解的那樣，在音素[n]、[a]和[O]的各區段的大部分中，參考音高Fr與觀測音高Fv之間的差值D降至閾值Dthi以下，因此在音高過渡C中，觀測音高Fv的變動(即，錯誤變動)得到充分抑制。另一方面，在音素[B]和[D]的各區段的大部分中，差值D超過閾值DTH2，因此觀測音高Fv的變動(即，音素相關變動)也在音高過渡C中如實保持。如同根據以上描述理解的那樣，根據第一實施例的音高設置單元24設置音高過渡C，使得與差值D是第一范圍R1內的數值時相比，語音片段P的觀測音高Fv的變動所反映的音級在差值D是第二范圍1?2內的數值時變得更大。
[0040]圖5是變動分析單元44的操作的流程圖。每當音高分析單元42對由片段選擇單元22順序地選擇的每個語音片段P的觀測音高Fv進行識別時，執行圖5所示的過程。當圖5所示的過程開始時，變動分析單元44計算存儲在存儲裝置14中的參考音高Fr與由音高分析單元42識別的觀測音高Fv之間的差值D(SI)。
[0041]變動分析單元44設置對應于差值D的調整值a(S2)。具體地，在存儲裝置14中存儲參照圖4描述的用于表不差值D與調整值a之間的關系的函數(諸如閾值Dthi和閾值Dth2之類的變量)，并且變動分析單元44使用存儲在存儲裝置14中的函數來設置對應于差值D的調整值a。然后，變動分析單元44將差值D乘以調整值a，從而產生變動分量A(S3)。
[0042]如上所述，在第一實施例中，設置音高過渡C，在所述音高過渡C中利用與參考音高Fr和觀測音高Fv之間的差值D相對應的音級來反映觀測音高Fv的變動，因而可產生如實重現參考聲音的音素相關變動的音高過渡，同時減少了合成的聲音會被感知為走調的擔憂。特別地，第一實施例的有利之處在于:由于將變動分量A添加至與通過合成信息S在時間序列中指定的音高X1相對應的基礎過渡B，因此可在保持目標歌曲的旋律的同時重現音素相關變動。
[0043]此外，第一實施例實現了以下顯著效果:可通過諸如將要應用于調整值a的設置的差值D乘以調整值a之類的簡單過程，來產生變動分量A。特別地，在第一實施例中，設置調整值a，以使其在差值D在第一范圍R1內時變為最小值O，使其在差值D在第二范圍R2內時變為最大值I，并且使其在差值D在第一范圍與第二范圍之間的第三范圍R3內時變為根據差值D而變動的數值，因此與例如將包括指數函數的多種函數應用于調整值a的設置的配置相比，上文提及的效果為變動分量A的產生過程變得更為簡單。
[0044]〈第二實施例〉
[0045]將描述本發明的第二實施例。注意的是，在下文示出的每個實施例中，具有與第一實施例中的組件的行為或功能相同的行為或功能的組件同樣用第一實施例的描述所用的附圖標記表示，并且適當地省略了相應組件的詳細描述。
[0046]圖6是根據第二實施例的音高設置單元24的框圖。如圖6所示，通過將平滑處理單元45添加至根據第一實施例的變動產生單元34來配置根據第二實施例的音高設置單元24。平滑處理單元46在時間軸上對變動分析單元44所產生的變動分量A進行平滑化。可采用任何已知技術來對變動分量A進行平滑化(抑制暫時性變動)。另一方面，變動添加單元36通過將已被平滑處理單元46平滑化的變動分量A添加至基礎過渡B來產生音高過渡C。
[0047]在圖7中，假設與圖3所示的音素相同的音素的時間序列，并且以虛線表示每個語音片段P的觀測音高Fv被根據第一實施例的變動分量A校正的音級(校正量)的時間變化。換言之，圖7的縱軸所表示的校正量對應于參考聲音的觀測音高Fv與在基礎過渡B保持在參考音高Fr時獲得的音高過渡C之間的差值。因此，如圖3與圖7的對比中的理解，在被估計為展現錯誤變動的音素[n]、[a]和[O]的區段中校正量增加，而在被估計為展現音素相關變動的音素[B]和[D]的區段中校正量被抑制到接近O。
[0048]如圖7所示，在第一實施例的配置中，校正量會緊隨每個音素的起始點之后急劇變動，這會使人擔心重現聲音信號V的合成的聲音可能被感知為帶給聽眾不自然的感覺。另一方面，圖7的實線對應于根據第二實施例的校正量的時間變化。如根據圖7的理解，在第二實施例中，平滑處理單元46對變動分量A進行平滑化，從而與第一實施例相比更大程度地抑制了音高過渡C的驟然變動。這帶來了以下優點:減少了合成的聲音可能被感知為帶給聽眾不自然的感覺的擔憂。
[0049]〈第三實施例〉
[0050]圖8是用于示出根據本發明第三實施例的差值D與調整值α之間的關系的曲線圖。如圖8中的箭頭所示，根據第三實施例的變動分析單元可變地對確定差值D的范圍的閾值Dthi和閾值Dth2進行設置。如同根據第一實施例的描述理解的那樣，調整值α可能會隨著閾值Dth1和閾值Dth2變小而被設置為更大的數值(例如，最大值I)，從而使語音片段P的觀測音高Fv的變動(音素相關變動)變得更有可能被反映在音高過渡C中。另一方面，調整值α可能會隨著閾值Dthi和閾值Dth2變大而被設置為更小的數值(例如，最小值O)，從而使語音片段P的觀測音高Fv的變動變得更不可能被反映在音高過渡C中。
[0051]順便提及，取決于音素類型，被聽眾感知為走調(五音不全)的音級存在差異。例如，存在這樣的趨勢:只要當音高相比于目標歌曲的原始音高X1稍有差異時，諸如音素[η]的發聲的輔音就會被感知為走調；而即使當音高相比于原始音高X1存在差異時，諸如音素[V]、[ ζ ]和[j ]的發聲的摩擦音幾乎不會被感知為走調。
[0052]考慮到聽眾感知特性取決于音素類型的差異，根據第三實施例的變動分析單元44依據由片段選擇單元22順序地選擇的語音片段P的每個音素的類型，可變地設置差值D與調整值α之間的關系(具體地，閾值Dth1和閾值DTH2)。具體地，就傾向于被感知為走調的那類音素(例如，[η])而言，通過將閾值Dth1和閾值Dth2設置為較大的數值，使在音高過渡C中觀測音高Fv的變動(錯誤變動)所反映的音級減小。同時，就傾向于很難被感知為走調的那類音素(例如，[v]、[z]或[j])而言，通過將閾值Dth1和閾值Dth2設置為較小的數值，使在音高過渡C中觀測音高Fv的變動(音素相關變動)所反映的音級增加。可通過變動分析單元44參照例如被添加至語音片段組L的每個語音片段P的屬性信息(用于指定每個音素的類型的信息)來識別形成語音片段P的每個音素的類型。
[0053]另外，在第三實施例中，實現了與第一實施例相同的效果。此外，在第三實施例中，可變地控制差值D與調整值α之間的關系，這帶來了以下優點:在音高過渡C中反映每個語音片段P的觀測音高Fv的變動的音級可以被適當地調整。此外，在第三實施例中，根據語音片段P的每個音素的類型來控制差值D與調整值α之間的關系，因而可如實重現參考聲音的音素相關變動，同時顯著減少了被合成的聲音會被感知為走調的擔憂。注意的是，第二實施例的配置可應用于第三實施例。
[0054]〈修改例〉
[0055]可按各種不同的方式修改以上示出的每個實施例。下面示出了具體修改的各個實施例。還可以適當地組合從下面的示例中任意選擇的至少兩個實施例。
[0056](I)在上述每個實施例中，示出了音高分析單元42對每個語音片段P的觀測音高Fv進行識別的配置，但是觀測音高Fv可針對每個語音片段P預先存儲在存儲裝置14中。在觀測音高Fv存儲在存儲裝置14的配置中，可省略上述每個實施例中示出的音高分析單元42。
[0057](2)在上述每個實施例中，示出了調整值α根據差值D以直線變動，但是差值D與調整值α之間的關系可以任意設置。例如，可采用調整值α相對于差值D以曲線變動的配置。可以任意改變調整值α的最大值和最小值。此外，在第三實施例中，可根據語音片段P的音素類型來控制差值D與調整值α之間的關系，但是變動分析單元44可基于例如用戶給出的指令來改變差值D與調整值α之間的關系。
[0058](3)還可利用用于通過通信網絡(例如移動通信網絡或互聯網)向/從終端裝置通信的服務器裝置來實現聲音合成裝置100。具體地，從終端裝置通過通信網絡接收的聲音合成信息S按照與第一實施例相同的方式指定合成的聲音，聲音合成裝置100產生該合成的聲音的聲音信號V，并將聲音信號V通過通信網絡發送至終端裝置。此外，例如，可采用以下配置:語音片段組L被存儲在與聲音合成裝置100分離提供的服務器裝置中，并且聲音合成裝置100從服務器裝置獲取對應于合成信息S內的聲產生細節X3的每個語音片段P。換言之，聲音合成裝置100持有語音片段組L的配置并不是必要的。
[0059]注意的是，根據本發明優選模式的聲音合成裝置是被配置為通過提取自參考聲音的語音片段的連接而產生聲音信號的聲音合成裝置，所述聲音合成裝置包括:片段選擇單元，其被配置為順序地選擇所述語音片段;音高設置單元，其被配置為設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。在上述配置中，設置這樣的音高轉換:在其中利用與參考音高和語音片段的觀測音高之間的差值相對應的音級來反映語音片段的觀測音高的變動，所述參考音高為參考聲音的聲產生的參考。例如，音高設置單元設置所述音高過渡，以使得與所述差值為特定數值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數值時變大。這帶來了以下優點:能夠產生重現音素相關變動的音高過渡，同時減少了對被聽眾感知為走調(即，五音不全)的擔憂。
[0060]在本發明的優選模式中，音高設置單元包括:基礎過渡設置單元，其被配置為設置基礎過渡，所述基礎過渡對應于待合成的目標的音高的時間序列;變動產生單元，其被配置為通過將參考音高與觀測音高之間的差值乘以與參考音高與所述觀測音高之間的差值相對應的調整值，來產生變動分量；以及變動添加單元，其被配置為將所述變動分量添加至所述基礎過渡。在上述模式中，通過將所述差值乘以與參考音高和觀測音高之間的差值相對應的調整值而獲得的變動分量被添加至與待合成的目標的音高的時間序列相對應的基礎過渡，這帶來了以下優點:可在保持待合成目標的音高過渡(例如，歌曲的旋律)的同時重現音素相關變動。
[0061]在本發明的優選模式中，變動產生單元設置調整量，以使其在所述差值為降至第一閾值以下的第一范圍內的數值時成為最小值，使其在所述差值為超過第二閾值(其大于第一閾值)的第二范圍內的數值時成為最大值，并且使其在所述差值為處于第一閾值與第二閾值之間的數值時成為根據不同的差值而在最小值與最大值之間的范圍內變動的數值。在上述模式中，以簡單的方式定義差值與調整值之間的關系，這帶來了使調整值的設置(即，變動分量的產生)簡化的優點。
[0062]在本發明的優選模式中，變動產生單元包括被配置為對變動分量進行平滑化的平滑處理單元，并且變動添加單元將已平滑化的變動分量添加至基礎過渡。在上述模式中，對變動分量進行平滑化，從而合成的聲音的音高的驟然變動被抑制。這帶來了以下優點:可產生帶給聽眾自然感覺的合成的聲音。例如，上述模式的具體示例在上文中被描述為第二實施例。
[0063]在本發明的優選模式中，變動產生單元可變地控制差值與調整值之間的關系。具體地，變動產生單元根據片段選擇單元所選擇的語音片段的音素類型來控制差值與調整值之間的關系。上述模式帶來了以下優點:可以適當地調整在音高過渡中反映各語音片段的觀測音高的變動的音級。例如，上述模式的具體示例在上文中被描述為第三實施例。
[0064]根據上述每個實施例的聲音合成裝置通過諸如數字信號處理器(DSP)的硬件(電子電路)實現，并且還可以以通用處理器單元(例如中央處單元(CPU))與程序合作的方式實現。根據本發明的程序可通過以存儲在計算機可讀記錄介質中的形式提供而安裝在計算機上。例如，所述記錄介質為非暫時性存儲器，其優選示例包括諸如CD-ROM的光學記錄介質(光盤)，并且可包含任意格式的已知記錄介質，例如半導體記錄介質或磁性記錄介質。例如，根據本發明的程序可通過以在通信網絡上分布的形式提供而安裝在計算機上。此外，本發明還可被定義為根據上述每個實施例的聲音合成裝置的操作方法(聲音合成方法)。
[0065]雖然已經描述了當前被視為本發明特定實施例的內容，但是應當理解，可對其進行各種不同的修改，并且其意圖在于，所附權利要求將所有這樣的修改覆蓋為落入本發明的真實精神和范圍內。
【主權項】
1.一種聲音合成方法，其用于通過提取自參考聲音的語音片段的連接而產生聲音信號，所述聲音合成方法包括: 由片段選擇單元順序地選擇所述語音片段；由音高設置單元設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及由聲音合成單元通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。2.根據權利要求1所述的聲音合成方法，其中，所述音高過渡的設置包括:對所述音高過渡進行設置，使得與所述差值為特定數值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數值時變大。3.根據權利要求1所述的聲音合成方法，其中，所述音高過渡的設置包括: 由基礎過渡設置單元設置基礎過渡，所述基礎過渡對應于待合成的目標的音高的時間序列；由變動產生單元通過將所述參考音高與所述觀測音高之間的差值和與所述參考音高與所述觀測音高之間的差值相對應的調整值相乘，來產生變動分量;以及由變動添加單元將所述變動分量添加至所述基礎過渡。4.根據權利要求3所述的聲音合成方法，其中，所述變動分量的產生包括:當所述差值為低于第一閾值的第一范圍內的數值時，對所述調整值進行設置以使其成為最小值；當所述差值為超過比所述第一閾值更大的第二閾值的第二范圍內的數值時，對所述調整值進行設置以使其成為最大值；以及當所述差值為所述第一閾值與所述第二閾值之間的數值時，對所述調整值進行設置，以使其成為根據所述最小值與所述最大值之間的范圍內的差值而變動的數值。5.根據權利要求3所述的聲音合成方法，其中: 所述變動分量的產生包括:由平滑處理單元對所述變動分量進行平滑化;并且所述變動分量的添加包括:將已平滑化的變動分量添加至所述基礎過渡。6.一種聲音合成裝置，其被配置為通過提取自參考聲音的語音片段的連接而產生聲音信號，所述聲音合成裝置包括: 片段選擇單元，其被配置為順序地選擇所述語音片段；音高設置單元，其被配置為設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。7.根據權利要求6所述的聲音合成裝置，其中，所述音高設置單元還被配置為:對所述音高過渡進行設置，使得與所述差值為特定數值的情況相比，在所述音高過渡中所述語音片段的觀測音高的變動所反映的音級在所述差值超過所述特定數值時變大。8.根據權利要求6所述的聲音合成裝置，其中，所述音高設置單元包括: 基礎過渡設置單元，其被配置為設置基礎過渡，所述基礎過渡對應于待合成的目標的首尚的時間序列；變動產生單元，其被配置為通過將所述參考音高與所述觀測音高之間的差值和與所述參考音高與所述觀測音高之間的差值相對應的調整值相乘，來產生變動分量;以及變動添加單元，其被配置為將所述變動分量添加至所述基礎過渡。9.根據權利要求8所述的聲音合成裝置，其中，所述變動產生單元還被配置為:當所述差值為低于第一閾值的第一范圍內的數值時，將所述調整值設置為最小值；當所述差值為超過比所述第一閾值更大的第二閾值的第二范圍內的數值時，將所述調整值設置為最大值；以及當所述差值為處于所述第一閾值與所述第二閾值之間的數值時，將所述調整值設置為根據所述最小值與所述最大值之間的范圍內的差值而變動的數值。10.根據權利要求8所述的聲音合成裝置，其中: 所述變動產生單元包括平滑處理單元，該平滑處理單元被配置為對所述變動分量進行平滑化;并且所述變動添加單元還被配置為將已平滑化的變動分量添加至所述基礎過渡。11.一種存儲聲音合成程序的非暫時性計算機可讀記錄介質，所述聲音合成程序用于通過提取自參考聲音的語音片段的連接而產生聲音信號，所述程序使得計算機充當: 片段選擇單元，其被配置為順序地選擇所述語音片段；音高設置單元，其被配置為設置音高過渡，在所述音高過渡中，根據與作為所述參考聲音的聲產生參考的參考音高和所述片段選擇單元所選擇的語音片段的觀測音高之間的差值相對應的音級，來反映所述語音片段的觀測音高的變動；以及聲音合成單元，其被配置為通過根據所述音高設置單元所產生的音高過渡而調整所述片段選擇單元所選擇的語音片段的音高，來產生所述聲音信號。
【文檔編號】G10L13/02GK105957515SQ201610124952
【公開日】2016年9月21日
【申請日】2016年3月4日
【發明人】才野慶二郎, 若爾迪·博納達, 梅利因·布洛烏
【申請人】雅馬哈株式會社

完整全部詳細技術資料下載