專利名稱:自動分割單字語音信號的裝置的制作方法
技術領域:
本實用新型涉及一種分割單字語音信號的裝置,尤其是一種自動分割單字 語音信號的裝置。
背景技術:
在語言學習過程中,常會借助許多語言學習工具,如電子辭典等,用來增 加學習效果與加快學習速度。目前一般的電子辭典都具有發音的功能,也就是 說當使用者通過電子辭典查詢單字或例句后,可通過發音的功能,而聽取正確 的單字或例句的發音。如此,將可大幅提升使用者在語言學習上,在聽與說方 面的能力。因此,有越來越多的廠商日益重視電子辭典的發音功能。
近來電子辭典標榜具有真人發音的功能,已成為各廠商所訴求的特色。而 真人發音可通過真人來錄制各個單字的聲波,而達到真人發音的功能。然而, 利用真人來錄制所有單字的聲波,將耗費掉電子辭典內存非常多的儲存空間, 進而提升成本的支出。
因此,發展出通過發音合成的方式,而達到接近真人發音的功能,如此可 節省內存的空間,也同時提高發音的質量。發音合成的方式一般可分為兩種, 以英文單字為例說明如下。
第一種方式,依照英文辭典單字表中的音標來決定音節。在合成一個英文 單字的語音數據前,必須先將此英文單字分割為單個或多個音節,再由原始錄 音的數據中獲取出與音節相對應的聲波,并加以結合即可。
第二種方式,錄制所有各種聲母、韻母及音調組合的各個音節聲波,并儲 存在內存中。在合成一個英文單字的語音數據前,必須先將此英文單字分割為 單個或多個音節,再由錄制的數據中獲取出與分割后的各個音節相對應的聲波, 并加以結合即可。
由上述說明可知,不論是哪種發音合成的方式,都必須先將英文單字分割 為單個或多個音節,才能迸行后續的處理。而傳統的作法上,是通過人耳聽音而利用手工切分。如此,需投入大量的人力與工時才能完成。另外,手工切分 音節的工作枯燥、數量龐大,且采用人耳聽音而作音節的切分,極易產生誤差。 因此,如何解決傳統上人工切分單字語音所衍生的問題,為亟待解決的議題。
實用新型內容
本實用新型為解決背景技術中存在的上述技術問題,而提出一種自動分割 單字語音信號的裝置。
本實用新型的技術解決方案是本實用新型為一種自動分割單字語音信號 的裝置,其特殊之處在于該裝置包括接收單元,用來接收單字語音信號, 并將單字語音信號劃分為多個音框;分析單元,分析音框,產生對應于每一個 音框的語音特征;分割單元,根據語音特征,分割單字語音信號為音節,接收 單元接入分析單元,分析單元接入分割單元。
上述語音特征包含音框的平均振幅值。
上述語音特征包含音框的平均過零率。
上述語音特征包含音框的倒頻譜參數。
上述分析單元根據語音特征產生門坎值,通過分割單元對比語音特征與門 坎值。
本實用新型提供的自動分割單字語音信號的裝置,通過語音特征來自動分 割單字語音信號為音節,完全替代了傳統的人工切分單字語音的方式,整個過 程不需要人工介入,省時省力,效率高,且大大降低了人為帶來的失誤率。
圖1為自動分割單字語音信號的裝置示意圖2為多音節單字語音信號的示意圖3為多音節單字語音信號的分割示意圖。
其中,10-接收單元,20-分析單元,30-分割單元;
具體實施方式
參見圖l,自動分割單字語音信號的裝置包含接收單元IO、分析單元20 及分割單元30。接收單元10接收單字語音信號,并將單字語音信號劃分為多個音框。分析
單元20分析多個音框,并產生對應于每一個音框的語音特征。分割單元30根 據分析單元20所分析出的語音特征,進而分割單字語音信號為音節。
每個單字的語音信號不會完全相同,但具有一些共同的特性,例如多音
節單字的發音是由各個音節所組成;音節組成在語音信號上有特定的規律可循;
利用語音特征可進行音節切分等。因此,本實用新型提出先將單字語音信號劃
分為多個音框,然后以每一個音框為單位,利用分析單元20分析出每一個音框 的語音特征。
其中,上述所提及的語音特征包含平均振幅值、平均過零率、倒頻譜參 數等。下面將針對每個語音特征做簡單說明。
語音信號的振幅所指的即為語音信號的大小,如同人類說話一般會有高低 起伏,所以語音信號的波形所呈現出來的也會有高低或強弱之分。而振幅便是 代表語音信號的大小,而平均振幅值,便是將所有音框的振幅值加總后再做平 均,如此可看出單位時間內,某段語音信號與整段語音信號相比的信號強弱分 布。
語音信號的平均過零率是指單位時間內信號波形穿過橫軸(零軸)的次數。 也就是說,語音信號的振幅值在單位時間內,正值和負值之間的跳變次數稱為 過零率。而將信號按音框進行劃分,把所有音框的過零率作統計平均,即稱為 平均過零率。
因此過零率簡單的說,便是語音信號在單位時間過零的次數。而過零率應 用廣泛,尤其在語音辨識方面。過零率高的區段對應于清音或無聲區。相對的, 噪聲較高,過零率較低的區段對應于濁音。由此可知,通過判斷過零率即可區 別語音信號中的清音與濁音、有聲與無聲等。
接著介紹倒頻譜參數。在信號的辨識中,最常用的特征參數是信號在頻譜 (spectrum)上的能量值,例如高頻信號只在高頻部分有較大的能量值,相對 的低頻信號在低頻部份的能量較大,而這些在頻譜上的能量值便可稱為一種特 征值。利用傅立葉轉換(Fourier Transform)的方法可以把時間軸上的信號轉換 到頻譜上來作處理。然而,針對語音信號而言,另一種稱為倒頻譜的參數更能代表語音信號的特性,而使辨識率提高。因此,采用倒頻譜參數可提升單字語 音信號的辨識率。
因此,本實用新型通過分析語音特征,再通過分割單元30根據語音特征而 達到自動分割單字語音信號為單個或多個音節。其中,分析單元20可根據語音 特征產生門坎值,利用門坎值可判斷是否為音節的分割點。當單字語音信號的 音框語音特征低于門坎值時,即表示該音框為音節的分割點。因此,當分析單 元20產生門坎值后,分割單元30對比語音特征與門坎值,進而將單字語音信 號分割為單個多個音節。
舉例說明,參見圖2,其中以單字dagoba (舍利子塔)為例作說明。Dagoba 具有三個音節,由圖2中可清楚看出各個音節之間有明顯的語音特征可區分。
參見圖3,在此實施例中采用語音特征中的平均振幅值與平均過零率相結 合,但不限于此。利用分割單元30將平均振幅值、平均過零率與門坎值作比較, 當發現平均振幅值、平均過零率低于門坎值時,即表示為音節的分割點。因此, 由圖3中可清楚看出Dagoba的單字語音信號,根據其語音特征而被切分為三個 音節。
此外,當分割單元30根據語音特征,將單字語音信號分割為單個或多個音 節后,可利用儲存單元(圖中未示)將每一個音節儲存起來,以提供后續利用, 例如電子辭典中,發音的合成等。
權利要求1、一種自動分割單字語音信號的裝置,其特征在于該裝置包括接收單元、分析單元以及分割單元;所述接收單元接入分析單元,所述分析單元接入分割單元。
2、 根據權利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的平均振幅值。
3、 根據權利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的平均過零率。
4、 根據權利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的倒頻譜參數。
5、 根據權利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述分析單元根據語音特征產生門坎值,通過分割單元對比語音特征與門坎值。
專利摘要本實用新型涉及一種自動分割單字語音信號的裝置,該裝置包含接收單元、分析單元以及分割單元;接收單元接入分析單元,分析單元接入分割單元,本實用新型完全替代了傳統的人工切分單字語音的方式,整個過程不需要人工介入,省時省力,效率高,且大大降低了人為帶來的失誤率。
文檔編號G10L13/04GK201323053SQ20082022273
公開日2009年10月7日 申請日期2008年12月2日 優先權日2008年12月2日
發明者楊亞冬, 陳淮琰, 韓召寧 申請人:無敵科技(西安)有限公司