本發(fā)明屬于語音識別技術(shù)領(lǐng)域,特別是涉及一種基于自然語言處理的機器人語音識別方法。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展,語音識別技術(shù)正逐步形成一套比較完善的理論體系,其應(yīng)用產(chǎn)品也相繼推出,具有識別自認語音的機器人就是其中一種。在機器人通信系統(tǒng)中加入自然語言和語音識別技術(shù),可完全轉(zhuǎn)變傳統(tǒng)機器人通信服務(wù)形式。使用具有語音處理和語音技術(shù)能力的通信網(wǎng)絡(luò),機器人可以非常便捷地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)的信息。自然語言處理技術(shù)和語音識別技術(shù)正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù),在不久的將來,通過語音識別技術(shù)與語音合成技術(shù)的結(jié)合,人們就能夠通過語音命令來進行原需要利用按鈕控制才可以進行的操作。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于自然語言處理的機器人語音識別方法,通過該方法的應(yīng)用,解決了現(xiàn)有的傳統(tǒng)機器人語言識別性能難以滿足社會需求的問題。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明為一種基于自然語言處理的機器人語音識別方法,該方法包括以下具體步驟:
步驟一,語音信號的采集
機器人通過其音頻傳感器接收自然語言的語音信號,其中音頻傳感器包括話筒;
步驟二,語音信號的預(yù)處理
語音信號的預(yù)處理包括預(yù)濾波、語音信號的數(shù)字化、預(yù)加重、加窗分幀、噪聲抑制和端點檢測;
步驟三,特征提取
將經(jīng)過步驟二處理后的語音信號進行語音特征參數(shù)的提取,選用語音特征是語音識別的根本,其中語音特征為幀特征矢量;
步驟四,模型訓(xùn)練
對經(jīng)過步驟三處理后的語音信號進行模型訓(xùn)練,模型訓(xùn)練用于使機器人從大量的真實語音中獲取模型參數(shù),繼而形成語音參考模式庫;
步驟五,模式匹配
根據(jù)一定的規(guī)則,利用步驟四中模型參數(shù)對輸入的語音進行模式匹配,并輸出識別結(jié)果。
進一步地,步驟二中所述的預(yù)濾波是采用帶通濾波器,預(yù)濾波用于抑制輸入信號各頻域分量中頻率超出采樣頻率一半的所有分量以及抑制50Hz或60Hz的電源工頻信號。
進一步地,步驟二中所述的語音信號的數(shù)字化包括語音信號的采樣和語音信號的量化,即首先對語音信號進行采樣,然后再對語音信號進行量化,繼而得到離散時域的語音信號。
進一步地,步驟二中所述的預(yù)加重是用于提升語音信號中的高頻信號的能量,以彌補聲音的在唇部輻射時產(chǎn)生的高頻部分能量的損失。
進一步地,步驟二中所述的加窗分幀是將語音信號經(jīng)過加窗分幀后被處理為短時語音幀,繼而把每個短時語音幀看作平穩(wěn)的隨機信號,然后逐幀提取語音信號的特征矢量,最后得到由每一幀參數(shù)組成的語音特征參數(shù)序列。
本發(fā)明具有以下有益效果:
本發(fā)明通過采用對自然語言進行一系列的處理,從而使得機器人對自然語言的語音識別,提高了識別的準確度和效率;通過濾波等處理措施,提高了語音信號的清晰度,從而便于識別;通過該語音識別方法,提高了機器人的智能化水平。
當然,實施本發(fā)明的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
具體實施方式
下面將結(jié)合本發(fā)明實施例,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明為一種基于自然語言處理的機器人語音識別方法,該方法包括以下具體步驟:
步驟一,語音信號的采集
機器人通過其音頻傳感器接收自然語言的語音信號;
步驟二,語音信號的預(yù)處理
語音信號的預(yù)處理包括預(yù)濾波、語音信號的數(shù)字化、預(yù)加重、加窗分幀、噪聲抑制和端點檢測;語音信號的預(yù)處理是語音識別過程的前期預(yù)備工作,為后續(xù)各個環(huán)節(jié)的處理奠定基礎(chǔ);
其中,預(yù)濾波是采用帶通濾波器,預(yù)濾波的目的有兩個:其一是抑制輸入信號各頻域分量中頻率超出采樣頻率一半的所有分量,以防止頻率混疊干擾;其二是抑制50Hz或60Hz的電源工頻干擾;
其中,語音信號的數(shù)字化包括語音信號的采樣和語音信號的量化,即首先對語音信號進行采樣,然后再對語音信號進行量化,繼而得到離散時域的語音信號;
其中,預(yù)加重是用于提升語音信號中高頻信息部分的能量,以彌補聲音的在唇部輻射時產(chǎn)生的高頻信號部分的能量損失;
其中,加窗分幀是將語音信號經(jīng)過加窗分幀后被處理為短時語音幀,繼而把每個短時語音幀看作平穩(wěn)的隨機信號,然后逐幀提取語音信號的特征矢量,最后得到由每一幀參數(shù)組成的語音特征參數(shù)序列;
步驟三,特征提取
將經(jīng)過步驟二處理后的語音信號進行語音特征參數(shù)的提取,選用語音特征是語音識別的根本,其中語音特征為幀特征矢量;
步驟四,模型訓(xùn)練
對經(jīng)過步驟三處理后的語音信號進行模型訓(xùn)練,訓(xùn)練的目的是讓機器人從大量的真實語音中學(xué)習(xí)必要的模型參數(shù),用于形成語音參考模式庫,為識別階段做準備;
步驟五,模式匹配
根據(jù)一定的規(guī)則,利用步驟四中模型參數(shù)對輸入的語音進行模式匹配,并輸出識別結(jié)果。
在本說明書的描述中,參考術(shù)語“一個實施例”、“示例”、“具體示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
最后需要說明的是,以上公開的本發(fā)明優(yōu)選實施例只是用于幫助闡述本發(fā)明。優(yōu)選實施例并沒有詳盡敘述所有的細節(jié),也不限制該發(fā)明僅為所述的具體實施方式。顯然,根據(jù)本說明書的內(nèi)容,可作很多的修改和變化。本說明書選取并具體描述這些實施例,是為了更好地解釋本發(fā)明的原理和實際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書及其全部范圍和等效物的限制。