麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種語音指令識別方法、系統及機器人與流程

文檔序號:12036182閱讀:363來源:國知局
一種語音指令識別方法、系統及機器人與流程

本發明屬于語音識別技術領域,尤其涉及一種語音指令識別方法、系統及機器人。



背景技術:

隨著人們生活水平的提高以及機器人技術的進步,機器人已經逐步走入了普通家庭的視野,如市面上常見的除草機器人、清潔機器人及管家機器人等。隨著語音識別技術的發展與普及,現在市面上許多機器人都具備了語音識別及語義識別功能,用戶可以通過直接與機器人語音對話的形式,來與機器人進行交互,控制機器人工作。

目前的語音識別技術能做到安靜的環境之下,較好的接收和識別用戶語音指令,與用戶進行交互,但一旦環境中出現了人聲噪聲時,如看觀看電視節目時發出的電視語音,語音識別系統就會無法分辨出是電視語音還是用戶語音指令,導致執行一些錯誤的操作,例如:如電視中發出“關機”的語音,語音識別系統將其識別為用戶語音指令,導致控制機器人關機。

綜上可知,現有技術難以區分用戶語音指令及電視語音,無法在含有電視語音的環境中,正確地識別出用戶語音指令。



技術實現要素:

有鑒于此,本發明實施例提供了語音指令識別方法及裝置,以解決現有技術中無法在含有電視語音的環境中,正確識別出用戶語音指令的問題。

本發明實施例的第一方面提供了一種語音指令識別方法,包括:

獲取電視直播時的實時電視語音數據,并提取所述實時電視語音數據中的第一聲紋數據;

實時緩存最近一預設時間段內的所述第一聲紋數據;采集環境語音數據,并提取所述環境語音數據中的第二聲紋數據;

若實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,則對所述環境語音數據進行用戶語音指令識別。

本發明實施例的第二方面提供了一種語音指令識別系統,包括:機器人及服務器;

所述服務器包括電視聲紋獲取模塊,用于獲取電視直播時的實時電視語音數據,并提取所述實時電視語音數據中的第一聲紋數據;實時緩存最近一預設時間段內的所述第一聲紋數據;

所述機器人包括環境聲紋采集模塊,用于采集環境語音數據,并提取所述環境語音數據中的第二聲紋數據,并將第二聲紋數據發送至所述服務器;

所述服務器包括聲紋匹配模塊,用于對所述第一聲紋數據與所述第二聲紋數據進行聲紋匹配,并將聲紋匹配結果發送至所述機器人;

所述機器人包括語音識別模塊,用于當實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,則對所述環境語音數據進行用戶語音指令識別。

本發明實施例的第三方面提供了一種機器人,包括:

環境聲紋采集模塊,用于采集環境語音數據,并提取所述環境語音數據中的第二聲紋數據,并將第二聲紋數據發送至所述服務器,以使得所述服務器能根據電視直播時的第一聲紋數據,對所述第二聲紋數據進行聲紋匹配;

語音識別模塊,用于接收所述服務器發送的聲紋匹配結果,當實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,則對所述環境語音數據進行用戶語音指令識別。

本發明實施例與現有技術相比存在的有益效果是:提取環境中的語音數據的第二聲紋數據后,通過將第二聲紋數據與電視直播的第一聲紋數據,能夠判斷出環境語音數據是否包含當前正在播放的電視節目發出的電視語音,從而達到了電視語音識別的效果,防止電視語音對機器人的干擾。由于電視網絡有時可能會出現一定的網絡傳輸延遲情況,此時用戶觀看到的電視節目并不是實時的,環境語音數據中包含電視語音也不是實時的電視語音,所以此時第二聲紋數據無法正常與實時電視聲紋數據進行匹配,而通過將第二聲紋數據與實時緩存最近一預設時間段內的第一聲紋數據進行聲紋匹配,使得即使出現了一定的網絡傳輸延遲的情況下,也能保證聲紋匹配的有效性,提高了對電視語音的識別準確性。在得出聲紋匹配結果之后,根據聲紋匹配結果判斷環境語音數據是不是電視語音,避免了誤將電視語音當作用戶語音指令情況的發生,使得即使在含有電視語音的環境中,也能正確地識別出用戶語音指令,防止電視語音信號的干擾。

附圖說明

為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1是本發明實施例一提供的語音指令識別方法的實現流程圖;

圖2是本發明實施例二提供的語音指令識別方法的實現流程圖;

圖3是本發明實施例三提供的語音指令識別方法的實現流程圖;

圖4是本發明實施例五提供的語音指令識別系統的系統交互圖;

圖5是本發明實施例六提供的語音指令識別系統的系統交互圖;

圖6是本發明實施例七提供的機器人的結構示意圖。

具體實施方式

以下描述中,為了說明而不是為了限定,提出了諸如特定系統結構、技術之類的具體細節,以便透徹理解本發明實施例。然而,本領域的技術人員應當清楚,在沒有這些具體細節的其它實施例中也可以實現本發明。在其它情況中,省略對眾所周知的系統、裝置、電路以及方法的詳細說明,以免不必要的細節妨礙本發明的描述。

為了說明本發明的技術方案,下面通過具體實施例來進行說明。

在本發明實施例中,語音數據均是指對聲音數據進行人聲提取后得到的數據,即語音數據僅包含人聲數據而不包含諸如音樂之類的非人聲數據。例如:電視語音數據,是指對采集到的電視聲音數據進行人聲提取所得出的語音數據,即電視語音數據只包含電視聲音數據中人說話聲音對應的語音數據,而不包含電視背景音樂之類的非人聲數據。

圖1示出了本發明實施例一提供的語音指令識別方法實現流程,詳述如下:

s101,獲取電視直播時的實時電視語音數據,并提取實時電視語音數據中的第一聲紋數據。實時緩存最近一預設時間段內的第一聲紋數據。

本發明實施例中,為了識別出環境語音數據中的電視語音,需要獲取電視語音對應的第一聲紋數據,通過將環境語音數據的第二聲紋數據和第一聲紋數據進行對比,來確定環境語音數據是否含有電視語音。

作為本發明實施例的一個具體實現方式,可以采取通過從互聯網接入電視直播流地址,獲取電視直播流的聲音的方式,來獲取電視直播時的第一聲紋數據。

由于在實際情況中,電視網絡都具有一定的延遲,即會有網絡傳輸延遲情況存在,用戶觀看到的電視節目并不是實時的,所以在用戶看電視節目時,機器人采集的環境語音數據中的電視語音也不是實時的電視語音,此時若將第二聲紋數據與實時電視語音中的聲紋數據進行對比,無法正常識別出環境語音數據是否包含電視語音。為了能在電視網絡出現網絡傳輸延遲的情況下,正常識別環境語音數據中的是否包含電視語音,本發明實施例中,會實時緩存最近一預設時間段內的第一聲紋數據,如當預設時間段為5分鐘時,若當前時刻是8:00:00,則本發明實施例會緩存7:55:00~8:00:00這段時間內的電視語音的第一聲紋數據。此時即使出現網絡傳輸延遲,采集的環境語音數據中的電視環境語音不是實時的電視語音,只要網絡傳輸延遲的時間小于預設時間間隔,采集到的電視語音對應的聲紋數據,就必然包含在歷史第一聲紋數據之中,因此,本發明實施例可以實現即使在在電視網絡出現網絡傳輸延遲的情況下,也能正常識別環境語音數據中的是否包含電視語音。其中,預設時間由技術人員根據實際情況進行確定,本發明實施例中,優選預設時間間隔為15秒。

s102,采集環境語音數據,并提取環境語音數據中的第二聲紋數據。

在s102中采集環境中的環境語音數據,并提取環境語音數據中的第二聲紋數據,以供后續與第一聲紋數據進行對比,識別環境語音數據是否包含電視語音,以及對用戶語音指令的識別。

作為本發明實施例的一個具體實現方式,機器人通過自帶的拾音模塊采集環境中的環境語音數據,進行用戶語音指令識別時,為了保證對用戶語音指令識別的及時性,會保持拾音模塊處于實時激活狀態,即s101對環境語音數據的采集,是一個持續的過程。

為了提高采集的環境語音數據的質量,減少采集的環境語音數據中的噪聲,在本發明實施例中,優選采用高信噪比的采集硬件,來進行s101中的環境語音數據采集。由于不同用戶說話的聲音大小會有較大差別,且用戶在興奮和沮喪等不同狀態下說話的聲音大小也會有較大差別,為了盡量滿足用戶實際需求,適應不同的用戶人群,本發明實施例中,優選采用靈敏度較高的采集硬件,或者靈敏度可調節的采集硬件,來進行s101中的環境語音數據采集。

聲紋是一個非常重要的語音特征,可以用于區分識別不同的用戶。為了對環境語音數據進行聲紋匹配和用戶識別,以避免出現將電視語音識別成用戶語音指令的錯誤,s101中在獲取到環境語音數據之后,還需要提取其中的第二聲紋數據。雖然有多種特征參數可以用以表征聲紋的特征,如梅爾頻率倒譜系數mfcc、線性預測倒譜系數lpcc、多媒體內容描述接口mpeg7,但考慮到mfcc是基于倒譜所得到的,更符合人的聽覺原理,對聲紋特征的表征效果最佳,因而在本發明實施例中,優選采用mfcc梅爾倒譜系數作為人聲聲紋的特征參數,即提取環境語音數據的mfcc梅爾倒譜系數作為第二聲紋數據。

s103,若實時緩存的第一聲紋數據與第二聲紋數據不匹配,則對環境語音數據進行用戶語音指令識別。

在獲取到第二聲紋數據后,開始對第二聲紋數據和第一聲紋數據進行聲紋匹配,判斷環境語音數據中是否包含了電視語音。

對應不同的實際場景,環境語音數據存在三種情況,第一種情況,只有用戶說話,沒有電視語音,此時環境語音數據僅包含用戶語音指令,第二種情況,只有電視語音,用戶沒有說話,此時環境語音數據僅包含電視語音,第三種情況,用戶在有電視語音的同時也說話了,此時環境語音數據既包含電視語音又包含用戶語音指令。與環境語音數據對應的,第二聲紋數據也存在三種情況,第一種情況,第二聲紋數據僅包含用戶聲紋,第二種情況,第二聲紋數據僅包含電視聲紋,第三種情況,第二聲紋數據既包含電視聲紋又包含用戶聲紋。

由于實際場景中,用戶可能會在電視節目中的人發出電視語音的同時說話,為了保證后續電視語音識別時,能同時正常識別出用戶語音指令,在對第二聲紋數據進行聲紋匹配時,不僅要對電視聲紋進行匹配,還需要對用戶聲紋進行匹配,即聲紋匹配結果中,既包含電視聲紋匹配結果,又包含用戶聲紋匹配結果,以便于后續進行電視語音判定以及識別用戶語音指令。

對應第二聲紋數據存在的三種情況,相應的聲紋匹配結果也可能出現三種情況。

第一種情況,第二聲紋數據僅包含用戶聲紋,即第二聲紋數據不包含電視聲紋,此時說明環境語音數據中沒有電視語音,只需直接從環境語音數據提取識別用戶語音指令即可。

第二種情況,第二聲紋數據僅包含電視聲紋,此時說明環境語音數據中沒有用戶語音,無需對環境語音數據進行任何響應操作,即無需從環境語音數據提取識別用戶語音指令。

第三種情況,第二聲紋數據既包含電視聲紋又包含用戶聲紋,即第二聲紋數據既不僅包含電視聲紋,此時說明環境語音數據中既包含電視語音,又包含用戶語音,因此,既需要不對識別出的電視語音進行響應操作,又需要從環境語音數據提取識別用戶語音指令,以保證在不對電視語音產生誤識別的同時,還能正常識別用戶語音指令。

在本發明實施例中,實時緩存的第一聲紋數據與第二聲紋數據不匹配,對應著聲紋匹配結果的第一種情況及第三種情況,即實時緩存的第一聲紋數據與第二聲紋數據不匹配意味著環境用戶數據中必定包含用戶語音指令,此時可直接對用戶語音指令進行提取識別。實時緩存的第一聲紋數據與第二聲紋數據匹配,則是對應聲紋匹配結果的第二種情況,此時環境語音數據中僅包含電視語音,此時無需對環境語音數據進行任何提取識別等響應操作。

作為s101的一個具體實施例二,如圖2所示,包括:

s201,對環境語音數據進行濾波降噪處理,得到人聲數據。由于實際情況中,在進行環境語音數據采集時,環境中可能會充斥著多種環境噪聲,如常見的空調工作噪聲和冰箱工作噪聲,在進行環境語音數據采集提取時,往往也會一并采集到這些環境噪聲,為了降低這些噪聲對后續聲紋提取及語音提取識別的影響,本發明實施例中,會對采集到的環境語音數據進行濾波降噪處理,濾除掉環境語音數據中的噪聲部分。本發明實施例中,濾波降噪既可以是通過濾波降噪硬件實現,也可以是通過濾波降噪軟件算法實現,具體可由技術人員根據實際情況擇優選取。

s202,提取人聲數據中的第二聲紋數據。在對環境語音數據濾波降噪完成后,得到了一個環境噪聲相對較少的人聲數據后,對人聲數據進行人聲聲紋的提取。

本發明實施例二中,通過對采集到的環境語音數據先進行濾波降噪處理,再提取第二聲紋數據,減少了環境噪聲對聲紋提取及語音指令提取識別的影響。

作為s103的一個具體實施例三,如圖3所示,包括:

s301,若實時緩存的第一聲紋數據與第二聲紋數據不匹配,對環境語音數據進行語音識別,得到環境語音數據對應的環境語音指令。

其中環境語音指令是指環境語音數據中包含的語音指令,由于環境中的人聲噪聲有時不僅僅只是電視語音,如銀行和商場中的叫號語音和廣播語音,這些人聲噪聲都可能對起語音識別系統產生干擾,使其出現誤操作。為了增強語音識別系統對人聲噪聲的抗干擾能力,本發明實施例中,還會預存一個干擾語音指令庫,用以存儲一些常見的人聲噪聲的語音指令。在進行環境語音數據中的用戶語音指令識別時,還會對這些干擾語音指令庫中對應的人聲噪聲進行識別,并不對人聲噪聲進行任何響應操作。

以一常見的環境語音數據中包含人聲噪聲“歡迎光臨”為例,在本發明實施例s301中,會對環境語音數據進行語音識別,識別出其中包含的人聲噪聲對應的環境語音指令“歡迎光臨”。

s302,將環境語音指令與預設的干擾語音指令庫進行匹配。

在第一聲紋數據與第二聲紋數據不匹配時,只能說明環境語音數據中不包含電視語音,但其他的人聲噪聲還需要進一步的識別確認。本發明實施例中,為了實現對非電視語音的人聲噪聲的抗干擾識別,還會將將環境語音指令與預設的干擾語音指令庫進行匹配,判斷環境語音數據中是否包含人聲噪聲。即針對上述“歡迎光臨”實例中,s302中,會將識別出來的“歡迎光臨”的環境語言指令與預設的干擾語音指令庫,判斷“歡迎光臨”是否屬于干擾語音指令庫中的干擾語音指令,若干擾語音指令庫中已經包含了“歡迎光臨”的干擾語音指令,“歡迎光臨”屬于干擾語音指令,及環境語音數據是人聲噪音,此時無需對“歡迎光臨”進行任何操作響應。

s303,若環境語音指令與干擾語音指令庫不匹配,則對環境語音數據進行用戶語音指令識別。

針對上述“歡迎光臨”實例,若s302中,干擾語音指令庫中沒有包含了“歡迎光臨”的干擾語音指令,即環境語音指令與干擾語音指令庫不匹配,則意味著環境語音數據中,不包含干擾語音指令庫對應的人聲噪聲,或者不僅包含干擾語音指令庫對應的人聲噪聲,此時僅對環境語音數據進行用戶語音指令提取識別操作,而不對人聲噪聲進行任何響應操作。

應理解,上述實施例中各步驟的序號的大小并不意味著執行順序的先后,各過程的執行順序應以其功能和內在邏輯確定,而不應對本發明實施例的實施過程構成任何限定。

對應于上文實施例所述的方法,圖4示出了本發明實施例提供的語音指令識別系統的結構框圖,為了便于說明,僅示出了與本發明實施例相關的部分。

參照圖4,該語音指令識別系統包括:機器人及服務器,其中,

所述服務器包括電視聲紋獲取模塊,用于獲取電視直播時的實時電視語音數據,并提取所述實時電視語音數據中的第一聲紋數據。實時緩存最近一預設時間段內的所述第一聲紋數據。

所述機器人包括環境聲紋采集模塊,用于采集環境語音數據,并提取所述環境語音數據中的第二聲紋數據,并將第二聲紋數據發送至所述服務器。

所述服務器包括聲紋匹配模塊,用于對所述第一聲紋數據與所述第二聲紋數據進行聲紋匹配,并將聲紋匹配結果發送至所述機器人。

所述機器人包括語音識別模塊,用于當實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,則對所述環境語音數據進行用戶語音指令識別。

進一步地,所述環境聲紋采集模塊,包括:

濾波降噪子模塊,用于對所述環境語音數據進行濾波降噪處理,得到人聲數據。

聲紋提取子模塊,用于提取所述人聲數據中的所述第二聲紋數據。

進一步地,所述語音識別模塊,包括:

語音識別子模塊,用于所述若實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,對所述環境語音數據進行語音識別,得到所述環境語音數據對應的環境語音指令。

語音匹配子模塊,用于將所述環境語音指令與預設的干擾語音指令庫進行匹配。

指令識別子模塊,用于若所述環境語音指令與所述干擾語音指令庫不匹配,則對所述環境語音數據進行用戶語音指令識別。

在本發明實施例中,服務器主要用于獲取實時第一聲紋數據、存儲歷史第一聲紋數據以及對人聲聲紋進行匹配。為了減小服務器工作負載壓力,本發明實施例中,優選地,可以使用多臺服務器組合工作,來完成獲取實時第一聲紋數據、存儲歷史第一聲紋數據以及對人聲聲紋進行匹配的工作。

作為本發明的一個優選實施例六,如圖5所示,采用服務器a及服務器b兩臺服務器組合,完成實時緩存最近一預設時間段內的第一聲紋數據以及對人聲聲紋進行匹配的工作,其中服務器a包括聲紋匹配模塊,用于查詢服務器b中的第一聲紋數據,對接收到的所述第二聲紋數據進行聲紋匹配,并將聲紋匹配結果發送至所述機器人,服務器b包括電視聲紋獲取模塊,用于獲取電視直播時的實時電視語音數據,并實時緩存最近一預設時間段內的第一聲紋數據。

對應于上文實施例所述的系統,圖6示出了本發明實施例提供的機器人的結構示意框圖,為了便于說明,僅示出了與本發明實施例相關的部分。

參照圖6,該機器人包括:

環境聲紋采集模塊,用于采集環境語音數據,并提取所述環境語音數據中的第二聲紋數據,并將第二聲紋數據發送至所述服務器,以使得所述服務器能根據電視直播的第一聲紋數據,對所述第二聲紋數據進行聲紋匹配。

語音識別模塊,用于接收所述服務器發送的聲紋匹配結果,當實時緩存的所述第一聲紋數據與所述第二聲紋數據不匹配,則對所述環境語音數據進行用戶語音指令識別。

進一步地環境聲紋采集模塊,包括:

濾波降噪子模塊,用于對環境語音數據進行濾波降噪處理,得到人聲數據;

聲紋提取子模塊,用于提取人聲數據中的所述第二聲紋數據。

所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能單元、模塊完成,即將所述裝置的內部結構劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。另外,各功能單元、模塊的具體名稱也只是為了便于相互區分,并不用于限制本申請的保護范圍。上述系統中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現。這些功能究竟以硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的范圍。

在本發明所提供的實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現。例如,以上所描述的系統實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現本發明實施例方案的目的。

另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。

所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發明實施例的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發明實施例各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。

以上所述實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍,均應包含在本發明的保護范圍之內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 罗甸县| 广东省| 汤原县| 台州市| 大同市| 喜德县| 扬中市| 青河县| 东方市| 龙井市| 三明市| 中阳县| 福泉市| 保德县| 宜宾县| 青浦区| 罗江县| 聂荣县| 分宜县| 社会| 来宾市| 伊春市| 阆中市| 光泽县| 德保县| 广平县| 莱西市| 西畴县| 平山县| 清水河县| 武宣县| 紫阳县| 运城市| 将乐县| 宜黄县| 泸溪县| 清水县| 青海省| 额尔古纳市| 南平市| 枣庄市|