本發明涉及人機交互、語音識別技術領域,更具體地涉及一種語音控制交互系統。
背景技術:
隨著語音識別技術的飛速發展,人機語音交互的應用場景越來越普遍,人機語音交互系統可以為人們提供有效的人機交互功能,通過語音與機器進行交流,讓機器明白人說的是什么,并給出相應的回答。例如,通過人機語音交互系統獲取某個地方的天氣狀況,也可以通過人機語音交互系統為人們指引路徑,告訴人們想要去的地方的路線等。
語音交互系統在智能家居中是非常重要的人機交互方式。通過固定安裝在房間內的語音交互設備,既可以采集該房間內人的語音控制命令又可以通過聲音回放功能給人反饋信息。但現有的語音交互設備只能在該房間內使用,如果人走到另一個房間則無法實現語音交互功能;或者在多個房間內安裝該語音交互設備,但是目前這些設備之間無法通信,不能協同工作。例如,當人在一個房間A通過語音下達指令后走到另外一個房間B,此時任何語音反饋結果還是房間A內的設備回放,而此時已經在房間B內的人并不能聽到反饋結果,這將降低用戶的人機交互使用的便利性,降低用戶的使用體驗。
鑒于此,有必要提供一種無論人在哪個房間都可以利用在居所內的語音交互設備進行數據交互,便于增加人機交互的空間范圍和使用便利性的語音控制交互系統。
技術實現要素:
本發明所要解決的技術問題是提供一種無論人在哪個房間都可以利用在居所內的語音交互設備進行數據交互,便于增加人機交互的空間范圍和使用便利性的語音控制交互系統。
為解決上述技術問題,本發明提供一種語音控制交互系統,該系統包括:多個分布在不同房間的語音交互設備以及一第一服務器,多個所述語音交互設備互相通信。其中,所述語音交互設備用于檢測和感應人體活動信息并記錄,采集語音信息,對所采集的語音信息進行預處理,并將預處理后的語音信息及人體活動信息發送給所述第一服務器,且播放所述第一服務器發送的信息;所述第一服務器用于對所接收的語音信息進行分析處理,匹配相應的信息,并根據所接收的人體活動信息將所述相應的信息發送至相應的語音交互設備。
其進一步技術方案為:多個所述語音交互設備包括一主設備及多個從設備,所述從設備與所述主設備進行數據交互,所述主設備與所述第一服務器進行數據交互。
其進一步技術方案為:所述語音交互設備包括一人體感應模塊、一語音采集模塊、一中央處理模塊、一第一網絡連接模塊以及一語音解碼與播放模塊;所述中央處理模塊與所述人體感應模塊、語音采集模塊、第一網絡連接模塊以及語音解碼與播放模塊相連。其中,所述人體感應模塊,用于檢測和感應人體活動信息;所述語音采集模塊,用于采集人體發出的語音信息;所述中央處理模塊,用于記錄人體活動信息以及對所采集的語音信息進行預處理;所述第一網絡連接模塊,用于與其他語音交互設備進行通信以將所述人體活動信息發送至其他語音交互設備,且與所述第一服務器進行通信以將預處理后的語音信息及人體活動信息發送至第一服務器并接收該第一服務器發送的信息;所述語音解碼與播放模塊,用于對所述第一服務器發送的信息進行解壓縮并播放。
其進一步技術方案為:所述人體感應模塊包括紅外探測器和/或人體熱感傳感器和/或視頻攝像頭。
其進一步技術方案為:所述語音采集模塊包括由一個或者多個麥克風構成的麥克風矩陣。
其進一步技術方案為:所述中央處理模塊包括中央處理器/微處理器、非易失性存儲器及隨機存儲器。
其進一步技術方案為:所述第一服務器包括一第二網絡連接模塊、一數據存儲模塊以及一數據處理模塊。其中,所述第二網絡連接模塊,用于與所述語音交互設備進行通信以接收所述語音交互設備發送的語音信息及人體活動信息,并根據所接收的人體活動信息將匹配的信息發送給相應的語音交互設備;所述數據存儲模塊,用于存儲信息并實時更新所述信息;所述數據處理模塊,用于對所接收的語音信息進行分析處理,且與所述數據存儲模塊進行通信以獲取與所述分析處理后的語音信息匹配的信息。
其進一步技術方案為:所述第一服務器還包括一第一數據生成模塊以及一第一數據記錄模塊。其中,所述第一數據生成模塊,用于根據所接收的人體活動信息生成相應的時間戳,且根據所接收的預處理后的語音信息生成一語音分析標志位;所述第一數據記錄模塊,用于記錄根據人體活動信息生成的時間戳以及根據所接收的預處理后的語音信息生成的語音分析標志位,且根據所述語音分析標志位從所述數據處理模塊中獲取與所接收的語音信息匹配的信息并記錄。
其進一步技術方案為:所述語音控制交互系統還包括一第二服務器,所述第二服務器與所述語音交互設備及所述第一服務器進行通信,所述第二服務器用于生成并記錄人體活動信息的時間戳、接收語音交互設備預處理后的語音信息并生成一語音分析標志位,記錄該語音分析標志位,且根據該標志位從所述第一服務器中獲取與來自所述語音交互設備的語音信息匹配的信息并記錄。
其進一步技術方案為:所述第二服務器包括一第三網絡連接模塊、一第二數據生成模塊以及一第二數據記錄模塊。其中,所述第三網絡連接模塊,用于與所述語音交互設備及所述第一服務器進行通信以接收所述語音交互設備發送的人體活動信息、預處理后的語音信息以及所述第一服務器發送的與所述預處理后的語音信息匹配的信息;所述第二數據生成模塊,用于根據人體活動信息生成相應的時間戳,且根據所接收的預處理后的語音信息生成一語音分析標志位;所述第二數據記錄模塊,用于記錄根據人體活動信息生成的時間戳、根據所接收的預處理后的語音信息生成的語音分析標志位以及從所述第一服務器中獲取的與所接收的語音信息匹配的信息。
與現有技術相比,本發明的語音控制交互系統中的語音交互設備可以檢測和感應人體活動信息,且設備之間可以互相通信,使得多個語音交互設備可以協同工作。即通過語音交互設備中的人體感應模塊可檢測和感應人體活動信息,當使用者位于房間時,該房間內的語音交互設備可對人發出的指令進行采集,而當使用者離開該房間去往另一房間時,另一房間的語音交互設備可繼續采集人發出的命令,并接收之前房間的設備采集的語音信息,且進行信息拼接及預處理,第一服務器可接收預處理后的語音信息,且將所接收的語音信息進行分析處理,匹配相應的信息,并根據人體活動信息將所述相應的信息發送至感應到使用者存在的房間內的語音交互設備進行播放。該系統極大地提高了通過語音交互的人機交互方式的便利性和用戶使用的順暢感。
附圖說明
圖1展示了本發明語音控制交互系統第一實施例的結構框圖。
圖2展示了本發明語音控制交互系統第一實施例的一具體應用場景。
圖3展示了本發明語音控制交互系統第二實施例的結構框圖。
圖4展示了本發明語音控制交互系統第三實施例的結構框圖。
具體實施方式
為使本領域的普通技術人員更加清楚地理解本發明的目的、技術方案和優點,以下結合附圖和實施例對本發明做進一步的闡述。
參照圖1,圖1展示了本發明的語音控制交互系統10第一實施例的結構框圖。在附圖所示的實施例中,該系統10包括:多個分布在不同房間的語音交互設備11以及一第一服務器12,所述語音交互設備11與所述第一服務器12進行通信,且多個所述語音交互設備11可互相通信。其中,所述語音交互設備11用于檢測和感應人體活動信息并記錄,該語音交互設備11可將所述人體活動信息發送至其他語音交互設備11,所述人體活動信息包括人進入房間、發出指令、離開房間等信息,采集語音信息,對所采集的語音信息進行預處理,即對所采集的語音信息進行去噪處理,并將預處理后的語音信息及人體活動信息發送給所述第一服務器12,且播放所述第一服務器12發送的信息;所述第一服務器12用于對所接收的語音信息進行分析處理,匹配相應的信息,并根據所接收的人體活動信息將所述相應的信息發送至相應的語音交互設備11,即將所述相應的信息發送至檢測和感應到人存在的房間內的語音交互設備11。
在某些實施例,例如本實施例中,所述語音交互設備11包括一人體感應模塊111、一語音采集模塊112、一中央處理模塊113、一第一網絡連接模塊114以及一語音解碼與播放模塊115;所述中央處理模塊113與所述人體感應模塊111、語音采集模塊112、第一網絡連接模塊114以及語音解碼與播放模塊115相連。
其中,所述人體感應模塊111,用于檢測和感應人體活動信息;其包括紅外探測器和/或人體熱感傳感器和/或視頻攝像頭。所述語音采集模塊112,用于采集人體發出的語音信息;所述語音信息包括天氣查詢、路況查詢、音樂、新聞查詢、控制家具電器開關、詢問家具電器狀態等信息,該語音采集模塊112包括由一個或者多個麥克風構成的麥克風矩陣,若所述麥克風是模擬麥克風則還需要搭配模擬到數字轉換裝置即ADC。所述中央處理模塊113,用于記錄人體活動信息以及對所采集的語音信息進行預處理;其包括中央處理器/微處理器、非易失性存儲器及易失性的隨機存儲器,其中,所述中央處理器或微處理器采用高性能低功耗的ARM架構處理器,其具備豐富的接口,可與外部模塊連接及通信;非易失性存儲器用于存儲整個系統運行的嵌入式操作系統和相關的應用程序或算法,還用于存儲系統的配置信息和一些臨時的用戶數據;易失性的隨機存儲器因為其訪問速度迅速,所以用于存放在系統運行過程中緩存的數據或中間結果。所述第一網絡連接模塊114,用于與其他語音交互設備11進行通信以將所述人體活動信息發送至其他語音交互設備11,且與所述第一服務器12進行通信以將預處理后的語音信息及人體活動信息發送至第一服務器12并接收該第一服務器12發送的信息。所述語音解碼與播放模塊115,用于對所述第一服務器12發送的信息進行解壓縮并播放;若中央處理模塊113具備音頻解碼與播放能力,則可直接外接喇叭即可完成相應功能,若中央處理模塊113不具備音頻解碼與播放能力,則需要外接具有音頻解碼與播放的芯片,再通過數模轉換器及放大電路與喇叭連接。
在某些實施例,例如本實施例中,語音交互設備11在房間內安裝完畢后,可通過無線路由器接入網絡,即設備上電后,將無線路由器的名稱和密碼通過系統自帶的人機交互界面直接寫入語音交互設備11,設備11接收到無線路由器的接入信息后,進行加密且自動存儲在非易失性存儲器中,然后用接入信息嘗試接入無線路由器,如果成功接入則提示成功并開始工作,如果沒有接入則給出異常信息,且從第二臺設備11開始,都通過WIFI-Mesh協議自動接入無線路由器,同時每添加一臺設備11都會先嘗試發現是否已經有設備11被配置好,如果有則自動加入已經配置好的設備網絡。
在附圖所示的實施例中,所述第一服務器12包括一第二網絡連接模塊121、一數據存儲模塊122以及一數據處理模塊123。其中,所述第二網絡連接模塊121,用于與所述語音交互設備11進行通信以接收所述語音交互設備11發送的語音信息及人體活動信息,并根據所接收的人體活動信息將匹配的信息發送給相應的語音交互設備11。所述數據存儲模塊122,用于存儲信息并實時更新所述信息;所述信息包括天氣情況、路況、音樂、新聞、家具電器狀態等信息,這些信息可連網實時更新。所述數據處理模塊123,用于對所接收的語音信息進行分析處理,且與所述數據存儲模塊122進行通信以獲取與所述分析處理后的語音信息匹配的信息。
在某些實施例,例如本實施例中,多個所述語音交互設備11包括一主設備及多個從設備,其中,多個所述語音交互設備11中性能最優或最早加入網絡的設備11設為主設備,其他設備11均為從設備,所述從設備與所述主設備進行數據交互,所述主設備與所述第一服務器12進行數據交互。本實施例中,所述從設備將人體活動信息及所采集的語音信息發送給所述主設備,所述主設備對所接收的來自從設備的語音信息進行拼接及預處理,且將預處理后的語音信息發送給所述第一服務器12,并接收第一服務器12發送的匹配的信息,再根據所接收的人體活動信息將所述匹配的信息發送至感應到人存在的房間的從設備,所述從設備播放所述匹配的信息。其中,所有設備11均采用符合IEEE1588的精確時鐘同步協議,該協議利用硬件晶振提供的頻率可以達到亞微秒級同步精度,所述主設備的時鐘提供時鐘源,組內所有從設備都與該時鐘源保持同步。
參照圖2,圖2展示了本發明語音控制交互系統10第一實施例的一具體應用場景。在附圖所示的實施例中,該應用場景中語音交互設備N1為主設備,語音交互設備N2至語音交互設備Nn均為從設備,多個從設備均與所述主設備進行數據交互,所述主設備與所述第一服務器12進行數據交互,且多個所述語音交互設備11分別分布在不同房間??衫斫獾?,本實施例中的語音控制交互系統10中的語音交互設備11之間可以互相通信,多個語音交互設備11可以協同工作。例如,如果用戶在設置有語音交互設備N2的房間說出部分語音命令,而后又進入設置有語音交互設備Nn的另一房間,在另一房間對語音交互設備Nn說完剩下的語音命令,則該語音交互設備N2及語音交互設備Nn均會將各自接收到的部分語音命令發送給主設備即語音交互設備N1,設備N1將兩部分語音命令拼接并預處理后再發送到第一服務器12進行處理。同理,如果用戶在設置有語音交互設備N2的房間說完語音命令后,在沒有離開該房間時收聽到反饋的語音信息中的部分消息,然后進入另一房間,此時語音交互設備N1會控制該房間內的設備11進行無縫的切換并播放剩余沒有播放完的反饋語音信息。
參照圖3,圖3展示了本發明的語音控制交互系統10第二實施例的結構框圖。本實施例與第一實施例的不同之處在于所述第一服務器12還包括有一第一數據生成模塊124以及一第一數據記錄模塊125。其中,所述第一數據生成模塊124,用于根據所接收的人體活動信息生成相應的時間戳,即生成人進入房間、發出指令及離開房間時的時間戳,且根據所接收的預處理后的語音信息生成一語音分析標志位;該語音分析標志位用于提醒所述第一數據記錄模塊125從所述數據處理模塊123中提取與所接收的預處理后的語音信息匹配的信息。所述第一數據記錄模塊125,用于記錄根據人體活動信息生成的時間戳以及根據所接收的預處理后的語音信息生成的語音分析標志位,且根據所述語音分析標志位從所述數據處理模塊123中獲取與所接收的語音信息匹配的信息并記錄?;诒緦嵤├黾拥牡谝粩祿赡K124以及第一數據記錄模塊125可收集用戶在具體房間內的具體時間通過語音交互觸發的行為信息,可準確地記錄使用者的空間和時間行為信息,促使該系統10從空間和時間角度為智能家居、智能娛樂及智能安防等系統提供準確的決策數據,在提升用戶體驗的同時,節約了資源,提高了各個智能系統的經濟性。
參照圖4,圖4展示了本發明的語音控制交互系統10第三實施例的結構框圖。本實施例與第一實施例的不同之處在于所述語音控制交互系統10還包括一第二服務器13,所述第二服務器13與所述語音交互設備11及所述第一服務器12進行通信,所述第二服務器13用于接收所述人體活動信息并生成、記錄與該人體活動信息相對應的時間戳、接收語音交互設備11預處理后的語音信息并生成一語音分析標志位,記錄該語音分析標志位,且根據該標志位從所述第一服務器12中獲取與來自所述語音交互設備11的語音信息匹配的信息并記錄。
在某些實施例,例如本實施例中,所述第二服務器13包括一第三網絡連接模塊131、一第二數據生成模塊132以及一第二數據記錄模塊133。其中,所述第三網絡連接模塊131,用于與所述語音交互設備11及所述第一服務器12進行通信以接收所述語音交互設備11發送的人體活動信息、預處理后的語音信息以及所述第一服務器12發送的與所述預處理后的語音信息匹配的信息;所述第二數據生成模塊132,用于根據人體活動信息生成相應的時間戳,即生成人進入房間、發出指令及離開房間時的時間戳,且根據所接收的預處理后的語音信息生成一語音分析標志位;該語音分析標志位用于提醒所述第二服務器13從所述第一服務器12中提取與所接收的預處理后的語音信息匹配的信息。所述第二數據記錄模塊133,用于記錄根據人體活動信息生成的時間戳、根據所接收的預處理后的語音信息生成的語音分析標志位以及從所述第一服務器12中獲取的與所接收的語音信息匹配的信息。本實施例和上述第二實施例均可準確地記錄使用者的空間和時間行為信息,促使該系統10從空間和時間角度為其他一些系統提供準確的決策數據,在提升用戶體驗的同時,可節約資源,提高各個智能系統的經濟性。但具體實施方式不同,區別在于:本實施例增加了一個服務器,使得所述語音交互及行為采集分析行為運行在不同的服務器上,而上述第二實施例中的語音交互及行為采集分析行為運行在同一個服務器的不同服務上。
綜上所述,本發明的語音控制交互系統中的語音交互設備可以檢測和感應人體活動信息,且設備之間可以互相通信,使得多個語音交互設備可以協同工作。即通過語音交互設備中的人體感應模塊可檢測和感應人體活動信息,當使用者位于房間時,該房間內的語音交互設備可對人發出的指令進行采集,而當使用者離開該房間去往另一房間時,另一房間的語音交互設備可繼續采集人發出的命令,并接收之前房間的設備采集的語音信息,且進行信息拼接及預處理,第一服務器可接收預處理后的語音信息,且將所接收的語音信息進行分析處理,匹配相應的信息,并根據人體活動信息將所述相應的信息發送至感應到使用者存在的房間內的語音交互設備進行播放。該系統極大地提高了通過語音交互的人機交互方式的便利性和用戶使用的順暢感。
以上所述僅為本發明的優選實施例,而非對本發明做任何形式上的限制。本領域的技術人員可在上述實施例的基礎上施以各種等同的更改和改進,凡在權利要求范圍內所做的等同變化或修飾,均應落入本發明的保護范圍之內。