專利名稱:一種基于語音識別技術的智能視頻監控方法
技術領域:
本發明屬于安防監控領域,尤其涉及了一種基于語音識別技術的智能視頻監控 方法。
背景技術:
自9.11事件以后,如何對國家重要安全部門和敏感的公共場合進行全天候、自 動、實時的監控,已成為世界各國高度重視的一個問題。在這樣的背景下,安防監控技 術得到了廣泛的應用和發展。在中國,安防監控行業應用市場每年保持20%左右的增長 速度,日益增長的監控行業足可以體現出國家對安防監控的重視。視頻監控一直被當作一種有效的監控手段而廣泛應用于安防領域,即通過聯網 的方式分散放置攝像機進行場景記錄監控,并集中顯示,監控人員可以實時了解各個監 控場景發生的事件,監控人員可根據監控畫面中當事人的行為判斷出其意圖,遇到突發 事件可迅速采取措施。目前的視頻監控系統中監控人員起著至關重要的作用,監控人員通過人眼檢測 實時監控每路視頻。有關研究表明即使是專業操作人員只要連續專注于多個監控屏幕 超過20分鐘,監控人員的注意力都會降低至不能滿足監控要求的水平。經過長時間的工 作,人員易疲勞、漏報現象多等問題會逐漸顯現出來,大大降低視頻監控的監督作用, 現有監控系統通常的做法是將攝像機的輸出結果記錄下來,當事故發生之后,保安人員 才通過記錄的結果觀察發生的事實,但往往為時已晚。另一方面,視頻監控通常只針對 視頻信息進行處理,僅依靠視頻信息并不能完全準確的反應出監控場景的實地情況,仍 具有一定的局限性受到視角的限制,對于攝像頭監控范圍以外區域發生的事情,視頻 監控則無能為力;此外,受到光照、天氣的影響,尤其是夜間,視頻監控作用會急劇下 降。人眼檢測的弊端和視頻監控系統自身的缺陷制約著監控系統性能的發揮,降低了監 控效率,往往會導致一些突發事件的遺漏,甚至造成不可挽回的損失。而目前我們希望 的監控系統應能夠每天連續24小時的實時智能監視,當異常情況發生時,系統能向保衛 人員準確及時地發出警報,從而避免事故的發生,同時也希望減少人力、物力和財力的 投入。語言作為人類最重要的交流工具,它自然方便、準確高效。在發生爭吵、打 架、呼救等情況時,所包含的語音信息尤為豐富,以此為據,用語音識別技術處理某些 監控場景中的語音數據也可當作一種重要的安防監控手段。特別是近二十年來,語音識 別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來十年內,語音識別技術 將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。作 為智能計算機研究的主導方向和人機語音通信的技術關鍵,語音識別技術一直受到各國 科學界的廣泛關注。如今,隨著語音識別技術的研究突破,其對計算機的發展和社會生 活的重要性日益凸現出來。
發明內容
為了解決視頻監控存在的問題,本發明提供一種安防監控新方法,在現有的視 頻監控技術上引入了語音識別技術,利用音頻信息和視頻信息相對獨立處理,充分發揮 各自的優勢,進行監控手段相互補充,構建具有主動預警、監控畫面智能切換功能的新 型安防監控系統。從而使監控系統在具備“視覺”功能的基礎上擁有一定的“聽覺”功 能,解決了僅依靠視頻信息監控的局限性。本發明采用語音識別技術處理監控場景中的 語音數據,對其中敏感詞匯進行預警,實現監控系統主動預警,并由預警信號觸發監控 畫面自動切換,解決了因工作時間長導致的監控人員疲勞、漏報現象多等問題,提升了 視頻監控的效率,使視頻監控系統性能更好的發揮。上述新型安防監控系統是在數字視頻監控系統基礎上加入了語音處理識別模塊 以及預警判別模塊,由于采用音頻和視頻相對獨立處理,因而便于原有視頻監控設備進 行升級和更新。系統工作之前,針對需要監控場景中所使用敏感詞匯集中建立語音模版 庫,語音庫內容可根據不同的監控場景選擇不同的詞匯。例如,針對發生爭吵、打架、 呼救等情況中所使用的“救命”、“救人”、“來人啊”、“打架了”等。系統工作 時,每路監控場景的視頻信息和語音信息分別用兩個通道采集。對視頻信息進行編碼并 轉換格式,將處理后的視頻數據通過專網或局域網送至監控室顯示并且保存;語音信息 送往語音處理識別模塊進行語音識別。之后,預警判別模塊會對監控場景中語音數據識 別結果進行辨別,排除無關語音信息的干擾,對已建立的語音模版庫中包含的敏感詞匯 進行預警,并發出一個預警控制信號。用預警控制信號來觸發畫面切換裝置,主監控屏 幕畫面將根據發出的預警控制信號來源進行場景畫面間的切換。由此達到主動預警以及 監控畫面智能切換的功能。本發明采用的技術方案包括如下6個循環步驟
1.監控系統工作以前先建立語音模板庫,針對監控場景中出現的敏感詞匯集中 建立語音模版庫,需要錄音人數在幾十人左右,采集多位男聲和女聲的語音樣本作為訓 練數據,內容可根據不同的監控場景選擇不同的詞匯,例如可針對發生爭吵、打架、呼 救等情況中所用使用的“救命”、“救人”、“來人啊”、“打架了”等標志性詞作為 錄制內容。錄音分階段進行,訓練語料內容基本為孤立詞和短句子。語音模版庫先由每 個錄音者的語音樣本數據分別訓練,得到多個參考模板,每個參考模板是多個詞匯的隱 馬爾可夫模型(hidden Markov model, HMM)集合,建立的HMM模型不僅包括初始狀態概 率、狀態轉移概率矩陣、觀測概率矩陣三個參數,還包括狀態轉移次數、狀態輸出矢量 數和狀態數目共6個參數,最后通過模型合并重估的方法將多個參考模板合并成一個, 完成建庫;
2.系統開始工作,利用聲音采集裝置和攝像裝置分別采集監控場景的視頻信息 和語音信息;
3.對視頻信號進行編碼并進行格式轉換,將處理后的視頻數據通過專網或局域 網送至監控室顯示并且保存,語音信息則送往音頻處理識別模塊經過一系列處理后進行 語音識別,處理順序為采樣、量化、分幀、加窗、預加重、端點檢測、提取語音特征、 倒譜均減(cepstral mean subtraction, CMS)、語音識另ij ;
4. 將語音識別的結果送到預警判別模塊進行判別,本設計的判別算法使用基于反詞模型的拒識方法,對每個關鍵詞模型都訓練相應的反詞模型,反詞模型主要用其 它與關鍵詞極易混淆的語音數據訓練而成,反詞模型具有和關鍵詞模型相同的結構,針 對場景中出現的、語音庫中未包括的正常語音信息會予以排除,對監控場景中出現的、 并在語音庫中包含的敏感詞匯則由預警模塊產生預警控制信號并報警,實現主動預警功 能;
5.預警控制信號觸發畫面切換裝置,主監控屏幕畫面切換為與發出預警控制信 號相匹配的監控畫面以供監控人員分析,實現監控畫面智能切換功能;
6.完成一次檢測后,重復步驟2到5,進行下一次檢測。本發明的有益效果是利用音頻信息的主動預警功能彌補了監控設備視角范圍 限制以及視頻監控受到光照、天氣等自然環境的影響。預警控制信號實現的監控畫面 智能切換功能解決了人眼檢測存在的問題,避免了監控人員長時間專注多個屏幕而導致 注意力下降,不易出現事故,大大提高監控效率,使得視頻監控更加準確、智能、人性 化,同時也減少雇傭大批監視人員所需要的人力、物力和財力的投入。
圖1為基于語音識別技術的智能視頻監控系統構成示意圖。圖2為圖1所示的語音處理識別模塊原理框圖。圖3為圖2所示的預處理特征提取模塊原理框圖。圖4為監控系統中語音通道工作流程圖。圖5、圖6為采用本發明監控方法一種應用示意圖。圖1為本發明所提供的基于語音識別技術的智能視頻監控系統構成示意圖。監 控系統的一路架構由監控由攝像裝置(101)、視頻信號編碼模塊(102),監控畫面顯示器 (103),聲音采集裝置(104)、語音處理識別模塊(105)、預警判別模塊(106)、預警指示 裝置(107)組成。此外,各路的場景信息的傳送還需要局域網或專網(301)進行傳送, 公共場景顯示使用主監控屏幕(401)以及換面切換裝置(501)。圖2為本發明監控系統語音通道核心處理部分語音處理識別模塊(105)的架構 圖,語音處理識別模塊(105)結構包括兩大部分語音庫錄入和模式識別。語音庫錄入 包括以下幾個模塊,訓練數據(1051)、預處理特征提取(1052)、參考模版訓練(1053)、 參考模版(1054);模式識別部分包括預處理特征提取(1056)、模版匹配(1057)以及 語音識別(1058),其中預處理特征提取(1052)與預處理特征提取(1056)功能完全相同。圖3為圖2所示的預處理特征提取原理框圖,語音數據依次經過以下處理采 樣(IO52A)、量化(IO52B)、分幀(IO52C)、加窗(IO52D)、預加重(1052E)、端點檢測 (1052F)、特征提取(1052G)、倒譜均減(1052H)。下面結合附圖對本發明所提供的視頻監控方法的實施方式做進一步說明。
具體實施例方式系統工作前需要事先建立語音模板庫,建庫工作流程如圖2中語音庫錄入部分 所示。考慮到本發明實用場合,不能使用說話人自適應的方法(此方法每次使用前都需 要使用者進行訓練,且訓練好以后只能供訓練者使用)達到非特定人識別的目的,所以必須采集大量人的語音樣本作為訓練數據,需要錄音人數在幾十人左右,分別采集多位 男聲和女聲的語音樣本作為訓練數據(1051),訓練數據(1051)的內容可根據監控場景中 的突發事件所含的敏感詞匯來制定。例如可針對發生爭吵、打架、呼救等情況中所用使 用的“救命”、“救人”、“來人啊”、“打架了”等標志性詞作為錄制內容。錄音分 3 5個階段進行,訓練語料內容基本為孤立詞和短句子。分階段錄音是由于語音的動態 范圍很大,不同說話人的語音,甚至是同一說話人在不同時間和場合的語音都有很大的 不同,所以庫中應該盡量包含多樣的語音信息,從而保持高的識別率。在每個階段中, 每個詞每人錄5 10次。如圖3所示,預處理特征提取(1052)對訓練數據如下處理,采樣(1052A)、量 化(1052B)、分幀(1052C)、加窗(1052D)、預加重(1052E)、端點檢測(1052F)、特征 提取(1052G)、倒譜均減(1052H)處理。首先將訓練數據(1051)進行采樣(1052A)和量化(1052B),數字化以后的語音 信號實際上是一個時變信號,但其在IOms 30ms短時間內是平穩的,為了得到短時的語 音信號,要對語音信號進行加窗(1052D)操作,窗函數平滑的在語音信號上滑動,將語 音信號分成幀。分幀(1052C)可以連續,也可以采用交疊分段的方法,交疊部分稱為幀 移,幀移一般選為窗長的1/2,窗函數選擇漢明窗(hamming),即
權利要求
1.一種基于語音識別技術的智能視頻監控方法其特征在于將語音識別技術作為 輔助的視頻監控手段引入到視頻監控中,視頻信號和音頻信號進行獨立處理,用語音識 別技術處理監控場景中的語音數據,對其中敏感詞匯進行預警,來實現監控系統主動預 警,并由預警信號觸發監控畫面自動切換,從而可以使監控系統具備主動預警、監控畫 面智能切換功能,包括如下6個循環步驟(1)事先建立語音模板庫,針對監控場景中出現的敏感詞匯集中建立語音模版 庫,需要錄音人數在幾十人左右,采集多個男聲和女聲的語音樣本作為訓練數據,訓練 數據的內容可根據不同的監控場景選擇不同的詞匯,訓練數據錄制分階段進行,訓練語 料內容基本為孤立詞和短句子;(2)建庫完畢后,系統開始工作,利用聲音采集裝置和攝像裝置分別采集監控場 景的視頻信息和語音信息;(3)對視頻信號進行編碼并進行格式轉換,將處理后的視頻數據通過專網或局域 網送至監控室顯示并且保存,語音信息則送往語音處理識別模塊經過一系列處理后進行 語音識別;(4)將語音識別的結果送到預警判別模塊進行判別,針對場景中出現的、語音庫 中未包括的正常語音信息會予以排除,對監控場景中出現的、并在語音庫中包含的敏感 詞匯則由預警模塊產生預警控制信號并報警,實現主動預警功能;(5)預警控制信號觸發畫面切換裝置,主監控屏幕畫面切換為與發出預警控制信 號相匹配的監控畫面以供監控人員分析,實現監控畫面智能切換功能;(6)完成以上檢測后,重復步驟(2)到(5),進行下一次檢測。
2.如權利要求1所述的監控方法,其特征在于語音模版庫是開放式的,其中的 敏感詞匯內容可根據監控需要進行制定,分階段錄音是針對語音的動態范圍很大,保證 庫中盡量包含多樣的語音信息,保持高的語音識別率;語音模版庫先由每個錄音者的語 音樣本數據分別訓練,得到多個參考模板,每個參考模版是多個詞匯的隱馬爾科夫模型 (hidden Markov model, HMM)集合,最后通過模型合并重估的方法將多個參考模板合并 成一個,完成建庫,既減少了新增數據的訓練運算量又達到非特定人識別的目的。
3.如權利要求1所述的監控方法,其特征在于建立的HMM模型不僅包括初始狀態 概率、狀態轉移概率矩陣、觀測概率矩陣三個參數,還包括狀態轉移次數、狀態輸出矢 量數和狀態數目共6個參數,其中后三個參數是為了應用模型合并重估方法而設置的。
4.如權利要求1所述的監控方法,其特征在于語音處理識別模塊中對監控場景中 的語音信息處理順序為采樣、量化、分幀、加窗、預加重、端點檢測、提取語音特征、 倒譜均減(cepstral mean subtraction, CMS)后進行語音識別,語音特征提取使用倒譜均減 的方法進行處理克服了傳輸設備線路不同而導致的信道畸變對語音識別的影響,在此使 用倒譜均減的方法解決數據訓練環境與實際使用環境中信道的不匹配導致識別率下降的 影響。
5.如權利要求1所述的監控方法,其特征在于所述預警判別模塊采用基于反詞模 型的拒識方法對語音識別結果進行判別,實際系統中需對每個關鍵詞HMM模型都訓練 相應的反詞模型,反詞模型主要用其它與關鍵詞極易混淆的語音數據訓練而成,反詞模 型具有和關鍵詞HMM模型相同的結構,如相同的狀態數目和每個狀態的混合數。
6.如權利要求1所述的監控方法,其特征在于主動預警功能針對監控場景中出現 的、并在語音庫中包含的敏感詞匯進行預警,而對場景中出現的、語音庫中未包括的正 常語音信息會予以排除,當監控場景發生事故時,當事人通過語音信息可以直接對監控 中心工作人員發出預警。
7.如權利要求1所述的監控方法,其特征在于預警判別模塊判別某語音段為庫 中敏感詞匯后會驅動預警指示裝置報警,同時發出預警控制信號觸發畫面切換裝置,主 監控屏幕畫面切換為與發出預警控制信號相匹配的監控畫面,實現監控畫面智能切換功 能。
全文摘要
本發明涉及一種基于語音識別技術的智能視頻監控方法,該方法將語音識別技術作為輔助的監控手段引入到視頻監控系統中,使監控系統在具備“視覺”功能的基礎上擁有一定的“聽覺”功能,構建了具有主動預警、監控畫面智能切換等功能的視頻監控系統。該方法事先建立敏感詞匯庫,而后采用語音識別技術處理監控場景中的語音數據,檢測該語音數據中是否包含敏感詞匯,若存在敏感詞匯則發出語音告警信號和監控畫面切換信號,畫面切換裝置根據畫面切換信號自動切換監控畫面,從而解決了依靠人眼檢測導致的監控人員易疲勞、漏報現象多等問題,克服了僅依靠視頻信息監控的局限性,提升了視頻監控的效率,使得視頻監控更加準確、智能、人性化。
文檔編號G10L15/00GK102014278SQ20101059819
公開日2011年4月13日 申請日期2010年12月21日 優先權日2010年12月21日
發明者孫大飛, 高勇, 黃永華 申請人:四川大學