智能音視頻采集分析裝置的制造方法

文檔序號：10193049閱讀：807來源：國知局

智能音視頻采集分析裝置的制造方法
【技術領域】
[0001]本實用新型涉及一種音視頻采集裝置，特別是涉及一種智能音視頻采集分析裝置。
【背景技術】
[0002]電影越來越受大眾的喜愛，電影播放數理的激增，電影內容的監管，票房的統計，都存在很多問題，目前的管理主要依靠人力，人工的管理方法受到了很大的制約，統計過程由于各種原因會有誤差，所以使用人工智能、機器識別的方法在觀影場景中急需解決。
【實用新型內容】
[0003]本實用新型目的在于克服現有技術的上述缺陷，提供一種能夠自動采集分析放映時音視頻的智能音視頻采集分析裝置。
[0004]為實現上述目的，本實用新型智能音視頻采集分析裝置包括配接電源管理器的中央處理單元，所述中央處理單元連接用于采集觀影現場聲音的音頻采集模塊、用于采集屏幕圖像的視頻圖像采集模塊、數據存儲模塊、網絡控制器。具有能夠自動采集分析放映時音視頻，顯著提高影片播放內容管理和票房統計效率及精度的優點。
[0005]作為優化，所述網絡控制器通過通訊網絡連接數據庫服務器。
[0006]作為優化，所述中央處理單元連接用于捕捉觀眾運動情況的運動檢測模塊。
[0007]作為優化，所述運動檢測模塊配用觀眾區圖像運動檢測器。
[0008]作為優化，所述中央處理單元配接有用于工作環境空氣質量檢測的空氣質量檢測豐旲塊。
[0009]作為優化，所述空氣質量檢測模塊配置有空氣溫度傳感器、空氣濕度傳感器。
[0010]作為優化，所述空氣質量檢測模塊配置有空氣中二氧化碳濃度檢測傳感器。
[0011 ] 作為優化，所述電源管理器配置有鋰電池蓄電電源。
[0012]作為優化，所述音頻采集模塊配置有音頻傳感器。
[0013]作為優化，所述視頻圖像采集模塊配置有屏幕圖像攝像機。
[0014]該裝置是為了代替人工工作而進行的一次創新。基于音頻分析的原理和數字信號處理的理論，使用頻譜分析的方法對聲音進行處理；而圖像的分析是在機器視覺識別的基礎上，把圖像的對比相似度做為視頻內容的核心分析方法；將圖像圖形音頻分析功能實現嵌入式設備上，對電影放映過程中的放映內容的跟蹤分析。實現人工智能在電影行業的應用。
[0015]功能組成的補充說明:
[0016]音頻和視頻采集做為系統的主要功能，輔助功能包括運動檢測，裝置工作環境的空氣質量檢測，以及系統電源管理功能，采集數據的本地存儲及網絡傳輸
[0017]設備具有以下的智能分析能力，根據采集到的聲音信息通過智能的分析方法，確定該聲音所具有的某些屬性，這些屬性包括聲音傳達出的語意，附加的情緒，以及其他一些特征。另一個重要的分析能力是確定環境所發出的聲音有聲音樣本的相似程度，即確定兩個聲音的物理屬性的相似特征。
[0018]圖像的特征智能分析，圖像的分析主要是對采集到的圖像進行信息篩選，模式識另O，關鍵信息的提取，信息篩選是在拍攝場景中提取物體的特征，包括輪廓，二維信息。模式是在場景下整幅圖所呈現的一種屬性，
[0019]音視頻采集轉置包括以下部分，音頻傳感器，圖像傳感器，運動檢測器，空氣質量傳感器，處理器，數據存儲，鋰電池及電源管理，網絡控制器。
[0020]其使用一種嵌入式系統，設備具有聲音采集，視頻采集能力，收集到的聲音、圖像以壓縮的文件格式保存于設備中，設備并具有網絡通信能力，連接到數據庫服務器，在必要情況下可以將源聲音，源圖像保存到服務器，視頻采集的主要對象是投射屏幕上顯示的內容，這樣的圖像采集方式使得到的圖像與原始視頻圖像存在信息的失真，圖像采集過程，采集裝置安裝于屏幕上邊緣外，屏幕的成像出現梯形形變，由此帶來的失真，使用軟件的圖形修正算法實現圖像還原。
[0021]解決的技術問題還有:
[0022]I)圖像的二次采集造成的失真:在實際的電影放映中，影像的場景切換頻繁，屏幕的光線變換比較劇烈，由此對攝像頭的要求較高，理論用于圖像分析的圖像，分辨率越高越好，但是高分辨率的圖片采集過程會對系統造成沉重的負擔，實際上測試1280x1080分辨率的圖片，可以很好的還原圖像細節信息，在滿足系統的對圖像分辨率的要求情況，選用200萬像素的COMS圖像傳感器。
[0023]2)圖像米樣速率:數字影院放映的影片只能有兩種幀率，24fps和48fps。在觀影效果上，幀率越高，看到的畫面越細致，但對于機器識別來說，同場景下相鄰兩幀的所呈現的有效信息差別不大。高幀率采樣意義不大。所以在采樣速率上采用了可變的采樣速率，以適應圖像分析的需求，同時降低系統的資源開銷。
[0024]3)圖像相似度比對算法和音頻比對相結合解決翻拍圖像識別困難的問題:用到了圖像匹配技術和圖像數字提取技術。在實現圖像匹配時，使用了 SIFT特征匹配算法。SIFT特征匹配算法主要有以下四步，(I)首先建立圖像的DOG金字塔，在DOG尺度空間的26個鄰域中本層檢測極值，一個點如果在DOG尺度空間本層以及上下兩層的26個鄰域中是最大或最小值時，就認為該點是圖像在該尺度下的一個特征點。(2)利用特征點鄰域像素的梯度方向分布特性，為每個關鍵點指定方向參數，使算子具備旋轉不變性。(3)生成SIFT特征向量，將坐標軸旋轉到特征點方向，以保證旋轉不變性。(4)圖像匹配，當兩幅圖的SIFT特征向量生成后，就采用歐式距離作為兩幅圖中關鍵點的相似性度量，當次距離小于某個閾值時就認為兩個點已經匹配上。
[0025]單一的圖像匹配存在誤差，所以系統輔助采用語音匹配技術，用二階Haar小波變換壓縮原始音頻，以音頻幀的方式提取出能代表音頻主要信息特征的質心、均方根和前12個Mel倒譜系數，并分別計算這3類參數的歐式距離，比較歐式距離的值與閾值ε之間的關系完成首頻間的比對任務。
[0026]通過實際環境的測試，圖像和音頻結合的判識方法有效的解決了現實的問題。
[0027]采用上述技術方案后，本實用新型智能音視頻采集分析裝置具有能夠自動采集分析放映時音視頻，顯著提高影片播放內容管理和票房統計效率及精度的優點。
【附圖說明】
[0028]圖1是本實用新型智能音視頻采集分析裝置的電路原理圖。
【具體實施方式】
[0029]如圖所示，本實用新型智能音視頻采集分析裝置包括配接電源管理器8的中央處理單元1，所述中央處理單元1

完整全部詳細技術資料下載

當前第1頁1 2