本發明涉及視頻壓縮和重建領域,尤其是涉及了一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法。
背景技術:
視頻壓縮和重建常用于物理與生物科學的研究、視頻監控、遙感技術、社交網絡等領域,在物理與生物科學的研究上,高速攝像機被用來記錄傳統相機所不能記載的高速率事件特征,它能記錄高速事件的高分辨率靜止圖像,例如,跟蹤“可忽略的運動模糊和圖像失真偽影”的爆炸氣球。視頻監控中,可對監控視頻中感興趣的區域進行重建,對特定人物或車牌的圖像進行增強提高辨識度。但是,若幀率為10kfps的攝像機拍攝分辨率為1080P的高清視頻,那么每秒可以產生大約500GB的數據,這對現有的傳輸和存儲技術構成了巨大的挑戰,如何高效地傳輸和存儲這些大容量視頻是目前研究的熱點。
本發明提出了一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法,利用卷積神經網絡(CNN)和遞歸神經網絡(RNN)來提取時空特征,包括背景、對象細節、和運動信息,達到了更好的重建質量。具體地,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,對于每個壓縮測量,有特定的CNN從中提取空間特征,長短記憶(LSTM)網絡聚集了由每個CNN提取的所有特征,和隱藏狀態的推斷運動一起形成重建。本發明突破了將視頻視為一系列獨立圖像的傳統處理方式的局限,通過RNN將時間信息應用于重建過程,從而生成更多精確的模型,除此之外本方法還在保持較好的原始視頻視覺細節的基礎上,提高了壓縮比并且減少了數據傳輸的寬帶,提高了視頻重建質量,支持高幀率的視頻應用。
技術實現要素:
針對現有方法在高壓縮比下難以保證視頻重建質量的問題,本發明的目的在于提供一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法,超越了傳統方法的限制,提高CS攝像機的壓縮比(CR),并且提高了視頻重建質量,同時減少了數據傳輸的帶寬,使得可以支持高幀率的視頻應用。
為解決上述問題,本發明提供一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法,其主要內容包括:
(一)壓縮感知網絡(CSNet);
(二)CSNet算法結構;
(三)卷積神經網絡(CNN);
(四)長短期記憶(LSTM)網絡;
(五)CSNet網絡訓練;
(六)壓縮感知視頻重建。
其中,所述的壓縮感知網絡(CSNet),是一種深度神經網絡,可以從隨機測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓練和非迭代模型,結合了卷積神經網絡(CNN)和遞歸神經網絡(RNN),從而利用時空特征進行視頻重建,這個網絡結構可以接收伴有多級壓縮比(CR)的隨機測量,分別地提供了背景信息和對象細節,達到更好的重建質量。
其中,所述的CSNet算法結構,該結構包含三個模塊:用于測量的隨機編碼、用于視覺特征提取的CNN聚類、用于時間重建的LSTM,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,可以接受多級壓縮比(CR)測量,通過此算法,關鍵幀和非關鍵幀(主要貢獻運動信息的其余幀)分別被壓縮,遞歸神經網絡(RNN)推算出運動信息,且將這些信息與通過卷積神經系統(CNN)提取的視覺特征相結合,合成高質量的幀,高效的信息融合,能使壓縮感知(CS)視頻應用的保真度和壓縮比(CR)之間得達到最優的平衡。
其中,所述的卷積神經網絡(CNN),該網絡對圖像進行壓縮測量和外放重建,把時間壓縮和空間壓縮結合在一起以最大化壓縮比,設計一個較大的CNN來處理關鍵幀,因為關鍵幀含有高熵信息,同時,設計一個較小的CNN來處理非關鍵幀,為了減少系統的延遲以及簡化網絡結構,使用圖像塊作為輸入,此時,由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數量單調下降,此網絡輸入是由壓縮測量組成的m維向量,在CNN之前有一個全層,它使用這些測量生成一個二維特征圖。
進一步地,所述的時間壓縮,為獲得更高的壓縮比(CR),將包含T幀的每個視頻補丁分成K個關鍵幀和(T-K)個非關鍵幀,關鍵幀經過低壓縮比(CR)壓縮,非關鍵幀經過高壓縮比(CR)壓縮,使得關鍵幀的測量信息可以再次被用來重建非關鍵幀,此可看作時間壓縮。
其中,所述的長短期記憶(LSTM)網絡,用于時間重建,為獲得一個端到端訓練的、以及計算有效的模型,不對原始輸入進行預處理,并且利用一個LSTM網絡提取重建必不可少的運動特征,從而估計視頻的光流,合成的LSTM網絡被用于運動外推、空間視覺特征和運動的聚集,以達到視頻重建。
進一步地,所述的LSTM網絡訓練過程,其特征在于,在LSTM網絡的訓練過程中,起初的LSTM的M-輸入提取處理關鍵幀的CNN數據,其余的(T-M)提取處理非關鍵幀的CNN輸出,對于每個LSTM單位,它將會收到關鍵幀的視覺特征,這些視覺特征用于背景重建、恢復對象的當前幀、以及運動估計的最后幾個幀。
其中,所述的CSNet網絡訓練,分為兩個階段,第一個階段,預訓練背景CNN,并且從K關鍵幀里提取視覺特征,第二個階段,給模型更多的自由來提取構建對象所需的基本塊,然后從零開始訓練(T-M)較小CNN,這些對象CNN和預訓練背景CNN通過一個合成的LSTM結合,三個網絡一起訓練,為減少訓練所需的參數數量,只有關鍵幀CNN的最后幾層被結合,所以這些圖層的輸入是特征映射而不是測量,將平均歐氏損失作為損失函數,即
此處,W和b是網絡權值和偏置,xi和yi是每個圖像塊和它的CS測量,一個隨機高斯矩陣被用于CS編碼。
其中,所述的壓縮感知視頻重建,建立基于信息的當前幀,利用遞歸神經網絡(RNN)提取運動特征,卷積神經網絡(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網絡聚集提取的所有特征,將其和隱藏狀態的推斷運動組合形成重建。
附圖說明
圖1是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的系統流程圖。
圖2是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的框架整體結構。
圖3是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的CSNet網絡訓練示意圖。
圖4是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發明作進一步詳細說明。
圖1是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的系統流程圖。主要包括壓縮感知網絡(CSNet)、CSNet算法結構、卷積神經網絡(CNN)、長短期記憶(LSTM)網絡、CSNet網絡訓練、壓縮感知視頻重建。
其中,所述的壓縮感知網絡(CSNet),是一種深度神經網絡,可以從隨機測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓練和非迭代模型,結合了卷積神經網絡(CNN)和遞歸神經網絡(RNN),從而利用時空特征進行視頻重建,這個網絡結構可以接收伴有多級壓縮比(CR)的隨機測量,分別地提供了背景信息和對象細節,達到更好的重建質量。
其中,所述的CSNet算法結構,該結構包含三個模塊:用于測量的隨機編碼、用于視覺特征提取的CNN聚類、用于時間重建的LSTM,隨機編碼器并行運行,利用較多的測量編碼視頻里的首幀,同時利用較少的測量編碼剩余幀,可以接受多級壓縮比(CR)測量,通過此算法,關鍵幀和非關鍵幀(主要貢獻運動信息的其余幀)分別被壓縮,遞歸神經網絡(RNN)推算出運動信息,且將這些信息與通過卷積神經系統(CNN)提取的視覺特征相結合,合成高質量的幀,高效的信息融合,能使壓縮感知(CS)視頻應用的保真度和壓縮比(CR)之間得達到最優的平衡。
其中,所述的卷積神經網絡(CNN),該網絡對圖像進行壓縮測量和外放重建,把時間壓縮和空間壓縮結合在一起以最大化壓縮比,設計一個較大的CNN來處理關鍵幀,因為關鍵幀含有高熵信息,同時,設計一個較小的CNN來處理非關鍵幀,為了減少系統的延遲以及簡化網絡結構,使用圖像塊作為輸入,此時,由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數量單調下降,此網絡輸入是由壓縮測量組成的m維向量,在CNN之前有一個全層,它使用這些測量生成一個二維特征圖。為獲得更高的壓縮比(CR),將包含T幀的每個視頻補丁分成K個關鍵幀和(T-K)個非關鍵幀,關鍵幀經過低壓縮比(CR)壓縮,非關鍵幀經過高壓縮比(CR)壓縮,使得關鍵幀的測量信息可以再次被用來重建非關鍵幀,此可看作時間壓縮。
其中,所述的長短期記憶(LSTM)網絡,用于時間重建,為獲得一個端到端訓練的、以及計算有效的模型,不對原始輸入進行預處理,并且利用一個LSTM網絡提取重建必不可少的運動特征,從而估計視頻的光流,合成的LSTM網絡被用于運動外推、空間視覺特征和運動的聚集,以達到視頻重建。在LSTM網絡的訓練過程中,起初的LSTM的M-輸入提取處理關鍵幀的CNN數據,其余的(T-M)提取處理非關鍵幀的CNN輸出,對于每個LSTM單位,它將會收到關鍵幀的視覺特征,這些視覺特征用于背景重建、恢復對象的當前幀、以及運動估計的最后幾個幀。
其中,所述的CSNet網絡訓練,分為兩個階段,第一個階段,預訓練背景CNN,并且從K關鍵幀里提取視覺特征,第二個階段,給模型更多的自由來提取構建對象所需的基本塊,然后從零開始訓練(T-M)較小CNN,這些對象CNN和預訓練背景CNN通過一個合成的LSTM結合,三個網絡一起訓練,為減少訓練所需的參數數量,只有關鍵幀CNN的最后幾層被結合,所以這些圖層的輸入是特征映射而不是測量,將平均歐氏損失作為損失函數,即
此處,W和b是網絡權值和偏置,xi和yi是每個圖像塊和它的CS測量,一個隨機高斯矩陣被用于CS編碼。
其中,所述的壓縮感知視頻重建,建立基于信息的當前幀,利用遞歸神經網絡(RNN)提取運動特征,卷積神經網絡(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網絡聚集提取的所有特征,將其和隱藏狀態的推斷運動組合形成重建。
圖2是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的框架整體結構圖。壓縮視頻幀通過壓縮感知獲得。重建是通過CSNet執行,CSNet由背景CNN、對象CNN、以及合成的LSTM組成。每T幀里,前M幀和剩余的(T-M)幀分別由低CR和高CR進行壓縮。背景CNN首先被預訓練,然后,剩下背景CNN層和模型的剩余部分一起訓練。
圖3是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的CSNet網絡訓練示意圖。網絡訓練過程分為兩個階段,其中圖a為背景CNN的預訓練,圖b為CNN和合成的LSTM的聯合訓練。第一個階段,預訓練背景CNN,且從K個關鍵幀里提取視覺特征,如圖a所示;第二個階段,給模型更多的自由來提取構建對象所需的基本塊,我們從零開始訓練(T-M)小CNNs,這些對象CNN和預訓練背景CNN通過一個合成的LSTM結合,三個網絡一起訓練,如圖b所示。為減少訓練所需的參數數量,只有關鍵幀CNN的最后幾層被結合,所以層的輸入是特征映射而不是測量。
圖4是本發明一種基于遞歸卷積神經網絡進行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。建立基于信息的當前幀,利用遞歸神經網絡(RNN)提取運動特征,卷積神經網絡(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網絡聚集提取的所有特征,將其和隱藏狀態的推斷運動組合形成重建。
對于本領域技術人員,本發明不限制于上述實施例的細節,在不背離本發明的精神和范圍的情況下,能夠以其他具體形式實現本發明。此外,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍,這些改進和變型也應視為本發明的保護范圍。因此,所附權利要求意欲解釋為包括優選實施例以及落入本發明范圍的所有變更和修改。