本發明屬于數字媒體領域,主要涉及一種基于緊湊視頻表征的視頻拷貝檢測方法。
背景技術:
::隨著視頻版權問題受到越來越多的重視,如何快速甄別一段視頻是否是另一段視頻的拷貝,已成為數字媒體領域的一個關鍵性技術。拷貝視頻可以是原視頻,可以是原視頻中截取的小片段,也可以是原視頻中的一個片段與其他無關視頻拼接。同時,拷貝視頻可能被插入無關遮擋(字幕、臺標等)、改變長寬比、改變顏色與亮度、改變分辨率、畫中畫、重新攝錄等多種變形手段。使用一種有效的表征對視頻進行描述,從而使得計算機能夠快速準確地判斷出一段查詢視頻是否是庫視頻的拷貝,并定位出拷貝的起始時間,是解決該問題的關鍵。在視頻拷貝檢測問題中,目前有基于局部點特征和基于圖像特征兩種表征方式。為了避免過量的特征帶來性能負擔,兩種方法的第一步都稀疏地對視頻進行關鍵幀提取,例如,一秒視頻采集一到兩幀圖像作為該視頻片段的代表。之后,第一種方法會探查圖像中有代表性的點,并提取特征加以描述,通過比對查詢視頻與庫視頻中點特征的相似度,將點映射回圖像,圖像映射回視頻的方式,得到查詢結果。第二種方法會對每幅關鍵幀提取一個圖像特征進行描述,然后比對查詢視頻與庫視頻中的圖像特征的相似度,映射回視頻的時間軸,得到查詢結果。針對不同的方法,國內外學者進行了一些深入的研究。如基于圖像的后置時空濾波(參考MatthijsDouze,HerveJ′egou,CordeliaSchmid在IEEETransactionsonMultimedia2010年第12卷第4冊的257-266頁發表的文章“Animage-basedapproachtovideocopydetectionwithspatio-temporalpost-filtering”)、SCNN(參考YugangJiang,JiajunWang在IEEETransactionsonBigData2016年第2卷第1冊的32-42頁發表的文章“Partialcopydetectioninvideos:Abenchmarkandanevaluationofpopularmethods”)等方法被應用到視頻拷貝檢測中來。出于對內存和查詢時間代價的考慮,以上所提到的表征方式,均需要稀疏地對視頻進行關鍵幀采樣。然而,同一秒鐘的幀圖像,盡管相似但又有著不同的細節,若僅僅使用其中的一到兩幀來表示該一秒鐘片段,會損失掉部分信息,使得特征的描述能力降低,造成結果準確性下降。若進行稠密采樣,則會使得相同視頻得到的特征數量大大增加,導致計算時長大大增加,脫離實用性。技術實現要素:本發明利用了深度學習與稀疏編碼來解決現有技術存在的問題。本發明提供一種基于緊湊視頻表征的視頻拷貝檢測方法,在提升特征描述能力的情況下,保證其緊湊性,即用一段短小緊湊的特征,就能很好描述一小段視頻的信息。在本發明中,將稠密采集視頻的關鍵幀,并對每張關鍵幀提取圖像特征,之后使用特征融合的方式,將一個視頻片段內的所有圖像特征融合成一個對該片段的緊湊表征。為了達到上述目的,本發明的技術方案為:一種基于緊湊視頻表征的視頻拷貝檢測方法,首先對庫視頻稠密地提取關鍵幀,使用卷積神經網絡提取關鍵幀的特征,并對特征進行降維,即提取視頻的幀特征。再對幀特征進行稀疏編碼,之后對從屬于同一秒的幀特征進行特征融合,得到一個描述該一秒長度片段的緊湊表征,并對所有的庫視頻的緊湊表征建立一個索引。其次,對查詢視頻,重復上述步驟,得到查詢視頻的緊湊表征。最后,使用查詢視頻的每個緊湊表征,查找索引中相似的庫視頻緊湊表征,并進一步找出最相似的視頻片段。具體包括以下步驟:第一步,提取庫視頻中關鍵幀的幀特征1.1)稠密并等間隔地提取庫視頻的關鍵幀,按照關鍵幀出現的先后順序,編號Ii∈[1,...,N]。1.2)采用卷積神經網絡計算步驟1.1)得到的關鍵幀的fc層特征,即網絡中的全連接層特征。1.3)將步驟1.2)得到的fc層特征采用主成分分析-白化算法進行降維,每個圖像得到低維度的n維特征,即得到關鍵幀的幀特征。第二步,使用池化(pooling)方式,將第一步得到的庫視頻的幀特征基礎上進行融合,獲取緊湊視頻表征2.1)使用k-奇異值分解(k-singularvaluedecomposition,ksvd)算法,對步驟1.3)得到的n維特征進行訓練,得到一個n*m維的字典。2.2)對步驟1.3)中的每個n維特征,使用正交匹配追蹤(orthogonalmatchingpursuit,omp)算法計算其在步驟2.1)中的字典上的稀疏表示,得到一個m維的稀疏特征,用于表示一副關鍵幀。2.3)以秒為單位,對關鍵幀進行劃分,所有Ii∈ts的關鍵幀被劃分為同一類,即屬于同一秒的關鍵幀歸為一類,ts表示從視頻開始處的第s秒。2.4)對同一類的所有關鍵幀的稀疏特征采用池化方式進行融合,池化時,選擇離零值最遠的值作為該維度的代表,即絕對值最大的值帶上其符號位作為該值的代表,以與圖像稀疏特征具有相等維度的緊湊表征作為該一秒視頻的特征表示;具體為:對m維的稀疏特征中的每一維mi(i∈[1,...,m])做橫向對比,即該類中的所有特征的第mi維做比較,選取絕對值最大的數值mi_max,加上該數值的符號sign(+/-),作為第mi維的代表,即選取與0差值最大的值作為第mi維的代表。串聯所有的sign*mi_maxi∈[1,...,m],得到一個長度為m的特征向量cs,cs即為第ts秒視頻的特征表示。第三步,對所有的庫視頻的緊湊視頻表征建立一個索引3.1)使用kd樹,將所有的緊湊視頻表征整合為一個快速索引結構。kd樹是一種索引結構,用于快速匹配與查詢表征最相似的若干條表征。第四步,獲取查詢視頻的緊湊視頻表征4.1)對查詢視頻,重復第一步和第二步,得到查詢視頻的緊湊視頻表征。其中,步驟2.1)不需要進行,即用庫視頻訓練好的字典來計算查詢視頻的稀疏特征,并進行池化,得到查詢視頻的緊湊視頻表征。第五步,找出最相似的視頻片段步驟5.1)使用查詢視頻的每個緊湊視頻表征cqt,在第三步建立的索引中進行搜索,找到最相似的k個庫視頻的緊湊視頻表征。步驟5.2)對一個查詢視頻的所有緊湊視頻表征集{cqt,t∈[1,...,tq]},其中tq是查詢視頻的長度,單位為秒;以及它們的tq*k個最相似的庫緊湊視頻表征,使用TemporalNetwork算法,找出最相似的視頻片段。TemporalNetwrok算法將每個庫緊湊視頻表征當做是圖中的一個節點,遵從查詢視頻關鍵幀的時間序以及庫視頻關鍵幀的時間序,找出圖中最大權值的路徑,該路徑串聯了庫視頻關鍵幀的緊湊視頻表征節點,表示找出的與查詢視頻最相似的庫視頻片段。本發明的有益效果是:本發明能夠保留視頻中大部分幀的信息,又能夠避免因為特征數量過多帶來的性能負擔,使得結果更為可靠。本發明能夠有效提高視頻拷貝檢測的準確性和召回率,并使得特征數量顯著降低。附圖說明圖1是本發明視頻拷貝檢測的流程圖。圖2是對同一類關鍵幀的稀疏特征進行池化的示意圖。具體實施方式以下結合技術方案和附圖詳細敘述本發明的具體實施例。實施例:復雜數據庫的視頻拷貝檢測1.提取庫視頻中所有的幀作為關鍵幀。2.使用卷積神經網絡,并采用預訓練好的公開模型VGG-16模型,對步驟1得到的關鍵幀進行計算,提取fc6層的4096維特征。3.采樣10萬條特征向量,進行主成分分析算法以及ksvd算法中字典的訓練,其中,主成分分析的字典維度是256*4096,ksvd的字典維度是256*1024,即n=256,m=1024。4.使用訓練好的主成分分析的字典,對步驟2中的所有特征進行降維,并進行白化(whitening)處理,得到256維的幀特征。5.使用omp算法及ksvd的字典,對步驟4中得到的幀特征進行計算,每個幀特征計算得到一個1024維的稀疏特征。6.將視頻的關鍵幀按秒進行劃分,即從屬于同一秒的關鍵幀被劃分為同一類。由于本例中提取了視頻的所有幀,所以每類中的幀數量與視頻的幀率值相同。如圖2所示,將視頻以秒為單位進行劃分,將屬于同一秒鐘的關鍵幀的稀疏特征做池化,得到一個緊湊表征,用于描述該一秒鐘長度的視頻。7.對同一類幀的稀疏特征,將每一維做池化,即對1024維的每一維,比較同一類稀疏特征的該維,得到與0差值最大的那個值,作為該維池化的結果。于是,池化后的緊湊視頻表征的長度也是1024維。8.使用kd樹,將庫視頻的所有緊湊視頻表征建樹,用于快速檢索。同時,用一個表格table保存特征id與視頻編號及時間戳的聯系。9.對查詢視頻,與庫視頻的處理類似,首先提取視頻中的所有幀,使用相同的卷積神經網絡提取fc6層的特征。10.與步驟4-7相同,對4096維的fc6層特征,先使用主成分分析-白化算法進行降維,得到256維的幀特征,再使用ksvd算法得到的字典計算1024維的稀疏特征。最后,使用池化的方式得到查詢視頻的緊湊視頻表征。11.將查詢視頻的緊湊視頻表征按時間順序編號為cqt。對每個cqt,查找其在索引中最相似的200個庫視頻的緊湊視頻表征,即k=200。12.使用TemporalNetwork算法。其中每個查詢視頻的緊湊視頻表征cqt關聯的200個庫緊湊視頻表征為算法中的N集。根據table中記錄的信息,將視頻編號相同,并且時間戳符合算法要求的N集節點連接,作為E集。13.根據TemporalNetwork的計算結果,設定閾值,得分大于閾值的庫視頻片段認為是查詢視頻的拷貝源;得分小于閾值的不認為其是拷貝。當前第1頁1 2 3 當前第1頁1 2 3