
本發明通信的視頻技術,尤其涉及一種字幕提取方法及裝置。
背景技術:
:目前,視頻文件中字幕的記載方式多樣,例如,內嵌式字幕、內掛字幕和外掛字幕等。其中,內嵌式字幕是將字幕覆蓋在視頻的視頻幀上時,與視頻的視頻幀融為一體,不論視頻格式如何進行變化,字幕的大小、位置、效果都是不變的。內掛字幕是將視頻文件和字幕文件封裝為多個音軌和多個字幕軌,在播放時可選擇配音和字幕。外掛字幕對應的字幕文件與視頻文件相互獨立,在需要播放視頻的時候,由視頻播放器待用字幕文件在視頻上加載。終端的視頻播放器支持各種形式的字幕,但是難以對所有形式的字幕進行提取和識別,這樣,就導致用戶在觀看視頻的過程中無法提取文本形式的字幕進行分享或記錄。技術實現要素:本發明實施例提供一種字幕提取方法及裝置,能夠從視頻中提取各種形式的字幕。本發明實施例的技術方案是這樣實現的:第一方面,本發明實施例提供一種字幕提取方法,所述方法包括:對視頻解碼得到視頻幀,對所述視頻幀中的像素進行字幕排布方向的連通操作,得到所述視頻幀中的連通域;基于所述視頻幀中的連通域確定包括相同字幕的視頻幀,并基于所述包括相同字幕的視頻幀中連通域的分布位置,確定所述包括相同字幕的視頻幀中的字幕區域;針對所述字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的對比度極值區域;對所述多個通道的對比度極值區域進行顏色增強處理,形成顏色增強對比度極值區域;融合多個通道的顏色增強對比度極值區域。第二方面,本發明實施例提供一種字幕提取裝置,所述裝置包括:解碼單元,用于對視頻解碼得到視頻幀;連通單元,用于對所述視頻幀中的像素進行字幕排布方向的連通操作,得到所述視頻幀中的連通域;定位單元,用于基于所述視頻幀中的連通域確定包括相同字幕的視頻幀,并基于所述包括相同字幕的視頻幀中連通域的分布位置,確定所述包括相同字幕的視頻幀中的字幕區域;提取單元,用于針對所述字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的對比度極值區域;增強單元,用于對所述融合的多個通道的對比度極值區域進行顏色增強處理,形成濾除冗余像素和噪聲的顏色增強對比度極值區域;融合單元,用于融合多個通道的對比度極值區域。第三方面,本發明實施例提供一種字幕提取裝置,所述裝置包括:處理器和存儲介質;所述存儲介質中存儲有可執行指令,所述可執行指令用于引起所述處理器執行以下的操作:對視頻解碼得到視頻幀,對所述視頻幀中的像素進行字幕排布方向的連通操作,得到所述視頻幀中的連通域;基于所述視頻幀中的連通域確定包括相同字幕的視頻幀,并基于所述包括相同字幕的視頻幀中連通域的分布位置,確定所述包括相同字幕的視頻幀中的字幕區域;針對所述字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的對比度極值區域;對所述多個通道的對比度極值區域進行顏色增強處理,形成顏色增強對比度極值區域;融合多個通道的顏色增強對比度極值區域。本發明實施例具有以下有益效果:從視頻幀中提取對應字幕的連通域,從而對于任意形式的字幕都能夠提取字幕區域(與連通域對應的圖像),不受視頻使用何種形式的字幕的影響;同時,對從字幕區域提取的對比度極值區域進行顏色增強處理并進行融合,有效濾除字幕區域的圖像中消除光照、衣物強干擾背景,以便更好的分離背景與字幕,有利于提升后續文字識別的效率和精度。附圖說明圖1-1至圖1-6是本發明實施例中像素關系的示意圖;圖2是本發明是實施例中字幕提取裝置的一個可選的硬件結構示意圖;圖3是本發明實施例中字幕提取的一個可選的場景示意圖;圖4是本發明實施例中字幕提取方法的一個可選的流程示意圖;圖5-1至圖5-2是本發明實施例中字幕區域的可選的示意圖;圖6是本發明實施例中字幕區域疊加的一個可選的流程示意圖;圖7是本發明實施例中形成對比度極值區域的一個可選的示意圖;圖8是本發明實施例中顏色空間轉換的一個可選的示意圖;圖9-1是本發明實施例中字幕提取的一個可選的場景示意圖;圖9-2是本發明實施例中字幕提取的一個可選的場景示意圖;圖10是本發明實施例中字幕提取裝置的一個可選的功能結構示意圖。具體實施方式以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所提供的實施例僅僅用以解釋本發明,并不用于限定本發明。另外,以下所提供的實施例是用于實施本發明的部分實施例,而非提供實施本發明的全部實施例,在本領域技術人員不付出創造性勞動的前提下,對以下實施例的技術方案進行重組所得的實施例、以及基于對發明所實施的其他實施例均屬于本發明的保護范圍。需要說明的是,在本發明實施例中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的方法或者裝置不僅包括所明確記載的要素,而且還包括沒有明確列出的其他要素,或者是還包括為實施方法或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的方法或者裝置中還存在另外的相關要素(例如方法中的步驟或者裝置中的單元)。本發明實施例中涉及的名詞和術語適用于如下的解釋。1)灰度值:表示像素明暗程度的整數量,例如:像素的取值范圍為0-255,就稱該圖像為256個灰度級的圖像。2)腐蝕(Erode):刪除對象邊界某些像素,具有收縮圖像作用,腐蝕算法使用一個nXn結構元素去掃描圖像中的每一個像素,用nXn結構元素與nXn結構元素覆蓋的二值圖像做“與”操作,如果都為1,圖像的該像素為1,否則為0。腐蝕之后,圖像邊界向內收縮。3)膨脹(Dilate):添加對象邊界某些像素,具有擴大圖像作用;膨脹算法使用一個nXn結構元素去掃描圖像中的每一個像素。用nXn結構元素與nXn結構元素覆蓋的二值圖像做“與”操作,如果都為0,圖像的該像素為0,否則為1。膨脹之后,圖像邊界向外擴大。4)鄰接:兩個像素接觸,則它們是鄰接的。一個像素和它的鄰域中的像素是接觸的。鄰接僅考慮像素的空間關系。領域包括以下幾種類型:4.1)4鄰域:如圖1-1所示,像素p(x,y)的4鄰域是鄰接的像素:(x+1,y);(x-1,y);(x,y+1);(x,y-1)。4.2)D鄰域:如圖1-2所示,像素p(x,y)的D鄰域是對角上的像素(x+1,y+1);用ND(p)表示像素p的D鄰域:(x+1,y-1);(x-1,y+1);(x-1,y-1)。4.3)8鄰域:如圖1-3所示,像素p(x,y)的8鄰域是:4鄰域的像素+D鄰域的像素,用N8(p)表示像素p的8鄰域。5)連通,兩個像素連接(1)是鄰接的;(2)灰度值(或其他屬性)滿足某個特定的相似準則(灰度相等或在某個集合中等條件)。連通包括以下幾種類型:5.1)4連通如圖1-4所示,對于具有灰度值V的像素p和q,如果q在集合N4(p)中,則稱這兩個像素是4連通。5.2)8連通如圖1-5所示,對于具有值V的像素p和q,如果q在集合N8(p)中,則稱這兩個像素是8連通的。如圖1-6所示,對于具有值灰度值V的像素p和q,如果:I.q在集合N4(p)中,或,II.q在集合ND(p)中,并且N4(p)與N4(q)的交集為空(沒有灰度值V的像素),則像素p和q是m連通的,即4連通和D連通的混合連通。6)連通區域,彼此連通(上述的任意一種連通方式)的像素形成了一個區域,而不連通的點形成了不同的區域。這樣的一個所有的點彼此連通點構成的集合,稱為連通域。數據分布集中趨勢特征,也就是數組中的數字集中分布的字段,通常利用眾數法、中位數法和均值法等確定分布情況;眾數法就是測算數組中重復出現次數最多的數字(眾數)的方法,中位數法就是測算數組中中間取值(中位數)的方法,均值法就是測算數組中數字均值的方法。7)幀間差分法(幀差法),將相鄰視頻幀對應像素的灰度值相減,在環境亮度變化不大的情況下,如果對應像素灰度相差很小(未超出閾值),可以認為像素代表的對象是靜止的;如果圖像區域某處的灰度變化很大(超出閾值),可以認為這是由于圖像中對象運動引起的,將這些靜止區域和運動的像素區域標記下來,利用這些標記的像素區域,就可以得到運動對象以及靜止對象在視頻幀中的位置。示例性地,幀差法是在連續的圖像序列中2個或3個相鄰幀間采用基于像素的時間差分并且閾值化來提取視頻幀中運動對象區域。該運動對象實時跟蹤系統是采用三幀差分來進行運動目標檢測,這種方法不僅能提高運動對象檢測的速度,而且提高了所檢測視頻幀的完整性。8)尺度不變特征轉換(SIFT,Scale-InvariantFeatureTransform)特征匹配算法,用來偵測視頻幀中的局部性特征,也就是對象上的一些局部外觀的特征點的特征,這些特征點的特征與對象成像的大小和旋轉無關。在空間尺度中尋找特征點,并提取出特征點的特征描述:位置、尺度和旋轉不變量。基于不同視頻幀得到的特征點的特征的描述,對特征點進行匹配,可以得到視頻幀中是否包括相同的特征點。尺度不變特征轉換特征匹配算法所查找到的特征點是一些十分突出,不會因光照,仿射變換和噪音等因素而變化的點,如角點、邊緣點、暗區的亮點及亮區的暗點等。9)對比度極值區域(CER,ContrastingExtremalRegion),視頻幀中跟周圍的背景有一定對比度(超出對比度閾值)的區域,從而至少能夠被人眼感知。10)顏色增強(color-enhancedCER),是采用基于感知的光照不變(PII,Perception-basedIlluminationInvariant)顏色空間中的顏色信息去增強CER,利用顏色信息濾除CER中的冗余像素或者噪聲,從而得到Color-enhancedCER,該顏色空間具有視覺感知一致性,而且對光照不敏感,更接近人眼對顏色的判斷。PII顏色空間的顏色模型,包括:色調H,飽和度S和明度V。本發明實施例提供字幕提取方法、應用字幕提取方法的字幕提取裝置以及存儲介質(存儲介質中存儲有用于執行字幕提取方法的可執行指令)。本發明實施例提供的字幕提取裝置可以以各種形式來實施,示例性地,可以為智能手機、平板電腦、車載終端等移動終端,也可以臺式機電腦、智能電視、機頂盒等形式的固定終端,或者是類似的運算裝置,又或者是網絡側的服務器。圖2示例性示出了字幕提取裝置10一個可選的硬件結構示意圖,圖2示出的硬件結構僅為示例,并不構成對設備結構的限定。例如,可以根據實施需要設置較圖2更多的組件,或者根據實施需要省略設置部分組件。在圖2中,字幕提取裝置10的一個可選的硬件結構包括:處理器11、輸入/輸出接口13,存儲介質14以及網絡接口12,組件可以經系統總線15連接通信。處理器11可以采用中央處理器(CPU)、微處理器(MCU,MicrocontrollerUnit)、專用集成電路(ASIC,ApplicationSpecificIntegratedCircuit)或邏輯可編程門陣列(FPGA,Field-ProgrammableGateArray)實現。輸入/輸出接口13可以采用如顯示屏、觸摸屏、揚聲器等輸入/輸出器件實現。存儲介質14可以采用閃存、硬盤、光盤等非易失性存儲介質實現,也可以采用雙倍率(DDR,DoubleDataRate)動態緩存等易失性存儲介質實現,示例性地,存儲介質14可以與硬件結構中的其他組件共同在同一設備設置,也可以相對硬件結構中的其他組件異地遠程設置。網絡接口12向處理器11提供外部數據如異地設置的存儲介質14的訪問能力,示例性地,網絡接口12可以基于近場通信(NFC,NearFieldCommunication)技術、藍牙(Bluetooth)技術、紫蜂(ZigBee)技術進行的近距離通信,另外,還可以實現如基于碼分多址(CDMA,CodeDivisionMultipleAccess)、寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)等通信制式及其演進制式的通信。結合圖3示出的字幕提取的一個可選的場景示意圖,終端30和終端40運行在線視頻播放應用,根據用戶在在線視頻應用中選中的視頻的標識如序列號(ID)向服務器請求視頻的數據,服務器10從數據庫20獲取視頻,從視頻中提取字幕區域并識別為文本形式,連同視頻下發至終端30和終端40。作為在向終端下發視頻時從視頻中提取字幕的替代方案,服務器10可以預先從數據庫20的視頻中識別文本形式的字幕,并連同視頻在數據庫20中存儲,這樣在并發響應多個終端獲取視頻(例如,終端30和終端40請求不同視頻的字幕,或者請求相同視頻的字幕)時,可以實時下發文本形式的字幕以避免延遲。當然,服務器10也可以只將終端30和終端40所請求的視頻的數據下發至相應終端進行播放,在終端30和終端40需要視頻中的文本形式的字幕時,才下發相應的文本形式的字幕至終端30和終端40。示例性地,終端30、終端40與服務器10之間以實時流式傳輸(RealtimeStreaming)或順序流式傳輸(ProgressiveStreaming)的方式傳輸流媒體的視頻數據。一般說來,如視頻為需要實時播放的,則使用流式傳輸的媒體服務器10,或應用如實時流傳輸協議(RTSP,RealTimeStreamingProtocol)傳輸。如使用超文本傳輸協議(HTTP,HyperTextTransferProtocol)服務器10,流媒體的視頻數據即通過順序流發送。采用何種傳輸方式依賴于視頻播放的實時性的需求。當然,終端30和終端40也可以將視頻的全部的數據下載到本地再進行播放。下面結合圖4示出的可以應用于圖3中服務器10的字幕提取的一個可選的流程示意圖進行說明,如圖4所示,包括以下步驟:步驟101,對視頻解碼得到視頻幀。步驟102,對視頻幀中的像素進行字幕排布方向的連通操作,得到視頻幀中的連通域。在一個實施例中,根據視頻的時長采樣不同時間點的視頻幀,例如,基于視頻的幀速率對應提取不同時間點的視頻幀,為了避免遺漏某一視頻幀中的字幕,抽取視頻時的采樣速率大于視頻的幀速率。對于所提取的視頻幀中的像素進行腐蝕和/或擴張操作,對于進行腐蝕和/或擴張操作后的視頻幀進行與字幕排布方向的連通操作,通常,字幕在視頻中以從左至右的方向排布,因此對視頻幀中的像素進行左向和右向的連通操作。使得視頻幀中字幕區域的字符能夠形成一個連通域。當然,如果預知視頻中字幕的排布方向與常規的排布方向不同,可以針對視頻的字幕排布方向有針對性地進行連通操作。步驟103,基于視頻幀中的連通域確定包括相同字幕的視頻幀。在一個實施例中,對所提取的相鄰的視頻幀中連通域(連通域與文本行形式的字幕對應)的像素作差,例如在RGB空間的不同通道的差值,或在PII空間的不同通道的差值;若差值低于差值閾值,則說明相鄰視頻幀中連通域的像素的差異過大,而相鄰視頻幀中連通區域的字幕如果相同則像素的差值必然很小(低于差值閾值),因此,判定所提取的相鄰的視頻幀包括相同的字幕,若差值高于差值閾值,則判定所提取的相鄰的視頻幀包括不同的字幕。在一個實施例中,對于所提取的在時間上相鄰的視頻幀中的連通域,基于尺度不變特征轉換特征匹配算法從相應連通域中提取特征點,由于所提取的特征點具有不因位置、尺度和旋轉而改變的特點,因此,如果相鄰視頻幀中的字幕相同,則從相鄰視頻幀中連通域提取的特征點必然是匹配的,相應地,通過相鄰是視頻幀中連通域的特征點是否匹配,可以判斷相鄰視頻幀是否包括相同的字幕。另外,上述的兩種判斷相鄰視頻幀是否包括相同字幕的方式可以結合使用,從而進一步提升識別包括不同字幕的視頻幀的精度。例如,對所提取的相鄰的視頻幀中連通域的像素作差,若差值低于差值閾值,且,基于尺度不變特征轉換特征匹配算法從相應連通域中提取特征點,若相鄰的視頻幀中連通域中提取的特征點匹配,則判定所提取的相鄰的視頻幀包括相同的字幕;否則,判定所提取的相鄰的視頻幀包括不同的字幕。步驟104,基于包括相同字幕的視頻幀中連通域的分布位置,確定包括相同字幕的視頻幀中的字幕區域。在一個實施例中,對于包括相同字幕的視頻幀中連通域的分布位置(這里的分布位置是指連通域的邊緣區域的分布位置),確定相應分布位置的分布集中趨勢特征,例如,基于眾數法、中位數法或均值法確定分布位置的分布趨勢特征。以眾數法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置的出現次數,確定出現次數最多的分布位置形成的區域(也就是該分布位置為邊緣位置的區域)為字幕區域。以中位數法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置,確定中間取值的分布位置形成的區域(也就是該分布位置為邊緣位置的區域)為字幕區域。再以均值法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置,確定分布位置的均值形成的區域(也就是分布位置的均值為邊緣位置的區域)為字幕區域。步驟105,針對所述字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的對比度極值區域。在一個實施例中,從多個通道如灰度圖、PII的色調通道;PII的飽和度通道對視頻幀的字幕區域對應構造由嵌套的節點形成的組件樹,組件樹的節點與字幕區域的字符對應;節點與鄰接背景的對比度采用節點相對于鄰接節點的面積變化率來表征,由于極值區域與鄰接背景至少有能被人眼感知到的對比度,因此,當節點相對于鄰接節點的面積變化率小于面積變化率閾值時,則確定節點屬于相應通道的對比度極值區域。步驟106,對多個通道的對比度極值區域進行顏色增強處理。在一個實施例中,對于每個通道的對比度極值區域,確定對比度極值區域的主要顏色,從對比度極值區域中提取出跟主要顏色相似程度滿足預設條件的像素,基于所提取的像素組成相應通道的顏色增強對比度極值區域。例如,對于任一通道的字幕區域,將字幕區域中的像素按照灰度值的大小從大到小排序,取灰度值排在前預定比例的像素集合,若集合中像素與集合的主要顏色的顏色距離小于顏色距離閾值(顏色距離閾值是人眼所能感知到顏色的區別時的最小顏色距離),則基于該像素形成顏色增強對比度極值區域。步驟107,融合多個通道的顏色增強對比度極值區域,形成濾除冗余像素和噪聲的顏色增強對比度極值區域。通過顏色增強處理并進行融合,能夠實現對字幕區域的噪點去除,并分離字幕區域中的字符與背景的效果。如前所述,示例性地,從以下的多個通道對顏色增強對比度極值區域進行融合:灰度圖;基于感知的光照不變PII的色調通道;PII的飽和度通道。由于字幕區域的圖像形成的顏色增強度對比度極值區域已經濾除了噪點和背景,因此能夠有效濾除字幕區域的圖像中消除光照、衣物強干擾背景,以便更好的分離背景與字幕,提升字符識別的效率和精度。步驟108,對顏色增強對比度極值區域進行字符識別。由于顏色增強對比度極值區域的圖像已經濾除了噪點和背景,因此對圖像進行字符識別的難度將顯著降低,可以使用相關的字符識別技術對字幕區域進行字符識別。再結合字幕提取的一個示例進行說明。從復雜背景的視頻文件中定位字幕位置,以及提取出干凈的字幕圖像。主要包括兩個部分的處理:首先進行是視頻中字幕定位,其次是將定位到的字幕從復雜的背景中提取出來。視頻字幕定位:根據視頻時長提取不同時間點出的視頻幀,對這些視頻幀做形態學上的Erode、Dilate操作,同時結合左右連通域操作得到該視頻幀的字幕區域,對不同時刻的視頻幀執行上述的定位的操作,得到視頻中一系列的字幕區域的位置,通過眾數法,獲取準確的視頻中字幕區域的準確位置信息。視頻字幕提取:在視頻字幕定位完成的基礎上,需要將字幕區域的文字與背景信息進行分離,通過幀差法以及SIFT特征匹配算法來區分時域上的字幕信息是否為同一字幕,若為同一字幕,則對同一字幕的字幕區域的圖像進行疊加,求均值,以此來消除部分光照、衣服等復雜背景的干擾,另外對均值字幕區域進行顏色過濾,通過融合多通道上字幕區域的CER(對比度極值區域)區域來尋找字幕。最后通過color-enhancedCER來得到最后干凈的字幕區域的圖像。圖3中服務器10的一個可選的硬件環境如下:CPU:GenuineIntel(R)@1.73GHz或以上;內存:1GB或以上;硬盤:120GB以上。圖3中服務器10的一個可選的軟件運行環境如下:操作系統:64bit的tlinux1.2以上版本數據庫:redis以及mysql對服務器10使用上述硬件環境以及軟件環境進行字幕提取的處理過程進行說明。一、定位字幕區域對視頻進行解碼得到視頻幀,對其圖像進行Erode、Dilate操作,再進行左右聯調操作得到每個幀的字幕目標區域。通過對同一視頻不同時刻取N幀圖像進行字幕區域定位,最后對所有的(x1,y1),(x2,y2)坐標眾數,得到最終的文本行高度。視頻幀的原始圖像,以及對視頻幀中的字幕區域定位之后可選的示意圖如圖5-1和圖5-2所示。在定位視頻幀中的字幕區域,也就是字幕的文本行上下邊界之后,為消除文字分離過程中強光照、衣物等事物的干擾,使用了視頻時域上的幀差法以及SIFT特征匹配來區分兩個視頻幀中的字幕是否為同一字幕。利用幀差法判斷兩個視頻幀中是否包括相同字幕的一個可選的流程示意圖如圖6所示,對于從視頻中連續提取的視頻幀中的字幕區域,記為文本行圖像1和文本行圖像2,結合采用兩種方式判斷文本行圖像1和文本行圖像2是否為相同的字幕:方式1)通過比較相鄰文本行的像素差值,根據水平投影和垂直投影(一般是對二值圖像而用的,水平方向的投影就是每行的非零像素值的個數,在這里就是1或者255,垂直投影就是每列圖像數據中非零像素值的個數)來判斷文本行圖像1和文本行圖像2是否為相同的字幕。方式2)提取文本行1和文本行圖像2的SIFT特征進行匹配,根據匹配的結果得到相似度,綜合幀差法以及SIFT特征的相似度兩者的結果,來綜合判斷是否為同一字幕,如果是相同的字幕則疊加文本行圖像1和文本行圖像2并求均值形成新的文本行圖像。后續提取的視頻幀中的字幕區域與新的文本行圖像重復進行上述的判斷處理,以繼續疊加相同的文本行圖像,直至提取的視頻幀中的文本行圖像發生變化,針對新的文本行圖像繼續進行疊加處理。二、字幕提取針對每個字幕形成的文本行圖像(字幕區域),構造組件樹,提取CER區域。組件樹構造流程圖參見圖7示出的組件樹的一個可選的結構示意圖,(N,i),(N,i+1),…,是一串對應漢字“官”(用S表示)的節點/極值區域,且在組件樹上從下往上依次嵌套。令S(N,i),S(N,i+1),…,分別表示(N,i),(N,i+1),…,的面積,則節點(N,i)與其祖先節點(N,i+Δ)的面積變化率為:RΔS(ni,ni+Δ)=sni+Δ-snisni---(1)]]>面積變化率RΔS(ni,ni+Δ)可以用來度量節點(N,i)與其鄰接背景的對比度。假設字幕區域的圖像中某極值區域對應的二值化閾值為level,當減小閾值的時候,該極值區域會往外擴張或者與其他極值區域合并,面積會增大,而RΔS(ni,ni+Δ)用于描述面積增長速率。極值區域與其鄰接背景對比度高,則其往外擴張的面積就會越小,面積增長速率也會越慢。所以RΔS(ni,ni+Δ)反比于節點n與其鄰接背景的對比度,RΔS(ni,ni+Δ)越大,對比度越低。基于面積變化率,對比極值區域CER可以定義如下。如果(為常數),則節點rii就是一個CER。CER的定義雖然非常簡單,但是卻有著非常清晰的物理含義:它是一類特殊的極值區域,這些極值區域與它們的鄰接背景至少有能被人眼感知到的對比度。CER提取條件的嚴格與否取決于參數Δ和例如,如果固定參數Δ,越大,則對CER的對比度要求越低,即可以提取出對比度更低的極值區域,所以提取出來的CER的數量就會越多。在實際的自然場景圖像中,確實會遇到一些文字區域對比度很低的情況,為了能處理這些情況,Δ和需要設置得較為保守,即對CER的最低對比度要求很低。本發明實施例中上述的參數設定是基于人眼的視覺感知,原則是要求CER的最低對比度能被人眼感知到,通過實驗,Δ和分別被設置為3和0.5。通常情況下,從組件樹上提取出來的CER的數量會遠低于原始組件樹上節點的個數,例如對一張百萬像素數量級的圖像,提取出來的CER通常只有幾百到幾千個。一般視頻字幕噪點較多,背景和文字融合的情況常常出現,因此還需要針對字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的CER,融合多個通道的CER,對融合的多個通道的CER進顏色增強處理,盡可能濾除CER中的冗余像素或者噪聲。增強算法主要包含兩個步驟:1)估計CER的主要顏色:2)從CER中提取出顏色跟主要顏色相近的像素組成Color-enhancedCER。一般來說,噪聲像素位于CER的邊緣位置,所以其灰度值較小。所以,為了估計某個CERc的主要顏色,可以將C中包含的像素按照其灰度值的大小從大到小排序,令Smed表示C中灰度值排在前50%的像素集合,Npi為集合Smed中像素的個數,為像素pi的顏色,Fdc為CERc的主要顏色,則Fdc可以計算為:Fdc=1NpiΣpi∈SmedFpi---(2)]]>像素pi與主要顏色Fdc相近可定義為:如果顏色距離(Tdc為常數),則稱與Fdc顏色相近。此處描述和Fdc與的最低相似程度,基于人眼感知和實驗,Tdc被設為為了使得圖像中更多的文字滿足極值區域的定義,在多通道(灰度圖,PII的H通道,PII的S通道)上面提取CER,最后融合提取的CER區域,最終達到分離文字和復雜背景的目的。對從多個通道提取的CER進行融合時涉及到顏色空間變化,下面結合圖8示出的顏色空間變化的一個可選的示意圖進行說明。下面是RGB顏色空間到PII顏色空間變換,令向量(Rrgb,Grgb,Brgb)表示RGB顏色空間中某個顏色,(Rrgb,Grgb,Brgb)的取值范圍為0到1,如果(Rrgb,Grgb,Brgb)的取值范圍不在0到1,則應先線性規整到0到1的區間。接著對(Rrgb,Grgb,Brgb)作如下變換:Clinear=Crgb12.92,Crgb≤0.05045(Crgb+a1+a)2.4,Crgb>0.05045---(3)]]>此處C代表最后對(Rrgb,Grgb,Brgb)作如下線性變換:XYZ=0.41240.35760.18050.21260.71520.07220.01930.11920.9505RlinearGlinearBlinear---(4)]]>從而得到(Rrgb,Grab.Brgb)在CIEXYZ顏色空間中的值(X,Y,Z)。接下來令表示CIEXYZ空間中的三刺激值,再令表示從CIEXYZ空間到PII顏色空間的變換方程,則的推導過程可以概括如下:當顏色被投影到某些特定的基向量上的時候,對顏色添加光照的效果等同于對每個顏色通道乘以一個標量系數。此處,用矩陣B表示對特定基的線性變換,光照對顏色的影響可以被寫為如下形式:x→→B-1DBx→---(5)]]>此處D為僅僅與光照相關的對角陣。可以得到如下等式:F(x→)-F(x→′)-F(B-1DBx→)-F(B-1DBx→′)---(6)]]>任意兩個顏色f在PII空間中的視覺距離應該定義為d(x→,x→′)=||F(x→)-F(x→′)||---(7)]]>此處符號||·||表示歐氏距離。經過推導,可以證明必須有如下形式:其中A矩陣為訓練得到:B=2.71×10-2.28×10-1.81-5.65-7.721.29×10-4.16-4.58-4.58---(9)]]>其中B矩陣為訓練得到:B=9.47×10-12.95×10-1-1.31×10-1-1.18×10-19.93×10-17.37×10-19.23×10-2-4.65×10-29.95×10-1---(10)]]>綜上,給定RGB顏色空間中任意的顏色向量,(Rrgb,Grgb,Brgb),先通過公式(16)和(17)將其變換到CIEXYZ顏色空間,再通過公式(21)將其變換到PII顏色空間即可。可以看出基于上述的字幕提取方案可對視頻中任意形式的字幕進行提取從而進行字符識別,示例性地結合應用場景進行說明:參見圖9-1示出的字幕提取的應用場景1)例如,視頻字幕提取完以后,進而進行字符識別,基于對文本形式的字幕進行分析以確定視頻的類型、屬性等,分析出用戶的偏好,隨著用戶觀看視頻的數量的累積,可以建立用戶的偏好數據庫,根據用戶的偏好向用戶推薦新上線的視頻。再例如,根據視頻的文本形式的字幕建立視頻的內容索引數據庫,根據用戶輸入的關鍵字搜索內容與關鍵字匹配的視頻,克服了相關技術僅能夠基于視頻的類別以及名稱進行搜索的缺陷。參見圖9-2示出的字幕提取的應用場景2)視頻的邊看邊分享功能,用戶在觀看視頻時通過一鍵識別功能,對當前視頻播放界面的字幕進行提取并識別為文本形式,并自動填充到分享感言的對話框中,提升分享操作的流暢度和自動化程度。對前述字幕提取裝置的一個可選的邏輯功能結構進行說明,參見圖示出的字幕提取裝置的一個可選的邏輯功能結構示意圖,需要指出的是,圖示出的字幕提取裝置的邏輯功能結構僅僅是是示例性地,基于圖示出的邏輯功能結構,本領域技術人員可以其中的單元進行進一步合并或者拆分,從而對字幕提取裝置的邏輯功能結構進行各種變形。在圖10中,字幕提取裝置包括:解碼單元110,用于對視頻解碼得到視頻幀;連通單元120,用于對視頻幀中的像素進行字幕排布方向的連通操作,得到視頻幀中的連通域;定位單元130,用于基于視頻幀中的連通域確定包括相同字幕的視頻幀,并基于包括相同字幕的視頻幀中連通域的分布位置,確定包括相同字幕的視頻幀中的字幕區域;提取單元140,用于針對字幕區域的多個通道對應構造組件樹,利用所構造的組件樹提取對應每個通道的對比度極值區域;增強單元150,用于對融合的多個通道的對比度極值區域進行顏色增強處理,形成濾除冗余像素和噪聲的顏色增強對比度極值區域;融合單元160,用于融合多個通道的對比度極值區域。在一個實施例中,連通單元120,還用于根據視頻的時長提取不同時間點的視頻幀,對所提取的視頻幀進行腐蝕和/或擴張操作;對進行腐蝕和/或擴張操作后的視頻幀進行左向和右向的連通操作。例如,連通單元120根據視頻的時長采樣不同時間點的視頻幀,例如,基于視頻的幀速率對應提取不同時間點的視頻幀,為了避免遺漏某一視頻幀中的字幕,抽取視頻時的采樣速率大于視頻的幀速率。對于所提取的視頻幀中的像素進行腐蝕和/或擴張操作,對于進行腐蝕和/或擴張操作后的視頻幀進行與字幕排布方向的連通操作,通常,字幕在視頻中以從左至右的方向排布,因此對視頻幀中的像素進行左向和右向的連通操作。使得視頻幀中字幕區域的字符能夠形成一個連通域。當然,如果預知視頻中字幕的排布方向與常規的排布方向不同,可以針對視頻的字幕排布方向有針對性地進行連通操作。在一個實施例中,定位單元130,還用于對所提取的相鄰的視頻幀中連通域的像素作差,若差值低于差值閾值,則判定所提取的相鄰的視頻幀包括相同的字幕,若差值高于差值閾值,則判定所提取的相鄰的視頻幀包括不同的字幕。例如,對所提取的相鄰的視頻幀中連通域(連通域與文本行形式的字幕對應)的像素作差,例如在RGB空間的不同通道的差值,或在PII空間的不同通道的差值;若差值低于差值閾值,則說明相鄰視頻幀中連通域的像素的差異過大,而相鄰視頻幀中連通區域的字幕如果相同則像素的差值必然很小(低于差值閾值),因此,判定所提取的相鄰的視頻幀包括相同的字幕,若差值高于差值閾值,則判定所提取的相鄰的視頻幀包括不同的字幕。在一個實施例中,定位單元130,還用于對所提取的相鄰的視頻幀中連通域提取特征點,若相鄰的視頻幀中連通域中提取的特征點匹配,則判定所提取的相鄰的視頻幀包括相同的字幕,若不匹配,則判定所提取的相鄰的視頻幀包括不同的字幕。例如,對于所提取的在時間上相鄰的視頻幀中的連通域,基于尺度不變特征轉換特征匹配算法從相應連通域中提取特征點,由于所提取的特征點具有不因位置、尺度和旋轉而改變的特點,因此,如果相鄰視頻幀中的字幕相同,則從相鄰視頻幀中連通域提取的特征點必然是匹配的,相應地,通過相鄰是視頻幀中連通域的特征點是否匹配,可以判斷相鄰視頻幀是否包括相同的字幕。另外,上述的兩種判斷相鄰視頻幀是否包括相同字幕的方式可以結合使用,從而進一步提升識別包括不同字幕的視頻幀的精度。例如,對所提取的相鄰的視頻幀中連通域的像素作差,若差值低于差值閾值,且,基于尺度不變特征轉換特征匹配算法從相應連通域中提取特征點,若相鄰的視頻幀中連通域中提取的特征點匹配,則判定所提取的相鄰的視頻幀包括相同的字幕;否則,判定所提取的相鄰的視頻幀包括不同的字幕。在一個實施例中,定位單元130,還用于確定包括相同字幕的各視頻幀中連通域的邊緣區域的分布位置的出現次數,并確定出現次數最多的分布位置形成的區域為字幕區域。例如,對于包括相同字幕的視頻幀中連通域的分布位置(這里的分布位置是指連通域的邊緣區域的分布位置),確定相應分布位置的分布集中趨勢特征,例如,基于眾數法、中位數法或均值法確定分布位置的分布趨勢特征。以眾數法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置的出現次數,確定出現次數最多的分布位置形成的區域(也就是該分布位置為邊緣位置的區域)為字幕區域。以中位數法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置,確定中間取值的分布位置形成的區域(也就是該分布位置為邊緣位置的區域)為字幕區域。再以均值法為例,基于包括相同字幕的各視頻幀中的連通域的分布位置,確定分布位置的均值形成的區域(也就是分布位置的均值為邊緣位置的區域)為字幕區域。在一個實施例中,增強單元150,還用于采用以下方式確定每個通道的對比度極值區域:從以下每個通道對視頻幀的字幕區域對應構造由嵌套的節點形成的組件樹:灰度圖;基于感知的光照不變PII的色調通道;PII的飽和度通道;其中,組件樹的節點與字幕區域的字符對應。當節點的面積變化率相對于鄰接節點的面積變化率的小于面積變化率閾值時,則確定節點屬于相應通道的對比度極值區域。例如,將字幕區域中的像素按照灰度值的大小從大到小排序,取灰度值排在前預定比例的像素集合,若集合中像素與集合的主要顏色的顏色距離小于顏色距離閾值(顏色距離閾值是人眼所能感知到顏色的區別時的最小顏色距離),則基于該像素形成顏色增強對比度極值區域,基于該像素形成顏色增強對比度極值區域。通過顏色增強處理,能夠實現對字幕區域的噪點去除,并分離字幕區域中的字符與背景的效果。在一個實施例中,對于每個通道的對比度極值區域,增強單元150,還用于采用以下方式形成相應通道的顏色增強對比度極值區域:確定每個通道的對比度極值區域的主要顏色;從每個通道的對比度極值區域中提取出跟主要顏色相似程度滿足預設條件的像素,基于所提取的像素組成相應通道的顏色增強對比度極值區域。在一個實施例中,參加圖10,字幕提取裝置10還包括:識別單元170,用于對顏色增強對比度極值區域進行字符識別;響應單元180,用于對所識別出的文本響應視頻搜索、視頻推薦、視頻標記分類和字幕分享至少之一的操作。例如,視頻字幕提取完以后,進而進行字符識別,基于對文本形式的字幕進行分析以確定視頻的類型、屬性等,分析出用戶的偏好,隨著用戶觀看視頻的數量的累積,可以建立用戶的偏好數據庫,根據用戶的偏好向用戶推薦新上線的視頻。再例如,根據視頻的文本形式的字幕建立視頻的內容索引數據庫,根據用戶輸入的關鍵字搜索內容與關鍵字匹配的視頻,克服了相關技術僅能夠基于視頻的類別以及名稱進行搜索的缺陷。又例如,視頻的邊看邊分享功能,用戶在觀看視頻時通過一鍵識別功能,對當前視頻播放界面的字幕進行提取并識別為文本形式,并自動填充到分享感言的對話框中,提升分享操作的流暢度和自動化程度。綜上,本發明實施例具有以下有益效果:從視頻幀中提取對應字幕的連通域,由于是從加載有字幕的視頻幀層面進行包括字幕的潛在區域(連通區域)的提取,因此對于任意形式的字幕都能夠提取字幕區域(與連通域對應的圖像),不受視頻使用何種形式的字幕的影響;從多個通道利用顏色增強的方式對從字幕區域提取的對比度極值區域進行調整,有效濾除字幕區域的圖像中的噪點和背景,降低了后續從字幕區域識別字符的難度,有利于提升后續字符識別的效率和精度;通過提取視頻字幕,方便后面對字幕進行識別,識別的字幕信息會用于做視頻個性化推薦,即是通過分析視頻字幕來了解視頻屬性,根據視頻內容屬性進行推薦;另外提取出來的視頻字幕可以用于基于視頻內容的搜索,方便用戶尋找自己想要的視頻。本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:移動存儲設備、隨機存取存儲器(RAM,RandomAccessMemory)、只讀存儲器(ROM,Read-OnlyMemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。或者,本發明上述集成的單元如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明實施例的技術方案本質上或者說對相關技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機、服務器、或者網絡設備等)執行本發明各個實施例所述方法的全部或部分。而前述的存儲介質包括:移動存儲設備、RAM、ROM、磁碟或者光盤等各種可以存儲程序代碼的介質。以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本
技術領域:
的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。當前第1頁1 2 3