本發明涉及一種場景文本檢測方法。
背景技術:
::場景文本檢測是指在不同場景圖像中定位文本區域所在的位置,比如路標、商店名稱和警示牌等,其是端到端的場景文本識別的一個重要的步驟。有效的場景文本檢測結果有助于提高大量多媒體應用的性能,比如移動視覺搜索、基于內容的圖像檢索和自動指示牌翻譯等。近年來,一系列有關場景文本檢測的國際競賽被成功的舉辦,很大程度上促進了場景文本檢測技術的研究。但由于自然場景環境中的很多不可控因素,比如文本大小的不同、顏色的差異和復雜的背景等,使得場景文本檢測仍然是計算機視覺領域中的一個極具挑戰的問題。場景文本檢測的第一個步驟是候選文本區域(candidatetextregion,記為CTR)的提取。傳統的CTR提取方法,通常是基于滑動窗口、筆畫寬度變換(strokewidthtransform,記為SWT)和最大穩定極值區域(maximallystableextremalregion,記為MSER),因此它們沒有充分利用文本本身固有的內在特性,從而導致提取出比真實文本區域多很多的大量非文本候選區域,以至于使得后續的非文本區域過濾過程的任務非常艱巨。而且傳統的這些CTR提取方法對某些外在的因素比較敏感,比如光照變化和圖像模糊等。這些都會引起一部分真實文本區域不能被提取到,從而導致低的召回率。例如,目前已發表的文獻在ICDAR2015場景文本檢測庫中最好的召回率只有0.83。因此,候選文本區域提取的好壞將直接影響最終的文本檢測性能。技術實現要素:本發明的目的是借助顯著性檢測的思想,并將其應用到場景文本檢測中,進而提出一種基于文本顯著性的場景文本檢測方法。本發明的目的是通過以下技術方案實現的:一種基于文本顯著性的場景文本檢測方法,包括如下步驟:一、初始文本顯著性檢測(1)構建初始文本顯著性檢測CNN模型,該模型是在VGGNet-16的基礎上進行改進得到,只保留VGGNet-16中的前五個模塊,并分別為每個模塊引入一個側輸出模塊(包含一個卷積層和一個去卷積層)用于監督學習,前兩個模塊使用文本邊緣作為監督信號,后三個模塊使用文本區域作為監督信號,最后將后三個側輸出模塊的輸出進行融合(即先將三個輸出進行拼接,再使用一個卷積層對其進行卷積)并使用文本區域作為監督信號進行學習,上述提到的卷積層僅包含一個1×1的卷積核;(2)對于給定的圖像,使用初始文本顯著性檢測CNN模型得到其對應的文本顯著性圖;(3)采用大津法對顯著性圖進行二值化后,得到二值圖像;(4)對于二值圖像中的每一個連通體(即候選文本區域),計算其最小外接矩形;(5)根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為候選文本區域圖像,該圖像將是文本顯著性細化CNN模型的輸入。二、文本顯著性細化(1)構建文本顯著性細化CNN模型,該模型是在去卷積網絡模型的基礎上進行改進得到,包含十個模塊,前五個模塊記為ENblock,和VGGNet模型中的前五個模塊一樣,后五個模塊記為DEblock,作為前五個模塊的逆過程,每個DEblock由去卷積層或卷積層組成,每個DEblock模塊中最后一個卷積層的輸出與對稱的ENblock中第一個卷積層的輸出沿通道方向進行拼接,并將拼接后的特征圖作為下一個DEblock模塊的輸入,最后一個拼接后特征圖則作為一個卷積層的輸入;(2)將候選文本區域圖像作為文本顯著性細化CNN模型的輸入,得到與其對應的文本顯著性圖;(3)使用大津法對得到的文本顯著性圖進行二值化后,得到文本顯著性區域,即最終的候選文本區域。三、文本顯著性區域分類(1)構建文本顯著性區域分類CNN模型,該模型是在VGGNet-16的基礎上進行改進得到,即:只保留VGGNet-16中的前三個模塊,為了讓模型能接受任意大小的輸入圖像,在第三個模塊后面增加一個全局平均池化層來提取固定長度的特征,最后使用softmax層來對特征進行分類;(2)對于每一個候選文本區域,從左右兩個方向搜索與其相鄰的候選文本區域;(3)假設當前候選文本區域的最小外接矩形的大小為w×h,其中心點的坐標為(x,y),坐標系的原點在圖像的左上角;如果在區域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍內,包含了其他候選文本區域且這些區域的高度h′滿足[0.5h≤h′≤1.5h],將其與當前候選文本區域進行合并得到擴大的候選文本區域;(4)對于每一個擴大的候選文本區域,計算其最小外接矩形;(5)根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為擴大的候選文本區域對應的候選文本區域圖像,該圖像將是文本顯著性區域分類CNN模型的輸入;(6)使用文本顯著性區域分類CNN模型過濾掉非文本區域;(7)根據剩下的文本區域的高度和垂直位置,將其聚類成文本行;(8)根據同一行中的相鄰文本區域之間的距離,將文本行分割成單詞區域,即得到最終的文本檢測結果。本發明具有如下優點:(1)本發明提出了一種僅對文本區域有效的顯著性檢測的CNN模型,該模型在不同層使用了不同的監督信息,以便充分利用文本的先驗知識來有效地指導模型的訓練,并最后將多層信息進行融合來進行多尺度特征學習,以便提高模型所提特征的魯棒性和區分能力。在該模型的幫助下,在所檢測到的顯著性圖中,只有文本區域或近似文本的區域被凸顯出來,從而使得提取的候選文本區域的數量接近于真實文本區域的個數。(2)為了提高文本檢測的性能,本發明提出了一種文本顯著性區域細化CNN模型和文本顯著性區域分類CNN模型。在細化CNN模型中,對淺層的特征圖與深層的特征圖進行整合,以便提高文本分割的準確率。在分類CNN模型中,使用的是全卷積神經網絡,因此可以使用任意大小的圖像作為模型的輸入。(3)本發明提出了一種新的圖像構造策略,以便構造更具區分能力的圖像區域用于分類,從而提高分類準確率。(4)本發明通過在場景文本檢測過程中引入顯著性檢測,能有效地檢測場景中的文本區域,提高場景文本檢測方法的性能。精確的文本檢測和分割結果,能進一步提高基于文本檢測的應用,比如文本識別、圖像檢索等。附圖說明圖1為本發明的方法在幾種挑戰場景中的文本檢測結果實例,其中:(a)原始圖像;(b)粗糙的CTR提取結果,不同的灰度值表示不同的粗糙CTR;(c)最終的CTR提取結果,不同的灰度值表示不同的CTR;(d)CTR分類結果,不同的灰度值表示不同的單詞;(e)最終文本檢測結果。圖2為對文本有意識的初始文本顯著性檢測CNN結構。圖3為測試圖像經初始文本顯著性檢測CNN后的所有輸出結果實例,其中:(a)輸入圖像,(b)-(f)所有五個模塊由淺到深的輸出結果,(g)最終融合后的文本有意識的顯著性圖。圖4為文本檢測方法的過程,其中:(a)輸入圖像,(b)文本有意識的顯著性檢測結果,(c)粗糙CTR提取結果,(d)將(c)中所有CTR圖像經文本顯著性細化CNN后的輸出進行拼接后的顯著性圖,(e)CTR細化結果,(f)CTR分類結果,(g)最終文本檢測結果,(h)真實結果,(c)、(e)和(f)中的不同灰度值表示不同的候選文本區域或單詞。圖5為文本顯著性細化CNN結構。圖6為在測試圖像(第一行)中的文本區域分割結果(第二行)實例;圖7為文本顯著性區域分類CNN結構。圖8為不同圖像構造方法得到的圖像實例,其中:(a)直接將候選文本區域歸一化到固定大小的結果;(b)以候選文本區域最小外接矩形的高為邊長構造一個正方形區域,再進行歸一化的結果;(c)本發明提出的圖像構造策略的結果。圖9為本發明提出的場景文本檢測方法的成功實例。具體實施方式下面結合附圖對本發明的技術方案作進一步的說明,但并不局限于此,凡是對本發明技術方案進行修改或者等同替換,而不脫離本發明技術方案的精神和范圍,均應涵蓋在本發明的保護范圍中。本發明提供了一種基于文本顯著性區域的場景文本檢測方法,該方法由三部分組成,分別為:初始文本顯著性檢測、文本顯著性細化和文本顯著性區域分類。在初始文本顯著性檢測階段,首先設計一個用于文本顯著性檢測的CNN模型,該模型能從圖像中自動學習能夠表征文本內在屬性的特征,并得到對文本有意識的顯著性圖。在該顯著性圖中,文本區域的顯著性值被凸顯出來,而背景區域的顯著性值被抑制,因此可根據顯著性圖提取出粗糙的文本顯著性區域。在文本顯著性細化階段,設計一個文本顯著性細化CNN模型用來對粗糙的文本顯著性區域進行進一步文本顯著性檢測,得到更加精確的文本顯著性圖,并可基于該顯著性圖得到最終的文本顯著性區域,其實際上包含了精確的文本區域的分割結果,該文本顯著性區域即為候選文本區域。因此,基于上述兩個文本顯著性檢測的CNN模型的候選文本區域提取方法能克服傳統方法所存在的問題。在文本顯著性區域分類階段,提出了一種新的圖像構造策略,然后使用文本顯著性區域分類CNN模型來過濾非文本區域,并得到最終的文本檢測結果。本發明提到的文本顯著性區域也叫候選文本區域(記為CTR)。上述所有的CNN模型都是基于強大的VGGNet-16模型。因此,對于不同場景,本發明的方法能得到很好的文本檢測結果,如圖2所示。由圖2可知,在大部分情況下,本發明的方法提取的候選文本區域的個數較少,且幾乎與真實文本區域中的字母個數一致,并且即便在文本區域內的顏色變化較大或文本和背景的顏色很相似的情況下,本發明的方法仍然能成功地完成文本檢測。接下來將詳細地介紹本發明方法中的各部分內容。一、初始文本顯著性檢測相比傳統的文本無關的候選文本生成方法(比如基于MSER的方法),本發明提出了一種基于對文本有意識的顯著性檢測的候選文本區域提取方法。該方法中的顯著性檢測是專門針對文本的,即在生成的顯著性圖中,文本區域是被凸顯出來的,因此該方法是對文本有意識的(或文本相關的),即提取的候選區域中的很大一部分為文本區域,從而大大地減少了候選文本區域的數量。本發明在VGGNet-16的基礎上,設計了一個深層監督的CNN網絡結構(記為初始文本顯著性檢測CNN)用來預測圖像中每個像素屬于文本的顯著性值。為了使初始文本顯著性檢測CNN將注意力集中在文本區域上,那些能反映文本屬性的信息將被用做監督信息來訓練該CNN模型。區分文本和背景的一個最重要的信息是文本區域的形狀,且文本的邊緣和整個區域能很好的表征文本的形狀。在CNN的學習過程中,隨著網絡深度的增加,CNN所學到的特征反映了物體中局部信息到全局信息的變化過程。對于文本而言,邊緣是局部信息,整個文本區域是全局信息。因此,本發明分別使用文本的邊緣和整個區域作為CNN結構中淺層和深層的監督信息來完成模型的訓練。為了得到精確的顯著性預測結果,在強大的VGGNet-16模型的基礎上進行相應的改進得到初始文本顯著性檢測CNN模型,只保留VGGNet-16中的前五個模塊。如上所述,CNN模型中的淺層通常學習到的是局部特征,比如邊緣。而自然場景圖像中包含了大量不同物體的邊緣,包括來自文本的和背景的。因此,為了讓CNN模型在淺層的特征學習中,將更多的注意力放在文本邊緣上,僅文本的邊緣被用作淺層的監督信號來指導模型的訓練。CNN模型中的深層通常學習的是目標的全局特征,因此文本的整個區域被用作深層的監督信號來監督模型的訓練,以至于學習到更具區分性的全局特征來表征文本的特性。綜上所述,由淺層到深層,整個候選文本區域提取CNN一直都集中于文本特征(包括局部和全局)的學習。在此,我們調查了哪些層應當使用文本邊緣或整個區域作為監督信號,并通過實驗發現當模型中的前兩個模塊和后三個模塊分別使用文本邊緣和整個區域進行監督學習時,本發明的方法取得最好的性能。為了將不同的監督信號引入到CNN模型中,通過為每個模塊中最后的卷積層增加一個側輸出模塊(包括一個卷積層和一個去卷積層)來進行深層監督學習。為了使最終的顯著性圖對文本大小更加魯棒,這里只對后三個側輸出模塊的輸出進行融合。因為在對文本有意識的顯著性預測過程中,我們希望捕捉文本區域的全局信息,同時通過實驗驗證當把前兩個側輸出模塊的輸出也進行融合時,總體的性能幾乎沒有提高。到此為止,整個初始文本顯著性檢測CNN的結構以構建完成,如圖2所示。在模型的訓練過程中,為了緩減正負樣本間的嚴重不均衡現象,使用叉熵損失函數來計算誤差,并對所有模塊計算得到的誤差求和得到總誤差,然后將誤差回傳來更新模型的參數直到滿足終止條件。在模型的測試過程中,對于給定的一個圖像,使用訓練好的模型可直接得到與其對應的顯著性圖。這里,最終融合后的顯著性圖被作為輸入圖像最終的顯著性圖,且在該圖中,文本區域擁有更大的顯著性值。得益于深層監督學習,在所有側輸出模塊的輸出結果中,文本邊緣或文本區域也通常擁有更大的值。圖3給出了三個圖像經過初始文本顯著性檢測CNN后的所有輸出結果。由圖3可知:(1)在所有側輸出模塊的輸出結果中,文本邊緣處的點比背景邊緣處的點擁有更大的顯著性值,由此證明了本發明提出的監督學習策略是有效的。(2)隨著網絡越來越深,更多背景區域的顯著性值被抑制,而文本區域的顯著性值持續被凸顯出來,并且文本區域的形狀變得越來越模糊,由此證明了隨著網絡深度的增加,初始文本顯著性檢測CNN能有效地學習文本區域的局部和全局特征。(3)在所有的對文本有意識的顯著性檢測結果中,最終融合的顯著性圖獲得了最好的文本顯著性檢測效果,由此證明了該融合策略充分考慮到了文本區域來自不同模塊的多尺度信息。值得注意的是,無論是在訓練還是測試階段,輸入圖像的大小可以是任意的,因為初始文本顯著性檢測CNN是一個全卷積網絡模型。但為了降低時間和內存的消耗,對于寬度大于500的圖像,在保持長寬比的前提下,將其寬度放縮到固定大小500。對于給定的圖像(如圖4(a)所示),使用初始文本顯著性檢測CNN模型得到其對應的文本有意識的顯著性圖(如圖4(b)所示)后,通過以下步驟很容易提取出粗糙的文本顯著性區域(候選文本區域,記為CTR):(1)采用大津法對顯著性圖進行二值化,得到二值圖像,如圖4(c)所示。(2)對于二值圖像中的每一個連通體(即候選文本區域),計算其最小外接矩形。(3)根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為候選文本區域圖像,該圖像將是文本顯著性細化CNN模型的輸入。由上可知,候選文本區域的個數等于二值圖像中的連通體個數。由于由此得到的候選文本區域通常會包含多個字母,因此這里,我們稱之為初始候選文本區域,其將被后續的文本顯著性細化CNN模型進行細化得到最終的候選文本區域。二、文本顯著性細化在自然場景圖像中,由于文本和背景的多樣性,訓練集要想把所有的情況都考慮到,這幾乎是不可能。因此,基于初始文本顯著性檢測CNN模型得到的初始候選文本區域通常會包含一些背景區域。而且當文本之間相互靠得很近時,一個初始候選文本區域將包含多個單詞文本或多行文本。如果直接將初始候選文本區域作為文本檢測結果,將降低檢測的準確率和召回率。而且,精確的文本分割結果能為場景文本識別提供有利的信息。因此,對初始候選文本區域進行細化得到精確文本分割結果是很用必要的。近年來,語義圖像分割作為計算機視覺領域中最熱門的研究課題之一,它致力于分割圖像中含有不同語義信息的目標。本發明中的文本區域分割可被當作為語義圖像分割中的一個簡單的兩類問題,即文本和非文本區域。當前性能最好的語義圖像分割方法都是基于CNN的,比如全卷積網絡(fullyconvolutionalnetwork)和去卷積網絡(deconvolutionalnetwork)。對此,本發明將在去卷積網絡的基礎上構建一個新的CNN模型(記為文本顯著性細化CNN)用于檢測更精確的文本顯著性圖。文本顯著性細化CNN模型包含了十個模塊。前五個模塊(記為ENblock)和VGGNet模型中的前五個模塊一樣,由于池化層的存在,隨著模型的前向傳播,由這五個模塊得到的特征圖的大小被逐漸縮小。后五個模塊(記為DEblock)可被當作前五個模塊的逆過程,每個DEblock模塊由去卷積層或卷積層組成。由于去卷積層的存在,隨著模型的前向傳播,由這五個模塊得到的特征圖的大小被逐漸擴大。每個DEblock中的卷積層的具體配置和與其對稱的ENblock中的卷積層的配置一樣,比如conv102/conv10-1/conv6-1和conv1-1/conv1-2/conv5-3具有相同的參數配置。對于去卷積層來說,單個輸入單元將對應多個輸出,因此去卷積層的輸出相比輸入是被放大的和更密集的。第i個去卷積層(記為deconv-i)中濾波器的大小和步幅分別為2i+1和2i,濾波器的個數和屬于同一個DEblock的卷積層中的卷積核的個數一樣。每個卷積層和去卷積層后面緊接一個ReLU非線性激活函數。傳統的CNN采用逐層的方式進行特征學習,然而在本發明中,我們希望候選文本區域細化CNN中的DEblock模塊能從模糊且小的特征圖中學習到更精細且更大的高層特征。因此,我們通過整合淺層ENblock中的信息和深層DEblock中的信息來合并高層全局特征和底層局部特征,并通過自動學習來提高文本分割的性能。具體而言,每個DEblock模塊中最后一個卷積層的輸出與對稱的ENblock中第一個卷積層的輸出沿通道方向進行拼接,并將拼接后的特征圖作為下一個DEblock模塊(除了最后一個)的輸入。最后一個拼接后特征圖則作為一個卷積層的輸入,該卷積層只有一個大小為1×1的卷積核。到此為止,整個文本顯著性細化CNN結構已構建完成,如圖5所示。和初始文本顯著性檢測CNN不同的是,文本顯著性細化CNN的輸入為初始候選文本區域圖像而不是整個原始圖像,并僅在最后一個卷積層處使用文本區域作為監督信號來指導模型的訓練。對于不同的圖像,提取到的初始候選文本區域圖像的大小差別較大。在本發明中,所有初始候選文本區域圖像被歸一化為固定高度224并保持其長寬比不變。在模型的訓練過程中,同樣采用叉熵損失函數來計算最后一個卷積層的輸出和真實結果之間的誤差,并使用標準的隨機梯度下降算法來最小化該損失函數。在模型的測試過程中,對于給定的一個圖像,將其作為訓練好的模型的輸入,可直接得到與其對應的文本顯著性圖(如圖4(d)所示),該圖中文本區域對應的像素點值更大。因此,使用大津法對得到的文本顯著性圖進行二值化后,可得到精確的文本區域分割結果,其中的每一個連通體即為一個最終的候選文本區域(如圖4(e)所示)。圖6給出了五個測試圖像的文本區域分割結果。由圖6可知,即便對于背景復雜的圖像或文本模糊的圖像,基于文本顯著性細化CNN模型的文本分割方法都能得到好的分割結果。由于作為文本顯著性細化CNN的輸入,初始候選文本區域圖像是從原始圖像按照初始候選文本區域的最小外接矩形裁剪得到,因此它們中的背景(如圖6中的第一行圖像)要比原始圖像中的背景(如圖4中的最左列圖像)簡單很多。所以,我們不需要像初始文本顯著性檢測CNN模型一樣使用更多的監督信號來訓練模型,并通過實驗驗證,當在不同層加入更多監督信號時,總體性能變化很小,反而模型的復雜度提高了。同時還發現對于文本顯著性細化這一任務,文本顯著性細化CNN模型要比初始文本顯著性檢測CNN模型效果更好。與初始的候選文本區域(如圖4(c)所示)相比,經過細化后的候選文本區域(如圖4(e)所示)中的文本能被精確地分割出來。三、文本顯著性區域分類在候選文本區域(亦稱文本顯著性區域,如圖4(e)所示)中,仍然存在一部分非文本區域,因此需要對其進行非文本區域過濾操作,即將文本顯著性區域分類為文本和非文本,該過程實際上是圖像分類中的兩分類問題。在著名的ImageNet競賽中,基于CNN的方法(比如VGGNet和GoogleNet)獲得了圖像分類任務中最好的性能。因此在本發明中,我們通過對VGGNet進行修改來構造一個全卷積神經網絡(記為文本顯著性區域分類CNN)用于文本顯著性區域分類。由于文本顯著性區域分類是一個兩分類問題且文本相比ImageNet中的物體更加簡單,因此文本顯著性區域分類中,一個網絡深度比原始VGGNet更淺的CNN就足夠獲得好的性能。在本發明中,我們只使用VGGNet中的前三個模塊來構造文本顯著性區域分類CNN。VGGNet的輸入圖像的大小為224*224,其對于文本顯著性區域分類來說太大。為了在模型訓練和測試時節省時間和內存,輸入圖像的高度被歸一化為固定大小32。在測試時,輸入圖像的寬度由其原始大小自動決定。在訓練時,為了加速訓練過程,輸入圖像的寬度被歸一化為固定大小100。為了使模型能接受任意寬度的輸入圖像,在第三個模塊后面增加一個全局平均池化(globalaveragepooling)層而不是全連接層來生成固定長度的特征向量。由于第三個模塊輸出256個特征圖,因此由全局平均池化層生成的特征向量的長度為256。最后,在測試時,使用softmax層來對特征向量進行分類,在訓練時,使用softmaxloss層來計算誤差。到此為止,整個文本顯著性區域分類CNN結構已構建完成,如圖7所示。對于給定的一個圖像,經過本發明提出的基于初始文本顯著性檢測CNN和文本顯著性細化CNN的候選文本區域提取方法后,將產生大量的候選文本區域(文本顯著性區域),基于它們來構造候選文本區域圖像作為文本顯著性區域分類CNN的輸入。眾所周知,與只包含單個字母的文本區域圖像相比,包含多個字母的文本區域圖像具有更強的區分能力。因此,本發明提出一種新的圖像構造策略來構造候選文本區域圖像,其過程如下:(1)對于每一個候選文本區域,從左右兩個方向搜索與其相鄰的候選文本區域。將滿足如下條件的候選文本區域與當前候選文本區域合并構成一個新的擴大的候選文本區域。假設當前候選文本區域的最小外接矩形的大小為w×h,其中心點的坐標為(x,y),坐標系的原點在圖像的左上角。如果在區域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍(該四元組中的元素分別表示該區域的左上角和右下角兩點的坐標)內,包含了其他候選文本區域且這些區域的高度h′滿足[0.5h≤h′≤1.5h],將其與當前候選文本區域進行合并得到擴大的候選文本區域。(2)對于每一個擴大的候選文本區域,計算其最小外接矩形。根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為擴大的候選文本區域對應的候選文本區域圖像,該圖像將是文本顯著性區域分類CNN模型的輸入。由上可知,本發明提出的圖像構造策略所構造的候選文本區域圖像,通常包含多個字母區域。由于全連接層的限制,傳統方法直接將當前的候選文本區域歸一化到固定大?。ㄈ鐖D8(a)所示),或者以當前候選文本區域最小外接矩形的高為邊長構造一個正方形區域(如圖8(b)所示),然后再將其歸一化到固定大小。因此,這些方法得到的候選文本區域圖像通常只包含一個字母區域。與傳統方法,本發明提出的圖像構造策略有以下兩個優點:(1)構造的候選文本區域圖像通常包含多個字母區域(如圖8(c)所示),從而使得其比僅包含單個字母區域的圖像擁有更多區分能力強的信息,以至于提供最終的分類性能。(2)得益于全卷積層,在輸入文本顯著性區域分類CNN模型時,構造的候選文本區域圖像可保持原始的長寬比,以至于損失更少的信息。在使用文本顯著性區域分類CNN過濾掉非文本區域之后,首先根據剩下的文本區域(如圖4(f)中的所有連通體)的高度和垂直位置,將其聚類成文本行。然后根據同一行中的相鄰文本區域之間的距離,將文本行分割成單詞區域(如圖4(f)中不同灰度值的成分),即得到最終的文本檢測結果(如圖4(g)中矩形框所示)。圖9給出了本發明在幾個具有挑戰性的場景下進行文本檢測成功的實例,比如單個字母、復雜背景以及文本與背景間的對比度低等場景,由此說明了本發明的有效性。當前第1頁1 2 3 當前第1頁1 2 3