1.一種基于文本顯著性的場景文本檢測方法,其特征在于所述檢測方法步驟如下:
一、初始文本顯著性檢測
(1)構建初始文本顯著性檢測CNN模型;
(2)對于給定的圖像,使用初始文本顯著性檢測CNN模型得到其對應的文本顯著性圖;
(3)采用大津法對顯著性圖進行二值化后,得到二值圖像;
(4)對于二值圖像中的每一個連通體,計算其最小外接矩形;
(5)根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為候選文本區域圖像,該圖像將是文本顯著性細化CNN模型的輸入;
二、文本顯著性細化
(1)構建文本顯著性細化CNN模型;
(2)將候選文本區域圖像作為文本顯著性細化CNN模型的輸入,得到與其對應的文本顯著性圖;
(3)使用大津法對得到的文本顯著性圖進行二值化后,得到文本顯著性區域,即最終的候選文本區域;
三、文本顯著性區域分類
(1)構建文本顯著性區域分類CNN模型;
(2)對于每一個候選文本區域,從左右兩個方向搜索與其相鄰的候選文本區域;
(3)假設當前候選文本區域的最小外接矩形的大小為w × h,其中心點的坐標為(x,y),坐標系的原點在圖像的左上角;如果在區域(x ? 1.5h ? 0.5w,y ? 0.5h, x + 1.5h + 0.5w,y + 0.5h)范圍內,包含了其他候選文本區域且這些區域的高度h′滿足[0.5h ≤ h′ ≤ 1.5h],將其與當前候選文本區域進行合并得到擴大的候選文本區域;
(4)對于每一個擴大的候選文本區域,計算其最小外接矩形;
(5)根據每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為擴大的候選文本區域對應的候選文本區域圖像,該圖像將是文本顯著性區域分類CNN模型的輸入;
(6)使用文本顯著性區域分類CNN模型過濾掉非文本區域;
(7)根據剩下的文本區域的高度和垂直位置,將其聚類成文本行;
(8)根據同一行中的相鄰文本區域之間的距離,將文本行分割成單詞區域,即得到最終的文本檢測結果。
2.根據權利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述初始文本顯著性檢測CNN模型是在VGGNet-16的基礎上進行改進得到,只保留VGGNet-16中的前五個模塊,并分別為每個模塊引入一個側輸出模塊用于監督學習,前兩個模塊使用文本邊緣作為監督信號,后三個模塊使用文本區域作為監督信號,最后將后三個側輸出模塊的輸出進行融合并使用文本區域作為監督信號進行學習。
3.根據權利要求2所述的基于文本顯著性的場景文本檢測方法,其特征在于所述側輸出模塊包含一個卷積層和一個去卷積層。
4.根據權利要求2所述的基于文本顯著性的場景文本檢測方法,其特征在于所述融合方法是先將三個輸出進行拼接,再使用一個卷積層對其進行卷積。
5.根據權利要求3或4所述的基于文本顯著性的場景文本檢測方法,其特征在于所述卷積層僅包含一個1×1的卷積核。
6.根據權利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述文本顯著性細化CNN模型是在去卷積網絡模型的基礎上進行改進得到,包含十個模塊,前五個模塊記為ENblock,和VGGNet模型中的前五個模塊一樣,后五個模塊記為DEblock,作為前五個模塊的逆過程,每個DEblock由去卷積層或卷積層組成,每個DEblock模塊中最后一個卷積層的輸出與對稱的ENblock中第一個卷積層的輸出沿通道方向進行拼接,并將拼接后的特征圖作為下一個DEblock模塊的輸入,最后一個拼接后特征圖則作為一個卷積層的輸入。
7.根據權利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述文本顯著性區域分類CNN模型是在VGGNet-16的基礎上進行改進得到,只保留VGGNet-16中的前三個模塊,在第三個模塊后面增加一個全局平均池化層來提取固定長度的特征,最后使用softmax層來對特征進行分類。