專利名稱:一種結合不同大小視覺詞匯本的圖像分類方法
技術領域:
本發明屬于模式識別、計算機視覺、圖像理解技術領域,具體涉及一種圖像分類方法。
背景技術:
圖像分類的困難在于需要建立一個即能容納類內的高度變化,又要能區分不同類的類模型。“Constellation”模型試圖定位不同的物體局部并確定它們在空間上的關系。 盡管這些方法可能表示能力強,但是這種空間約束模型無法處理或識別大的變形,比如不在一個平面內的旋轉和遮擋,也沒有考慮局部數目不確定的物體,比如建筑物和樹。許多用于圖像分類的流行方法使用獨立塊的集合來表示圖像,這些獨立塊由局部視覺描述子描述,其中最典型的是“bag-of-words”模型。它確定每類中特定的局部比例,而忽略局部間的空間關系。在檢測到圖像的興趣點(獨立塊)且用描述子描述興趣點(也就是特征表示) 后,必須為訓練和測試圖像表示它們的分布。一種流行的表示方法,也稱為圖像量化方法, 是通過對描述后的興趣點集進行聚類得到一個視覺詞匯本。然后圖像表示成視覺單詞標簽的直方圖。但是幾乎所有流行的聚類算法都需要用戶輸入簇個數。為了提供這個參數,用戶必需要有一些圖像的先驗知識或者通過許多的驗證實驗來選擇一個合適的參數。最近, 許多基于“bag-of-words”模型的方法致力于融合多種特征來得到性能提升。計算機視覺領域中流行的結合多個特征的趨勢是使用多核學習方法(Multiple Kernel Learning, MKL)。 從時間復雜性角度來說,MKL方法不能并行學習多個特征。本發明試圖將集成學習技術的優勢應用到圖像分類中,集成學習的思想是應用多個學習器并結合他們的預測。圖像分類對于傳統的機器學習算法是非常困難的,因為描述圖像的矢量的維度非常高。為了利用來自于不同信息綜合層的線索來分類圖像,不同大小的視覺詞匯本成員用來構成視覺詞匯本集體。當應用基于視覺詞匯本集體上學習得到的分類器集體來分類新的圖像時,可以得到性能的提升。而且,從時間復雜性角度來說,本發明可以并行學習成員視覺詞匯本和相應的成員分類器,具有很好的并行性和可縮放性。本項發明的主要貢獻在于提出了一種結合不同大小視覺詞匯本的圖像分類方法。 本發明能有效減少圖像分類的監督程度,綜合利用多種有效信息,并行學習物體模型,有效提高圖像分類的效率和準確度。
發明內容
為了解決圖像分類不能有效融合多種信息和由于描述圖像的矢量的高維度,傳統的機器學習方法趨向于產生非常不穩定且泛化能力差的模型的問題,本發明提供了一種結合不同大小視覺詞匯本的圖像分類方法。本發明將集成學習的優勢應用到圖像分類中,不同綜合層次的特征用來形成視覺詞匯本集體。基于視覺詞匯本集體上,同一副圖像能得到不同的量化矢量。所以,一個分類器集體能在同一訓練圖像集的不同表達矢量集上學習得到。既然每個成員利用一種圖像信息,當用這個分類器集體來分類新的圖像時,可以得到意想不到的滿意結果。集成方法通過結合多個模型的預測來提高現存算法的性能。與分類器集體相似,使用視覺詞匯本集體來提高視覺詞匯本的質量和魯棒性。詞匯本一般是用標準的聚類算法從訓練圖像集中學習得到,所以使用詞匯本集體也可以達到提高聚類算法質量的目的。視覺詞匯本集體用來表達不同類型的圖像信息。在構建了一個差異性視覺詞匯本集體后,就可以得到高差異性的分類器集體,其中的每個成員分類器分別根據不同的圖像特征來建立物體模型。所以使用此分類器集體去分類新的圖像時,可以得到更好的、更魯棒的結果。高差異性的集體對于減少建立一個準確模型所需要的監督程度也非常有效。本發明直接使用多分辨率信息來量化圖像,并行使用來自于不同綜合層的多種可用線索分類圖像。為了利用不同粒度的信息來分類物體,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同粒度的圖像特征。然后基于不同大小的視覺詞匯本,訓練圖像集得到不同的量化矢量集,從而可以學習到不同的分類器,每種分類器根據圖像不同粒度的信息得到物體不同的模型,集成這些分類器模型來分類新的圖像,包括以下步驟
步驟I.用興趣點檢測子提取訓練圖像的興趣點,然后用描述子描述提取出來的興趣占.
步驟2.隨機選擇一部分描述好的興趣點,在其上運行聚類算法得到一個成員視覺詞匯本,通過設置不同的簇個數作為聚類算法的參數,得到具有不同大小的成員視覺詞匯本;
步驟3.基于這個成員視覺詞匯本對訓練圖像集進行量化;
步驟4.在量化后的訓練數據集上學習一個分類器;
步驟5.重復步驟2到步驟4,生成預設大小的視覺詞匯本集體和分類器集體;
步驟6.基于一個成員視覺詞匯本,對新圖像進行量化;
步驟7.使用對應成員分類器分類新圖像,得到分類結果;
步驟8.重復步驟6到步驟7,直到每個成員分類器得到了自己的分類結果;
步驟9.利用集成技術集成成員分類器的分類結果得到最終圖像分類標簽。實驗結果表明本發明提出的方法能增加魯棒性,因為在高維問題中很難評估分類器的好壞,所以用戶通常不知道選擇哪種方法好,集成方法可以使用許多的模型,然后結合它們產生穩定結果,集成方法能自動聚焦于最適合所給數據的信息。本發明有益效果是具有在不同領域圖像上的平均性能更好,魯棒性強的優點,且模型簡單,非常適用于一般操作者,不需要復雜參數的調整,監督程度低,且對訓練數據的要求低;利用集成學習固有的并行性,可以在多個處理器上利用少量訓練數據并行學習,所以本發明的效率也相對較高。
具體實施例方式本發明優選的具體實施例
一個描述子對應到與它在歐拉空間中最近的單詞。在形成一個成員詞匯本后,為了量化圖像,所有檢測出來的興趣點都用來建立基于此成員詞匯本上的直方圖。為了使直方圖獨立于描述子個數,直方圖矢量規范化成總和為I。視覺詞匯本是應用聚類算法到200,000個隨機從訓練圖像集中選擇來的描述子集合上得到的。加權LibSVM用來訓練分類器。在訓練階段,正例樣本的權值設為
U pos ne 接 posirii Jiee
權利要求
1.一種基于視覺詞匯本的圖像分類方法,其特征在于利用多分辨率信息來量化圖像, 來自于不同綜合層的多種可用線索并行用來分類圖像,為了利用不同粒度的信息來分類圖像,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同的圖像特征,包括以下步驟(1)用興趣點檢測子提取訓練圖像的興趣點,然后用描述子描述提取出來的興趣點;(2)隨機選擇一部分描述好的興趣點,在其上運行聚類算法得到一個成員視覺詞匯本,通過設置不同的簇個數作為聚類算法的參數,得到具有不同大小的成員視覺詞匯本;(3)基于這個成員視覺詞匯本對訓練圖像集進行量化;(4)在量化后的訓練數據集上學習一個分類器;(5)重復步驟2到步驟4,生成預設大小的視覺詞匯本集體和分類器集體;(6)基于一個成員視覺詞匯本,對新圖像進行量化;(7)使用對應成員分類器分類新圖像,得到分類結果;(8)重復步驟6到步驟7,直到每個成員分類器得到了自己的分類結果;(9)利用集成技術集成成員分類器的分類結果得到最終圖像分類標簽。
2.根據權利要求I所述的方法,其特征在于所述成員視覺詞匯本的大小分別設置成 200,400,800,1200,1300,1500,1600,1700,1900,2000,2200,2600,2800,3000,3600,4000, 4500,和5000,得到一個大小為18的集體。
3.根據權利要求I所述的方法,其特征在于為了集成視覺詞匯本集體和相應分類器集體分類圖像,直接使用了 SVM決策函數值的輸出,當測試一副新的圖像*時,分類器集體的輸出通過將所有成員分類器的決策函數值平均得到Dj: CO = If仏C·:),這 里S是集體大小,是第i個成員分類器的輸出值,通過設置不同的閾值,從而獲得 precision-recall 曲線。
全文摘要
本發明公開了一種基于視覺詞匯本集體的圖像分類方法,涉及模式識別、計算機視覺、圖像理解技術領域。本發明利用多分辨率信息來量化圖像,來自于不同綜合層的多種可用線索并行用來分類圖像。為了利用不同粒度的信息來分類圖像,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同的圖像特征。然后基于不同大小的視覺詞匯本,訓練圖像集得到不同的量化矢量集,從而可以學習到不同的分類器,每種分類器根據圖像不同粒度的信息得到物體不同的模型,集成這些分類器模型來分類新的圖像時能產生更好的效果。實驗結果表明本發明能顯著提高單一大小的視覺詞匯本的性能,具有很強的魯棒性,對不同的圖像都能得到好的分類效果。
文檔編號G06K9/66GK102609731SQ201210007079
公開日2012年7月25日 申請日期2012年1月11日 優先權日2012年1月11日
發明者廖列法, 羅會蘭, 胡中棟 申請人:江西理工大學