本發明涉及一種結合深度學習與稀疏表示的室內場景識別方法,屬于圖像處理技術的技術領域。
背景技術:
隨著信息技術和智能機器人的發展與普及,場景識別作為重要的研究內容,已成為計算機視覺和模式識別領域的重要研究問題。場景圖像分類是依據一組給定的語義標簽來對圖像數據集進行自動分類。場景識別模型主要分為三大塊:基于低級特征、基于中級特征、基于視覺詞匯。所謂低級特征,即對場景圖像提取全局或者分塊的紋理、顏色等特征對場景圖像進行分類,比如Valiaya和Szumme等人的研究,但是這種提取底層特征的方法只適用于比較簡單的場景或者場景差別較大的圖像場景(沙灘和藍天、室內和室外等),因而人們又繼續進行探索,David G[6]提出了一種基于尺度空間的、具有圖像縮放、旋轉和仿射不變形的圖像局部特征描述算子SIFT,Dalal等人提出了HOG圖像局部特征,得到了高性能的底層特征。隨著人們對圖像識別研究領域的深入,人們逐漸發現僅僅提取底層特征不能有效解決語義鴻溝問題,因此構建中層特征作為一個新的研究思路,引起了廣大研究者們的關注,其中最具代表性的是視覺詞袋模型(Bag of visual Words,BoW),但它是將圖像表示成了一個無序局部特征集的特征包方法,忽略了所有的關于圖像塊的位置信息,為了解決這個問題,Lazebnik等人提出一種基于空間金字塔匹配(Spatial Pyramid Matching,SPM)的方法來改進傳統的BoW模型,取得了較好的識別效果。
當把上述方法應用在室內場景識別時,識別效果顯著下降,究其原因是室內場景主要存在類內差異大類間差異小、遮擋、尺度、角度變化等原因,比如同是書店,有可能只有書柜和書,也有可能只有書,而書店和圖書館兩個場景同時有書柜和書。為此,Vogel和Schiele[12]最早提出了采用局部區域目標來對自然場景進行建模的方法。因此,基于目標的高層圖像表示方法被相繼提出,如Li-feifei等提出的目標銀行模型,這些方法將目標作為圖像的基本元素,通過分析圖像中所包含的一系列目標來進一步分類場景圖像,但是由于室內場景圖像較復雜,目前并沒有一種特別好的解決室內場景圖像識別效果差的方法,其識別仍然普遍偏低,無法滿足現實的需求。
技術實現要素:
本發明所要解決的技術問題在于克服現有技術的不足,提供一種結合深度學習與稀疏表示的室內場景識別方法,解決由于目前室內場景類內差異大類間差異小、遮擋、尺度、角度變化等原因,造成了目前室內場景識別相比較于室外場景識別來說其復雜度和困難性更大,因而識別效果差的問題,以提高室內場景識別算法的識別率和魯棒性。
本發明具體采用以下技術方案解決上述技術問題:
一種結合深度學習與稀疏表示的室內場景識別方法,包括以下步驟:
步驟A、從室內場景庫中隨機挑選若干張室內場景圖像作為訓練樣本,及將室內場景庫中剩余的室內場景圖像作為測試樣本;
步驟B、利用Fast-RCNN算法對所述訓練樣本和測試樣本進行物體類別判別和檢測,得到訓練樣本和測試樣本中每張室內場景圖像中包含的物體類別、位置和分值信息,以構建得到每張室內場景圖像的底層特征;
步驟C、利用詞袋模型根據所述訓練樣本和測試樣本中每張室內場景圖像的底層特征,構建得到每張室內場景圖像的中層特征;
步驟D、對所述訓練樣本中的每張室內場景圖像的中層特征進行糅合,構建得到稀疏字典;
步驟E、利用所述稀疏字典對輸入的測試樣本進行稀疏表示,及根據求解出的稀疏解與所輸入的測試樣本計算得到殘差,并根據殘差的大小判斷測試樣本所屬的物體類別;
步驟F、將判斷得到測試樣本所屬的物體類別輸出。
進一步地,作為本發明的一種優選技術方案:所述步驟A還包括對每個室內場景圖像進行歸一化尺寸處理。
進一步地,作為本發明的一種優選技術方案:所述步驟C構建得到每張室內場景圖像的中層特征,具體包括步驟:
步驟C1、將每張室內場景圖像劃分成若干層,每個層劃分得到若干個子塊;
步驟C2、對各層中每個子塊內的每個像素點進行物體類別的判別,及結合判斷出的物體類別所對應的位置和分值信息獲得每個子塊的直方圖特征;
步驟C3、將所有層的所有子塊的直方圖特征串聯組成一個特征向量,以獲得室內場景圖像的中層特征。
進一步地,作為本發明的一種優選技術方案:所述步驟D所構建得到過完備的稀疏字典。
進一步地,作為本發明的一種優選技術方案:所述步驟E根據殘差最小值判斷測試樣本所屬的物體類別。
本發明采用上述技術方案,能產生如下技術效果:
本發明提供一種結合深度學習與稀疏表示的室內場景識別方法,所述方法在國際上公開的MIT-67室內場景庫上進行檢測,使用基于深度學習的Fast-RCNN算法準確識別出每張室內場景圖片中物體的類別、位置、分值信息,通過這些信息去構建去相關、低維度的底層特征,并利用這些信息改進傳統的詞袋模型,得到一個反應場景圖像的空間信息的中層特征,再利用這些中層特征構建稀疏字典,最后通過稀疏表示的方法進行分類。
本發明在特征提取階段使用基于深度學習的Fast-RCNN算法,可以精準的得到去相關、低維度的底層特征,精準地得到了原圖的局部信息,解決了傳統的特征提取方法存在維數災難的問題;并采用改進詞袋模型,將室內場景圖像中的空間信息考慮在內,較好的得到了室內場景圖像的語義特征,解決了“語義鴻溝”問題,提高了室內場景的識別正確率;以及,采用稀疏表示算法進行分類,解決了室內場景圖像中特征提取方面丟失的一些特征信息以及室內場景圖像存在的遮擋等噪聲問題,提高了系統的識別率和對遮擋的魯棒性。
因此,本發明能夠以工程實踐應用為目標,結合深度學習和稀疏表示算法,提出一種中層特征構建算法,有效提高室內場景識別的準確率,以及提高室內場景識別算法的識別率和魯棒性,具有很高的實用性能,可以更加接近工程實踐的要求。
附圖說明
圖1為本發明結合深度學習與稀疏表示的室內場景識別方法的流程示意圖。
具體實施方式
下面結合說明書附圖對本發明的實施方式進行描述。
如圖1所示,本發明設計了一種結合深度學習與稀疏表示的室內場景識別方法,其包括底層特征提取、中層特征構建和分類器設計三大步驟,具體包括以下步驟:
步驟A、從室內場景庫中隨機挑選若干張室內場景圖像作為訓練樣本,及將室內場景庫中剩余的室內場景圖像作為測試樣本。
由于本發明應用于室內場景圖像,為了檢測算法的有效性,應挑選國際上公開的室內場景庫中的圖片,本例中選取了典型的MIT-67室內場景庫,該場景庫中的圖片并不是統一尺寸的,所以優選地先對其進行歸一化尺寸處理,并保證每一類室內場景圖像數目也應該是相同的,且隨機挑選其中歸一化后的90%的室內場景圖像作為訓練樣本,剩下歸一化后的10%的室內場景圖像作為測試樣本。
步驟B、利用Fast-RCNN算法對所述訓練樣本和測試樣本中的每張室內場景圖像進行物體類別判別和檢測,得到每張室內場景圖像中包含的物體類別、位置和分值信息,以構建得到每張室內場景圖像的底層特征。即:在對室內場景圖像底層特征提取前,必須先確定室內場景圖像中對判別有一定作用的物體類別,然后從ImageNet上下載相對應的物體訓練庫,送入Fast-RCNN算法中進行訓練,然后再用Fast-RCNN算法對室內場景庫中的訓練和測試樣本進行物體檢測,得到每張室內場景圖像中包含的物體類別、位置和分值score信息,構建去相關、低維度的底層特征。
步驟C、利用詞袋模型根據所述訓練樣本和測試樣本中每張室內場景圖像的底層特征,通過改進傳統的詞袋模型,構建得到每張室內場景圖像的中層特征。具體如下:
步驟C1、將每張室內場景圖像劃分成i個level層,第i個level層將得到4i個子塊,其中i為1以上的自然數,則總共將得到若干個子塊。及level 0表示室內場景圖像原圖,level1表示室內場景圖像劃分的第一個level層,level2表示室內場景圖像劃分的第二個level層。由此,level 0層所代表的原圖存在1個子塊,level1層所代表的第一層存在4個子塊,level2層所代表的第二層存在16個子塊。
步驟C2、對各層中每個子塊內的每個像素點進行物體類別的判別,及結合判斷出的物體類別所對應的位置和分值信息獲得每個子塊的直方圖特征。即:對原室內場景圖像level 0進行判別,根據步驟B得到的原室內場景圖像中所包含的物體的類別、位置和score信息,對原圖片level 0的每個像素點進行類別判別,若像素點存在物體類別信息,則取出該物體類別對應的分值,反之則忽略。若像素點存在類別重疊則判別類別是否相同,如是相同類別,則取該類別對應的分值的最高值與其他被判別為該類的像素點的分值相加;如是不同的類別,則分別取對應類別對應的分值的最高值與其他被判別為該類的像素點的分值相加,最終將Fast-RCNN算法得到的每張場景圖中所包含的物體的類別、位置和分值信息考慮在內的第一個子塊的直方圖特征。
步驟C3、將所有層的所有子塊的直方圖特征串聯組成一個特征向量,以獲得室內場景圖像帶有空間信息的中層特征。即:對level 1層和level 2層用上述相同的方法統計室內場景圖片在不同level層下的每個子塊的直方圖特征,最后將所有level層的子塊的直方圖特征串聯起來組成一個特征向量vector,以構建帶有空間信息、魯棒性較強的中層特征,完成中層特征構建。
步驟D、對所述訓練樣本中的每張室內場景圖像的中層特征進行糅合,構建得到稀疏字典;即:利用步驟C得到的每張室內場景圖像的中層特征,即一個維度Nx1的特征向量,然后將M張訓練樣本所得到的中層特征進行簡單的糅合,得到過完備的稀疏字典A,其中稀疏字典A的維度為NM,且N<M。
步驟E、利用所述稀疏字典對輸入的測試樣本進行稀疏表示,及根據用1范數求解出的稀疏解與所輸入的測試樣本計算得到殘差,并根據殘差的大小判斷測試樣本所屬的物體類別,其中1范數是指向量中各個元素絕對值之和。具體為:利用步驟D得到的稀疏字典對測試樣本中的室內場景圖像進行稀疏表示,稀疏表示公式:
y=Ax
其中,y表示測試樣本,A表示由訓練樣本中層特征構建的稀疏字典,x表示稀疏系數。這里用1范數進行稀疏求解,求解公式:x1=argmin||x||1subject to Ax=y,通過求解出的稀疏解與原始測試樣本進行求殘差,并根據殘差的大小,判斷樣本所屬的類別。
所述計算殘差公式:
min ri(y)=||y-Aδi(x1)||2
公式中,δi為i類中非零向量構成的新向量。
其中,該過程將稀疏表示算法應用于室內場景識別,來提升室內場景識別的正確率和魯棒性。可優選根據步驟E中計算出的殘差最小值判斷得出最終的分類結果。
步驟F、將判斷得到測試樣本所屬的物體類別輸出。
綜上,本發明在特征提取階段使用基深度學習的Fast-RCNN算法,可以精準的得到去相關、低維度的底層特征,并采用改進詞袋模型,將室內場景圖像中的空間信息考慮在內,較好的得到了室內場景圖像的語義特征,解決了“語義鴻溝”問題,提高了室內場景的識別正確率;以及,采用稀疏表示算法進行分類,解決了室內場景圖像中特征提取方面丟失的一些特征信息以及室內場景圖像存在的遮擋等噪聲問題,提高了系統的識別率和對遮擋的魯棒性。
上面結合附圖對本發明的實施方式作了詳細說明,但是本發明并不限于上述實施方式,在本領域普通技術人員所具備的知識范圍內,還可以在不脫離本發明宗旨的前提下做出各種變化。