本發明屬于計算機技術領域,尤其涉及一種室內場景的分類方法及裝置。
背景技術:
智能識別和分類是計算機視覺中重點研究的問題。在眾多的研究中,熱點主要聚焦于物體識別(一張圖片包含一個或多個物體)和人臉識別(一張帶人臉的圖像)。相比于這些研究,室內場景識別極具挑戰,是最為困難的分類任務之一。其難點主要在于室內場景不僅包含了大量不同的物體,而且這些物體在空間中的擺放形式千差萬別,要對室內場景進行準確地分類,不僅要分析場景中物體的信息,還需提取整個場景結構的特征。
為了提高識別場景的能力,不少學者對此進行了深入研究,提出了很多行之有效的方法。目前的場景識別分類方法主要包括空間金字塔法、基于高層次語義信息的方法和基于卷積神經網絡的方法。
這些方法有著明顯的缺陷,空間金字塔法的特征表示只依賴于低層次的幾何信息,缺少對高層次語義信息的提取,識別場景的能力很受限制,基于高層次語義信息的場景識別方法受限于所選物體的范圍,大大地影響了模型分類的能力,基于卷積神經網絡的方法主要缺點在于訓練過程需要消耗大量的資源,而且主要在物體的檢測和分類上效果明顯,例如,使用基于卷積神經網絡的方法在計算機視覺系統識別(imagenet)數據集上進行物體識別時,可以達到94%的識別率,而使用基于卷積神經網絡的方法在公開的mit-67數據集上進行場景的分類時,只能達到69%的識別率,原因是室內場景的識別不只依賴于場景中的物體,還需要連接物體之間的整體關系,而卷積神經網絡方法直接提取的特征不能較好地把握整體和局部信息的融合。
技術實現要素:
本發明的目的在于提供一種室內場景的分類方法及裝置,旨在解決現有的場景識別分類方法的準確性不高、分類速率不佳的問題。
一方面,本發明提供了一種室內場景的分類方法,所述方法包括下述步驟:
接收輸入的待分類場景圖片;
根據預設的觀測區域定位模型從所述待分類場景圖片中獲取當前局部觀測區域;
對所述當前局部觀測區域的圖像信息進行處理,以得到所述待分類場景圖片的特征向量;
根據所述特征向量獲取所述待分類場景圖片的分類預測結果,判斷所述分類預測結果是否滿足預設的場景圖片分類條件;
當所述分類預測結果不滿足所述場景圖片分類條件時,根據所述觀測區域定位模型從所述待分類場景圖片中獲取下一局部觀測區域,并將所述下一局部觀測區域設置為所述當前局部觀測區域,跳轉至所述對所述當前局部觀測區域的圖像信息進行處理,以得到所述待分類場景圖片的特征向量的步驟;
當所述分類預測結果滿足所述場景圖片分類條件時,根據所述分類預測結果獲取所述待分類場景圖片的分類標簽。
另一方面,本發明提供了一種室內場景的分類裝置,所述裝置包括:
圖片接收單元,用于接收輸入的待分類場景圖片;
區域獲取單元,用于根據預設的觀測區域定位模型從所述待分類場景圖片中獲取當前局部觀測區域;
向量獲取單元,用于對所述當前局部觀測區域的圖像信息進行處理,以得到所述待分類場景圖片的特征向量;
條件判斷單元,用于根據所述特征向量獲取所述待分類場景圖片的分類預測結果,判斷所述分類預測結果是否滿足預設的場景圖片分類條件;
重復執行單元,用于當所述分類預測結果不滿足所述場景圖片分類條件時,根據所述觀測區域定位模型從所述待分類場景圖片中獲取下一局部觀測區域,并將所述下一局部觀測區域設置為所述當前局部觀測區域,并觸發所述向量獲取單元對所述當前局部觀測區域的圖像信息進行處理;以及
場景分類單元,用于當所述分類預測結果滿足所述場景圖片分類條件時,根據所述分類預測結果獲取所述待分類場景圖片的分類標簽。
本發明在接收輸入的待分類場景圖片后,根據預設的觀測區域定位模型從待分類場景圖片中獲取當前局部觀測區域,對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量,根據特征向量獲取待分類場景圖片的分類預測結果,判斷分類預測結果是否滿足預設的場景圖片分類條件,當分類預測結果不滿足場景圖片分類條件時,根據觀測區域定位模型從待分類場景圖片中獲取下一局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,跳轉至對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量的步驟,直至分類預測結果滿足場景圖片分類條件,當分類預測結果滿足場景圖片分類條件時,根據分類預測結果獲取待分類場景圖片的分類標簽,從而提高了場景識別分類的分類速率和準確性。
附圖說明
圖1是本發明實施例一提供的室內場景的分類方法的實現流程圖;
圖2是本發明實施例二提供的室內場景的分類方法中建立觀測區域定位模型的實現流程圖;
圖3是本發明實施例三提供的室內場景的分類裝置的結構示意圖;以及
圖4是本發明實施例四提供的室內場景的分類裝置的結構示意圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
以下結合具體實施例對本發明的具體實現進行詳細描述:
實施例一:
圖1示出了本發明實施例一提供的室內場景的分類方法的實現流程,為了便于說明,僅示出了與本發明實施例相關的部分,詳述如下:
在步驟s101中,接收輸入的待分類場景圖片。
在步驟s102中,根據預設的觀測區域定位模型從待分類場景圖片中獲取當前局部觀測區域。
在本發明實施例中,待分類場景圖片為待識別分類的室內場景對應的圖片。為了降低識別分類過程中計算的復雜度,提高識別分類的可控性,根據觀測區域定位模型每次只從場景圖片中選擇一個局部觀測區域,以進行識別和分類。
在步驟s103中,對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量。
在本發明實施例中,優選地,在獲取到當前局部觀測區域的圖像信息之后,對當前局部觀測區域的圖像信息進行處理時,首先對當前局部觀測區域的圖像信息進行編碼,得到局部特征向量,然后對得到的局部特征向量與預先得到的特征向量執行融合操作,得到待分類場景圖片圖像信息的特征向量,從而提高了特征向量的全面性,進而提高對場景圖片分類的準確性。
在步驟s104中,根據特征向量獲取待分類場景圖片的分類預測結果。
在步驟s105中,判斷分類預測結果是否滿足預設的場景圖片分類條件。
在本發明實施例中,分類預測結果包括分類結果和對應的預測概率,在得到待分類場景圖片圖像信息的特征向量之后,根據特征向量可以預測得到場景圖片的多個分類結果及對應的預測概率,多個分類結果的預測概率總和為100%,判斷這些多個分類結果中是否存在對應的預測概率大于預設閾值的分類結果,即判斷分類預測結果是否滿足預設的對待分類場景圖片進行分類的條件。作為示例地,預測概率的預設閾值可以設置為65%,判斷這些多個分類結果中是否存在對應的預測概率大于65%的分類結果。
在步驟s106中,當分類預測結果不滿足場景圖片分類條件時,根據觀測區域定位模型從待分類場景圖片中獲取下一局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,跳轉至對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量的步驟。
在本發明實施例中,當這些多個分類結果中不存在對應的預測概率大于預設閾值的分類結果時,說明現有的分類預測結果不滿足預設的對待分類場景圖片進行分類的條件,若要實現對待分類場景圖片的分類,還需要獲取場景圖片更多的區域信息,因此,根據觀測區域定位模型獲取下一個局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,重復進行圖像信息處理并獲取分類預測結果,直至分類預測結果滿足場景圖片分類條件。
在步驟s107中,當分類預測結果滿足場景圖片分類條件時,根據分類預測結果獲取待分類場景圖片的分類標簽。
在本發明實施例中,當這些預測得到的多個分類結果中存在對應的預測概率大于預設閾值的分類結果時,說明分類預測結果已經滿足預設的對待分類場景圖片進行分類的條件,即已經可以實現對待分類場景圖片的分類,因此,獲取分類預測結果中對應的預測概率大于預設閾值的分類結果,將該分類結果設置為待分類場景圖片的分類標簽,從而提高了場景圖片分類的準確性。
在本發明實施例中,接收輸入的待分類場景圖片,根據預設的觀測區域定位模型從待分類場景圖片中獲取當前局部觀測區域,從而降低了待分類場景圖片識別分類的復雜度,提高了識別分類的可控性,對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量,從而提高場景圖片分類的分類速率,根據特征向量獲取待分類場景圖片的分類預測結果,判斷分類預測結果是否滿足預設的場景圖片分類條件,當分類預測結果不滿足場景圖片分類條件時,根據觀測區域定位模型從待分類場景圖片中獲取下一局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,重復進行圖像信息處理并獲取分類預測結果,直至分類預測結果滿足場景圖片分類條件,當分類預測結果滿足場景圖片分類條件時,根據分類預測結果獲取待分類場景圖片的分類標簽,從而提高了場景圖片分類的準確性。
實施例二:
圖2示出了本發明實施例二提供的室內場景的分類方法中建立觀測區域定位模型的實現流程,為了便于說明,僅示出了與本發明實施例相關的部分,詳述如下:
在步驟s201中,接收輸入的待訓練場景圖片,根據預設的高斯分布從待訓練場景圖片中獲取當前訓練用局部觀測區域。
在本發明實施例中,待訓練場景圖片為室內場景的局部觀測區域定位訓練過程中輸入的需要分類的場景圖片。為了降低識別分類過程中計算的復雜度,提高識別分類的可控性,根據觀測區域定位模型每次從場景圖片中選擇一個局部觀測區域,以進行識別和分類。優選地,在訓練過程中可以根據實際情況調整局部觀測區域的大小,以優化訓練結果。
在步驟s202中,根據當前訓練用局部觀測區域對待訓練場景圖片進行分類操作并計算分類操作的獎勵值。
在本發明實施例中,通過對當前訓練用局部觀測區域的圖像信息的處理,得到待訓練場景圖片的特征向量之后,根據特征向量對待訓練場景圖片進行分類,得到待訓練場景圖片的分類標簽。優選地,在獲取到局部觀測區域的圖像信息之后,在對當前訓練用局部觀測區域的圖像信息進行處理時,首先對當前訓練用局部觀測區域的圖像信息進行編碼,得到局部特征向量,然后對得到的局部特征向量與預先得到的特征向量執行融合操作,得到待分類場景圖片圖像信息的特征向量,從而提高了特征向量的全面性,進而提高對場景圖片分類的準確性。優選地,在訓練過程中可以調節特征向量的維度,以優化訓練結果。
在本發明實施例中,在每次得到待訓練場景圖片的分類標簽之后,獲取待訓練場景圖片的標準分類標簽,判斷得到的待訓練場景圖片的分類標簽是否正確,并計算分類的獎勵值。優選地,在計算分類的獎勵值時,根據分類獎勵值的計算公式
計算分類的獎勵值,其中,rt為第t次分類的獎勵值,t為分類次數,y為訓練得到的分類標簽,losst為第t次分類的分類誤差,y=maxylogp(y)表示得到的分類標簽是正確的,從而避免重復觀察同樣區域,避免觀測噪聲太多的區域。優選地,在訓練過程中可適當改變獎勵值的計算公式中的反饋值,以優化模型收斂的速度,從而優化訓練模型。
在步驟s203中,判斷是否達到預設的訓練結束條件。
在步驟s204中,當未達到預設的訓練結束條件時,根據高斯分布從待訓練場景圖片中獲取下一訓練用局部觀測區域,將下一訓練用局部觀測區域設置為當前訓練用局部觀測區域,跳轉至根據當前訓練用局部觀測區域對待訓練場景圖片進行分類操作并計算分類操作的獎勵值的步驟。
在本發明實施例中,在訓練的過程中,下一訓練用局部觀測區域可以從一個給定方差的高斯分布中采樣得到。重復對采樣得到的下一訓練用局部觀測區域進行識別,根據識別到的信息對待訓練場景圖片進行分類,得到分類標簽,每一次分類都可以通過計算得到對應的獎勵值。
在步驟s205中,當達到預設的訓練結束條件時,獲取所有待訓練場景圖片中每張待訓練場景圖片的獎勵值的代數和,以得到每張待訓練場景圖片的總獎勵值,根據總獎勵值建立總獎勵值最大化的觀測區域定位模型。
在本發明實施例中,若達到預設的訓練結束條件,則獲取待訓練場景圖片的獎勵值的代數和,以得到這張待訓練場景圖片的總獎勵值,所有待訓練場景圖片中每張待訓練場景圖片都有對應的總獎勵值,根據總獎勵值建立可以使總獎勵值最大化的觀測區域定位模型,以用于在對待分類場景圖片分類的過程中確定最優的下一個局部觀測區域,從而提高場景識別分類的分類速率和準確性。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質中,所述的存儲介質,如rom/ram、磁盤、光盤等。
實施例三:
圖3示出了本發明實施例三提供的室內場景的分類裝置的結構,為了便于說明,僅示出了與本發明實施例相關的部分。
在本發明實施例中,室內場景的分類裝置包括圖片接收單元31、區域獲取單元32、向量獲取單元33、條件判斷單元34以及場景分類單元35,其中:
圖片接收單元31,用于接收輸入的待分類場景圖片。
區域獲取單元32,用于根據預設的觀測區域定位模型從待分類場景圖片中獲取當前局部觀測區域。
向量獲取單元33,用于對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量。
在本發明實施例中,優選地,在獲取到局部觀測區域的圖像信息之后,對局部觀測區域的圖像信息進行處理時,首先對局部觀測區域的圖像信息進行編碼,得到局部特征向量,然后對得到的局部特征向量與預先得到的特征向量執行融合操作,得到待分類場景圖片圖像信息的特征向量,從而提高了特征向量的全面性,進而提高對場景圖片分類的準確性。
因此,優選地,該向量獲取單元33包括:
編碼操作單元331,用于對當前局部觀測區域的圖像信息進行編碼,得到局部特征向量;以及
融合操作單元332,用于對局部特征向量與預先存儲的特征向量執行融合操作,得到場景圖片的特征向量。
條件判斷單元34,用于根據特征向量獲取待分類場景圖片的分類預測結果,判斷分類預測結果是否滿足預設的場景圖片分類條件。
重復執行單元35,用于當分類預測結果不滿足場景圖片分類條件時,根據觀測區域定位模型從待分類場景圖片中獲取下一局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,并觸發向量獲取單元33對當前局部觀測區域的圖像信息進行處理。
場景分類單元36,用于當分類預測結果滿足場景圖片分類條件時,根據分類預測結果獲取待分類場景圖片的分類標簽。
在本發明實施例中,當這些預測得到的多個分類結果中存在對應的預測概率大于預設閾值的分類結果時,說明分類預測結果已經滿足預設的對待分類場景圖片進行分類的條件,即已經可以實現對待分類場景圖片的分類,因此,場景分類單元獲取分類預測結果中對應的預測概率大于預設閾值的分類結果,將該分類結果設置為待分類場景圖片的分類標簽,從而提高了場景圖片分類的準確性。
在本發明實施例中,室內場景的分類裝置的各單元可由相應的硬件或軟件單元實現,各單元可以為獨立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發明。各單元的具體實施方式可參考前述實施例一的描述,在此不再贅述。
實施例四:
圖4示出了本發明實施例四提供的室內場景的分類裝置的結構,為了便于說明,僅示出了與本發明實施例相關的部分。
在本發明實施例中,室內場景的分類裝置包括訓練區域獲取單元401、區域訓練單元402、循環訓練單元403、定位模型建立單元404、圖片接收單元405、區域獲取單元406、向量獲取單元407、條件判斷單元408以及場景分類單元409,其中:
訓練區域獲取單元401,用于接收輸入的待訓練場景圖片,根據預設的高斯分布從待訓練場景圖片中獲取當前訓練用局部觀測區域。
區域訓練單元402,用于根據當前訓練用局部觀測區域對待訓練場景圖片進行分類操作并計算分類操作的獎勵值。
在本發明實施例中,在每次得到待訓練場景圖片的分類標簽之后,獲取待訓練場景圖片的標準分類標簽,判斷得到的待訓練場景圖片的分類標簽是否正確,獎勵值計算單元根據判斷結果計算分類的獎勵值。優選地,在計算分類的獎勵值時,根據分類獎勵值的計算公式
計算分類的獎勵值,其中,rt為第t次分類的獎勵值,t為分類次數,y為訓練得到的分類標簽,losst為第t次分類的分類誤差,y=maxylogp(y)表示得到的分類標簽是正確的,從而避免重復觀察同樣區域,避免觀測噪聲太多的區域。優選地,在訓練過程中可適當改變獎勵值的計算公式中的反饋值,以優化模型收斂的速度,從而優化訓練模型。
因此,優選地,該區域訓練單元402包括:
訓練分類單元4021,用于對當前訓練用局部觀測區域的圖像信息進行處理,得到待訓練場景圖片的當前特征向量,根據當前特征向量對待訓練場景圖片進行分類,得到待訓練場景圖片的分類標簽;以及
獎勵值計算單元4022,用于獲取待訓練場景圖片的標準分類標簽,將得到的分類標簽與標準分類標簽進行比較,判斷得到的分類標簽是否正確,根據判斷結果計算分類的獎勵值。
優選地,該獎勵值計算單元4022包括:
計算子單元,用于計算分類誤差,獲取分類次數,通過分類獎勵值的計算公式
計算分類的獎勵值,其中,rt為第t次分類的獎勵值,t為分類次數,y為訓練得到的分類標簽,losst為第t次分類的分類誤差,y=maxylogp(y)表示得到的分類標簽是正確的。
循環訓練單元403,用于當未達到預設的訓練結束條件時,根據高斯分布從待訓練場景圖片中獲取下一訓練用局部觀測區域,將下一訓練用局部觀測區域設置為當前訓練用局部觀測區域,并觸發區域訓練單元402根據當前訓練用局部觀測區域對待訓練場景圖片進行分類操作并計算分類操作的獎勵值。
定位模型建立單元404,用于當達到預設的訓練結束條件時,獲取所有待訓練場景圖片中每張待訓練場景圖片的獎勵值的代數和,以得到每張待訓練場景圖片的總獎勵值,根據總獎勵值建立總獎勵值最大化的觀測區域定位模型。
圖片接收單元405,用于接收輸入的待分類場景圖片。
區域獲取單元406,用于根據預設的觀測區域定位模型從待分類場景圖片中獲取當前局部觀測區域。
向量獲取單元407,用于對當前局部觀測區域的圖像信息進行處理,以得到待分類場景圖片的特征向量。
條件判斷單元408,用于根據特征向量獲取待分類場景圖片的分類預測結果,判斷分類預測結果是否滿足預設的場景圖片分類條件。
在本發明實施例中,得到待分類場景圖片圖像信息的特征向量之后,根據特征向量可以預測得到場景圖片的多個分類結果及對應的預測概率,多個分類結果的預測概率總和為100%,條件判斷單元判斷這些多個分類結果中是否存在對應的預測概率大于預設閾值的分類結果,即判斷分類預測結果是否滿足預設的對待分類場景圖片進行分類的條件。
重復執行單元409,用于當分類預測結果不滿足場景圖片分類條件時,根據觀測區域定位模型從待分類場景圖片中獲取下一局部觀測區域,并將下一局部觀測區域設置為當前局部觀測區域,并觸發向量獲取單元407對當前局部觀測區域的圖像信息進行處理。
場景分類單元410,用于當分類預測結果滿足場景圖片分類條件時,根據分類預測結果獲取待分類場景圖片的分類標簽。
在本發明實施例中,室內場景的分類裝置的各單元可由相應的硬件或軟件單元實現,各單元可以為獨立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發明。各單元的具體實施方式可參考前述實施例的描述,在此不再贅述。
以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護范圍之內。