物體檢測裝置及其控制方法
【專利摘要】本發明提供一種物體檢測裝置及其控制方法。該物體檢測裝置防止或消除由頻繁出現在背景中的物體的改變引起的檢測錯誤。因此,該物體檢測裝置包括:檢測單元,其通過比較來自視頻輸入設備的輸入視頻與背景模型來檢測物體區域;選擇單元,其選擇最初包括在視頻中的背景物體的區域;生成單元,其生成基于包括在所述背景物體區域中的特征的背景物體特征信息;以及確定單元,其使用所述背景物體特征信息確定從所述輸入視頻中檢測到的所述物體區域是否是背景物體。
【專利說明】物體檢測裝置及其控制方法
【技術領域】
[0001]本發明涉及物體檢測裝置及其控制方法。
【背景技術】
[0002]作為用于從由照相機捕獲的圖像中檢測物體的技術,已知背景差分法。在背景差分法中,固定的照相機預先捕獲移除了待檢測物體的背景的圖像,并將從該圖像中提取的特征量存儲作為背景模型。之后,計算從照相機輸入的圖像中提取的特征量與背景模型中的特征量的差分,并且檢測不同的區域作為前景(物體)。
[0003]在該情況下,例如,將檢查諸如接待室中的椅子等的物體。椅子最初存在于接待室中,并且不是諸如人或由人帶入的包等的待檢測物體。然而,人們頻繁移動椅子或改變其方向。如果發生了這種改變,則產生了與背景模型的差分,并且背景差分法將這種改變錯誤地檢測為物體。
[0004]在本說明書中,下文中將諸如椅子的最初存在于背景中的物體稱為背景物體。
[0005]因此,在日本專利特開第2003-346156號公報(下文中稱為文獻)中,在檢測到背景模型的改變區域后,執行下面的處理以區別是背景物體還是新帶入視場中的物體,由此防止任何檢測錯誤。將與輸入圖像的改變區域相對應的區域的特征量(顏色特征和邊緣特征)和與由背景模型生成的背景圖像的改變區域相對應的區域的特征量進行比較,并且如果這些特征量彼此類似,則確定背景物體移動。
[0006]然而,根據上述文獻的技術錯誤地檢測到如下情況:未包括在背景模型中的新特征在背景物體的運動或改變時出現。即,由于輸入圖像的特征不再與由背景模型生成的背景圖像中包括的特征類似,因此不確定背景物體的改變。例如,當紅色花瓶被放置在藍色墻壁前面,并且椅子被放置在紅色花瓶前面時,由于紅色花瓶被遮擋在椅子后面,因此紅色花瓶的特征未被包括在背景模型中。當此時移動椅子時,遮擋的紅色花瓶出現在視頻中。在靠背旋轉的椅子的情況下,當靠背旋轉(面外旋轉)時,則未包括在背景模型中的、該椅子自身的新特征出現在視頻中。以這種方式,在背景物體移動或旋轉時此前不存在的新特征正常出現。即,上述文獻不能夠有效地抑制由背景物體的改變引起的任意檢測錯誤。
【發明內容】
[0007]本發明是考慮到上述問題而做出的。然后,本說明書提供了能夠防止或減少由頻繁出現在背景中的物體的改變引起的檢測錯誤的技術。
[0008]為實現該目標,根據本說明書的物體檢測裝置例如包括如下結構。即,本說明書的第一方面提供一種物體檢測裝置,該物體檢測裝置包括:視頻輸入單元,其被配置為輸入視頻;物體區域檢測單元,其被配置為通過比較輸入的視頻與背景模型來檢測物體區域;選擇單元,其被配置為選擇最初包括在視頻中的背景物體的區域;生成單元,其被配置為生成基于包括在所述背景物體區域中的特征的背景物體特征信息;以及確定單元,其被配置為使用所述背景物體特征信息確定從輸入的視頻中檢測到的所述物體區域是否是背景物體。[0009]本說明書的第二方面提供一種控制物體檢測裝置的控制方法,該物體檢測裝置包括被配置為輸入視頻的視頻輸入單元,并檢測所述視頻中的物體,所述控制方法包括:物體區域檢測步驟,通過比較來自所述視頻輸入單元的輸入視頻與背景模型來檢測物體區域;選擇步驟,選擇最初包括在視頻中的背景物體的區域;生成步驟,控制生成單元生成基于包括在所述背景物體區域中的特征的背景物體特征信息;以及確定步驟,使用所述背景物體特征信息確定從所述輸入視頻中檢測到的所述物體區域是否是背景物體。
[0010]根據本說明書,能夠防止或減少由頻繁出現在背景中的物體的改變弓I起的檢查錯誤。
[0011]通過以下參照附圖對示例性實施例的描述,本發明的其它特征將變得清楚。
【專利附圖】
【附圖說明】
[0012]圖1是示出根據實施例的物體檢測裝置的硬件結構的框圖;
[0013]圖2是示出根據實施例的物體檢測裝置的功能結構的框圖;
[0014]圖3是示出根據實施例的登記階段中的處理序列的流程圖;
[0015]圖4是示出比較處理的詳細處理序列的流程圖;
[0016]圖5是示出背景模型的示例的表;
[0017]圖6是示出背景模型更新處理的詳細處理序列的流程圖;
[0018]圖7是示出比較結果信息的示例的表;
[0019]圖8是示出前景/背景確定處理的詳細處理序列的流程圖;
[0020]圖9是不出如景/背景/[目息的不例的表;
[0021]圖10是示出物體區域輸出處理的詳細處理序列的流程圖;
[0022]圖11是示出物體區域信息的示例的表;
[0023]圖12是示出第一背景物體區域選擇處理的序列的流程圖;
[0024]圖13是用于說明第一背景物體區域選擇處理的處理結果的圖;
[0025]圖14是示出第一場景相關的背景物體區域選擇規則的示例的表;
[0026]圖15是示出背景物體候補區域信息的示例的表;
[0027]圖16是示出第二特征量提取處理的序列的流程圖;
[0028]圖17是示出場景相關的特征量類型信息的示例的表;
[0029]圖18是示出特征量信息的示例的表;
[0030]圖19是示出第一背景物體區域選擇處理的序列的流程圖;
[0031]圖20是用于說明第二背景物體區域選擇處理的處理結果的圖;
[0032]圖21是示出第二場景相關的背景物體區域選擇規則的示例的表;
[0033]圖22是示出加權特征量信息的示例的表;
[0034]圖23是用于說明當物體平行移動時的物體檢測結果的圖;
[0035]圖24是示出平行移動/面外旋轉確定處理的序列的流程圖;
[0036]圖25是示出背景物體特征信息登記處理的序列的流程圖;以及
[0037]圖26是示出根據實施例的操作階段中的處理序列的流程圖。
【具體實施方式】[0038]以下將參照附圖詳細描述根據本發明的實施例。
[0039]圖1是示出根據本實施例的用于執行物體檢測的圖像處理裝置(下文稱為物體檢測裝置)的硬件結構的框圖。本實施例的物體檢測裝置具有下面的結構。
[0040]CPUlOl根據存儲在R0M102和RAM103中的程序來執行指令。R0M102是非易失性存儲器,并且存儲本發明的程序以及其他種類的控制所需的程序及數據。RAM103是易失性存儲器,并且存儲諸如幀圖像數據以及模式識別結果的臨時數據。輔助存儲設備104是諸如硬盤驅動器或閃存等的可重寫輔助存儲設備,并且存儲操作系統(OS)、圖像信息、物體檢測程序、各種設置內容等。這些信息被傳送到RAM103,作為CPUlOl的程序而被執行,并且用作數據。
[0041]圖像輸入設備105包括數字視頻照相機、網絡照相機、紅外線照相機等,并且將由攝像單元捕獲的視頻作為數字圖像數據輸出。輸入設備106包括鍵盤、鼠標等,并且允許用戶進行輸入。顯示設備107包括陰極射線管(cathode ray tube, CRT)顯示器、液晶顯示器等,并且向用戶顯示處理結果等。網絡I/F108包括用于建立與諸如因特網或內聯網的網絡的連接的調制解調器以及LAN??偩€109連接這些組件以使它們相互交換數據。
[0042]本實施例的裝置被實現為在OS上運行的應用。
[0043]圖2是示出本實施例的物體檢測裝置的功能結構的框圖。當CPUlOl執行程序時實現下述的處理單元,但是這些處理單元的一些或所有這些處理單元可以被實現為硬件。
[0044]附圖標記201表不包括圖像輸入設備105并輸入視頻的視頻輸入單兀。附圖標記202表示從視頻提取構建背景模型(稍后描述)所需的特征量的第一特征量提取單元。附圖標記203表示比較從背景模式存儲單元204(稍后描述)讀出的背景模型與輸入視頻的比較單元。附圖標記204表示包括RAM103或輔助存儲設備104并存儲背景模型(稍后描述)的背景模型存儲單元,該背景模型使用圖像特征量來表現視頻中各位置的狀態。附圖標記205表示基于比較單元203的輸出來更新存儲在背景模型存儲單元204中的背景模型的背景模型更新單元。附圖標記206表示基于比較單元203的輸出來確定輸入視頻中的各位置對應于前景還是背景的前景/背景確定單元。附圖標記207表示基于前景/背景確定單元206的輸出來針對各物體區域組合并輸出檢測結果的物體區域輸出單元。
[0045]附圖標記208表示將作為物體區域輸出單元207的輸出的物體區域分類為包括背景物體的區域與不包括任何背景物體的區域的第一選擇單元。附圖標記209表示從作為第一選擇單元208的輸出的背景物體候補區域提取生成背景物體特征信息(稍后描述)所需的特征量的第二特征量提取單元。附圖標記210表示將由第一選擇單元208選擇的背景物體候補區域縮小到僅包括背景物體的部分區域的第二選擇單元。
[0046]附圖標記211表示規則存儲單元,其存儲場景相關的背景物體區域選擇規則,即,選擇針對配備有物體檢測裝置(稍后描述)的各場景(接待室、具有自動門的入口等)的背景物體區域所需的規則。第一確定單元208、第二特征量提取單元209以及第二選擇單元210參照存儲在該規則存儲單元211中的信息來根據預定的規則選擇背景物體。
[0047]附圖標記212表示檢測包括在視頻中的人體區域的人體檢測單元。根據場景相關的背景物體選擇規則從第一選擇單元208和第二選擇單元210調用該單元。附圖標記213表示基于物體區域輸出單元207的輸出結果來確定各物體區域的持續時間是否滿足預定條件的持續時間確定單元。根據場景相關的背景物體選擇規則從第一選擇單元208調用該單元。
[0048]附圖標記214表示確定被選擇為背景物體的區域是由背景物體的平行移動生成還是由面外旋轉生成的移動確定單元。根據場景相關的背景物體選擇規則從第二選擇單元210調用該移動確定單元214。附圖標記215表示臨時存儲由視頻輸入單元201輸入的視頻的中貞圖像存儲單元。由移動確定單元214使用該存儲單元。附圖標記216表示基于包括在選擇的背景物體區域中的第二特征量生成統計量的統計量生成單元。附圖標記217表示將由統計量生成單元216生成的統計量登記作為背景物體特征信息的背景物體登記單元。附圖標記218表示存儲背景物體特征信息(稍后詳述)的背景物體存儲單元。附圖標記219表示參照背景物體特征信息確定檢測物體是否是背景物體的背景物體識別單元。確定結果被反饋到背景模型更新單元205。
[0049]根據本實施例的物體檢測裝置的處理大致包括用于登記背景物體的登記階段以及用于檢測物體的操作階段。當設置物體檢測裝置時,在初始時期執行登記階段,并且與操作階段并行。下面將分別描述這些階段。
[0050][登記階段]
[0051]下面將參照圖3描述針對本實施例的登記階段的一個幀圖像的處理序列。圖3示出了與由CPUlOl執行的應用的登記階段相關的部分的處理序列。
[0052]輸入由視頻輸入單元201捕獲的視頻,并且針對各預定時間獲得幀圖像(步驟
5301)。
[0053]接下來,第一特征量提取單元202從幀圖像提取特征量,并且比較單元203將幀圖像中的特征量與從背景模型存儲單元204讀出的背景模型中的特征量進行比較(步驟
5302)(稍后描述詳情)。
[0054]接下來,背景模型更新單元205將比較單元203的結果反映到背景模型,由此更新背景模型(步驟S303)(稍后描述詳情)。
[0055]接下來,前景/背景確定單元206基于來自比較單元203的結果的持續時間確定前景和背景(步驟S304)(稍后描述詳情)。
[0056]接下來,輸出檢測到的物體區域(步驟S305)。輸出物體區域用于檢測棄置物體的棄置物體檢測裝置等(稍后描述詳情)。
[0057]接下來,第一選擇單元208進行用于從檢測到的物體區域選擇包括背景物體的區域的第一背景物體區域的選擇(步驟S306)(稍后描述詳情)。
[0058]接下來,第二特征量提取單元209從選擇的背景物體區域提取特征量(步驟S307)(稍后描述詳情)。
[0059]接下來,第二選擇單元210進行用于從由第一選擇單元208選擇的包括背景物體的區域進一步縮小到僅包括背景物體的區域的第二背景物體區域的選擇(步驟S308)(稍后描述詳情)。
[0060]最后,統計量生成單元216由包括在被選擇作為背景物體區域的區域中的特征量生成統計量,并且背景物體登記單元217將背景物體特征信息登記在背景物體存儲單元218中(步驟S309)(稍后描述詳情)。
[0061]下面將參照圖4描述上述處理的步驟S302中的比較處理(比較單元203)的詳情。
[0062]第一特征量提取單元202從由視頻輸入單元201獲取的輸入幀圖像提取圖像特征量作為表現各位置的各狀態的值(步驟S401)。圖像特征量的示例包括亮度值、顏色、邊緣等,但本發明不特別限定于這些特征量。此外,可以提取針對各像素的特征量或針對各部分區域的特征量。作為針對各部分區域的特征量的示例,列舉8像素X8像素的塊中的像素的平均亮度值、DCT系數等。DCT系數對應于離散余弦變換(discrete cosine transform)結果。當輸入幀圖像被以JPEG格式壓縮編碼時,在圖像壓縮時就提取了特征量。因此,在這種情況下,可以直接從JPEG輸入幀圖像提取DCT系數,并且可以使用DCT系數作為特征量。在本實施例中,特征量是針對各像素的亮度值。注意,幀圖像的左上像素被定義為起始點,并且當像素位置從左向右并逐行下移(光柵掃描順序)時執行下面的處理。
[0063]接下來,從背景模型存儲單元204中存儲的背景模型中讀出關注位置的位置相關的背景模型信息,并且將其臨時存儲在RAM103中(步驟S402)。
[0064]下面將參照圖5描述背景模型存儲單元204中存儲的背景模型。背景模型使用圖像特征量表現幀圖像中各位置的狀態。背景模型包括兩種信息:背景模型管理信息以及位置相關的背景模型信息。
[0065]背景模型管理信息包括位置信息以及在各位置處的位置相關的背景模型信息的指針。位置信息可以假定使用X-Y坐標表現幀圖像的像素位置的值,或者可以是以光柵掃描順序分配給8X8像素的各塊的編號。請注意,在本實施例中,位置信息假定使用X-Y坐標表現幀圖像的像素位置的值。
[0066]位置相關的背景模型信息保持與各位置相對應的多個狀態。請注意,狀態由特征量表現。因此,非類似特征量對應于不同狀態。例如,當紅色車輛到達并停止在藍色墻壁前時,包括在紅色車輛停止的區域中的像素保持藍色和紅色特征量的兩種狀態。各狀態保持狀態編號、表現該狀態的圖像特征量、創建時間以及激活標記。狀態編號用于識別各狀態,并且從I依次生成。創建時間是第一次在背景模型中創建狀態的時間,并且由時間或幀編號表示。在本實施例中,由巾貞計數表現創建時間。激活標記表示與當前巾貞圖像相對應的狀態,并且此時被設置為I (在其他情況下被設置為O)。然后,幀圖像中的相同位置處的多個狀態被連續存儲在通過背景模型管理信息的指針參照的地址中。在圖5的示例中,針對坐標(0,0)的位置,狀態編號=I的狀態被存儲在地址=1200處,并且狀態編號=2的狀態被隨后存儲在地址=1201處。因此,能夠如下讀出與關注位置相對應的所有狀態。即,從背景模型管理信息中參照關注位置和下一位置的指針,并且能夠讀出從關注位置的地址到緊接下一位置之前的地址的狀態。
[0067]僅出于示例性目的呈現了以上描述。例如,一條位置相關的背景模型信息可以包括用于存儲具有不同狀態編號的后續位置相關的背景模型信息的指針的字段,并且如果該字段存儲不存在的值,則該位置相關的背景模型信息可以被視作最后的信息。
[0068]說明將返回圖4的步驟S402。從背景模型管理信息參照關注位置的位置相關的背景模型信息的指針,并且讀出關注位置的所有狀態的位置相關的背景模型信息。在圖5的示例中,在第一位置處,讀出下面的兩個狀態的位置相關的背景模型信息。第一狀態是來自地址=1200的{狀態編號=1,特征量=100,創建時間=O,激活標記=I}。第二狀態是來自地址=1201的{狀態編號=2,特征量=230,創建時間=101,激活標記=O}。
[0069]接下來,從在步驟S402中讀出的關注位置的位置相關的背景模型信息中讀出一個狀態的特征量(步驟S403)。然后,激活標記被設置為0(步驟S404)。這是為了初始化先前的結果。然后,計算與輸入幀圖像中相同位置的特征量的差分(步驟S405)。作為差分計算方法,使用兩個特征量的差分的絕對值。然而,本發明不特別限定于此。例如,可以使用差分的平方。然后,將差分值與輸入幀圖像中的位置以及用于計算差分的狀態編號相關聯地臨時存儲在RAM103中。然后確定在關注位置處是否仍有用于計算差分的狀態(步驟S406)。如果仍有這種狀態,則從位置相關的背景模型信息中讀出下一狀態(步驟S407)。然后,重復步驟S403和S405的處理。
[0070]接下來,與關注位置相關聯地計算輸入幀圖像的特征量與所有狀態之間的差分值的最小值(步驟S408)。
[0071]接下來,比較閾值A與在關注位置處的最小差分值(步驟S409)。如果差分值小于閾值,則能夠判斷輸入幀圖像的狀態與存儲在背景模型中的狀態相似。相反,如果差值大于閾值,則能夠確定輸入幀圖像的狀態不同于存儲在背景模型中的所有狀態,并且其為新狀態。
[0072]如果在步驟S409中確定了新狀態,則將指新狀態的特殊編號(例如:0)設置為狀態編號(步驟S410)。當背景模型更新單元205更新背景模型時再次生成新狀態編號。接下來,當前時間被設置為第一次創建該狀態的創建時間(步驟S411)。請注意,在本實施例中,使用當前幀編號。然而,也可以使用正常的時間表示(例如00:00:00)。
[0073]接下來,激活標記被設置為I以表示與當前幀相對應的狀態(步驟S412)。
[0074]接下來,將狀態編號、輸入圖像的特征量以及創建時間作為比較結果信息與輸入幀圖像中的坐標相關聯地臨時存儲在RAM103中(步驟S413)。
[0075]然后確定是否針對幀圖像中的所有像素(坐標)完成了處理(步驟S414)。如果仍有待處理的像素,則處理以光柵掃描順序進行到下一像素(步驟S415),由此重復步驟S401至S413中的處理。
[0076]如果針對所有像素完成了步驟S401至S413中的處理,則針對所有像素的比較結果信息(在圖7中例示的)被輸出到背景模型更新單元205以及前景/背景確定單元206 (步驟 S416)。
[0077]以這種方式,能夠針對各像素計算與輸入視頻最接近的背景模型中的狀態。
[0078]請注意,在開始使用該物體檢測裝置時沒有存儲背景模型。因此,能夠被假定為差分值等的最大值等被設置為差分計算值。在步驟S409中所有這些值被確定為新狀態,并且在背景模型更新處理(稍后描述)中被存儲在背景模型中。以這種方式,能夠在啟動時由輸入幀圖像初始化背景模型。
[0079]描述了步驟S302中的比較處理的詳情。
[0080]下面將參照圖6所示的流程圖描述步驟S303中的背景模型更新處理(背景模型更新單元205)的詳情。
[0081]從作為比較單元203的輸出的比較結果信息(圖7)中,將幀圖像的左上像素作為起點依次參照坐標來獲取針對一個像素的比較結果信息(步驟S601)。
[0082]檢查當前像素的狀態是否為新狀態(步驟S602)。通過參照比較結果信息中的狀態編號能夠實現該檢查步驟。即,如果狀態編號是0,則當前像素的狀態是新狀態;否則,當前像素的狀態是包括在背景模型中的現有狀態。
[0083]如果當前像素的狀態是現有狀態,則更新背景模型(圖5)中的相應的位置相關的背景模型信息。從當前像素的坐標參照背景模型中的背景模型管理信息來獲取所匹配的坐標的狀態的指針。在讀出信息的同時使指針依次前進,并且參照與從比較結果信息(圖7)中讀出的狀態編號匹配的位置相關的背景模型信息(步驟S603)。
[0084]然后,用比較結果信息(圖7)中的輸入特征量來更新背景模型中的特征量(步驟S604)。這是為了處理由照明等的改變引起的改變。例如,更新方法如下:
[0085]μ t = (1- α ).μ ^1+ α.It......(I)
[0086]其中,t表示當前幀,t-1表示緊接的在前幀,μ 是更新前的特征量值,并且μ t是更新后的特征量值。It是輸入幀的特征量值。α是具有值范圍為O至I的權重,并且權重取越大的值,則更新后的值越接近于輸入值。
[0087]另一方面,如果在步驟S602中確定新狀態,則該狀態被添加到背景模型中。
[0088]從當前像素的坐標參照背景模型中的背景模型管理信息來獲取匹配的坐標的狀態的指針。然后,指針進行到下一像素的坐標的狀態以獲取當前坐標的狀態的最后狀態編號(步驟S605)。
[0089]生成新狀態的狀態編號(步驟S606)。更具體地,使用最后狀態編號的下一個值。請注意,當該物體檢測裝置啟動時,第一次將狀態添加到背景模型時,分配狀態編號=I。
[0090]由于緊接當前像素的最后狀態添加了新狀態,因此從下一像素的坐標參照背景模型中的背景模型管理信息來獲取匹配的坐標的狀態的指針(步驟S607)。作為新狀態,這里將輸入狀態信息中的當前坐標的輸入特征量以及創建時間與生成的狀態編號一起插入(步驟 S608)。
[0091]然后確定是否針對 幀圖像中的所有像素(坐標)完成了步驟S601至S608中的處理(S609)。如果仍有待處理的像素,則處理以光柵掃描順序進行到下一像素(步驟S610),由此重復步驟S601至S608中的處理。如果針對所有像素完成了處理,則處理結束。
[0092]描述了步驟S303中的背景模型更新處理的詳情。
[0093]下面將參照圖8描述步驟S304中的前景/背景確定處理(前景/背景確定單元206)的詳情。
[0094]以幀圖像的左上像素作為起始點按照光柵掃描順序,從作為步驟S302的比較處理的輸出的比較結果信息(圖7)中逐個參照并獲取比較結果信息(步驟S801)。
[0095]基于比較結果信息(圖7)的創建時間,計算出從特定狀態(特征)在視頻中的出現時間到當前時間的持續時間(當前時間-創建時間)(步驟S802),并且將該結果與背景變換時間的閾值進行比較(步驟S803)。背景變換時間的閾值是指以該值為分界線將被檢測為前景物體的物體作為背景物體來處理(將被變換為背景物體)。如果持續時間不小于背景變換時間的閾值,則前景標記被設置為表示“背景”的“O” (步驟S804)。另一方面,如果持續時間小于背景變換時間的閾值,則確定前景,并將前景標記設置為“ I ” (步驟S805)。假定背景變換時間的閾值正常為固定值B。例如,如果固定值B = 5分鐘(針對30幀/秒,則為9000幀),在5分鐘內物體都能夠被檢測為前景。
[0096]接下來,將前景標記與幀圖像中的當前像素的坐標以及持續時間相關聯地臨時存儲為前景/背景信息(在圖9中例示)(步驟S806)。
[0097]然后確定是否針對幀圖像中的所有像素(坐標)完成了處理(步驟S807)。如果仍有待處理的像素,則處理進行到下一像素(步驟S808),由此重復步驟S801至S806中的處理。如果針對所有像素完成了步驟S801至S806的處理,則針對所有像素的前景/背景信息(圖9)被輸出到物體區域輸出單元207 (步驟S809)。
[0098]接下來,下面將參照圖10說明圖3的步驟S305中的物體區域輸出處理(物體區域輸出單元207)的詳情。
[0099]為了組合為物體區域,準備了表示是否搜索到前景標記=I的像素的搜索標記。該搜索標記與幀圖像中的各坐標相關聯。由于搜索標記=I被解釋為“已搜索”,因此與所有坐標相對應的搜索標記都被初始化為O (步驟S1001)。
[0100]假定以幀圖像的左上像素為起始點,參照存儲在RAM103中的前景/背景信息(圖9)的坐標來獲取前景標記(步驟S1002)。
[0101]接下來,檢查當前坐標的前景標記是否為I (步驟S1003)。如果前景標記是O,由于其表示背景,因此處理以光柵掃描順序從當前像素進行到下一像素(步驟S1004)。
[0102]另一方面,如果在步驟S1003中確定前景標記=1,由于該像素屬于前景,因此檢查當前坐標的搜索標記是否為0,S卩,該像素是否已被搜索(步驟S1005)。如果搜索標記是1,由于該像素已被搜索,因此處理以光柵掃描順序從當前像素進行到下一像素(步驟S1004)。
[0103]如果在步驟S1005中搜索標記=O,由于尚未搜索到該像素,因此臨時存儲當前坐標(步驟S1006)。然后,由于已經搜索到像素,因此搜索標記被設置為I (步驟S1007)。接下來,獲取相鄰前景標記以搜索連續的前景像素(步驟S1008)。然后檢查相鄰前景標記是否為I (步驟S1009)。如果前景標記是1,由于該像素是連續像素,因此確定其搜索標記是否為O (步驟S1010)。如果搜索標記為0,由于尚未搜索到該像素,因此控制返回到步驟S1006以進一步搜索相鄰像素。
[0104]重復步驟S1002至S1010中的處理,直至在步驟S1010中確定已經搜索到所有的相鄰像素(搜索標記=D或在步驟S1009中確定所有的相鄰像素是背景像素(前景標記=O)。
[0105]如果在步驟S1002至S1010的處理中找到了連續前景(物體)的像素,則根據臨時存儲的這些像素的坐標計算外接矩形,并將該外接矩形的左上坐標和右下坐標臨時存儲在 RAM103 中(步驟 S1011)。
[0106]接下來,從比較結果信息獲取與這些像素(坐標)相對應的持續時間,并且計算獲取的持續時間的平均值并將其臨時存儲在RAM103中(步驟S1012)。
[0107]確定是否針對幀圖像中的所有像素完成了步驟S1002至S1012的處理(步驟S1013)。如果仍有待處理的像素,則處理以光柵掃描順序從當前像素進行到下一像素(步驟 S1004)。
[0108]如果針對所有像素完成了步驟S1002至S1012的處理,則輸出臨時存儲的物體區域的左上坐標和右下坐標以及它們的平均出現時間作為物體區域信息(步驟S1014)。圖11示出了物體區域信息的示例,并且能夠從起始地址讀出兩個物體區域的左上坐標、右下坐標以及平均出現時間。
[0109]描述了步驟S305中的物體區域輸出處理的詳情。請注意,輸出物體區域信息例如用于檢測棄置物體的棄置物體檢測裝置(未示出)。棄置物體檢測裝置參照物體的平均持續時間,當持續預定時間段時生成棄置事件。此外,該裝置參照物體區域的矩形的左上坐標和右下坐標生成矩形,并且將矩形疊加在輸入視頻上,由此向用戶呈現棄置物體的位置。
[0110]下面將參照圖12描述圖3的步驟S306中的第一背景物體區域選擇處理(第一選擇單元208)的詳情。
[0111]物體區域信息(圖11)中的物體區域被分類為包括背景物體的物體區域和不包括任何背景物體的物體區域,并且輸出背景物體候補區域。圖13是用于說明該處理的處理結果的圖。在圖13中,附圖標記1301表示包括椅子1302、站在椅子1302前面的人1303以及在幀中橫穿的人1304的幀圖像。在幀1305中,疊加了根據背景差分而檢測到的物體區域,并且區域1306和1307被檢測為物體。假定包括在區域1306中的椅子具有不同于當生成背景模型時的方向,并且其被檢測為物體的一部分。第一背景物體區域選擇處理選擇包括背景物體(本示例中的椅子1302)的物體區域,并且輸出包括該椅子的區域1309作為由附圖標記1308表示的背景物體候補區域。下面將詳述該處理。
[0112]首先,從規則存儲單元211參照與由用戶指定的場景ID相對應的第一場景相關的背景物體區域選擇規則(步驟S1201)。盡管在圖2中未特別示出與從用戶的指定相關的結構,但其包括輸入設備106以及由用戶確認的顯示設備107,并且用戶通過從畫面上顯示的場景ID列表中選擇場景ID來指定場景ID。請注意,根據物體檢測裝置的安裝環境等定義場景ID。例如,場景ID = I表示接待室,場景ID = 2表示自動門。用戶根據安裝環境選擇這些場景ID,由此獲得最優物體檢測結果。
[0113]下面將參照圖14詳細描述在第一背景物體區域選擇處理中加載的第一場景相關的背景物體區域選擇規則。
[0114]第一場景相關的背景物體區域選擇規則中的各規則包括場景ID、確定條件(確定條件數量、確定條件起始指針)、參數(參數數量、參數起始指針)以及采用條件。請注意,場景ID如上所述。
[0115]確定條件是選擇背景物體區域所需要的,并且例如包括用于確定物體區域的(平均)持續時間是否不小于預定值的條件(條件11)、用于確定物體區域是否包括人體區域的條件(條件12)等。定義與確定條件的數量所描述的數量一樣多的確定條件,并且能夠從由確定條件起始指針所指示的地址依次讀出并獲取確定條件。
[0116]參數包括諸如在確定條件中使用的閾值的參數值。定義與參數數量所描述的數量一樣多的參數,并且能夠從由參數起始指針指示的地址依次讀出并獲取參數。
[0117]采用條件表示基于待滿足的確定條件的背景物體候補區域。例如,采用條件包括僅采用滿足確定條件的物體區域(“ONLY”僅),以及在至少一個物體區域滿足確定條件的情況下采用所有物體區域(“ALL”所有)等。
[0118]接下來,獲取從加載的第一背景物體選擇規則獲取的確定條件中的一個(步驟S1202)。
[0119]在后續步驟S1203至S1209中針對所有物體區域確定是否滿足確定條件。
[0120]從物體區域信息(圖11)獲取一個物體區域(步驟S1203)。在步驟S1204和S1206中分別檢查是否指定了預定的確定條件(11、12)。如果指定了確定條件11(步驟S1204中“是”),則在該示例中執行持續時間確定處理(步驟S1205)(稍后描述詳情)。如果指定了確定條件12(步驟S1206中“是”),則在本示例中執行人體有/無確定處理(步驟S1207)(稍后描述詳情)。將確定結果與當前物體區域的坐標相關聯地臨時存儲在RAM103中,其中當滿足確定條件時確定結果為I,在其他情況下確定結果為O (步驟S1208)。
[0121]在步驟S1209中確定是否針對所有物體區域完成了處理。如果仍有待處理的物體區域,則處理返回到步驟S1203以選擇下一物體區域。如果確定針對所有物體區域完成了處理(步驟S1209中“是”),則確定是否針對規則中指定的所有確定條件完成了確定(步驟S1210)。如果尚未完成確定,則處理返回到步驟S1202以選擇下一確定條件;否則,處理進行到步驟S1211。
[0122]根據規則中指定的采用規則來采用背景物體候補區域,并且將采用的物體區域信息輸出作為背景物體候補區域信息(步驟S1211)。圖15示出了示例。針對被選擇作為背景物體的物體區域,從I依次生成背景物體ID。物體區域的左上坐標和右下坐標與物體區域信息(圖11)中的那些坐標相同。
[0123]下面將使用接待室場景和自動門場景的示例更詳細描述上述一系列處理。
[0124]a.接待室場景:
[0125]在接待室中,典型的背景物體是椅子。這種物體被人頻繁移動或旋轉。每次發生檢測錯誤時,但是由于椅子不是運動物體,它在同一位置處被持續錯誤地檢測到好像出現了新的靜態物體。即,持續時間長的物體區域很可能是背景物體。利用這點來選擇(包含)背景物體的區域。因此,“11”被指定為背景物體區域選擇規則的確定條件。在步驟S1204中確定為是,并且持續時間確定單元213執行持續時間確定處理(步驟S1205)。假定作為與閾值比較的結果,具有足夠長(平均)的持續時間的物體區域滿足條件。作為參數值,在規則中描述了閾值的值,如圖14所例示。在以這種方式驗證確定條件之后,由于該場景的采用規則是“僅”,因此在步驟S1211中,僅滿足確定條件11的物體區域被選擇作為背景候補區域。
[0126]b.自動門場景:
[0127]在人出入自動門的場景中,在打開自動門時移動的門框是原本就存在于真實背景中的物體。然而,由于當移動門框時由背景模型生成差分,所以門框被錯誤地檢測為物體。該背景物體(自動門框)可以移動也可以停止。因此,不能使用接待室場景的確定條件11(持續時間)確定自動門場景。當人出現時,打開/關閉自動門。因此,即使當檢測到一個包括人的物體區域時,此時檢測到的所有物體區域可能是背景物體候補。利用這點,從物體區域選擇(包括)背景物體的區域?!?2”被指定為背景物體區域選擇規則的確定條件。在步驟S1206中確定為是,并且使用人體檢測單元212執行人體有/無確定處理(步驟S1207)。假定如果在物體區域中檢測到人體,則該物體區域滿足條件。在以這種方式驗證確定條件之后,如果至少一個物體區域滿足確定條件12,則在步驟S1211中將物體區域信息(圖11)中的所有物體區域選擇為候補區域。
[0128]下面將描述人體檢測單元212的詳情。例如,已知美國專利第2007/0237387號公報。利用該技術,在輸入圖像上掃描具有預定尺寸的檢測窗口以針對通過剪裁檢測窗口中的圖像而獲得的各圖案圖像執行關于是否為物體(人體)的2級分類。在該分類中,通過使用AdaBoost算法有效地組合多個弱分類器來構成分類器,由此來提高分類精度。此外,串聯分類器以構成級聯型檢測器。由HOG (Histogram of Oriented Gradients,梯度方向直方圖)特征量構成各弱分類器。然后,級聯型檢測器立即移除在使用前段的簡單分類器明確為不是物體的圖案的候補。然后,僅針對剩余的候補中的各個,使用后段的具有更高識別性能的復雜分類器來進行是否是物體的分類。
[0129]接下來,下面將參照圖16描述步驟S307中的第二特征量提取處理(第二特征量提取單元209)的詳情。該處理提取適合于通過前述第一背景物體區域選擇處理從背景物體候補區域中選擇的場景的類型的特征量。
[0130]首先,從圖17例示的場景相關的特征量類型信息獲取對應于當前指定場景的特征量類型(步驟S1601)。
[0131]接下來,從背景物體候補區域信息(圖15)獲取一個背景物體候補區域(其坐標)(步驟S1602)。從當前幀圖像的背景物體候補區域提取特征量。在步驟S1603和S1605中分別檢查是否指定了預定的特征量類型(特征量1、特征量2)。如果指定了特征量I (步驟S1603中“是”),則在本示例中執行SIFT特征量提取處理(步驟S1604)。稍后描述SIFT特征量的詳情。如果指定了特征量2(步驟S1605中“是”),則在本示例中執行HOG特征量提取處理(步驟S1606)。稍后描述HOG特征量的詳情。將提取的特征量作為特征量信息與背景物體ID相關聯地臨時存儲在RAM103中(步驟S1607)。圖18示出了示例。特征量數量是從背景物體ID的區域中提取的特征量的數量。特征量指針是特征量的存儲目的地地址。能夠從由特征量指針指示的地址中依次讀出與特征量數量一樣多的特征量。將特征量與提取特征量的坐標按照坐標和特征量的順序一起存儲。
[0132]在步驟S1608中確定是否針對所有背景物體候補區域完成了處理。如果仍有待處理的候補區域,則處理返回到步驟S1602以選擇下一背景物體候補區域。
[0133]如果針對所有背景物體候補區域提取了特征量(步驟S1608中“是”),則輸出提取的特征量信息(步驟S1609)。
[0134]下面將使用接待室場景和自動門場景的示例更詳細地描述上述一系列處理。
[0135]a.接待室場景:
[0136]在接待室中,由于典型的背景物體是椅子,因此期望使用能夠很好地表現形狀的特征量。由于椅子很可能被放置在幀中的各個位置處,因此期望使用不因放大/縮小以及面內旋轉而改變的特征量。可以使用任意特征量,只要它們滿足這種條件即可。在本實施例中,使用尺度不變特征變換法(scale invariant feature transformation, SIFT)。在步驟S1603中確定為是,并且執行SIFT特征量提取處理(步驟S1604)。
[0137]針對SIFT特征量的進一步詳情,請參照文獻[D.G.Lowe, " Object recognitionfrom local scale-1nvariant features", Proc.0f IEEE International Conference onComputer Vision (ICCV), pp.1150-1157,1999.]。下面將簡單描述 SIFT 特征量。生成通過高斯(Gaussian)函數平滑過的并具有不同尺寸的多個圖像,并且從它們的差分圖像中檢測極值。從作為該極值的點(下文中稱為關鍵點)提取特征。判定關鍵點中的主導梯度方向,并參照該方向來設置用于提取特征量的高斯窗口以適合提取關鍵點的不同圖像的尺寸。因此,提取的特征量不因面內旋轉及尺寸而改變。因此,使用該特征量,即使當移動背景物體時距照相機的距離發生改變,或者物體的方向(面內旋轉)發生改變,也能夠使用相同的特征量來表現物體。由于每次發生這種改變時,不需要將新特征量登記在背景物體特征信息中,因此SIFT特征量適于接待室場景。特征量被劃分為4X4塊,并且由各塊計算在八個方向上的直方圖。因此,獲得128維特征量。
[0138]b.自動門場景:[0139]在人出入自動門的場景中,由于當打開自動門時出現的門框的形狀是矩形,并且用作關鍵點的點的數量少,因此不能夠充分提取SIFT特征量。由于僅在幀中的特定區域發生移動,因此尺寸是固定的。因此,不需要使用不因放大/縮小以及面內旋轉而改變的特征量。因此,需要更適合本場景的特征量。作為很好地表現自動門形狀的特征量,本實施例使用HOG特征量。當然,本發明不限于這種特定特征量。例如,可以提取輪廓線,并將其用作特征量。在步驟S1605中確定為是,并且執行HOG特征量提取處理(步驟S1606)。
[0140]針對HOG特征量的進一步詳情,請參照文獻[N.Dalai and B.Triggs, " Histogramof Gradients for Human Detection", Computer Vision and Pattern Recognition,Vol.1,pp.886-893,2005.] o下面將簡單描述HOG特征量。由輸入圖像計算梯度圖像,并且將該梯度圖像劃分為塊,各塊包括2X2個單元,各單元包括8X8像素。在各單元中計算9個方向的邊緣強度直方圖。因此,從每個塊中提取36維特征量。由于針對各邊緣方向關注邊緣強度,因此特征量適于表現門框等的形狀。
[0141]下面將參照圖19描述步驟S308中的第二背景物體區域選擇處理(第二背景物體區域選擇單元210)的詳情。本處理將由第一背景物體區域選擇處理選擇的背景物體候補區域進一步縮小到背景物體的部分區域。
[0142]圖20是用于說明該處理的處理結果的圖。附圖標記2001表示與圖13中的區域1309相對應的背景物體候補區域。附圖標記2002至2012表示由第二特征量提取處理提取特征量的點。在這些點中,從椅子提取點2002至2005,并且從人提取點2006至2012。諸如本示例的人、狗以及汽車等的物體是自主移動的物體(以下稱為移動物體),進出于視頻,并且不是背景物體。因此,檢測運動物體區域的單元從背景物體候補區域中移除運動物體區域。在本示例中,人體檢測單元212計算人體區域2013,由此將特征量分類為作為真實背景物體的椅子的特征量以及人體區域中的特征量。更具體地,對各特征量賦予權重,使得針對背景物體的特征量(2002至2005)的權重大于針對人的特征量(2006至2012)的權重。即,如果特征量被包括在背景物體中的可能性越高,則針對各特征量的權重取更大的值。第二背景物體區域選擇處理輸出具有以這種方式決定的權重的特征量。下面將詳細描述該處理。
[0143]從規則存儲單元211,參照與由用戶指定的場景ID相對應的第二場景相關的背景物體區域選擇規則(步驟S1901)。
[0144]下面將參照圖21詳細描述通過第二背景物體區域選擇處理參照的第二場景相關的背景物體區域選擇規則。
[0145]第二場景相關的背景物體區域選擇規則中的各規則包括場景ID、確定條件(確定條件數量、確定條件起始指針)以及參數(參數數量、參數起始指針)。場景ID如上所述。
[0146]各確定條件用于將通過第一背景物體區域選擇處理選擇的各背景物體區域區分為背景物體和其他物體。例如,確定條件包括用于確定是否包括人體并且如果包括人體則哪個區域包括人體的條件(條件21),以及用于確定物體是進行平行移動還是面內旋轉的條件(條件22)等。包括與確定條件數量中所描述的數量一樣多的確定條件,并且能夠從由確定條件起始指針指示的地址依次讀出并獲取確定條件。
[0147]接下來,在生成背景物體特征信息時使用的特征量的權重被賦予特征量信息(圖18)的所有特征量,從而獲得加權的特征量信息(圖22中例示)(步驟S1902)。權重取范圍從O到I的值,并且越接近I則表示特征量包括在背景物體中的程度越高。在該步驟中,初始值為I。
[0148]獲取從第二場景相關的背景物體區域選擇規則(圖21)中獲取的一個確定條件(步驟 S1903)。
[0149]在步驟S1904和S1907中分別檢查是否指定了預定的確定條件21和22。如果指定了確定條件21(步驟S1905中“是”),則在本示例中執行人體區域檢測處理(步驟S1906)。如果指定了確定條件22 (步驟S1907中“是”),則在本示例中執行平行移動/面內旋轉確定處理(步驟S1908)(稍后描述詳情)。作為確定的結果,減小針對包括在被選擇為不包括在背景物體中的區域中的特征量的權重。根據待處理的背景物體ID,從加權特征量信息(圖22)基于選擇區域的坐標參照相應的特征量。減小特征量的權重(例如,通過減去固定量)(步驟 S1909)。
[0150]在步驟S1910中確定是否針對所有背景物體候補區域完成了處理。如果仍有待處理的背景物體候補區域,則處理返回到步驟S1904以選擇下一背景物體候補區域。
[0151]如果確定針對所有背景物體候補區域完成了用于確定是否滿足規則中指定的確定條件的處理(步驟S1910中“是”),則確定是否針對規則中指定的所有確定條件完成了確定(步驟S1911)。如果尚未完成確定,則控制返回到步驟S1903以選擇下一確定條件;否則,處理進行到步驟S1912。然后,輸出具有基于確定條件而決定的權重作為屬性的加權特征量信息(圖22)(步驟S1912)。
[0152]下面將使用接待室場景與自動門場景的示例來詳細描述上述一系列處理。
[0153]a.接待室場景:
[0154]第一背景物體區域選擇單元選擇具有更長持續時間的物體區域作為背景物體候補區域。由于人經常在接待室站立一會兒,因此人區域可能包括在這種背景物體候補區域中(圖20示出了該示例)。因此,“21”被指定作為背景物體區域選擇規則的確定條件。在步驟S1905中確定為是,并且人體檢測單元212針對作為當前處理對象的背景物體候補區域執行人體檢測處理(步驟S1906)。然后,當檢測到人體區域時,在步驟S1909中減小人體區域中的特征量的權重(例如,通過減去固定量)。如果能夠輸出人體檢測單元的檢測結果的可信度,則可以與該可信度反比例地決定權重。
[0155]另一方面,作為接待室中的典型背景物體的椅子經常被人平行移動或旋轉。當在同一位置(面外)旋轉椅子時,出現椅子的新特征。然而,由于新特征是背景物體自身的特征,因此它們當然需要被登記作為背景物體特征信息。然而,當平行移動椅子時,由于隱藏在椅子后面的背景的一部分區域(下文中稱為部分背景)產生了與背景模型的差分,因此不期望將該區域包括在背景物體候補區域中。圖23示出了示例。在圖23中,附圖標記2301表示在該物體檢測裝置的啟動定時輸入的幀圖像,并且在包括椅子2302的同時生成背景模型。附圖標記2303表示檢測結果,并且此時顯然什么都未檢測到。從人平行移動椅子2302起經過了一定時間段之后的狀態對應于由附圖標記2304表示的幀圖像。向右平行移動椅子2302。然后,隱藏在椅子2302后面的墻壁圖案2305出現。由于在椅子2302位于幀圖像2301中的位置的狀態下生成背景模型,所以也由在幀圖像2304的定時作為椅子2302的移動結果而出現的區域生成差分。附圖標記2306表示背景差分結果。陰影矩形區域2307表示被檢測為物體的區域。區域2307中用粗黑框包圍的矩形區域2308是不以椅子作為背景物體的部分背景區域。通過從物體區域2307提取特征量,由于部分背景區域2308中包括圖案2305,因此也從該區域中提取特征量。
[0156]因此,除“21”外,“22”也被指定為背景物體區域選擇規則的確定條件。在確定條件21的處理之后,在步驟S1907中確定為是,并且移動確定單元214針對作為當前處理對象的背景物體候補區域執行平行移動/面外旋轉確定處理(步驟S1908)。
[0157]下面將參照圖24描述步驟S1908中的平行移動/面外旋轉確定處理的詳情。
[0158]從幀圖像存儲單元215獲取先前的幀圖像(步驟S2401)。要獲取的先前的幀圖像可以是在移動物體(圖23中的椅子2302)之前的幀圖像。例如,可以使用選擇足夠長的固定時間段之前的幀圖像的方法。如果將物體區域信息與幀圖像相關聯地存儲,則也可以使用下面的方法。即,通過參照先前的物體區域信息,能夠找到在在檢測到物體的當前幀的區域中開始檢測物體之前的定時的幀圖像??蛇x地,可以基于背景模型重構圖像。例如,如果由DCT系數表現背景模型,則執行逆DCT變換以將背景模型轉換為由RGB值表現的圖像。
[0159]接下來,從與作為獲取的先前幀中的當前處理對象的物體區域(圖23中的區域2307)相同的區域中,獲取與當前場景ID相對應的類型的特征量(步驟S2402)。在該實施例中,獲取SIFT特征量。
[0160]接下來,比較從先前幀圖像以及當前幀圖像的物體區域中獲取的特征量(步驟
52403),并且確定兩個物體區域中包括的背景物體(圖23中的2302)是否匹配(步驟
52404)。
[0161]更具體地,例如,已知在文獻[YuNakagawa, Tomokazu Takahashi, YoshitoMekada, Ichiro Ide, and Hiroshi Murase, " Landmark symbol detection in realenvironment by mult1-template generation, " Proceedings of Dynamic ImageProcessing for Real Application workshop (DIA2008) ,pp.259-264]中公開的方法。基于特征量之間的歐幾里得距離(Euclidean distance)決定兩個巾貞圖像中的物體區域中的特征量的點(提取了特征量的坐標)之間的對應關系。如果能夠在包括當前幀圖像的物體區域中的相應特征量以及先前幀圖像的物體區域中的相應特征量的多個特征量的點之間計算出適當的投影變換矩陣,則確定維持了相似的位置關系。因此,能夠確定包括相應特征量的當前幀和先前幀中的背景物體(圖23中的2302)匹配。
[0162]如果兩個背景物體匹配,則認為背景物體(圖23中的2302)被平行移動。此時,輸出非對應特征量(從圖23中的部分背景區域2308提取的)(步驟S2405)。如果兩個背景物體不匹配,則認為由于背景物體的面外旋轉而出現了新特征量。此時,認為包括在作為當前對象的物體區域中的所有特征量構成背景物體。
[0163]在上述處理之后,基于當前要處理的背景物體ID以及輸出特征量的坐標,減小加權特征量信息中的非對應特征量的權重(例如減去固定量)(步驟S1909)。
[0164]b.自動門場景:
[0165]第一背景物體區域選擇單元選擇包括人的所有物體區域作為背景物體候補區域。然而,當然,這些區域中的人體區域不是背景物體區域。因此,使用人體檢測單元212檢測為人體的區域不可能是背景物體區域。因此,基于當前待處理的背景物體ID以及人體檢測結果區域的坐標,減小與加權特征量信息中的人體檢測結果區域的內部相對應的特征量的權重(例如減去固定量)。如果能夠輸出人體檢測單元的檢測結果的可信度,則可以與該可信度成反比例地決定權重。
[0166]下面參照圖25說明步驟S309中的背景物體特征信息登記處理的詳情。
[0167]從加權特征量信息(圖22)獲取包括在一個背景物體中的特征量(步驟S2501)。
[0168]接下來,統計量生成單元216根據特征量生成直方圖(步驟S2502)。這已知為文獻[J.Sivic and A.Zisserman, Video google:A text retrieval approach to objectmatching in videos, In Proc.1CCV, 2003.]等中的 “Bag of words”。假定由下面的處理預先決定直方圖的柱(bin)。在特征量空間中通過使用平均數(K-means)法的矢量量化將從各種視頻中獲取的特征量聚合為預定數量(k)。下文中各聚合單元被稱為柱。通過生成直方圖,提取特征量的位置的信息丟失,但是由照明變化、面外旋轉等引起的特征量的改變能夠被吸收。
[0169]請注意,在計算直方圖時,考慮到由第二選擇單元210計算的權重,并且使用乘以權重的值。因此,越可能包括在背景物體區域中的特征量越更大程度地反映到該直方圖(背景物體特征直方圖)中。
[0170]檢查是否針對包括在所有背景物體中的所有特征量生成了背景物體特征直方圖(步驟S2503)。如果在步驟S2503中為否,則控制返回到步驟S2501以重復背景物體特征直方圖的生成(步驟S2502)。在該實施例中,由包括在所有背景物體候補中的所有特征量生成一個背景物體特征直方圖。
[0171]使用乘以權重的特征量的總數來歸一化生成的背景物體特征直方圖(步驟S2504)。這是因為依賴于背景物體的數量、面外旋轉方向等,在檢測到的背景物體候補區域中的特征量的數量不是常數。
[0172]歸一化的背景物體特征直方圖被作為背景物體特征信息登記在背景物體存儲單元218中(步驟S2505)。當已經存儲了背景物體特征信息時,通過將各柱的頻率值的總和除以2來合并兩條信息。以這種方式,由在登記階段中檢測到的所有背景物體候補生成該物體檢測裝置的安裝環境(場景)中的背景物體特征信息。
[0173]由于在登記階段期間頻繁移動各背景物體,因此觀察(檢測)到所有可能的改變。通過基于這些改變生成一個模型,能夠生成當前場景特有的背景模型。
[0174]根據上述方法,能夠從曾經檢測到的物體區域中選擇背景物體區域。此外,通過根據從所有選擇的區域中提取的特征量計算直方圖,能夠生成受背景物體的改變影響較小的背景物體特征信息。
[0175][操作階段]
[0176]下面參照圖26描述本實施例的針對一個幀圖像的操作階段的處理序列。與圖3相同的步驟編號表示與在登記階段中的步驟相同的步驟S301至S305,并且因此將不重復對其描述。
[0177]在步驟S305的處理之后,從規則存儲單元211中的場景相關的特征量類型信息(圖17)提取與當前場景相對應的特征量類型(步驟S2601)。接下來,從物體區域信息(圖11)獲取一個物體區域(其坐標)(步驟S2602)。然后,第二特征量提取單元209以與登記階段的步驟S307中相同的方式,基于獲取的物體區域從輸入幀圖像的相應區域提取與特征量類型相對應的特征量(步驟S2603)。接下來,基于提取的特征量計算直方圖,由此如同登記階段的步驟S2502 —樣,生成背景物體特征直方圖(步驟S2604)。接下來,背景物體識別單元219將從當前待處理的物體區域中獲取的背景物體特征直方圖與背景物體特征信息進行比較(步驟S2605),由此確定物體區域是否包括背景物體(步驟S2606)。
[0178]為實現該確定步驟,使用在文獻[M.J.Swain and D.H.Ballard:Color Indexing,International Journal of Computer Vision,Vol.7,N0.1,pp.11-32(1991)]中公開的直方圖交叉作為相似度。通過比較兩個直方圖的相應柱并計算最小值的總和來計算直方圖交叉。比較相似度與預定閾值,如果相似度高于閾值,則確定背景物體。
[0179]如果在步驟S2606中確定了背景物體,則將相應區域通知給背景模型更新單元205。然后,背景模型存儲單元204中的背景模型的相應區域被添加作為背景。在本實施例中,由于基于持續時間來確定背景和前景(物體),所以包括在背景模型的相應區域中的像素的創建時間被改變為從當前時間回溯了背景變換時間的閾值的時間。改變背景模型(圖5)的相應區域中包括的坐標的激活標記=I的狀態的創建時間。因此,由于相應區域不再被檢測為物體,因此背景物體不再被錯誤地檢測。
[0180]檢查是否針對所有檢測到的物體區域都完成了步驟S2602至S2607中的處理(步驟S2608)。如果仍有待處理的區域,則處理返回到步驟S2602 ;否則,處理結束,以選擇下一待處理的幀圖像。
[0181]根據上述實施例,即使暫時錯誤地檢測到物體,如果它是背景物體,該物體就能夠被作為背景處理,由此抑制了檢測錯誤。換言之,能夠將物體區分為最初包括在背景中的背景物體和新弓I入的物體的同時對物體進行處理。
[0182][其他實施例]
[0183]基于自視頻中提取的特征量出現在視頻中起的持續時間來執行實施例中的背景差分法。然而,本發明不限于該方法,并且可以使用其他各種方法。例如,在初始化定時的輸入幀圖像被原樣用作背景模型,并且與隨后輸入的幀圖像比較以將生成不小于預定值的差分的像素確定為物體。然而,在該情況下,生成上述接待室場景中的背景物體特征信息需要計算物體的持續時間的單元??梢酝ㄟ^進一步包括追蹤單元來實現該單元,該追蹤單元基于在幀之間檢測到的物體區域位置、特征量等來計算關聯。
[0184]在實施例中,背景物體特征直方圖被用作背景物體特征信息。然而,本發明不限于此。例如,也可以從輸入圖像提取背景物體區域,并且按原樣使用像素數據。
[0185]在實施例中,由第一選擇單元208和第二選擇單元210選擇背景物體區域。然而,用戶可以做出選擇。例如,可用下面的方法。首先,使用顯示設備107顯示輸入幀圖像,并且用戶經由輸入設備106指定背景物體區域。可選地,使用顯示設備107暫時顯示由第一選擇單元208和第二選擇單元210選擇的背景物體區域。用戶經由輸入設備106校正顯示的背景物體區域。統計量生成單元216可以從通過上述方法獲得的背景物體區域生成背景物體特征直方圖。
[0186]在實施例中,被背景物體識別單元219確定為背景物體的區域被輸出到背景模型更新單元205,背景模型更新單元205將該區域登記在背景模型中。因此,抑制了后面的檢測錯誤。然而,被確定為背景物體的區域可以被輸出到物體檢測區域輸出單元207,物體檢測區域輸出單元207可以從物體區域信息(圖9)中刪除該區域,從而抑制來自物體檢測裝置的檢測錯誤輸出。
[0187]在圖1中,各設備經由總線109連接??蛇x地,一些設備也可以經由網絡I/F108連接。例如,圖像輸入設備可以經由網絡I/F108連接??蛇x地,所有單元可以被存儲在集成電路芯片中,并且可以與圖像輸入設備105集成。
[0188] 本發明的各方面還能夠通過讀出并執行記錄在存儲設備上的程序來執行上述實施例的功能的系統或裝置的計算機(或諸如CPU或MPU等的設備)來實現,并能夠利用由通過例如讀出并執行記錄在存儲設備上的程序來執行上述實施例的功能的系統或裝置的計算機來執行各步驟的方法來實現。為此,例如經由網絡或從用作存儲設備的各種類型的記錄介質(例如,計算機可讀介質)將程序提供給計算機。雖然參照示例性實施例對本發明進行了描述,但是應當理解,本發明不局限于所公開的示例性實施例。應當對所附權利要求的范圍給予最寬的解釋,以使所述范圍涵蓋所有的此類變型例以及等同結構和功能。
【權利要求】
1.一種物體檢測裝置,該物體檢測裝置包括: 視頻輸入單元,其被配置為輸入視頻; 物體區域檢測單元,其被配置為通過比較輸入的視頻與背景模型來檢測物體區域; 選擇單元,其被配置為選擇最初包括在視頻中的背景物體的區域; 生成單元,其被配置為生成基于包括在背景物體區域中的特征的背景物體特征信息;以及 確定單元,其被配置為使用所述背景物體特征信息確定從輸入的視頻中檢測到的所述物體區域是否是背景物體。
2.根據權利要求1所述的物體檢測裝置,其中,所述背景物體特征信息是基于從所述背景物體區域提取的特征量的統計量。
3.根據權利要求2所述的物體檢測裝置,其中,所述特征量是根據要適用的場景的特征量。
4.根據權利要求1至3中任意一項所述的物體檢測裝置,其中,所述選擇單元基于與要適用的場景相對應的背景物體區域選擇規則來選擇所述背景物體區域。
5.根據權利要求4所述的物體檢測裝置,其中,所述背景物體區域選擇規則基于從所述物體區域出現在視頻中開始的持續時間。
6.根據權利要求4所述的物體檢測裝置,所述物體檢測裝置還包括被配置為檢測運動物體的運動物體檢測單元, 其中,所述背景物體區域選擇規則被用于選擇通過從所述物體區域中排除由所述運動物體檢測單元檢測到的運動物體區域而獲得的區域作為所述背景物體區域。
7.根據權利要求4所述的物體檢測裝置,所述物體檢測裝置還包括平移/旋轉確定單元,其被配置為確定所述物體區域被檢測作為物體的平行移動的結果還是被檢測作為物體的面外旋轉的結果, 其中,所述背景物體區域選擇規則被用于在所述平移/旋轉確定單元確定所述物體區域被檢測作為平行移動的結果的情況下,選擇通過排除作為平行移動的結果而出現的部分背景區域而獲得的區域作為所述背景物體區域。
8.根據權利要求1所述的物體檢測裝置,其中,所述確定單元包括被配置為基于確定結果更新所述背景模型的單元。
9.一種控制物體檢測裝置的控制方法,該物體檢測裝置包括被配置為輸入視頻的視頻輸入單元,并檢測所述視頻中的物體,所述控制方法包括: 物體區域檢測步驟,通過比較來自所述視頻輸入單元的輸入視頻與背景模型來檢測物體區域; 選擇步驟,選擇最初包括在視頻中的背景物體的區域; 生成步驟,控制生成單元生成基于包括在背景物體區域中的特征的背景物體特征信息;以及 確定步驟,使用所述背景物體特征信息確定從所述輸入視頻中檢測到的所述物體區域是否是背景物體。
【文檔編號】G06T7/00GK103632379SQ201310367582
【公開日】2014年3月12日 申請日期:2013年8月21日 優先權日:2012年8月22日
【發明者】東條洋 申請人:佳能株式會社