本公開(kāi)涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種圖像識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
隨著智能人機(jī)交互技術(shù)的發(fā)展,計(jì)算機(jī)通常需要對(duì)采集到的圖像進(jìn)行識(shí)別,以便于計(jì)算機(jī)根據(jù)該圖像確定用戶的當(dāng)前動(dòng)作。如計(jì)算機(jī)對(duì)采集到的人臉圖像進(jìn)行識(shí)別,以確定用戶的當(dāng)前表情。
相關(guān)技術(shù)中,在計(jì)算機(jī)中預(yù)先設(shè)置有多個(gè)標(biāo)定圖像,每個(gè)標(biāo)定圖像對(duì)應(yīng)一個(gè)類別。當(dāng)計(jì)算機(jī)接收到需要進(jìn)行識(shí)別的目標(biāo)圖像時(shí),提取目標(biāo)圖像的特征向量,通過(guò)度量學(xué)習(xí)方法確定目標(biāo)圖像的特征向量和多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量之間的距離,得到多個(gè)距離,并將距離小于預(yù)設(shè)距離的標(biāo)定圖像的類別確定為目標(biāo)圖像的類別,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種圖像識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述技術(shù)方案如下:
根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種圖像識(shí)別方法,所述方法包括:
確定待識(shí)別的目標(biāo)圖像的特征向量;
通過(guò)lsh(locality-sensitivehashing,局部敏感哈希編碼)方法對(duì)所述目標(biāo)圖像的特征向量進(jìn)行編碼,得到所述目標(biāo)圖像的特征向量的哈希序列;
根據(jù)所述目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從所述多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定所述目標(biāo)圖像的類別。
可選地,所述根據(jù)所述目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從所述多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定所述目標(biāo)圖像的類別,包括:
通過(guò)所述lsh方法確定所述多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列;
確定所述目標(biāo)圖像的特征向量的哈希序列和每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離;
將漢明距離小于預(yù)設(shè)距離的標(biāo)定圖像對(duì)應(yīng)的類別確定為所述目標(biāo)圖像的類別。
可選地,所述通過(guò)lsh方法對(duì)所述目標(biāo)圖像的特征向量進(jìn)行編碼,得到所述目標(biāo)圖像的特征向量的哈希序列,包括:
隨機(jī)產(chǎn)生n個(gè)服從正態(tài)分布的向量,得到n個(gè)隨機(jī)向量;
對(duì)于所述n個(gè)隨機(jī)向量中的每個(gè)隨機(jī)向量,根據(jù)所述隨機(jī)向量,按照如下公式確定所述目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素;
其中,hr(x)為所述目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,r為所述隨機(jī)向量,x為所述目標(biāo)圖像的特征向量,l為指定度量矩陣的柯列斯基分解矩陣。
可選地,所述通過(guò)lsh方法對(duì)所述目標(biāo)圖像的特征向量進(jìn)行編碼,得到所述目標(biāo)圖像的特征向量的哈希序列之前,還包括:
確定訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多個(gè)樣本圖像;
根據(jù)所述訓(xùn)練樣本集中的多個(gè)樣本圖像,確定所述指定度量矩陣;
對(duì)所述指定度量矩陣進(jìn)行分解,得到所述指定度量矩陣的柯列斯基分解矩陣。
可選地,所述確定待識(shí)別的目標(biāo)圖像的特征向量,包括:
確定所述目標(biāo)圖像中目標(biāo)對(duì)象的位置,并通過(guò)預(yù)設(shè)算法根據(jù)所述目標(biāo)對(duì)象的位置獲取所述目標(biāo)對(duì)象包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,所述目標(biāo)對(duì)象包括人臉;
根據(jù)所述多個(gè)預(yù)設(shè)特征點(diǎn)的位置,確定所述目標(biāo)圖像的形狀特征向量;
確定所述多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征,基于確定得到的gabor特征生成所述目標(biāo)圖像的紋理特征向量;
將所述形狀特征向量和所述紋理特征向量合并,得到所述目標(biāo)圖像的特征向量。
根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種圖像識(shí)別裝置,所述裝置包括:
第一確定模塊,用于確定待識(shí)別的目標(biāo)圖像的特征向量;
編碼模塊,用于通過(guò)lsh方法對(duì)所述目標(biāo)圖像的特征向量進(jìn)行編碼,得到所述目標(biāo)圖像的特征向量的哈希序列;
第二確定模塊,用于根據(jù)所述目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從所述多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定所述目標(biāo)圖像的類別。
可選地,所述第二確定模塊包括:
第一確定子模塊,用于通過(guò)所述lsh方法確定所述多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列;
第二確定子模塊,用于確定所述目標(biāo)圖像的特征向量的哈希序列和每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離;
第三確定子模塊,用于將漢明距離小于預(yù)設(shè)距離的標(biāo)定圖像對(duì)應(yīng)的類別確定為所述目標(biāo)圖像的類別。
可選地,所述編碼模塊,具體用于:
隨機(jī)產(chǎn)生n個(gè)服從正態(tài)分布的向量,得到n個(gè)隨機(jī)向量;
對(duì)于所述n個(gè)隨機(jī)向量中的每個(gè)隨機(jī)向量,根據(jù)所述隨機(jī)向量,按照如下公式確定所述目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素;
其中,hr(x)為所述目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,r為所述隨機(jī)向量,x為所述目標(biāo)圖像的特征向量,l為指定度量矩陣的柯列斯基分解矩陣。
可選地,所述裝置還包括:
第三確定模塊,用于確定訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多個(gè)樣本圖像;
第四確定模塊,用于根據(jù)所述訓(xùn)練樣本集中的多個(gè)樣本圖像,確定所述指定度量矩陣;
分解模塊,用于對(duì)所述指定度量矩陣進(jìn)行分解,得到所述指定度量矩陣的柯列斯基分解矩陣。
可選地,所述第一確定模塊,包括:
第四確定子模塊,用于確定所述目標(biāo)圖像中目標(biāo)對(duì)象的位置,并通過(guò)預(yù)設(shè)算法根據(jù)所述目標(biāo)對(duì)象的位置獲取所述目標(biāo)對(duì)象包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,所述目標(biāo)對(duì)象包括人臉;
第五確定子模塊,用于根據(jù)所述多個(gè)預(yù)設(shè)特征點(diǎn)的位置,確定所述目標(biāo)圖像的形狀特征向量;
第六確定子模塊,用于確定所述多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征,基于確定得到的gabor特征生成所述目標(biāo)圖像的紋理特征向量;
合并子模塊,用于將所述形狀特征向量和所述紋理特征向量合并,得到所述目標(biāo)圖像的特征向量。
根據(jù)本公開(kāi)實(shí)施例的第三方面,提供另一種圖像識(shí)別裝置,所述裝置包括:
處理器;
用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為執(zhí)行上述第一方面所述的圖像識(shí)別方法。
根據(jù)本公開(kāi)實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,所述指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的圖像識(shí)別方法。
本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
在本公開(kāi)實(shí)施例中,根據(jù)目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,確定目標(biāo)圖像的類別,也即確定目標(biāo)圖像和該多個(gè)標(biāo)定圖像中的哪個(gè)標(biāo)定圖像最相似,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。由于哈希序列為通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼得到的序列,因此,通過(guò)目標(biāo)圖像的特征向量的哈希序列來(lái)確定目標(biāo)圖像的類別,可以避免直接通過(guò)確定目標(biāo)圖像的特征向量和每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)確定目標(biāo)圖像的類別,便于對(duì)該目標(biāo)圖像快速進(jìn)行識(shí)別。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
附圖說(shuō)明
此處的附圖被并入說(shuō)明書中并構(gòu)成本說(shuō)明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說(shuō)明書一起用于解釋本發(fā)明的原理。
圖1是本公開(kāi)實(shí)施例提供的一種圖像識(shí)別方法流程圖。
圖2是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別方法流程圖。
圖3a是本公開(kāi)實(shí)施例提供的一種圖像識(shí)別裝置框圖。
圖3b是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別裝置框圖。
圖4是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別裝置框圖。
圖5是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別裝置框圖。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
在對(duì)本公開(kāi)實(shí)施例進(jìn)行詳細(xì)解釋說(shuō)明之前,先對(duì)本公開(kāi)實(shí)施例涉及的名詞進(jìn)行解釋說(shuō)明。
特征向量:是指用于描述圖像中包括的對(duì)象的具體特征的一組向量,如對(duì)于一張包括人臉的圖像,該圖像的特征向量是指用于描述人臉的形狀以及人臉包括的像素點(diǎn)的像素值分布情況的一組向量。
lsh方法:是一種用于從海量的高維數(shù)據(jù)集合中查找與某個(gè)數(shù)據(jù)最相似的一組數(shù)據(jù)的算法。
哈希序列:將一組數(shù)據(jù)中的每個(gè)數(shù)據(jù)分別通過(guò)預(yù)設(shè)哈希函數(shù)得到一個(gè)哈希值,得到的一組哈希值稱為該一組數(shù)據(jù)的哈希序列。
漢明距離:是指兩個(gè)長(zhǎng)度相同的字符串對(duì)應(yīng)位置上的不同字符的個(gè)數(shù),如字符串1011101與字符串1001001之間的漢明距離是2,字符串toned與字符串roses之間的漢明距離是3。
度量學(xué)習(xí):也即相似度學(xué)習(xí),用于度量不同圖像之間的相似度,以使不同類別的圖像之間的相似度更小,相同類別的圖像之間的相似度更大。
度量矩陣:為度量學(xué)習(xí)中用于確定度量函數(shù)的一個(gè)矩陣,其中度量函數(shù)用于確定兩個(gè)不同圖像之間的距離,也即兩個(gè)不同圖像之間的相似度。
柯列斯基(cholesky)分解:是指將一個(gè)正定矩陣分解為一個(gè)上三角矩陣和一個(gè)下三個(gè)矩陣的方法,或?qū)⒁粋€(gè)正定矩陣分解為一個(gè)三角矩陣和一個(gè)該三角矩陣的轉(zhuǎn)置矩陣的方法,其中,將柯列斯基分解得到的矩陣稱為柯列斯基分解矩陣。
gabor特征:是指用于描述一張圖像不同尺度不同方向的局部范圍內(nèi)的像素灰度值的變化情況的數(shù)據(jù)。
接下來(lái)對(duì)本公開(kāi)實(shí)施例的應(yīng)用場(chǎng)景進(jìn)行介紹。在智能人機(jī)交互技術(shù)中,計(jì)算機(jī)通常需要對(duì)采集到的圖像進(jìn)行識(shí)別,以便于計(jì)算機(jī)根據(jù)該圖像確定用戶的當(dāng)前動(dòng)作或?qū)τ脩舻纳矸菪畔⑦M(jìn)行認(rèn)證。如計(jì)算機(jī)可以根據(jù)采集的人臉圖像,確定用戶當(dāng)前處于喜悅狀態(tài)、憤怒狀態(tài)還是害怕?tīng)顟B(tài)等。又例如,計(jì)算機(jī)還可以根據(jù)采集的人臉圖像,對(duì)該人臉圖像進(jìn)行識(shí)別,以確定該用戶的身份信息,如人臉打卡技術(shù)。而本公開(kāi)實(shí)施例提供的圖像識(shí)別方法就應(yīng)用于計(jì)算機(jī)對(duì)采集到的人臉圖像進(jìn)行識(shí)別的場(chǎng)景中。為了后續(xù)便于說(shuō)明,將待進(jìn)行識(shí)別的圖像稱為目標(biāo)圖像。
相關(guān)技術(shù)中,計(jì)算機(jī)直接通過(guò)確定目標(biāo)圖像的特征向量和多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)對(duì)目標(biāo)圖像進(jìn)行識(shí)別,由于圖像的特征向量的維數(shù)通常較大,且通過(guò)度量學(xué)習(xí)的方法確定兩個(gè)圖像的特征向量之間的距離通常涉及到矩陣的相關(guān)運(yùn)算,導(dǎo)致直接確定兩個(gè)圖像的特征向量之間的距離的過(guò)程比較復(fù)雜,不利于計(jì)算機(jī)對(duì)目標(biāo)圖像快速進(jìn)行識(shí)別。
因此,在本公開(kāi)實(shí)施例中,通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼,得到目標(biāo)圖像的特征向量的哈希序列,并根據(jù)目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,確定目標(biāo)圖像的類別,也即確定目標(biāo)圖像和該多個(gè)標(biāo)定圖像中的哪個(gè)標(biāo)定圖像最相似,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。由于哈希序列為通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼得到的序列,因此,通過(guò)目標(biāo)圖像的特征向量的哈希序列來(lái)確定目標(biāo)圖像的類別,可以避免直接通過(guò)確定目標(biāo)圖像的特征向量和每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)確定目標(biāo)圖像的類別,便于對(duì)該目標(biāo)圖像快速進(jìn)行識(shí)別。
下面將結(jié)合附圖為本公開(kāi)實(shí)施例提供的圖像識(shí)別方法進(jìn)行詳細(xì)說(shuō)明。
圖1為本公開(kāi)實(shí)施例提供的一種圖像識(shí)別方法流程圖,該方法應(yīng)用于任何需要對(duì)圖像進(jìn)行分類的設(shè)備中,該設(shè)備可以為終端或服務(wù)器。如圖1所示,該方法包括以下步驟。
在步驟101中,確定待識(shí)別的目標(biāo)圖像的特征向量。
在步驟102中,通過(guò)lsh方法對(duì)該目標(biāo)圖像的特征向量進(jìn)行編碼,得到該目標(biāo)圖像的特征向量的哈希序列。
在步驟103中,根據(jù)該目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從該多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定該目標(biāo)圖像的類別。
在本公開(kāi)實(shí)施例中,根據(jù)目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,確定目標(biāo)圖像的類別,也即確定目標(biāo)圖像和該多個(gè)標(biāo)定圖像中的哪個(gè)標(biāo)定圖像最相似,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。由于哈希序列為通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼得到的序列,因此,通過(guò)目標(biāo)圖像的特征向量的哈希序列來(lái)確定目標(biāo)圖像的類別,可以避免直接通過(guò)確定目標(biāo)圖像的特征向量和每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)確定目標(biāo)圖像的類別,便于對(duì)該目標(biāo)圖像快速進(jìn)行識(shí)別。
可選地,根據(jù)該目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從該多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定該目標(biāo)圖像的類別,包括:
通過(guò)該lsh方法確定該多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列;
確定該目標(biāo)圖像的特征向量的哈希序列和每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離;
將漢明距離小于預(yù)設(shè)距離的標(biāo)定圖像對(duì)應(yīng)的類別確定為該目標(biāo)圖像的類別。
可選地,通過(guò)lsh方法對(duì)該目標(biāo)圖像的特征向量進(jìn)行編碼,得到該目標(biāo)圖像的特征向量的哈希序列,包括:
隨機(jī)產(chǎn)生n個(gè)服從正態(tài)分布的向量,得到n個(gè)隨機(jī)向量;
對(duì)于該n個(gè)隨機(jī)向量中的每個(gè)隨機(jī)向量,根據(jù)該隨機(jī)向量,按照如下公式確定該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素;
其中,hr(x)為該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,r為該隨機(jī)向量,x為該目標(biāo)圖像的特征向量,l為指定度量矩陣的柯列斯基分解矩陣。
可選地,通過(guò)lsh方法對(duì)該目標(biāo)圖像的特征向量進(jìn)行編碼,得到該目標(biāo)圖像的特征向量的哈希序列之前,還包括:
確定訓(xùn)練樣本集,該訓(xùn)練樣本集包括多個(gè)樣本圖像;
根據(jù)該訓(xùn)練樣本集中的多個(gè)樣本圖像和該多個(gè)標(biāo)定圖像,確定該指定度量矩陣;
對(duì)該指定度量矩陣進(jìn)行分解,得到該指定度量矩陣的柯列斯基分解矩陣。
可選地,該確定待識(shí)別的目標(biāo)圖像的特征向量,包括:
確定該目標(biāo)圖像中目標(biāo)對(duì)象的位置,并通過(guò)預(yù)設(shè)算法根據(jù)該目標(biāo)對(duì)象的位置獲取該目標(biāo)對(duì)象包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,該目標(biāo)對(duì)象包括人臉;
根據(jù)該多個(gè)預(yù)設(shè)特征點(diǎn)的位置,確定該目標(biāo)圖像的形狀特征向量;
確定該多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征,基于確定得到的gabor特征生成該目標(biāo)圖像的紋理特征向量;
將該形狀特征向量和該紋理特征向量合并,得到該目標(biāo)圖像的特征向量。
上述所有可選技術(shù)方案,均可按照任意結(jié)合形成本公開(kāi)的可選實(shí)施例,本公開(kāi)實(shí)施例對(duì)此不再一一贅述。
圖2為本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別方法流程圖,該方法應(yīng)用于任何需要對(duì)圖像進(jìn)行分類的設(shè)備中,該設(shè)備可以為終端或服務(wù)器。如圖2所示,該方法包括以下步驟。
在本公開(kāi)實(shí)施例中,為了對(duì)目標(biāo)圖像進(jìn)行識(shí)別,需先提取該目標(biāo)圖像中用于描述該目標(biāo)圖像具體特征的數(shù)據(jù),也即確定該待識(shí)別的目標(biāo)圖像的特征向量。其中,確定該目標(biāo)圖像的特征向量可以通過(guò)下述步驟201至步驟204來(lái)實(shí)現(xiàn)。
在步驟201中,確定該目標(biāo)圖像中目標(biāo)對(duì)象的位置,并通過(guò)預(yù)設(shè)算法根據(jù)該目標(biāo)對(duì)象的位置獲取該目標(biāo)對(duì)象包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,該目標(biāo)對(duì)象包括人臉。
由于不同的目標(biāo)圖像中目標(biāo)對(duì)象所處的位置可能不同,如對(duì)于不同的目標(biāo)圖像,每個(gè)目標(biāo)圖像中人臉的位置和另一個(gè)目標(biāo)圖像中人臉的位置可能不相同,因此,在得到待識(shí)別的目標(biāo)圖像時(shí),需先確定目標(biāo)圖像中目標(biāo)對(duì)象的位置,也即對(duì)目標(biāo)對(duì)象進(jìn)行定位。
當(dāng)目標(biāo)對(duì)象為人臉時(shí),確定該目標(biāo)圖像中目標(biāo)對(duì)象的位置的實(shí)現(xiàn)過(guò)程可以為:通過(guò)asef(averageofsyntheticexactfilters,平均合成精確濾波器)方法對(duì)目標(biāo)圖像進(jìn)行濾波,得到濾波后的圖像;根據(jù)濾波后的圖像,確定該圖像中用于表征人臉特征的某個(gè)器官的位置,如眼睛或鼻子的位置,以實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象人臉的定位,此時(shí)人臉的位置也即用于表征人臉特征的某個(gè)器官的位置。為了后續(xù)便于說(shuō)明,將該用于表征人臉特征的某個(gè)器官的位置稱為標(biāo)定點(diǎn)的位置。
當(dāng)確定出人臉位置也即標(biāo)定點(diǎn)的位置時(shí),通過(guò)預(yù)設(shè)算法根據(jù)該人臉的位置獲取該人臉包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,也即,根據(jù)標(biāo)定點(diǎn)的位置,確定人臉中各器官的分布區(qū)域,并根據(jù)人臉中各器官的分布區(qū)域的投影圖確定該人臉包括的多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo),也即確定該多個(gè)預(yù)設(shè)特征點(diǎn)的位置。
其中,標(biāo)定點(diǎn)的位置為該標(biāo)定點(diǎn)在該目標(biāo)圖像中的坐標(biāo),該多個(gè)預(yù)設(shè)特征點(diǎn)的位置為該多個(gè)預(yù)設(shè)特征點(diǎn)在該目標(biāo)圖像中的坐標(biāo)。
需要說(shuō)明的是,當(dāng)目標(biāo)對(duì)象為人臉時(shí),除了可以通過(guò)asef方法確定該目標(biāo)圖像中目標(biāo)對(duì)象的位置之外,還可以通過(guò)其他方法確定目標(biāo)對(duì)象的位置,如通過(guò)sdf(syntheticdiscriminantfunction,綜合鑒別函數(shù))濾波方法或mace(minimumaveragecorrelationenergy,最小平均相關(guān)能量)濾波方法來(lái)確定目標(biāo)對(duì)象的位置,本公開(kāi)實(shí)施例在此不做具體限定。
在步驟202中,根據(jù)該多個(gè)預(yù)設(shè)特征點(diǎn)的位置,確定該目標(biāo)圖像的形狀特征向量。
由于不同目標(biāo)圖像中的標(biāo)定點(diǎn)的位置可能并不相同,為了后續(xù)便于對(duì)該多個(gè)預(yù)設(shè)特征點(diǎn)的位置進(jìn)行處理,當(dāng)確定出標(biāo)定點(diǎn)的位置和該多個(gè)預(yù)設(shè)特征點(diǎn)的位置時(shí),也即確定出該標(biāo)定點(diǎn)的坐標(biāo)和該多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo),此時(shí)將該標(biāo)定點(diǎn)設(shè)置為坐標(biāo)原點(diǎn),對(duì)該多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo)進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的該多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo)。
之后,根據(jù)轉(zhuǎn)換后的該多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo),確定該目標(biāo)對(duì)象的形狀特征向量。也即,根據(jù)轉(zhuǎn)換后的該多個(gè)預(yù)設(shè)特征點(diǎn)的坐標(biāo),確定該多個(gè)預(yù)設(shè)特征點(diǎn)中任意兩個(gè)特征點(diǎn)之間的距離,以及該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的夾角。并將該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的距離,以及該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的夾角構(gòu)成的一組數(shù)據(jù)確定為該目標(biāo)圖像的形狀特征向量。
例如,該多個(gè)預(yù)設(shè)特征點(diǎn)為68個(gè)預(yù)設(shè)特征點(diǎn),此時(shí)在得到該68個(gè)預(yù)設(shè)特征點(diǎn)轉(zhuǎn)換后的坐標(biāo)之后,確定該68個(gè)預(yù)設(shè)特征點(diǎn)中任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的距離和該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的夾角,得到
可選地,在確定該多個(gè)預(yù)設(shè)特征點(diǎn)中任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的距離以及該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的夾角之后,還可以通過(guò)其他方式確定該目標(biāo)圖像的形狀特征向量。例如,可以從該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的距離以及該任意兩個(gè)預(yù)設(shè)特征點(diǎn)之間的夾角中選取指定數(shù)量的數(shù)據(jù),并將選取的數(shù)據(jù)確定為該目標(biāo)圖像的形狀特征向量。
在步驟203中,確定該多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征,基于確定得到的gabor特征生成該目標(biāo)圖像的紋理特征向量。
由于目標(biāo)圖像包括各種各樣的紋理,也即目標(biāo)圖像在不同方向和不同尺度上的局部范圍內(nèi)的像素點(diǎn)的灰度值的變化情況并不相同,因此可以通過(guò)目標(biāo)圖像的紋理來(lái)表征目標(biāo)圖像的特征。
其中,獲取目標(biāo)圖像在不同方向和不同尺度上的局部范圍內(nèi)的像素點(diǎn)的灰度值的變化情況可以通過(guò)二維gabor濾波器來(lái)實(shí)現(xiàn)。也即,對(duì)于該多個(gè)預(yù)設(shè)特征點(diǎn)中的每個(gè)預(yù)設(shè)特征點(diǎn),以該預(yù)設(shè)特征點(diǎn)為中心,確定一個(gè)大小為預(yù)設(shè)大小的區(qū)域,通過(guò)二維gabor濾波器確定該區(qū)域的gabor特征,并將該區(qū)域的gabor特征確定為該預(yù)設(shè)特征點(diǎn)的gabor特征。
在得到每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征之后,將該多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征組合,得到一組數(shù)據(jù),并將該一組數(shù)據(jù)確定為該目標(biāo)圖像的紋理特征向量。例如,對(duì)于目標(biāo)圖像中的人臉有68個(gè)預(yù)設(shè)特征點(diǎn),將該68個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征組合為一組數(shù)據(jù),得到該人臉圖像的紋理特征向量。
需要說(shuō)明的是,由于二維gabor濾波器確定的是局部區(qū)域在不同方向和不同尺度上的像素點(diǎn)的灰度值的變化情況,因此,對(duì)于某個(gè)局部區(qū)域,二維gabor濾波器獲取的該局部區(qū)域的gabor特征包括多個(gè)數(shù)據(jù)。例如,當(dāng)二維gabor濾波器用于獲取5個(gè)尺度8個(gè)方向上的gabor特征時(shí),對(duì)于某個(gè)局部區(qū)域,該二維gabor濾波器獲取的該局部區(qū)域的gabor特征包括40個(gè)數(shù)據(jù),該40個(gè)數(shù)據(jù)中的任一個(gè)數(shù)據(jù)用于指示該局部區(qū)域在上述5個(gè)尺度8個(gè)方向中的一個(gè)尺度一個(gè)方向上的像素點(diǎn)的灰度值的變化情況。
在步驟204中,將該形狀特征向量和該紋理特征向量合并,得到該目標(biāo)圖像的特征向量。
由步驟202和步驟203可知,目標(biāo)圖像的形狀特征向量和目標(biāo)圖像的紋理特征向量分別為一組數(shù)據(jù),因此可以直接將該兩組數(shù)據(jù)合并,并將合并后的一組數(shù)據(jù)確定為該目標(biāo)圖像的特征向量。
例如,目標(biāo)圖像的形狀特征向量為(x1、x2、…、xn),目標(biāo)圖像的紋理特征向量為(y1、y2、…、ym),此時(shí),目標(biāo)圖像的特征向量可以表示為(x1、x2、…、xn、y1、y2、…、ym)。
在本公開(kāi)實(shí)施例中,為了提高識(shí)別目標(biāo)圖像的速度,在得到目標(biāo)圖像的特征向量之后,并沒(méi)有直接根據(jù)目標(biāo)圖像的特征向量,確定目標(biāo)圖像的特征向量和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像中的每個(gè)標(biāo)定圖像的特征向量之間的距離,而是對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼,并根據(jù)目標(biāo)圖像的特征向量的編碼值來(lái)對(duì)目標(biāo)圖像進(jìn)行識(shí)別。其中,對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼可以通過(guò)下述步驟205和步驟206來(lái)實(shí)現(xiàn)。
在步驟205中,確定lsh方法中指定度量矩陣的柯列斯基分解矩陣。
由于本公開(kāi)實(shí)施例是通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼,而本公開(kāi)實(shí)施例提供的lsh方法涉及到度量矩陣的柯列斯基分解矩陣,因此,在對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼之前,需要先確定指定度量矩陣的柯列斯基分解矩陣。
在一種可能的實(shí)現(xiàn)方式中,步驟205的實(shí)現(xiàn)過(guò)程可以為:確定訓(xùn)練樣本集,該訓(xùn)練樣本集包括多個(gè)樣本圖像;根據(jù)該訓(xùn)練樣本集中的多個(gè)樣本圖像,確定該指定度量矩陣;對(duì)該指定度量矩陣進(jìn)行分解,得到該指定度量矩陣的柯列斯基分解矩陣。
其中,根據(jù)該訓(xùn)練樣本集中的多個(gè)樣本圖像,確定該指定度量矩陣的實(shí)現(xiàn)過(guò)程可以為:對(duì)于該訓(xùn)練樣本集中包括的多個(gè)樣本圖像,確定相似集合和非相似集合,其中,相似集合為該多個(gè)樣本圖像中類別相同的圖像構(gòu)成的集合,非相似集合為該多個(gè)樣本圖像中類別不相同的圖像構(gòu)成的集合。對(duì)于相似集合,假設(shè)相似集合中任意兩個(gè)圖像之間的馬氏距離小于等于第一閾值;對(duì)于非相似集合,假設(shè)非相似集合中任意兩個(gè)圖像之間的馬氏距離大于等于第二閾值,其中,第二閾值大于等于第一閾值。此時(shí),可以根據(jù)下述公式確定該指定度量矩陣:
mindld(a,a0)
其中,a為該指定度量矩陣,a0為單位矩陣,dld(a,a0)為布雷格曼散度,s為上述相似集合,d為上述非相似集合,l為第一閾值,μ為第二閾值,xi,xj為上述訓(xùn)練樣本集中任意兩個(gè)樣本圖像的特征向量。
也即,對(duì)于該訓(xùn)練樣本集中任意兩個(gè)樣本圖像,當(dāng)該兩個(gè)樣本圖像為相似集合中的圖像時(shí),滿足該兩個(gè)樣本圖像的特征向量之間的馬氏距離小于等于第一閾值,當(dāng)該兩個(gè)樣本圖像為非相似集合中的圖像時(shí),滿足該兩個(gè)樣本圖像的特征向量之間的馬氏距離小于等于第二閾值。在該條件下,假設(shè)該指定度量矩陣為已知矩陣,確定該指定度量矩陣和單位矩陣a0之間的布雷格曼散度dld(a,a0),此時(shí),在該雷格曼散度dld(a,a0)最小時(shí)對(duì)應(yīng)的矩陣即為該指定度量矩陣。
另外,兩個(gè)樣本圖像的特征向量之間的馬氏距離可以通過(guò)下述公式確定:
當(dāng)確定出該lsh方法中的指定度量矩陣a時(shí),通過(guò)下述公式確定該指定度量矩陣a的柯列斯基分解矩陣:
a=llt
其中,l即為指定度量矩陣a的柯列斯基分解矩陣。
當(dāng)確定出該指定度量矩陣a的柯列斯基分解矩陣,可以通過(guò)下述步驟206對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼。
需要說(shuō)明的是,上述確定該指定度量矩陣是通過(guò)基于信息論的距離度量學(xué)習(xí)方法實(shí)現(xiàn)的,當(dāng)然在本公開(kāi)實(shí)施例中,還可以通過(guò)其他方法確定該指定度量矩陣。例如,可以通過(guò)基于成對(duì)約束的距離度量學(xué)習(xí)方法或通過(guò)基于樣本對(duì)距離和的距離度量學(xué)習(xí)方法來(lái)確定該指定度量矩陣,本公開(kāi)實(shí)施例在此不做具體限定。
另外需要說(shuō)明的是,步驟205可以在步驟204之后,也可以在步驟201之前,本公開(kāi)實(shí)施例對(duì)此不做具體限定。實(shí)際應(yīng)用中,只需保證步驟205在步驟206之前即可。
值得注意的是,在本公開(kāi)實(shí)施例中,可以通過(guò)上述步驟205來(lái)確定lsh方法中的指定度量矩陣,當(dāng)然,也可以預(yù)先設(shè)置該指定度量矩陣,也即,在對(duì)目標(biāo)圖像進(jìn)行識(shí)別之前,預(yù)先為該lsh方法設(shè)置一個(gè)矩陣,將設(shè)置的矩陣確定為該指定度量矩陣,并確定該指定度量矩陣的柯列斯基分解矩陣。
在步驟206中,通過(guò)lsh方法對(duì)該目標(biāo)圖像的特征向量進(jìn)行編碼,得到該目標(biāo)圖像的特征向量的哈希序列。
其中,步驟206的實(shí)現(xiàn)過(guò)程可以為:隨機(jī)產(chǎn)生n個(gè)服從正態(tài)分布的向量,得到n個(gè)隨機(jī)向量;對(duì)于該n個(gè)隨機(jī)向量中的每個(gè)隨機(jī)向量,根據(jù)該隨機(jī)向量,按照如下公式確定該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素;
其中,hr(x)為該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,r為該隨機(jī)向量,x為該目標(biāo)圖像的特征向量,l為指定度量矩陣的柯列斯基分解矩陣。
為了便于說(shuō)明,將該n個(gè)隨機(jī)向量標(biāo)記為(r1、r2、…、rn),對(duì)于該n個(gè)隨機(jī)向量中任一個(gè)隨機(jī)向量ri,根據(jù)上述公式確定一個(gè)編碼值,并將該編碼值確定該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,標(biāo)記為hi。當(dāng)對(duì)該n個(gè)隨機(jī)向量均執(zhí)行該操作時(shí),得到n個(gè)編碼值(h1、h2、…、hn),該n個(gè)編碼值(h1、h2、…、hn)即為該目標(biāo)圖像的特征向量的哈希序列,也即該目標(biāo)圖像的特征向量的哈希序列的長(zhǎng)度為n。
其中,n為預(yù)設(shè)個(gè)數(shù),n可以為5、10或15等。另外,該n個(gè)隨機(jī)向量中每個(gè)隨機(jī)向量的長(zhǎng)度相同,且每個(gè)隨機(jī)向量ri的長(zhǎng)度和該目標(biāo)圖像的特征向量的長(zhǎng)度相同,如該目標(biāo)圖像的特征向量的長(zhǎng)度為1000,則每個(gè)隨機(jī)向量ri的長(zhǎng)度也為1000,也即每個(gè)隨機(jī)向量ri中均包括1000個(gè)隨機(jī)數(shù)據(jù)。
在步驟207中,根據(jù)該目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從該多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定該目標(biāo)圖像的類別。
步驟207的實(shí)現(xiàn)過(guò)程可以為:通過(guò)該lsh方法確定該多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列;確定該目標(biāo)圖像的特征向量的哈希序列和每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離;將漢明距離小于預(yù)設(shè)距離的標(biāo)定圖像對(duì)應(yīng)的類別確定為該目標(biāo)圖像的類別。
其中,通過(guò)該lsh方法確定該多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列,可以參考步驟206中通過(guò)該lsh方法確定該目標(biāo)圖像的特征向量的哈希序列的實(shí)現(xiàn)過(guò)程,本公開(kāi)實(shí)施例在此不做詳細(xì)闡述。
當(dāng)確定出每個(gè)標(biāo)定圖像的特征向量的哈希序列之后,對(duì)于每個(gè)標(biāo)定圖像的特征向量的哈希序列,確定該目標(biāo)圖像的特征向量的哈希序列和該標(biāo)定圖像的特征向量的哈希序列對(duì)應(yīng)位置上字符不同的個(gè)數(shù),并將該字符不同的個(gè)數(shù)確定為該目標(biāo)對(duì)象的特征向量的哈希序列和該標(biāo)定圖像的特征向量的哈希序列之間的漢明距離。然后通過(guò)得到的多個(gè)漢明距離確定該目標(biāo)圖像的類別。
其中,預(yù)設(shè)距離為預(yù)先設(shè)置的數(shù)值,該預(yù)設(shè)距離可以為2、5或10等。
例如,預(yù)設(shè)距離為2,該多個(gè)標(biāo)定圖像分別為圖像1、圖像2、圖像3、圖像4、圖像5、圖像6和圖像7。該7個(gè)標(biāo)定圖像分別用于指示不同的表情,也即圖像1的類別為“中性”、圖像2的類別為“憤怒”、圖像3的類別為“厭惡”、圖像4的類別為“害怕”、圖像5的類別為“喜悅”、圖像6的類別為“悲傷”以及圖像7的類別為“驚訝”。
通過(guò)上述方法確定目標(biāo)圖像的特征向量的哈希序列和上述每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離依次為:3、10、15、1、8、6和4。此時(shí),只有圖像4的特征向量的哈希序列和該目標(biāo)圖像的特征向量的哈希序列之間的漢明距離小于該預(yù)設(shè)距離2,因此可以將圖像4的類別確定為該目標(biāo)圖像的類別,也即目標(biāo)圖像的類別為“害怕”,從而實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。
需要說(shuō)明的是,步驟207中的lsh方法中使用的n個(gè)隨機(jī)向量需和步驟206中的lsh方法中使用的n個(gè)隨機(jī)向量相同,且n個(gè)隨機(jī)向量的排序也需相同。也即,當(dāng)在步驟206中使用n個(gè)隨機(jī)向量(r1、r2、…、rn)依次確定該目標(biāo)圖像的特征向量的哈希序列中的元素時(shí),在步驟207中,也需使用該n個(gè)隨機(jī)向量(r1、r2、…、rn)依次確定該每個(gè)標(biāo)定圖像的特征向量的哈希序列中的元素。
另外,確定每個(gè)標(biāo)定圖像的特征向量和步驟201至步驟204中確定該目標(biāo)圖像的特征向量的過(guò)程基本相同,本公開(kāi)實(shí)施例在此不做詳細(xì)闡述。
在本公開(kāi)實(shí)施例中,根據(jù)目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,確定目標(biāo)圖像的類別,也即確定目標(biāo)圖像和該多個(gè)標(biāo)定圖像中的哪個(gè)標(biāo)定圖像最相似,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。由于哈希序列為通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼得到的序列,因此,通過(guò)目標(biāo)圖像的特征向量的哈希序列來(lái)確定目標(biāo)圖像的類別,可以避免直接通過(guò)確定目標(biāo)圖像的特征向量和每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)確定目標(biāo)圖像的類別,便于對(duì)該目標(biāo)圖像快速進(jìn)行識(shí)別。
本公開(kāi)實(shí)施例除了提供上述圖像識(shí)別方法,還提供了一種圖像識(shí)別裝置。下述實(shí)施例將對(duì)該圖像識(shí)別裝置進(jìn)行詳細(xì)說(shuō)明。
圖3a是本公開(kāi)實(shí)施例提供的一種圖像識(shí)別裝置300框圖。參照?qǐng)D3a,該裝置包括第一確定模塊301、編碼模塊302和第二確定模塊303。
第一確定模塊301,用于確定待識(shí)別的目標(biāo)圖像的特征向量;
編碼模塊302,用于通過(guò)lsh方法對(duì)該目標(biāo)圖像的特征向量進(jìn)行編碼,得到該目標(biāo)圖像的特征向量的哈希序列;
第二確定模塊303,用于根據(jù)該目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,從該多個(gè)標(biāo)定圖像對(duì)應(yīng)的類別中確定該目標(biāo)圖像的類別。
可選地,該第二確定模塊303包括:
第一確定子模塊,用于通過(guò)該lsh方法確定該多個(gè)標(biāo)定圖像中每個(gè)標(biāo)定圖像的特征向量的哈希序列;
第二確定子模塊,用于確定該目標(biāo)圖像的特征向量的哈希序列和每個(gè)標(biāo)定圖像的特征向量的哈希序列之間的漢明距離;
第三確定子模塊,用于將漢明距離小于預(yù)設(shè)距離的標(biāo)定圖像對(duì)應(yīng)的類別確定為該目標(biāo)圖像的類別。
可選地,該編碼模塊302,具體用于:
隨機(jī)產(chǎn)生n個(gè)服從正態(tài)分布的向量,得到n個(gè)隨機(jī)向量;
對(duì)于該n個(gè)隨機(jī)向量中的每個(gè)隨機(jī)向量,根據(jù)該隨機(jī)向量,按照如下公式確定該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素;
其中,hr(x)為該目標(biāo)圖像的特征向量的哈希序列中的一個(gè)元素,r為該隨機(jī)向量,x為該目標(biāo)圖像的特征向量,l為指定度量矩陣的柯列斯基分解矩陣。
可選地,參見(jiàn)圖3b,該裝置300還包括第三確定模塊304、第四確定模塊305和分解模塊306:
第三確定模塊304,用于確定訓(xùn)練樣本集,該訓(xùn)練樣本集包括多個(gè)樣本圖像;
第四確定模塊305,用于根據(jù)該訓(xùn)練樣本集中的多個(gè)樣本圖像,確定該指定度量矩陣;
分解模塊306,用于對(duì)該指定度量矩陣進(jìn)行分解,得到該指定度量矩陣的柯列斯基分解矩陣。
可選地,該第一確定模塊301,包括:
第四確定子模塊,用于確定該目標(biāo)圖像中目標(biāo)對(duì)象的位置,并通過(guò)預(yù)設(shè)算法根據(jù)該目標(biāo)對(duì)象的位置獲取該目標(biāo)對(duì)象包括的多個(gè)預(yù)設(shè)特征點(diǎn)的位置,該目標(biāo)對(duì)象包括人臉;
第五確定子模塊,用于根據(jù)該多個(gè)預(yù)設(shè)特征點(diǎn)的位置,確定該目標(biāo)圖像的形狀特征向量;
第六確定子模塊,用于確定該多個(gè)預(yù)設(shè)特征點(diǎn)中每個(gè)預(yù)設(shè)特征點(diǎn)的gabor特征,基于確定得到的gabor特征生成該目標(biāo)圖像的紋理特征向量;
合并子模塊,用于將該形狀特征向量和該紋理特征向量合并,得到該目標(biāo)圖像的特征向量。
在本公開(kāi)實(shí)施例中,根據(jù)目標(biāo)圖像的特征向量的哈希序列和預(yù)先設(shè)置的多個(gè)標(biāo)定圖像,確定目標(biāo)圖像的類別,也即確定目標(biāo)圖像和該多個(gè)標(biāo)定圖像中的哪個(gè)標(biāo)定圖像最相似,以實(shí)現(xiàn)對(duì)目標(biāo)圖像的識(shí)別。由于哈希序列為通過(guò)lsh方法對(duì)目標(biāo)圖像的特征向量進(jìn)行編碼得到的序列,因此,通過(guò)目標(biāo)圖像的特征向量的哈希序列來(lái)確定目標(biāo)圖像的類別,可以避免直接通過(guò)確定目標(biāo)圖像的特征向量和每個(gè)標(biāo)定圖像的特征向量之間的距離來(lái)確定目標(biāo)圖像的類別,便于對(duì)該目標(biāo)圖像快速進(jìn)行識(shí)別。
關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說(shuō)明。
圖4是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別裝置400的框圖。例如,裝置400可以是移動(dòng)電話,計(jì)算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺(tái),平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個(gè)人數(shù)字助理等。
參照?qǐng)D4,裝置400可以包括以下一個(gè)或多個(gè)組件:處理組件402,存儲(chǔ)器404,電源組件406,多媒體組件408,音頻組件410,輸入/輸出(i/o)的接口412,傳感器組件414,以及通信組件416。
處理組件402通常控制裝置400的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件402可以包括一個(gè)或多個(gè)處理器420來(lái)執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件402可以包括一個(gè)或多個(gè)模塊,便于處理組件402和其他組件之間的交互。例如,處理組件402可以包括多媒體模塊,以方便多媒體組件408和處理組件402之間的交互。
存儲(chǔ)器404被配置為存儲(chǔ)各種類型的數(shù)據(jù)以支持在裝置400的操作。這些數(shù)據(jù)的示例包括用于在裝置400上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲(chǔ)器404可以由任何類型的易失性或非易失性存儲(chǔ)設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲(chǔ)器(sram),電可擦除可編程只讀存儲(chǔ)器(eeprom),可擦除可編程只讀存儲(chǔ)器(eprom),可編程只讀存儲(chǔ)器(prom),只讀存儲(chǔ)器(rom),磁存儲(chǔ)器,快閃存儲(chǔ)器,磁盤或光盤。
電源組件406為裝置400的各種組件提供電源。電源組件406可以包括電源管理系統(tǒng),一個(gè)或多個(gè)電源,及其他與為裝置400生成、管理和分配電源相關(guān)聯(lián)的組件。
多媒體組件408包括在所述裝置400和用戶之間的提供一個(gè)輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來(lái)自用戶的輸入信號(hào)。觸摸面板包括一個(gè)或多個(gè)觸摸傳感器以感測(cè)觸摸、滑動(dòng)和觸摸面板上的手勢(shì)。所述觸摸傳感器可以不僅感測(cè)觸摸或滑動(dòng)動(dòng)作的邊界,而且還檢測(cè)與所述觸摸或滑動(dòng)操作相關(guān)的持續(xù)時(shí)間和壓力。在一些實(shí)施例中,多媒體組件408包括一個(gè)前置攝像頭和/或后置攝像頭。當(dāng)裝置400處于操作模式,如拍攝模式或視頻模式時(shí),前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個(gè)前置攝像頭和后置攝像頭可以是一個(gè)固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
音頻組件410被配置為輸出和/或輸入音頻信號(hào)。例如,音頻組件410包括一個(gè)麥克風(fēng)(mic),當(dāng)裝置400處于操作模式,如呼叫模式、記錄模式和語(yǔ)音識(shí)別模式時(shí),麥克風(fēng)被配置為接收外部音頻信號(hào)。所接收的音頻信號(hào)可以被進(jìn)一步存儲(chǔ)在存儲(chǔ)器404或經(jīng)由通信組件416發(fā)送。在一些實(shí)施例中,音頻組件410還包括一個(gè)揚(yáng)聲器,用于輸出音頻信號(hào)。
i/o接口412為處理組件402和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁(yè)按鈕、音量按鈕、啟動(dòng)按鈕和鎖定按鈕。
傳感器組件414包括一個(gè)或多個(gè)傳感器,用于為裝置400提供各個(gè)方面的狀態(tài)評(píng)估。例如,傳感器組件414可以檢測(cè)到裝置400的打開(kāi)/關(guān)閉狀態(tài),組件的相對(duì)定位,例如所述組件為裝置400的顯示器和小鍵盤,傳感器組件414還可以檢測(cè)裝置400或裝置400一個(gè)組件的位置改變,用戶與裝置400接觸的存在或不存在,裝置400方位或加速/減速和裝置400的溫度變化。傳感器組件414可以包括接近傳感器,被配置用來(lái)在沒(méi)有任何的物理接觸時(shí)檢測(cè)附近物體的存在。傳感器組件414還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件414還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件416被配置為便于裝置400和其他設(shè)備之間有線或無(wú)線方式的通信。裝置400可以接入基于通信標(biāo)準(zhǔn)的無(wú)線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個(gè)示例性實(shí)施例中,通信組件416經(jīng)由廣播信道接收來(lái)自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信組件416還包括近場(chǎng)通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識(shí)別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(huì)(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來(lái)實(shí)現(xiàn)。
在示例性實(shí)施例中,裝置400可以被一個(gè)或多個(gè)應(yīng)用專用集成電路(asic)、數(shù)字信號(hào)處理器(dsp)、數(shù)字信號(hào)處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場(chǎng)可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述圖1和圖2所示實(shí)施例提供的圖像識(shí)別方法。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如包括指令的存儲(chǔ)器404,上述指令可由裝置400的處理器420執(zhí)行以完成上述方法。例如,所述非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲(chǔ)設(shè)備等。
一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由終端的處理器執(zhí)行時(shí),使得終端能夠執(zhí)行上述圖1和圖2所示的實(shí)施例提供的圖像識(shí)別方法。
圖5是本公開(kāi)實(shí)施例提供的另一種圖像識(shí)別裝置500的框圖。例如,裝置500可以被提供為一服務(wù)器。參照?qǐng)D5,裝置500包括處理器522,其進(jìn)一步包括一個(gè)或多個(gè)處理器,以及由存儲(chǔ)器532所代表的存儲(chǔ)器資源,用于存儲(chǔ)可由處理器522的執(zhí)行的指令,例如應(yīng)用程序。存儲(chǔ)器532中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外,處理器522被配置為執(zhí)行指令,以執(zhí)行上述圖1和圖2所示實(shí)施例提供的圖像識(shí)別方法。
裝置500還可以包括一個(gè)電源組件526被配置為執(zhí)行裝置500的電源管理,一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口550被配置為將裝置500連接到網(wǎng)絡(luò),和一個(gè)輸入輸出(i/o)接口558。裝置500可以操作基于存儲(chǔ)在存儲(chǔ)器532的操作系統(tǒng),例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或類似。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如包括指令的存儲(chǔ)器532,上述指令可由裝置500的處理器522執(zhí)行以完成上述方法。例如,所述非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲(chǔ)設(shè)備等。
一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由服務(wù)器的處理器執(zhí)行時(shí),使得服務(wù)器能夠執(zhí)行1和圖2所示實(shí)施例提供的圖像識(shí)別方法。
本領(lǐng)域技術(shù)人員在考慮說(shuō)明書及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開(kāi)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。