基于Gabor小波與RBF神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別新方法
掃描二維碼
隨時(shí)隨地手機(jī)看文章
人臉識(shí)別是人類最杰出的認(rèn)知能力之一,讓汁算機(jī)具有人的智能,使它可以象人類一樣辨認(rèn)人,一直是眾多計(jì)算機(jī)科學(xué)工作者追求的目標(biāo)。人臉識(shí)別作為一種應(yīng)用前景十分廣泛的身份鑒別方法,是模式識(shí)別領(lǐng)域極富挑戰(zhàn)性的一個(gè)熱點(diǎn)研究問題。
人臉圖像由于受光照、表情以及姿態(tài)等因素的影響,同一個(gè)人的臉像矩陣差異也比較大,人臉識(shí)別所選取的特征必須對(duì)上述因素具備一定的穩(wěn)定性和不變性。Gabor小波是Gabor變換與小波理論相結(jié)合的產(chǎn)物,它繼承了小波變換的多分辨率特性,同時(shí)具有GaborN數(shù)本身所具有的局域性和方向性。VD Malsburg小組最先將Gabor小波引入人臉識(shí)別領(lǐng)域,應(yīng)用Gabor小波與彈性圖匹配技術(shù)相結(jié)合取得了良好的識(shí)別效果。Gabor小波核函數(shù)具有與哺育動(dòng)物大腦皮層簡(jiǎn)單細(xì)胞的二維反射區(qū)相同的特性,即具有較強(qiáng)的空間位置和方向選擇性,并且能夠捕捉對(duì)應(yīng)于空間和頻率的局部結(jié)構(gòu)信息;Gabor濾波器對(duì)于圖像的亮度和對(duì)比度變化以及人臉姿態(tài)變化具有較強(qiáng)的健壯性,并且它表達(dá)的是對(duì)人臉識(shí)別最為有用的局部特征。
提高神經(jīng)網(wǎng)絡(luò)的泛化能力問題是RBF網(wǎng)絡(luò)的一個(gè)重要研究方向。目前,提高網(wǎng)絡(luò)泛化能力的研究主要集中在如何選取恰當(dāng)?shù)木W(wǎng)絡(luò)規(guī)模,即網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)問題上。關(guān)于RBFN絡(luò)結(jié)構(gòu)設(shè)計(jì),一個(gè)公認(rèn)的指導(dǎo)原則是Moody準(zhǔn)則,即:在沒有其它先驗(yàn)知識(shí)的情況下,與給定樣本一致的規(guī)模最小的網(wǎng)絡(luò)就是最好的選擇。
本文充分利用人臉特征矢量的相對(duì)分布信息,提出了一種新的聚類初始化方法,能使RBFN絡(luò)逼近于Moody準(zhǔn)則下的最優(yōu)結(jié)構(gòu),從而保證該網(wǎng)絡(luò)具有較好的泛化能力。由于在隱層參數(shù)固定的條件下,線性方程組的最小二乘解就是全局最優(yōu)解,所以本文采用混合學(xué)習(xí)算法:由線性最小二乘法計(jì)算隱層和輸出層之間的連接權(quán)值,由梯度下降法調(diào)整隱層神經(jīng)元的中心和寬度。這種方法與單純采用梯度下降法相比,學(xué)習(xí)速度更快,而且可以避免局部極小值問題。同時(shí)提出了一種有效的學(xué)習(xí)速率估算方法,使得RBF網(wǎng)絡(luò)的整個(gè)學(xué)習(xí)過程具備自適應(yīng)能力。
2 基于Gabor小波的人臉特征提取
2.1 構(gòu)造Gabor小波
Gabor小波核函數(shù)定義如下:
上式表示一個(gè)經(jīng)過高斯包絡(luò)調(diào)制過的正弦波,其中控制高斯窗口的寬度以及正弦波的波長(zhǎng),φ控制整個(gè)濾波器的方向,改變?chǔ)湛梢詫?duì)濾波器進(jìn)行旋轉(zhuǎn),σ為高斯窗的寬度與正弦波的波長(zhǎng)之比。ψk經(jīng)過平移、旋轉(zhuǎn)和尺度變化形成一個(gè)自相似的函數(shù)族,即Gabor濾波器組。
對(duì)于數(shù)字圖像,需要把參數(shù)k的模||k||和方向參數(shù)φ進(jìn)行離散化,通常在5個(gè)對(duì)數(shù)空間頻率v∈{0…,4}8個(gè)方向μ∈{0,…,7}上采樣。針對(duì)人臉圖像本文通過實(shí)驗(yàn)確定在2個(gè)空問頻率v∈{1,2}和8個(gè)方向μ∈{0,…,7}上進(jìn)行采樣,形成16個(gè)Gabor濾波器。
2.2 人臉圖像Gabor濾波
將人臉灰度圖像插值為128×128(記為I),再分別與各個(gè)Gabor濾波器進(jìn)行卷積,得到人臉圖像的Gabor小波表示:
稱Oμ,v(z)為Gabor人臉,其中z=(x,y)為相對(duì)于頻譜中心的相對(duì)坐標(biāo)值。通過二維快速傅立葉變換,將時(shí)域卷積變換為頻域乘積運(yùn)算以提高計(jì)算速度。
2.3 小波分解降維
每幅Gabor人臉圖像Oμ,v(z)都是與I(z)同樣大小的復(fù)數(shù)矩陣,取其幅值系數(shù)作為特征。通過參數(shù)μ,v的變化,Oμ,v(z)表達(dá)不同頻率和方向的人臉特征信息,將一幅人臉的全部Gabor特征組成矢量,則人臉的原始特征數(shù)據(jù)高達(dá)262144維,后續(xù)處理非常困難。ChenKiun Liu分別取采樣因子ρ=4,16,64進(jìn)行下采樣處理,所得識(shí)別結(jié)果相差很小,所以采樣法最低可以得到4096維。而小波變換是一種常用的圖像壓縮方法,與采樣法相比具有能量和信息損失小的優(yōu)點(diǎn)。Harmon指出16×16的圖像對(duì)于人臉識(shí)別是最基本的。因而,本文對(duì)Gabor人臉進(jìn)行3次小波分解,將其低頻近似圖按行連接起來組成列矢量,并將全部列矢量依次連接起來,即為一幅人臉的低維Gabor特征列矢量。
2.4 主分量分析
設(shè)n為訓(xùn)練樣本數(shù)目,Xi表示第i幅人臉圖像的L維Gabor特征列矢量,則訓(xùn)練樣本集的總體散布矩陣表示為:
式中為樣本均值。由于St為實(shí)對(duì)稱矩陣(L×L),可將St化成對(duì)角形的特征值,P為正交變換矩陣,且特征值均非負(fù)值,令λ1≥λ2≥…λL≥0,λl對(duì)應(yīng)的正交歸一化特征向量為ul,則u1,u2,…,uL可以構(gòu)成RL空間的一組標(biāo)準(zhǔn)正交基,在該正交特征空間中,人臉樣本Xi可以表示為:
選用前r(r<<L)個(gè)較大特征值對(duì)應(yīng)的特征向量作為正交基底(主分量),將Xi向該正交空間的子空間投影則有:
得到Pi=xi(1),xi(2),…,xi(r)為一組坐標(biāo)系數(shù),代表了Xi在新特征子空間中的位置,可將r維投影系數(shù)Pi作為人臉特征矢量輸入分類器進(jìn)行識(shí)別。
3 基于RBF神經(jīng)網(wǎng)絡(luò)的分類器設(shè)計(jì)
RBF神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,它是一種三層前向網(wǎng)絡(luò),其中r、u和s分別為輸入層、隱層和輸出層的節(jié)點(diǎn)數(shù)。
為隱層第k個(gè)神經(jīng)元的中心,則隱層節(jié)點(diǎn)k的輸出為:
式中||·||表示歐氏范數(shù)。當(dāng)RBF選用高斯核函數(shù)時(shí),其輸出為:
式中σk為隱層第k個(gè)神經(jīng)元的寬度。輸出層第j個(gè)節(jié)點(diǎn)的輸出值yj為:
式中W(j,k)為隱層節(jié)點(diǎn)k到第j個(gè)輸出節(jié)點(diǎn)的連接權(quán)值。
3.1 RBF網(wǎng)絡(luò)初始化
RBF神經(jīng)網(wǎng)絡(luò)可看作是從特征子空間到類的映射,因此輸入層的節(jié)點(diǎn)數(shù)與輸入特征矢量的維數(shù)r相等,輸出層的節(jié)點(diǎn)數(shù)就是待分類樣本的類別數(shù)。隱層節(jié)點(diǎn)的選取是一個(gè)開放的問題,在理想情況下,隱層節(jié)點(diǎn)數(shù)取得最小值為樣本類別數(shù)。每個(gè)人最多對(duì)應(yīng)2~3個(gè)隱層節(jié)點(diǎn),隱層聚類的初始化過程如下:
1)先假設(shè)每人收斂于一個(gè)聚類中心,將隱層節(jié)點(diǎn)數(shù)初始化為輸出層節(jié)點(diǎn)數(shù)。
2)隱層第k個(gè)神經(jīng)元的中心Ck為k類特征矢量的均值。
3)計(jì)算k類各個(gè)樣本到中心Ck的距離,以最遠(yuǎn)點(diǎn)Pk(f)到中心的距離作為σk的初值。
4)計(jì)算各個(gè)聚類中心j到聚類中心k的距離:
其中,最小距離為:
根據(jù)dmin(k,l)與dk,dl的關(guān)系,可將k類分為如下幾種情況:
a)若dk+dl≤dmin(k,l),則k類與其它類沒有重疊,如圖2(a)所示;
b)若dk+dl>dmin(k,l),則k類與其它類相交。進(jìn)一步分為兩種情況:
i)dk一dl<dmin(k,l),如圖2(b)所示;
ii)dk一dl≥dmin(k,l),如圖2(c)所示,表示k類包含其它類,可能導(dǎo)致RBF神經(jīng)網(wǎng)絡(luò)分類錯(cuò)誤。
5)對(duì)每類樣本,依次按照以下兩個(gè)規(guī)則進(jìn)行判別并細(xì)分:
i)包含規(guī)則:若dk+dl>dmin(k,l)且dk一dl≥dmin(k,l),則k類包含其它類,必須將k類細(xì)分為兩個(gè)聚類;
ii)正確歸類規(guī)則:若k類包含其它類樣本的個(gè)數(shù)大于1,必須將k類細(xì)分為兩個(gè)聚類。
完成上述步驟之后,每人最多對(duì)應(yīng)于3個(gè)隱層節(jié)點(diǎn),整個(gè)RBF網(wǎng)絡(luò)的結(jié)構(gòu)隨之確定。
3.2 RBF網(wǎng)絡(luò)混合學(xué)習(xí)算法
網(wǎng)絡(luò)學(xué)習(xí)就是通過調(diào)整連接權(quán)W(j,k)、隱層中心Ck和寬度σk,以減小輸出誤差。隱層參數(shù)Ck、σk的調(diào)整是非線性過程,學(xué)習(xí)速度較慢;而W(j,k)調(diào)整是線性過程,學(xué)習(xí)速度較快。因此,RBF網(wǎng)絡(luò)的每一次訓(xùn)練分為兩個(gè)層次進(jìn)行。
3.2.1 連接權(quán)調(diào)整
設(shè)輸出目標(biāo)矩陣T∈Rsxn,其元素t(j,i)為0或?yàn)?,表示Pi是否屬于j類,T每列有、且僅有一個(gè)元素為l,表示Pi所屬類別。定義誤差函數(shù)為:
y(j,i)表示Pi在輸出層j節(jié)點(diǎn)的輸出yj(Pi),可通過線性最小二乘法求解最佳權(quán)值W*。
3.2.2 隱層中心及寬度調(diào)整
W固定,由(11)式采用梯度下降法,經(jīng)推導(dǎo)可得Ck和σk的迭代計(jì)算公式為:
其中梯度矢量為:
式中η1、η2分別為隱層中心Ck和寬度σk的學(xué)習(xí)速率(η1,η2>O),m為迭代次數(shù)。
σk的學(xué)習(xí)速率通常大于Ck的學(xué)習(xí)速率(選取η2=2η1)。但ηl或η2的選取一般只能通過試驗(yàn)分析確定。為此,本文從(13)式出發(fā),提出了學(xué)習(xí)速率η2的估算方法。設(shè)σk(0)為高斯寬度的初值,經(jīng)推導(dǎo)可得η2的估算公式如下:
式中a為常數(shù)項(xiàng),用于控制學(xué)習(xí)速率大小。實(shí)驗(yàn)表明a=0.01可以較好的滿足條件。
4 實(shí)驗(yàn)結(jié)果
試驗(yàn)選用0RL人臉數(shù)據(jù)庫,共包括40個(gè)人的臉部圖像,其中每人lO幅具有豐富的面部表情和姿態(tài)變化。在未對(duì)ORL人臉進(jìn)行任何預(yù)處理的條件下,選取每人的前5幅圖像共200幅進(jìn)行訓(xùn)練,另外200幅用于識(shí)別。然后將訓(xùn)練與識(shí)別圖像相互交換,再次進(jìn)行實(shí)驗(yàn),識(shí)別正確率取兩次試驗(yàn)結(jié)果的均值。表1、表2、圖4和表3“任選5幅”部分的實(shí)驗(yàn)都是基于上述方法。為了便于比較,對(duì)于表3的1至4行的識(shí)別率是從相應(yīng)參考文獻(xiàn)上引用過來,第5行即本文方法是作者根據(jù)本文提出的算法進(jìn)行實(shí)驗(yàn)的結(jié)果,其中對(duì)于“任選3幅”是指第一次選取每人的前3幅圖像共120幅進(jìn)行訓(xùn)練,余下280幅用于識(shí)別,第二次再選取每人的后3幅圖像共120幅進(jìn)行訓(xùn)練,余下280幅用于識(shí)別,識(shí)別率取兩次結(jié)果的平均;“任選5幅(1幅側(cè)面)”是指每人參與訓(xùn)練的樣本都含1幅側(cè)面的圖像,其它與“任選5幅”的相同。
首先對(duì)第二個(gè)類別細(xì)分判別規(guī)則進(jìn)行了驗(yàn)證。表l列出了設(shè)置不同判別規(guī)則,兩次試驗(yàn)所得RBF網(wǎng)絡(luò)的隱層節(jié)點(diǎn)個(gè)數(shù)以及識(shí)別錯(cuò)誤的圖像數(shù)目。
表1可以看出,“正確歸類規(guī)則”的設(shè)置比較合理,改變規(guī)則或者各個(gè)聚類不作細(xì)分,識(shí)別成功率較低。而且按照本文的聚類初始化方法,所得RBF網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目很少。40個(gè)人的訓(xùn)練樣本,只有少數(shù)幾個(gè)人的特征矢量需要進(jìn)行類別細(xì)分。所以,本文的初始化方法得到的網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單,網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練和分類識(shí)別具有較高的效率,并具備優(yōu)異的泛化能力。
從表1還能看出,采用前五幅圖像和后五幅圖像進(jìn)行訓(xùn)練,后者識(shí)別成功率明顯高于前者。其中兩幅識(shí)別錯(cuò)誤的人臉以及相應(yīng)的訓(xùn)練樣本,如圖3所示。
圖3中每行最后一幅為識(shí)別錯(cuò)誤圖像,前五幅為訓(xùn)練圖像??梢钥闯?,前五幅人臉之間的姿態(tài)變化較小,而測(cè)試人臉的姿態(tài)與訓(xùn)練樣本差別較大。若采用前五幅圖像訓(xùn)練將會(huì)使得RBF網(wǎng)絡(luò)隱層神經(jīng)元的聚類寬度偏小,造成這幾個(gè)測(cè)試樣本與本屬同類的隱層聚類中心相對(duì)距離較遠(yuǎn),神經(jīng)元激活程度不夠,從而導(dǎo)致分類識(shí)別錯(cuò)誤。當(dāng)采用不同姿態(tài)的人臉訓(xùn)練時(shí),同類樣本問的差異可以使得RBF網(wǎng)絡(luò)的學(xué)習(xí)更加充分,有利于正確地分類識(shí)別。
通過實(shí)驗(yàn),8個(gè)方向的濾波器若忽略其中任何一個(gè)方向,識(shí)別正確率都明顯下降,說明對(duì)于多姿態(tài)人臉來說,各個(gè)方向的人臉Gabor特征都不可缺少。若使用全部40個(gè)濾波器運(yùn)算量又太大,同時(shí)也不能獲得更好的結(jié)果。限于篇幅,表2列出了全8個(gè)方向與部分頻率組合的實(shí)驗(yàn)結(jié)果比較,從表2可以看出選取空間頻率v∈{1,2}或v∈{0,1,2}均能獲得最佳識(shí)別結(jié)果,故本文在2個(gè)空間頻率v∈{l,2}和8個(gè)方向μ∈{0,…,7}上進(jìn)行采樣,形成16個(gè)Gabor濾波器。
圖4表示對(duì)Gabor人臉采用小波分解和采樣法進(jìn)行降維處理的識(shí)別結(jié)果。由圖4可知,小波分解方法明顯優(yōu)于采樣法,本文特征提取方法的最佳維數(shù)在140維左右。
由表3可知,同樣采用基于RBF神經(jīng)網(wǎng)絡(luò)的分類器:與方法l相比,基于Gabor小波的特征提取方法優(yōu)于主分量分析(PCA)與Fisher線性鑒別變換(FLD)的組合;方法2采用高階偽澤爾尼克不變矩表征人臉,需要運(yùn)用橢圓模型對(duì)人臉進(jìn)行精確的尺度校正和分割。方法3采用5個(gè)頻率的40個(gè)Gabor濾波器,本文選用2個(gè)頻率的16個(gè)濾波器,在識(shí)別速度和占用內(nèi)存等方面具有顯著優(yōu)勢(shì)。方法4采用自組織稀疏RAM的N—tuple神經(jīng)網(wǎng)絡(luò)分類器,對(duì)于小樣本具有較好的泛化逼近能力,本文算法在相同試驗(yàn)條件下具有不相上下的識(shí)別率。
5 結(jié)論
實(shí)驗(yàn)表明Gabor小波對(duì)于人臉位置、圖像亮度變化具備較好的適應(yīng)能力,在基于二維圖像的人臉識(shí)別方法中具有一定的優(yōu)越性。同時(shí),也注意到前人研究成果主要針對(duì)128×128的人臉圖像,進(jìn)一步的研究工作可以根據(jù)Gabor小波的構(gòu)造原理,選取適用于較低分辨率圖像(如64x64)的濾波器參數(shù)。由于濾波處理的計(jì)算復(fù)雜度為O(d2),人臉識(shí)別速度可以提高4倍,則有望滿足實(shí)時(shí)識(shí)別要求。
RBF神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)簡(jiǎn)單、非線性逼近能力強(qiáng)、收斂速度快以及全局收斂等顯著優(yōu)點(diǎn)。本文采用的RBF神經(jīng)網(wǎng)絡(luò)初始化方法,充分利用了人臉特征矢量的相對(duì)分布信息,聚類初始化過程簡(jiǎn)單、快速,同時(shí)可以保證RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)極其簡(jiǎn)單,具有較好的泛化能力。本文提出的學(xué)習(xí)速率估算方法具有普遍性,使得RBF網(wǎng)絡(luò)無需先驗(yàn)參數(shù)、具備自適應(yīng)能力。而且神經(jīng)網(wǎng)絡(luò)是以并行方式處理信息,采用硬件實(shí)現(xiàn)能夠達(dá)到較高速度,所以該研究成果具有廣泛意義。