人臉識別和人工智能的結(jié)合帶來非凡體驗
深度學(xué)習(xí)只是機(jī)器學(xué)習(xí)中的一個標(biāo)準(zhǔn)范式,更精確地說,是其中一個算法。深度學(xué)習(xí)在最大限度上依靠于人腦的概念以及神經(jīng)之間的相互溝通。在谷歌上搜索“什么是深度學(xué)習(xí)”,會發(fā)現(xiàn)當(dāng)時的相關(guān)熱詞已經(jīng)與現(xiàn)在有很大不同。產(chǎn)生這種現(xiàn)象的原因是什么呢?實際上,“深度學(xué)習(xí)”這一術(shù)語最早出現(xiàn)在19世紀(jì)80年代,但直到2012年,人們才具備足夠的能力去運(yùn)用這項科技,并逐漸開始注意到它。
知名科學(xué)家們在科學(xué)期刊上發(fā)表一系列文章后,這項技術(shù)開始風(fēng)靡。如今,它有著各種各樣的應(yīng)用,其中人臉識別占據(jù)了重要的位置。首先,深度學(xué)習(xí)助力構(gòu)建識別生物特征軟件,該軟件能夠獨(dú)立識別或驗證個體。所有這些都是因為深度學(xué)習(xí)方法能夠利用非常龐大的人臉數(shù)據(jù)集,認(rèn)識多種多樣的袖珍圖片,使現(xiàn)代模型能夠先運(yùn)行,隨后甚至超越人類的人臉識別能力。
深度學(xué)習(xí)系統(tǒng)根據(jù)人腦新皮質(zhì)的神經(jīng)網(wǎng)絡(luò)建模,在那里出現(xiàn)了更高層次的認(rèn)知。在大腦中,神經(jīng)元是一個傳遞電子或化學(xué)信息的細(xì)胞。神經(jīng)元與其他神經(jīng)元連接時會形成神經(jīng)網(wǎng)絡(luò)。在機(jī)器中,神經(jīng)元是虛擬的——基本上是運(yùn)行統(tǒng)計回歸的代碼位。把足夠多的虛擬神經(jīng)元串在一起就得到了一個虛擬的神經(jīng)網(wǎng)絡(luò)。
雖然計算機(jī)有不同型號,但是它們經(jīng)歷的過程是一樣的。層次結(jié)構(gòu)中的每個算法對其輸入應(yīng)用非線性轉(zhuǎn)換,并使用所學(xué)內(nèi)容創(chuàng)建一個統(tǒng)計模型作為輸出。迭代直至輸出達(dá)到可接受的精度水平才停止。數(shù)據(jù)必須通過的處理層的數(shù)量激發(fā)了標(biāo)簽的深度。
讓我們首先關(guān)注人類是如何識別人臉的。由于面部表情的識別需要人腦廣泛而多樣部位的參與,面部感知十分復(fù)雜。腦成像研究通常顯示顳葉的梭形回區(qū)域有大量的活動,梭形回區(qū)域在受損時(尤其是兩側(cè)受損時)也會引起面容失認(rèn)癥。人們從出生起就學(xué)會辨認(rèn)面孔,四個月大的時候就能清楚地分辨出一個人和另一個人。
人們最關(guān)注的是眼睛、顴骨、鼻子、嘴、眉毛,以及皮膚的質(zhì)地和顏色。同時,我們的大腦將面部作為一個整體來處理,甚至可以通過半張臉來識別一個人。大腦將所得圖像與內(nèi)部平均模式進(jìn)行比較,發(fā)現(xiàn)特征差異。
首先,人臉識別系統(tǒng)需要在圖像中找到人臉并突出顯示該區(qū)域。為此,軟件可以使用多種算法:例如,確定比例和膚色的相似性,選擇圖像中的輪廓及其與人臉輪廓的比較,使用神經(jīng)網(wǎng)絡(luò)選擇對稱性。最有效的方法是可以實時使用Viola-Jones方法。有了此方法,即使人臉旋轉(zhuǎn)30度,系統(tǒng)也能識別臉孔。
該方法基于Haar符號。Haar符號是一組形狀各異的黑白矩形遮罩。遮罩疊加在圖像的不同部分,算法將遮罩的黑白部分下面的圖像的所有像素的亮度相加,然后計算這些值之間的差異。接下來,系統(tǒng)將結(jié)果與累積的數(shù)據(jù)進(jìn)行比較,并在確定圖像中的人臉后,繼續(xù)跟蹤它以選擇最佳角度和圖像質(zhì)量。因此需使用運(yùn)動矢量預(yù)測算法或相關(guān)算法。
系統(tǒng)在選擇了最成功的圖片后,繼續(xù)進(jìn)行人臉識別,并與現(xiàn)有的基礎(chǔ)進(jìn)行比較。它的工作原理與畫家畫肖像的原理相同,都是在人臉上找到構(gòu)成個人特征的參考點。通常,程序分配大約100個這樣的點。
面部識別程序最重要的測量是眼間距、鼻孔的寬度、鼻子的長度、顴骨的高度和形狀、下巴的寬度、前額的高度和其他參數(shù)。然后,程序?qū)@得的數(shù)據(jù)與數(shù)據(jù)庫中的可用數(shù)據(jù)進(jìn)行比較,如果參數(shù)一致,就可以識別與該人臉相一致的人了。人腦能即刻自動完成這些步驟。事實上,人能很好識別人臉并從日常事物中區(qū)分人臉。至少目前看來,計算機(jī)不能進(jìn)行如此高程度的泛化,所以只能教授它們每一步該做的事情。
因此有必要構(gòu)建一個管道,在此能分別在人臉識別過程的每個步驟找到解決方案,并將當(dāng)前步驟的結(jié)果傳輸?shù)较乱粋€步驟。也就是說,需要將多個機(jī)器學(xué)習(xí)算法組合到一條鏈中。事實上,對人類而言顯而易見的特征,如眼睛顏色,對計算機(jī)分析圖像中的單個像素沒有意義。研究人員發(fā)現(xiàn),最合適的方法是使計算機(jī)能夠確定需要收集的特征。與此相反,深度學(xué)習(xí)可以更好更快地識別。
而最近,這個可能性出現(xiàn)了,或者說是被發(fā)現(xiàn)了。最開始每個人都不相信神經(jīng)網(wǎng)絡(luò)的表現(xiàn)可以接近人類水平。但在2014年,一切都發(fā)生了變化??茖W(xué)家們決定利用目前最好的兩個網(wǎng)絡(luò)——AlexNet、以及Matthew D.Zeiler和Rob Fergus開發(fā)的網(wǎng)絡(luò)。科學(xué)家們將它們與猴子大腦不同區(qū)域的反應(yīng)進(jìn)行了比較。猴子大腦經(jīng)過訓(xùn)練可以識別對象。并且選取的物品都來自動物世界,這樣猴子就不會混淆。
顯然我們不可能從猴子身上獲得反應(yīng),因此我們植入了電極,并直接測量每個神經(jīng)元的反應(yīng)。結(jié)果發(fā)現(xiàn),在正常情況下,腦細(xì)胞的反應(yīng)和當(dāng)時最先進(jìn)的模型Matthew Zeiler網(wǎng)絡(luò)表現(xiàn)一致。但是,隨著展示物體的速度加快,圖像中的噪聲和物體數(shù)量增加,人類和靈長類動物大腦的識別率和質(zhì)量顯著下降。而在這種情況下,即使最簡單的卷積神經(jīng)網(wǎng)絡(luò)也能更好地識別物體。也就是說,官方的神經(jīng)網(wǎng)絡(luò)比人類大腦工作得更好。