“我就看看,我不買”是句徹頭徹尾的違心話,可以翻譯成“有尖貨但錢包瘦”。
比如谷歌那輛圓頭圓腦自己會跑的小車車,大概誰都想來一輛,把自己開上陽光(參配、圖片、詢價)點點的街道。但是車身圍繞的各種昂貴傳感器,讓它無法立刻成為人人可享的出行座駕。盡管私有不是谷歌小車的理想應(yīng)用場景,但成本也是車輛共享經(jīng)濟和公共服務(wù)普及的一道門檻。
驅(qū)動谷歌無人駕駛車自如跑動的技術(shù),原本都是私藏的商業(yè)機密。不過前不久西雅圖IEEE機器人和自動化國際會議(ICRA)上,有人幸運地獲知了谷歌正在琢磨的最新行人監(jiān)測系統(tǒng)。讓人欣喜的是,技術(shù)手段不僅強化了功能,還降低了成本。
用攝像頭代替昂貴傳感器
我們都知道,識別、追蹤、避開行人是任何企業(yè)研發(fā)無人駕駛車都要具備的核心技能。谷歌無人駕駛車主要靠雷達、激光雷達和照相機來判斷路況,確保車子能識別百米內(nèi)的行人。但是傳感器的電池非常貴,尤其是車頂旋轉(zhuǎn)的激光雷達單元,電池花費近萬美金。多單元的配置,價格恐怕還得抬一抬。
相比而言,攝像頭就要便宜不少。如果自動駕駛車只需用攝像頭就能靠譜定位路人,無人駕駛車快速普及將更進一步。這樣一來,車輛“看”路所需標配,就是視頻分析系統(tǒng)。
以往最好的視頻分析系統(tǒng)會使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)——機器通過訓(xùn)練后,能極其準確地分辨圖像和各種數(shù)據(jù),來完成算法學(xué)習(xí)。利用深度神經(jīng)網(wǎng)絡(luò)技術(shù),處理器中的視頻分析過程可以分為好幾個層次,分別為輸入層、輸出層,以及兩層之間的多個處理層。
圖像識別時,輸入層會學(xué)習(xí)一幅圖像的像素特點。下一層處理層通過學(xué)習(xí)把這些特點組合起來,然后通過中間層的層層處理,在像素點和物體間逐步建立更加復(fù)雜的關(guān)聯(lián)。最后輸出層就會推測出整個系統(tǒng)“看見”了什么。
現(xiàn)代的深度神經(jīng)網(wǎng)絡(luò)識別準確率超過99.5%,如果讓它和我們來一場比賽,可以跑贏人類大腦。但是視頻照相機有他的不足。一位任職于谷歌計算機視覺和機器學(xué)習(xí)的科學(xué)家Anelia Angelova科普道,“視覺信息相比雷達數(shù)據(jù),可以給車描摹一個更廣闊的視域,但是整個處理過程要慢一些。”因此傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)技術(shù)在行人檢測場景的應(yīng)用,一直比較緩慢。
整個過程的主要耗時在于,系統(tǒng)要把每一張街景圖分成10萬或更多的小碎片,然后逐個分析。這樣一來,每張圖要花費數(shù)秒到數(shù)分鐘的時間。這在要求車輛幾秒就能駛出很長距離的城市導(dǎo)航場景下,“慢速”的行人監(jiān)測就半點用也沒有了。不久前的測試中,一輛車用這樣深度神經(jīng)網(wǎng)絡(luò)技術(shù)來識別行人,結(jié)果就把人和道具撞了個人仰馬翻。
新系統(tǒng)行人監(jiān)測“三步曲”
上面是一幅谷歌深度學(xué)習(xí)系統(tǒng)在不同情形下,監(jiān)測行人的效果圖。最新的行人檢測系統(tǒng)只靠攝像機影像來掌握行人動向,但是優(yōu)化了速度問題。系統(tǒng)監(jiān)測行人的速度更快,分為三步,我們不妨來細細看下識別過程:
第一步還是深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖片像素特點。不同的是,單次進入網(wǎng)絡(luò)學(xué)習(xí)的照片只是被“撕”成了幾十片,而不是老方法的成千上萬塊。網(wǎng)絡(luò)被訓(xùn)練成可在不同場景中多線程作業(yè),挑選出它覺得是行人的圖像部分。
第二步是另一項深度神經(jīng)網(wǎng)絡(luò)工作——對第一步產(chǎn)生的結(jié)果提純,進一步分析篩選特征數(shù)據(jù)。
第三步和傳統(tǒng)步驟類似,判斷是不是行人或是其他障礙,最后輸出結(jié)果。
看起來步驟并未減少,但是因為每次可分析的碎片變大,且歷經(jīng)篩選過程后,只需重點關(guān)注可能有行人的小塊圖像區(qū)域,所以一路走下來要比上面的網(wǎng)絡(luò)學(xué)習(xí)快了 60到100倍。谷歌自動駕駛車和街景圖采集裝置中,如果安裝了這個系統(tǒng),只需要一天的訓(xùn)練時間,車就可以進入狀態(tài),在0.25秒左右的時間內(nèi)準確識別行人。
另外值得一提的是,機器根據(jù)圖像判斷前方內(nèi)容,是一個現(xiàn)有數(shù)據(jù)和已有數(shù)據(jù)比對的過程。以往谷歌自動駕駛車會和以前自己采集到視頻中的行人影像作比較,然后再下結(jié)論判斷?,F(xiàn)在,研究人員使用了一個行人圖像數(shù)據(jù)庫,讓系統(tǒng)比對庫中之前網(wǎng)絡(luò)學(xué)習(xí)的結(jié)果,這樣也可省下一些分析時間。
自動駕駛車必須要在瞬時就能判斷出眼前的是不是人類,這樣才能安全地采取躲避方案。Angelova介紹,雖然還沒有達到實際應(yīng)用中,0.07秒實時反應(yīng)時間的理想標準,但是這個新系統(tǒng)已經(jīng)能在其他傳感器失靈時,成為有效的替補。
車云小結(jié):
就在車云菌截稿時,又看到了谷歌收購傳感器公司Lumedyne的新聞,未來這家公司或許會為無人駕駛車提供產(chǎn)品,替代人們雙眼。隨著處理器越來越強大,深度網(wǎng)絡(luò)學(xué)習(xí)的能力也會越來越強,表現(xiàn)更值得期待。當(dāng)技術(shù)更新且快速應(yīng)用,可以帶來成本下降。車頂旋轉(zhuǎn)激光雷達可能會消失,你我也可以搖下無人駕駛車的車窗,打個招呼。