人工智能發(fā)展鎖定新目標(biāo)
人工智能技術(shù)發(fā)展到現(xiàn)在已經(jīng)很強(qiáng)大,AlphaGo已經(jīng)把眾多圍棋世界冠軍踩在腳下,讓大家心生恐懼,就算在圖像識(shí)別這件小事上,也比人類更好更快,然而,科學(xué)家認(rèn)為這還遠(yuǎn)遠(yuǎn)不夠,對(duì)于AI的發(fā)展來(lái)說(shuō),理解視頻中的動(dòng)態(tài)行為是接下來(lái)的關(guān)鍵發(fā)展方向。
為什么要理解視頻?
據(jù)統(tǒng)計(jì),目前視頻占互聯(lián)網(wǎng)流量的90%,它極大地推動(dòng)了全球數(shù)據(jù)總量的高速增長(zhǎng),未來(lái)十年內(nèi),全球數(shù)據(jù)量將增長(zhǎng)50倍,其中視頻占最高比例。按照國(guó)家發(fā)改委的規(guī)劃,到2020年,視頻將全部高清化、連網(wǎng)化,那么視頻所需占用的存儲(chǔ)空間是巨大的,所以對(duì)于挖掘視頻內(nèi)容的需求也是巨大的。
從另一個(gè)角度看,隨著“中國(guó)天網(wǎng)”的落實(shí),中國(guó)已經(jīng)建成了世界上最大的視頻監(jiān)控網(wǎng),視頻攝像頭超過(guò)2000萬(wàn)個(gè),然而,每個(gè)省全部警種的視頻分析人員卻不足10萬(wàn)個(gè),未來(lái),必須依靠人工智能和大數(shù)據(jù)進(jìn)行視頻的處理分析。
因此,科學(xué)家面臨的下一個(gè)挑戰(zhàn)可能是教會(huì)機(jī)器不僅理解視頻包含了什么內(nèi)容,還要理解鏡頭中發(fā)生了什么。這可能帶來(lái)一些實(shí)際的好處,比如帶來(lái)強(qiáng)大的搜索、注釋和挖掘視頻片段的新方法,也可以讓機(jī)器人或自動(dòng)駕駛汽車更好地理解周圍的世界如何運(yùn)轉(zhuǎn)。
用視頻訓(xùn)練人工智能跟圖像識(shí)別類似,科學(xué)家們利用大量的視頻數(shù)據(jù)來(lái)訓(xùn)練AI,使其更好地理解真實(shí)世界的行為。
去年9月,IBM與MIT宣布組建“IBM-MIT腦啟發(fā)多媒體機(jī)器理解實(shí)驗(yàn)室”,雙方攜手開(kāi)發(fā)具有高級(jí)試聽(tīng)能力的人工智能。前不久,MIT和IBM發(fā)布了一個(gè)龐大的視頻剪輯數(shù)據(jù)集,這個(gè)名為“時(shí)間數(shù)據(jù)集時(shí)刻”的視頻數(shù)據(jù)集囊括了從釣魚(yú)到霹靂舞在內(nèi)的許多動(dòng)作的3秒鐘片段。該項(xiàng)目負(fù)責(zé)人、MIT首席研究科學(xué)家?jiàn)W德·奧利瓦說(shuō),世界上許多事情瞬息萬(wàn)變。如果你想明白為什么有些事情會(huì)發(fā)生,運(yùn)動(dòng)會(huì)給你提供很多信息。
無(wú)獨(dú)有偶,谷歌去年也發(fā)布了一套由800萬(wàn)個(gè)做了標(biāo)記的YouTube視頻組成的視頻集YouTube-8M;臉譜正在開(kāi)發(fā)名為“場(chǎng)景”“操作”和“對(duì)象”集的注釋數(shù)據(jù)集。
普林斯頓大學(xué)助理教授奧爾加·魯薩克維斯基專門從事計(jì)算機(jī)視覺(jué)工作。他表示,此前科學(xué)家認(rèn)為,很難開(kāi)發(fā)出有用的視頻數(shù)據(jù)集,因?yàn)樗鼈冃枰褥o止圖像更多的存儲(chǔ)和計(jì)算能力。他說(shuō):“我很高興能使用這些新的數(shù)據(jù)集,3秒的時(shí)長(zhǎng)很棒——它提供了時(shí)間上下文,同時(shí)對(duì)存儲(chǔ)和計(jì)算的要求也比較低?!?/p>
還有其他機(jī)構(gòu)在研究更具創(chuàng)造性的方法。位于多倫多和柏林的創(chuàng)業(yè)公司“二十億神經(jīng)元(Twenty Billion Neurons)”創(chuàng)造了一個(gè)定制數(shù)據(jù)集。該公司聯(lián)合創(chuàng)始人羅蘭梅·尼塞維奇稱,他們還使用了專門處理時(shí)間視覺(jué)信息的神經(jīng)網(wǎng)絡(luò),“用其他數(shù)據(jù)集訓(xùn)練的AI可以告訴你,視頻中顯示的是足球比賽還是派對(duì);用我們的定制數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以告訴你,是否有人剛剛進(jìn)入房間?!?/p> AI真正實(shí)現(xiàn)智能需要找對(duì)方向
按照IBM的解釋,人類能夠觀看一段簡(jiǎn)短的視頻并輕松地描繪出視頻內(nèi)容,甚至能預(yù)測(cè)后續(xù)事件的發(fā)生,而這樣的能力對(duì)機(jī)器來(lái)說(shuō)依然是可望而不可及的。賦予機(jī)器真正的智能需要避免被常規(guī)概念錯(cuò)誤引導(dǎo),回歸人類生物功能的方向。
北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)技術(shù)系主任黃鐵軍認(rèn)為,“現(xiàn)在人們對(duì)視頻的理解只是為滿足媒體產(chǎn)業(yè)發(fā)展需要所定義的概念。比如‘幀’這個(gè)概念,是利用了人眼對(duì)頻率的識(shí)別,使人50毫秒之內(nèi)保留對(duì)視頻畫面的印象。但是從生物視覺(jué)上講,我們的大腦之所以能夠從復(fù)雜的環(huán)境里分辨人的動(dòng)作,是因?yàn)橐暰W(wǎng)膜接收連續(xù)的光子撞擊,神經(jīng)節(jié)細(xì)胞接收到足夠刺激后發(fā)放脈沖,脈沖序列傳送給大腦,使得大腦產(chǎn)生連續(xù)的印象,而非每秒30幀、50幀。所以傳統(tǒng)視頻輸入的方法,不一定適用于人工智能。”
所以,機(jī)器如果想要真正實(shí)現(xiàn)智能,還需要從仿生物的方向研究,人們應(yīng)該弄清楚眼睛發(fā)放脈沖是如何將信息編碼傳送給大腦的。
IBM的科學(xué)家認(rèn)為,有效識(shí)別行為要求機(jī)器學(xué)習(xí)某個(gè)行動(dòng),并將獲得的知識(shí)應(yīng)用于正在進(jìn)行同樣行動(dòng)的情境中,這一領(lǐng)域的進(jìn)步,即轉(zhuǎn)移學(xué)習(xí),對(duì)于AI的未來(lái)非常重要;而且,這項(xiàng)技術(shù)在實(shí)際中大有用途,“你可以用它來(lái)幫助改善對(duì)老年人和殘疾人的護(hù)理,比如告訴護(hù)理人員是否有老人跌倒,或者他們是否已經(jīng)吃過(guò)藥等等?!?/p>
一旦機(jī)器能夠看懂視頻,具備視覺(jué)能力的AI不僅能夠應(yīng)用于醫(yī)療、教育、娛樂(lè)等領(lǐng)域,無(wú)人駕駛汽車也能通過(guò)現(xiàn)實(shí)世界的“視頻”更好地預(yù)測(cè)人類及車輛等的行為,更準(zhǔn)確地進(jìn)行決策,相信其安全性也能得到質(zhì)的提升。