機(jī)器能像嬰兒一樣通過眼睛學(xué)習(xí)世界?
楊樂昆(Yann LeCun) 資料圖
相比識(shí)別圖片,讓人工智能系統(tǒng)識(shí)別視頻內(nèi)容,要困難的多。因?yàn)橐曨l含有大量的信息,要機(jī)器理解視頻中這些豐富的內(nèi)容,一直是人工智能領(lǐng)域里未解決的問題。
不過,在Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂昆(Yann LeCun)看來,人類既然已經(jīng)教會(huì)機(jī)器辨別圖片,甚至能做到人臉識(shí)別,那么機(jī)器也能識(shí)別視頻。而教會(huì)機(jī)器學(xué)習(xí)視頻的方法與嬰兒學(xué)習(xí)相似。即讓機(jī)器像嬰兒一樣,觀看視頻,告訴它視頻所講的內(nèi)容。
當(dāng)?shù)貢r(shí)間3月9日,《MIT科技評(píng)論》發(fā)布了一篇關(guān)于Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂昆(Yann LeCun)談機(jī)器視覺技術(shù)的文章。在楊樂昆看來,現(xiàn)在機(jī)器視覺還有很多不足,只能理解人類教給它的知識(shí),但這在未來會(huì)得到改變:通過訓(xùn)練,你給機(jī)器展示一段視頻中的幾幀畫面,它就可以預(yù)測(cè)接下來會(huì)發(fā)生什么。
楊樂昆出生在法國,曾在多倫多大學(xué)跟隨深度學(xué)習(xí)鼻祖Geoffrey Hinton進(jìn)行博士后的研究,現(xiàn)在是紐約大學(xué)終身教授,是人工智能神經(jīng)網(wǎng)絡(luò)研究的先鋒。在加盟Facebook之前,他在貝爾實(shí)驗(yàn)室工作了超過20年,那里是全世界最著名的計(jì)算機(jī)研究實(shí)驗(yàn)室,誕生過許多偉大的產(chǎn)品。楊樂昆在貝爾實(shí)驗(yàn)室工作期間開發(fā)了一套能夠識(shí)別手寫數(shù)字的系統(tǒng),并把它命名為L(zhǎng)eNet。這個(gè)系統(tǒng)能自動(dòng)識(shí)別銀行支票。
以下是楊樂昆對(duì)人工智能機(jī)器視覺的理解:
目前機(jī)器視覺取得了哪些進(jìn)展?
一張圖里面有一個(gè)主體,規(guī)則是讓機(jī)器給各類主體進(jìn)行分類。只要你有足夠的數(shù)據(jù),類似每個(gè)目錄有1000個(gè)主體,機(jī)器就可以對(duì)一些特定的類別產(chǎn)生認(rèn)知,例如特定品牌的汽車,特定種類的植物或是特定品種的狗。我們還可以認(rèn)識(shí)一些更為抽象的門類,例如天氣圖、地貌、日落、婚禮或生日聚會(huì)。僅僅5年前,我們還不太清楚機(jī)器是否已經(jīng)完全解決了這個(gè)問題,但現(xiàn)在也不意味著機(jī)器視覺問題已經(jīng)都解決了。
如今機(jī)器視覺還未 “解決”的重要問題是什么?
人們?cè)趲啄昵熬陀幸环N想法——為圖片和視頻生成一種標(biāo)簽或描述。從表面來看,現(xiàn)在已經(jīng)有顯著的進(jìn)展了,但事實(shí)上這些成果沒有他們看上去那么顯著。機(jī)器在特定領(lǐng)域的知識(shí)僅限于我們教授給它們的內(nèi)容。這些系統(tǒng)中的大部分會(huì)出現(xiàn)以下情況,你給它們看一些其他類別的圖片,或給它們展示一些之前從未見過的場(chǎng)景,機(jī)器就會(huì)說出一堆垃圾。它們暫時(shí)還沒有常識(shí)。
機(jī)器視覺和常識(shí)之間有什么樣的聯(lián)系?
這取決于你和誰討論這個(gè)問題,即使是在Facebook內(nèi)部也有不同的答案。你可以用語言與智能系統(tǒng)進(jìn)行互動(dòng)。但問題是語言是一種低帶寬信息傳輸渠道。通過語言表達(dá)信息,是因?yàn)槿祟愑性S多背景知識(shí)能對(duì)這個(gè)信息進(jìn)行理解。
有人認(rèn)為,要向AI系統(tǒng)提供足夠信息的唯一方法是將視覺感知作為基礎(chǔ),這要比語言作為輸入帶來的信息量高。如果你告訴機(jī)器“這是一個(gè)智能手機(jī)”;“這是一個(gè)壓路機(jī)”;“這些東西是你能推動(dòng)的,其他的不能搬動(dòng)”,或許機(jī)器能像寶寶學(xué)習(xí)一樣,掌握世界的一些基本知識(shí)。
因?yàn)閶雰簾o須受到具體的指引就可以從這個(gè)世界中學(xué)到很多東西。其中一件我們十分想做的事情就是,讓機(jī)器通過觀察視頻或通過其他渠道來學(xué)習(xí),向其展示真實(shí)世界中萬物的聯(lián)系。這種方法最終可以讓機(jī)器掌握常識(shí)。這也是動(dòng)物和嬰兒在出生后前幾個(gè)月學(xué)習(xí)的方式——你可以僅僅通過觀察這個(gè)世界就從中學(xué)到相當(dāng)多的東西。如今還有很多方式可以“愚弄”機(jī)器,因?yàn)樗鼈儗?duì)這個(gè)世界的認(rèn)知非常有限。
“讓機(jī)器從觀察中學(xué)習(xí)”取得了什么進(jìn)展?
有觀點(diǎn)認(rèn)為,機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)該可以預(yù)測(cè)未來,我們對(duì)這種想法十分感興趣。你給機(jī)器展示一段視頻中的幾幀畫面,它就可以預(yù)測(cè)接下來會(huì)發(fā)生什么。如果我們可以訓(xùn)練系統(tǒng)做到這點(diǎn),我認(rèn)為我們已經(jīng)研發(fā)出了一種以無人監(jiān)管學(xué)習(xí)系統(tǒng)為基礎(chǔ)的技術(shù)。我認(rèn)為,這就是更多有趣的事情很可能會(huì)發(fā)生的地方。這種應(yīng)用在機(jī)器視覺并不是必要的,但確是人工智能領(lǐng)域取得的進(jìn)步。