人工智能可模擬下一秒的事 通過生成視頻讓人信服
機(jī)器有大腦嗎?當(dāng)然沒有,即便有,也是人類植入的,它始終還是需要人類操控。但是,一旦它們掌握了人類的某種能力,其爆發(fā)出來的潛能將是不可限量和估計(jì)的。近日,美國麻省理工學(xué)院的AI科學(xué)家,發(fā)明了一個(gè)系統(tǒng),使得機(jī)器人能夠像人類一樣模擬接下來可能發(fā)生的事情,并自動生成一個(gè)短視頻,其真實(shí)程度比人類自己在大腦中想象的還要逼真。
一種新的人工智能系統(tǒng)能夠用靜態(tài)圖像生成短視頻,這些視頻能夠模擬接下來發(fā)生的事,這就好像人類想象接下來將會看到的情景一樣。
人類能夠直覺地理解世界運(yùn)作的方式。這使得人比機(jī)器更容易預(yù)測事件接下來將如何發(fā)展。一張靜態(tài)圖像中的物體可以用多種不同方式運(yùn)動,或者和其他物體發(fā)生作用,這讓機(jī)器很難做出類似的預(yù)測。不過,一種新型的深度學(xué)習(xí)系統(tǒng)(deep-learning system)創(chuàng)造出的短視頻卻能夠讓人信以為真。和真實(shí)的視頻片段相比,在20%的情況下,人類更相信它創(chuàng)造出的視頻。
該深度學(xué)習(xí)系統(tǒng)的發(fā)明者是麻省理工學(xué)院(MIT)的研究人員。他們讓兩種神經(jīng)網(wǎng)絡(luò)互相競爭,其中一個(gè)要區(qū)分真實(shí)的視頻和機(jī)器創(chuàng)造的視頻,而另一個(gè)則要?jiǎng)?chuàng)造出能夠打敗第一個(gè)系統(tǒng)的近乎真實(shí)的視頻。
這種方法叫做“生成式對抗網(wǎng)絡(luò)”(generative adversarial network,GAN),兩個(gè)系統(tǒng)互相競爭,生成了愈發(fā)真實(shí)的視頻。當(dāng)研究人員讓亞馬遜的Mechanical Turk網(wǎng)絡(luò)眾包平臺上征集的人員從兩種視頻中挑選真實(shí)的視頻時(shí),這些人在20%的情況下挑選了機(jī)器合成的,而不是真實(shí)的視頻。
早期的問題
但是,剛剛?cè)胄械碾娪皩?dǎo)演還不用擔(dān)心這種機(jī)器會搶了自己的飯碗,因?yàn)檫@些視頻的長度只有1~1.5秒,而且像素只有64 x 64。研究人員認(rèn)為,這種方法最終能夠幫助機(jī)器人和自動駕駛汽車在復(fù)雜的環(huán)境中導(dǎo)航,也能幫助它們和人類互動,或者讓Facebook為視頻自動添加描述內(nèi)容的標(biāo)簽。
“我們的算法會預(yù)測未來,然后生成極為真實(shí)的視頻。這說明在某種程度上它能夠理解現(xiàn)在發(fā)生的事,”該研究的主要負(fù)責(zé)人,MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的博士研究生 Carl Vondrick 表示,“我們的研究是一項(xiàng)振奮人心的進(jìn)步,它說明計(jì)算機(jī)科學(xué)家能夠讓機(jī)器具有更高級的情境理解能力。”
研究人員表示,這種系統(tǒng)還可以在沒有人指導(dǎo)的情況下進(jìn)行學(xué)習(xí)。這意味著該系統(tǒng)進(jìn)行訓(xùn)練所用的200萬個(gè)視頻(大約等于一年的長度)并不需要人類的標(biāo)記。這能極大地減少訓(xùn)練所需的時(shí)間,并能讓其適應(yīng)新數(shù)據(jù)。
在西班牙巴塞羅那召開的神經(jīng)信息處理系統(tǒng)大會(Conference and Workshop on Neural Information Processing Systems)上,研究人員展示了他們的研究成果,解釋了他們是怎樣用海灘、火車站、醫(yī)院和高爾夫球場的視頻對該系統(tǒng)進(jìn)行訓(xùn)練的。
“我們發(fā)現(xiàn),早期的原型系統(tǒng)面臨的難點(diǎn)在于,模型預(yù)測視頻的背景將要變形扭曲,” Vondrick 表示。為了克服這個(gè)問題,他們調(diào)整了設(shè)計(jì),讓系統(tǒng)學(xué)習(xí)獨(dú)立的靜態(tài)背景模型和動態(tài)前景模型,然后再把它們合起來制成視頻。
“這個(gè)計(jì)算機(jī)模型對世界是沒有任何預(yù)設(shè)的,它必須學(xué)習(xí)人的樣子、物體移動的方式和結(jié)果,”Vondrick表示,“我們的模型還沒有完全學(xué)成。如果能擴(kuò)充它理解如物體之類的高級概念的能力,那么生成的視頻質(zhì)量將會顯著提高。”
Vondrick表示,未來的另一個(gè)挑戰(zhàn)是生成更長的視頻,因?yàn)檫@就需要系統(tǒng)花更長的時(shí)間去追蹤場景物體之間的更多關(guān)系。
“要完成這一任務(wù),可能需要人類的輸入來幫助系統(tǒng)理解場景中的元素,因?yàn)樽屗约簩W(xué)習(xí)會比較艱難。”