深度學(xué)習(xí)塵埃已落定 AI冬天只是時(shí)間問題
處于所謂的 AI 革命的前沿至今已有好幾年;許多人過去認(rèn)為,深度學(xué)習(xí)是神奇的“銀彈”,會把我們帶到技術(shù)奇點(diǎn)(general AI)的奇妙世界。許多公司在 2014 年、2015 年和 2016 年紛紛下豪賭,那幾年業(yè)界在開拓新的邊界,比如 Alpha Go 等。特斯拉等公司通過各自的門面(CEO)來宣布,完全自動駕駛的汽車指日可待,以至于特斯拉開始向客戶兜售這種愿景(有依賴于未來的軟件更新)。
我們現(xiàn)在進(jìn)入到 2018 年年中,情況已發(fā)生了變化。這表面上暫時(shí)還看不出來,NIPS 大會仍一票難求,許多公司的公關(guān)人員仍在新聞發(fā)布會上竭力鼓吹 AI,埃隆·馬斯克仍不斷承諾會推出自動駕駛汽車,谷歌的首席執(zhí)行官仍不斷高喊吳恩達(dá)的口號(AI 比電力更具革命性)。但這種論調(diào)開始站不住腳。正如我在之前的文章中預(yù)測,最站不住腳的地方就是自動駕駛――即這項(xiàng)技術(shù)在現(xiàn)實(shí)世界中的實(shí)際應(yīng)用。
深度學(xué)習(xí)方面塵埃已落定
ImageNet 得到有效地解決(注意:這并不意味著視覺已得到解決)時(shí),這個(gè)領(lǐng)域的杰出研究人員、甚至包括通常低調(diào)的杰夫·辛頓(Geoff Hinton)都在積極接受媒體采訪,在社交媒體上大造聲勢,比如雅恩·樂坤(Yann Lecun)、吳恩達(dá)和李飛飛等人。大意無非是,我們正面臨一場巨大的革命;從現(xiàn)在開始,革命的步伐只會加快。多年過去了,這些人的推文變得不那么活躍了,下面以吳恩達(dá)的推文為例來說明:
2013 年:每天 0.413 條推文
2014 年:每天 0.605 條推文
2015 年:每天 0.320 條推文
2016 年:每天 0.802 條推文
2017 年:每天 0.668 條推文
2018 年:每天 0.263 條推文(截至 5 月 24 日)
也許這是由于吳恩達(dá)的大膽言論現(xiàn)在受到了 IT 界會更嚴(yán)厲的拷問,正如下面這條推文所示:
顯而易見,AI 方面的聲勢已大幅減弱,現(xiàn)在盛贊深度學(xué)習(xí)是終極算法的推文少多了,論文也少了“革命性”的論調(diào),多了“演進(jìn)性”的論調(diào)。自推出 Alpha Go zero 以來,Deepmind 還沒有拿出任何激動人心的成果。OpenAI 相當(dāng)安靜,它上一次在媒體上大放異彩是玩《刀塔2》(Dota2)游戲的代理,我想它原本是為了營造與 Alpha Go 一樣大的聲勢,但很快就沒有了動靜。實(shí)際上這時(shí)開始出現(xiàn)了好多文章,認(rèn)為連谷歌實(shí)際上都不知道如何處理 Deepmind,因?yàn)樗鼈兊慕Y(jié)果顯然不如最初預(yù)期的那樣注重實(shí)際……至于那些聲名顯赫的研究人員,他們通常在四處會見加拿大或法國的政府官員,確保將來拿到撥款,雅恩·樂坤甚至辭去了 Facebook AI 實(shí)驗(yàn)室主任一職,改任 Facebook 首席 AI 科學(xué)家。從財(cái)大氣粗的大公司逐漸轉(zhuǎn)向政府資助的研究機(jī)構(gòu),這讓我意識到,這些公司(我指谷歌和 Facebook)對此類研究的興趣實(shí)際上在慢慢減弱。這些同樣是早期的征兆,不是大聲說出來,只是肢體語言。
深度學(xué)習(xí)不具有擴(kuò)展性
深度學(xué)習(xí)方面老生常談的重要口號之一是,它幾乎毫不費(fèi)力就能擴(kuò)展。我們在 2012 年有了約有 6000 萬個(gè)參數(shù)的 AlexNet,現(xiàn)在我們可能擁有至少是參數(shù)是這個(gè)數(shù) 1000 倍的模型,是不是?也許我們有這樣的模型,可是問題是,這種模型的功能強(qiáng) 1000 倍嗎?或者甚至強(qiáng) 100 倍?OpenAI 的一項(xiàng)研究派上了用場:
所以,從視覺應(yīng)用這方面來看,我們看到 VGG 和 Resnets 在運(yùn)用的計(jì)算資源大約高出一個(gè)數(shù)量級后趨于飽和(從參數(shù)的數(shù)量來看實(shí)際上更少)。XcepTIon 是谷歌 IncepTIon 架構(gòu)的一種變體,實(shí)際上只是在 ImageNet 方面比 IncepTIon 略勝一籌,可能比其他各種架構(gòu)略勝一籌,因?yàn)閷?shí)際上 AlexNet 解決了 ImageNet。所以在計(jì)算資源比 AlexNet 多 100 倍的情況下,我們實(shí)際上在視覺(準(zhǔn)確地說是圖像分類)方面幾乎讓架構(gòu)趨于飽和。神經(jīng)機(jī)器翻譯是各大互聯(lián)網(wǎng)搜索引擎大力開展的一個(gè)方向,難怪它獲取所能獲取的所有計(jì)算資源(不過谷歌翻譯仍很差勁,不過有所改進(jìn))。上面圖中最近的三個(gè)點(diǎn)顯示了與強(qiáng)化學(xué)習(xí)有關(guān)的項(xiàng)目,適用于 Deepmind 和 OpenAI 玩的游戲。尤其是 Alpha Go Zero 和更通用一點(diǎn)的 Alpha Go 獲取的計(jì)算資源非常多,但它們并不適用于實(shí)際應(yīng)用,原因是模擬和生成這些數(shù)據(jù)密集型模型所需的數(shù)據(jù)需要這些計(jì)算資源中的大部分。OK,現(xiàn)在我們可以在幾分鐘內(nèi)、而不是幾天內(nèi)訓(xùn)練 AlexNet,但是我們可以在幾天內(nèi)訓(xùn)練大 1000 倍的 AlexNet,并獲得性質(zhì)上更好的結(jié)果嗎?顯然不能……。
所以實(shí)際上,旨在顯示深度學(xué)習(xí)擴(kuò)展性多好的這張圖恰恰表明了其擴(kuò)展性多差。我們不能簡單地通過擴(kuò)展 AlexNet 來獲得相應(yīng)更好的結(jié)果,我們不得不調(diào)整特定的架構(gòu),如果不能在數(shù)據(jù)樣本的數(shù)量上獲得數(shù)量級的提升,實(shí)際額外的計(jì)算資源無法換來太大的效果,而這種量級的數(shù)據(jù)樣本實(shí)際上只有在模擬游戲環(huán)境中才有。
自動駕駛事故不斷
對深度學(xué)習(xí)名聲打擊最大的無疑是自動駕駛車輛這個(gè)領(lǐng)域(我很早以前就預(yù)料到這一點(diǎn),比如 2016 年的這篇文章:https://blog.piekniewski.info/2016/11/15/ai-and-the-ludic-fallacy/)。起初,人們認(rèn)為端到端深度學(xué)習(xí)有望以某種方式解決這個(gè)問題,這是英偉達(dá)大力倡導(dǎo)的一個(gè)觀點(diǎn)。我認(rèn)為世界上沒有哪個(gè)人仍相信這一點(diǎn),不過也許我是錯(cuò)的。看看去年加利福尼亞州車輛管理局(DMV)的脫離(disengagement)報(bào)告,英偉達(dá)汽車實(shí)際上開不了 10 英里就脫離一次。
我在另一篇文章(https://blog.piekniewski.info/2018/02/09/a-v-safety-2018-update/)中討論了這方面的總體情況,并與人類駕駛員的安全性進(jìn)行了比較(爆料一下情況不太好)。自 2016 年以來,特斯拉自動駕駛系統(tǒng)已發(fā)生了幾起事故,幾起還是致命的。特斯拉的自動駕駛系統(tǒng)不該與自動駕駛混為一談,但至少它在核心層面依賴同一種技術(shù)。到今天為止,除了偶爾的嚴(yán)重錯(cuò)誤外,它還是無法在十字路口停車,無法識別紅綠燈,甚至無法繞環(huán)島正確行駛?,F(xiàn)在是 2018 年 5 月,離特斯拉承諾來一次西海岸到東海岸的自動駕駛(這一幕沒有出現(xiàn),不過傳聞稱特斯拉有過嘗試,但無法成行)已有好幾個(gè)月。幾個(gè)月前(2018 年 2 月),被問及西海岸到東海岸的自動駕駛時(shí),埃隆·馬斯克在電話會議上重申了這點(diǎn):
“我們本可以進(jìn)行西海岸到東海岸的駕駛,但那需要太多專門的代碼來進(jìn)行有效地改動,但這適用于一條特定的路線,但不是通用的解決方案。于是我認(rèn)為我們可以重復(fù)它,但如果它根本無法適用于其他路線上,那不是真正意義上的解決方案。”
“我為我們在神經(jīng)網(wǎng)絡(luò)方面取得的進(jìn)展而感到激動。它是很小的進(jìn)展,似乎不是多大的進(jìn)展,但突然讓人大為驚嘆。”
嗯,看一看上圖(來自 OpenAI),我似乎沒有看到那個(gè)長足的進(jìn)步。對于這個(gè)領(lǐng)域的幾乎各大玩家來說,出現(xiàn)脫離之前的英里數(shù)也沒有顯著增加。實(shí)際上,上述聲明可以理解為:“我們目前沒有能夠安全地將人們從西海岸載到東海岸的技術(shù),不過如果我們真愿意的話,其實(shí)可以做手腳……我們熱切地希望,神經(jīng)網(wǎng)絡(luò)功能方面很快會出現(xiàn)某種突飛猛進(jìn),好讓我們從恥辱和大堆訴訟中脫身出來。”
但是給 AI 泡沫最猛力一戳的是優(yōu)步(Uber)自動駕駛汽車在亞利桑那州撞死行人的事故。從美國國家運(yùn)輸安全委員會(NTSB)的初步報(bào)告來看,我們可以看到一些令人震驚的聲明:
除了這份報(bào)告中明顯提到的總體系統(tǒng)設(shè)計(jì)失敗外,令人吃驚的是,系統(tǒng)花了好幾秒的時(shí)間來確定看到的前方到底是什么(無論是行人、自行車、汽車還是其他什么),而不是這種情形下做出唯一的合理決定,從而旨在確保沒有撞上。這有幾個(gè)原因:第一,人們常常會事后會用言語表達(dá)其決定。因此,一個(gè)人通常會說:“我看到了一個(gè)騎車的人,于是我轉(zhuǎn)向左邊以避開他。”大量的精神生理學(xué)文獻(xiàn)會給出一番截然不同的解釋:一個(gè)人看到了被其神經(jīng)系統(tǒng)的快速感知回路迅速理解成障礙物的東西后,迅速采取行動來避開它,過了好多秒后才 意識到所發(fā)生的事情,并提供口頭解釋。”我們每天做不是用言語表達(dá)的眾多決定,而駕駛包括許多這樣的決定。用言語表達(dá)開銷很大,又耗費(fèi)時(shí)間,實(shí)際情形常常很緊迫,不允許這么做。這種機(jī)制已進(jìn)化了 10 億年來確保我們的安全,而駕駛環(huán)境(盡管現(xiàn)代)利用了許多這樣的反射。由于這些反射沒有專門針對駕駛而進(jìn)化,可能會導(dǎo)致錯(cuò)誤。一只黃蜂在汽車?yán)镂宋俗黜懀瘃{駛員條件反射,可能會導(dǎo)致多起車禍和死亡。但是我們對于三維空間和速度的基本理解、預(yù)測代理的行為和路上迎面而來的實(shí)際物體的行為這種能力卻是很原始的技能,跟 1 億年前一樣,這些技能在今天一樣有用,它們因進(jìn)化而得到了顯著的增強(qiáng)。
但是由于這些東西大多不容易用言語表達(dá),它們很難來測量,因而我們根本無法針對這些方面來優(yōu)化機(jī)器學(xué)習(xí)系統(tǒng)……現(xiàn)在這將認(rèn)同英偉達(dá)的端到端方法――學(xué)習(xí)圖像->動作映射,跳過任何言語表達(dá),在某些方面這是正確的做法,但問題是,輸入空間是高維的,而動作空間卻是低維的。因此,與輸入的信息量相比,“標(biāo)簽”(讀出)的“數(shù)量”極小。在這種情況下,極容易學(xué)習(xí)虛假關(guān)系(spurious relaTIon),深度學(xué)習(xí)中的對抗樣本(adversarial example)就表明了這點(diǎn)。我們需要一種不同的范式,我假設(shè)預(yù)測整個(gè)感知輸入以及動作是讓系統(tǒng)能夠提取現(xiàn)實(shí)世界語義的第一步,而不是提取虛假關(guān)系是第一步。欲知詳情,請參閱我的第一個(gè)提議的架構(gòu):預(yù)測視覺模型(Predictive Vision Model,https://blog.piekniewski.info/2016/11/04/predictive-vision-in-a-nutshell/)。
實(shí)際上,如果說我們從深度學(xué)習(xí)的大流行中學(xué)到什么東西,那就是(10k+ 維度)圖像空間里面有足夠多的虛假模式,它們實(shí)際上在許多圖像上具有共性,并留下印象,比如我們的分類器實(shí)際上理解它們看到的東西。連在這個(gè)領(lǐng)域浸淫多年的頂尖研究人員都承認(rèn),事實(shí)遠(yuǎn)非如此。
加里·馬庫斯對炒作說不
我應(yīng)該提到一點(diǎn),更多的知名人士認(rèn)識到了這種傲慢自大,有勇氣公開炮轟。這個(gè)領(lǐng)域最活躍的人士之一是加里·馬庫斯(Gary Marcus)。雖然我并不同意加里在 AI 方面提出的每個(gè)觀點(diǎn),但我們無疑一致認(rèn)為:AI 還沒有像深度學(xué)習(xí)炒作宣傳機(jī)器描繪的那么強(qiáng)大。實(shí)際上,相距甚遠(yuǎn)。他寫過出色的博文/論文:
《深度學(xué)習(xí):批判性評估》(https://arxiv.org/abs/1801.00631)
《為深度學(xué)習(xí)的質(zhì)疑聲辯護(hù)》(https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1)
他非常深入細(xì)致地解析了深度學(xué)習(xí)炒作。我很敬重加里,他的表現(xiàn)像是真正的科學(xué)家,大多數(shù)被稱為“深度學(xué)習(xí)明星”的人其表現(xiàn)就像三流明星。
結(jié)束語
預(yù)測 AI 的冬天就像預(yù)測股市崩盤――不可能準(zhǔn)確地預(yù)測何時(shí)發(fā)生,但幾乎可以肯定的是,它會在某個(gè)時(shí)候點(diǎn)發(fā)生。就像股市崩盤之前,有跡象預(yù)示股市即將崩盤,但是對前景的描繪是如此的誘人,以至于很容易忽視這些跡象,哪怕這些跡象清晰可見。在我看來,已經(jīng)有這類明顯的跡象表明,深度學(xué)習(xí)將大幅降溫(可能在 AI 行業(yè),這個(gè)術(shù)語已被企業(yè)宣傳機(jī)器沒完沒了地濫用),這類跡象已經(jīng)清晰可見,不過大多數(shù)人被越來越誘人的描繪蒙蔽了雙眼。那個(gè)冬天會有多“深”?我不知道。接下來會發(fā)生什么?我也不知道。但我很肯定 AI 冬天會到來,也許更早到來,而不是更晚到來。