AI算法的進(jìn)步速度遠(yuǎn)超硬件的摩爾定律
對于“未來的算法能與現(xiàn)有半導(dǎo)體芯片或正在開發(fā)之新運(yùn)算架構(gòu)契合”這件事,我們能抱持多大的信心?隨著算法的進(jìn)展速度超越硬件技術(shù)進(jìn)展進(jìn)步,甚至是最先進(jìn)的深度學(xué)習(xí)模型都可以被布署于只要5美元的Raspberry Pi開發(fā)板。
在1980年代的處理器上執(zhí)行目前最先進(jìn)的算法,與在目前最先進(jìn)的處理器上執(zhí)行1980年代之算法,哪一種可以算得更快?答案令人驚訝,通常是在舊處理器上執(zhí)行新算法能算得更快。雖然摩爾定律(Moore’s Law)因為是電子產(chǎn)業(yè)快速發(fā)展的驅(qū)動力而備受關(guān)注,但它只是驅(qū)動力的其中之一,我們經(jīng)常忘記算法的進(jìn)展速度其實在很多情況下都勝過摩爾定律。
根據(jù)德國柏林工業(yè)大學(xué)教授、知名數(shù)學(xué)家Martin Gr?tschel的觀察,在1988年需要花費(fèi)82年才能算出解答的一個線性程序設(shè)計問題,在2003年只需要1分鐘就能解決;在這段時間,硬件的速度快了1,000倍,算法的進(jìn)步則達(dá)到4萬3,000倍。
美國麻省理工學(xué)院(MIT)教授Dimitris Bertsimas的類似研究結(jié)果顯示,在1991年至2013年間,混合整數(shù)求解器(mixed integer solvers)算法速度快了58萬倍,同時間頂尖超級計算機(jī)的硬件速度只有進(jìn)步32萬倍。據(jù)說類似的結(jié)果也發(fā)生在其他類型的約束優(yōu)化(constrained opTImizaTIon)問題和質(zhì)因子分解(prime number factorizaTIon)問題中。
這對人工智能(AI)意味著什么?
過去五年來,AI無論在學(xué)界、業(yè)界或是新創(chuàng)領(lǐng)域都呈現(xiàn)爆炸性發(fā)展,最大的轉(zhuǎn)折點(diǎn)可能是發(fā)生在2012年,當(dāng)時一個來自加拿大多倫多大學(xué)(University of Toronto)的團(tuán)隊AlexNet,利用深度學(xué)習(xí)方法一舉贏得了年度計算機(jī)視覺影像辨識大賽ImageNet Large Scale Visual RecogniTIon Challenge (ILSVRC)冠軍,自此深度學(xué)習(xí)就成為實現(xiàn)AI的關(guān)鍵方程式。
計算機(jī)視覺的演進(jìn)已蔓延至自然語言處理和其他AI領(lǐng)域。智能喇叭、實時計算機(jī)翻譯、機(jī)器人對沖基金(robotic hedge funds),以及web參考引擎(web reference engines)…等等新產(chǎn)物,已經(jīng)不會再讓我們感到驚訝。
AI也成為了交通運(yùn)輸產(chǎn)業(yè)的驅(qū)動力(這也是Autotech Ventures的投資目標(biāo)之一);我們已經(jīng)觀察到,先進(jìn)駕駛輔助系統(tǒng)(ADAS)、自動駕駛、車隊檢測(fleet inspection)、制造質(zhì)量控制,以及車載人機(jī)接口等等應(yīng)用領(lǐng)域具備龐大的發(fā)展?jié)摿Α5侥壳盀橹?,我們已?jīng)投資了幾家在諸如ADAS、自動駕駛、視覺檢測與邊緣運(yùn)算等應(yīng)用領(lǐng)域開發(fā)AI解決方案的新創(chuàng)公司,在分析這些商機(jī)時,算法和硬件之間的交互作用是我們進(jìn)行投資決策時的關(guān)鍵考慮因素之一。
大眾對AI硬件的關(guān)注
基于深度學(xué)習(xí)的AI在其轉(zhuǎn)折點(diǎn)之后,出現(xiàn)了對繪圖處理器(GPU)的強(qiáng)勁需求。由于具備很強(qiáng)的平行運(yùn)算能力,GPU對于深度學(xué)習(xí)算法所采用的邏輯碰巧能展現(xiàn)驚人效率;GPU大廠Nvidia在市場競爭中脫穎而出,其股價從2013年到2018年上漲了20倍。
當(dāng)然,Nvidia競爭對手們正在努力追趕;高通(Qualcomm)、Arm和其他公司將注意力集中在AI芯片設(shè)計上,英特爾(Intel)則收購了AI芯片新創(chuàng)公司Nervana Systems。Google、Facebook、蘋果(Apple)和亞馬遜(Amazon)紛紛投入了為自家數(shù)據(jù)中心及其他計劃開發(fā)自有AI處理器,也有一些新創(chuàng)公司(例如Graphcore、Mythic、Wave Computing、Cerebras和SambaNova)看準(zhǔn)商機(jī),試圖設(shè)計更好的圖靈機(jī)(Turing machine)系統(tǒng)。像D-wave Systems和IBM等其他一些公司也在積極探索后圖靈時代的架構(gòu)。大多數(shù)芯片開發(fā)的目標(biāo)是趕上或超過Nvidia。然而,據(jù)我們所知,大多數(shù)處理器都是針對今日的AI算法進(jìn)行設(shè)計。
盡管需要龐大的前期開發(fā)成本,我們?nèi)詫⒔?jīng)歷各種AI芯片設(shè)計的“寒武紀(jì)大爆發(fā)”。AI前景如此誘人,讓產(chǎn)業(yè)玩家愿意投入巨資開發(fā)硬件,在以往是要讓硬件與基礎(chǔ)數(shù)學(xué)算法匹配,但對于讓現(xiàn)有半導(dǎo)體芯片或正在開發(fā)的新運(yùn)算架構(gòu)能與未來的算法契合,我們有多大的信心?
有鑒于算法的演進(jìn)速度和幅度變化是如此之快,許多AI芯片設(shè)計可能還沒上市就過時了;我們推測明日的AI算法可能會需要完全不同的運(yùn)算架構(gòu)、內(nèi)存資源,以及數(shù)據(jù)傳輸能力等等條件。
盡管深度學(xué)習(xí)框架已經(jīng)出現(xiàn)很長一段時間,直到最近才真正被付諸實現(xiàn),這要感謝摩爾定律所預(yù)測的硬件技術(shù)進(jìn)展。最初的數(shù)學(xué)不一定是為工程實踐而設(shè)計的,因為早期研究人員無法想象今日花1,000美元就能獲得的運(yùn)算能力有多么大?,F(xiàn)今許多AI實作都是使用原始的數(shù)學(xué)模型,朝著準(zhǔn)確、簡單且更深層的方向發(fā)展,或者添加更多數(shù)據(jù);但這樣只會很快消耗GPU的運(yùn)算容量。只有一小部分研究人員專注于改善基礎(chǔ)數(shù)學(xué)和算法框架的難題。
還是有很多機(jī)會認(rèn)識并利用這些新穎的數(shù)學(xué)進(jìn)展,我們所觀察到的方法包括精簡冗余數(shù)學(xué)運(yùn)算(redundant mathematical operations)而減少運(yùn)算時間,將卷積壓縮到較小的矩陣而減少內(nèi)存需求,或者對加權(quán)矩陣進(jìn)行二值化(binarize)而簡化數(shù)學(xué)運(yùn)算。這些是算法演進(jìn)的第一次嘗試,其發(fā)展之快已經(jīng)開始超越硬件進(jìn)展。
舉例來說,從美國加州大學(xué)伯克利分校(UC Berkeley)研究項目獨(dú)立的DeepScale ,就是將應(yīng)用于ADAS和自動駕駛的AI,“塞進(jìn)”車用芯片(不是GPU),與僅采用算法的物體檢測模型相比較,他們的神經(jīng)網(wǎng)絡(luò)模型的指令周期要快30倍,同時在功耗和內(nèi)存占用方面也有很大的提升,足以在這幾年問世的現(xiàn)有硬件上執(zhí)行。
另一個算法大躍進(jìn)的案例來自美國的非營利研究機(jī)構(gòu)艾倫人工智能研究所(Allen Institute of Artificial Intelligence),該機(jī)構(gòu)研究人員采用一種利用神經(jīng)網(wǎng)絡(luò)二值化的創(chuàng)新數(shù)學(xué)方法,已經(jīng)證明可以大幅提高速度,同時降低功耗和內(nèi)存要求;如此甚至能讓最先進(jìn)的深度學(xué)習(xí)模型布署于售價僅5美元的Raspberry Pi平臺上。研究人員最近將這種算法和處理工具獨(dú)立為一家公司XNOR.ai,旨在于邊緣設(shè)備布署AI,并進(jìn)一步推動AI算法的進(jìn)步。
有趣的是,新的二值化框架從根本上改變了最佳處理邏輯的類型,它們不再需要解決神經(jīng)網(wǎng)絡(luò)所需的32位浮點(diǎn)卷積,而只需要進(jìn)行位計數(shù)運(yùn)算(bit counting operations)——這將改變GPU領(lǐng)域的權(quán)力平衡。此外如果這些算法與專門設(shè)計的芯片相匹配,則可以進(jìn)一步降低運(yùn)算資源需求。
算法的進(jìn)步不會停止;有時需要數(shù)年甚至數(shù)十年才能發(fā)明(或者說是發(fā)現(xiàn))新的算法。這些突破無法以與摩爾定律推動的運(yùn)算進(jìn)展相同之方式來預(yù)測。它們本質(zhì)上是非確定性的;但是當(dāng)它們發(fā)生時,整個局勢變化通常會讓現(xiàn)有的主導(dǎo)者變成脆弱的獵物。
黑天鵝效應(yīng)
暢銷書《黑天鵝效應(yīng):如何及早發(fā)現(xiàn)最不可能發(fā)生但總是發(fā)生的事》(The Black Swan: The Impact of the Highly Improbable)的作者在書中闡明,最佳決策在很大程度上取決于分析過程是不可預(yù)測或不確定;換句話說,我們是在處理“已知的未知”(known unknowns)還是“未知的未知”(unknown unknowns)?算法創(chuàng)新基本上是未知的未知,因為它們的發(fā)現(xiàn)時間不確定以及影響不可預(yù)測,押注于這類發(fā)展需要持續(xù)的關(guān)注。
然而,在應(yīng)用數(shù)學(xué)領(lǐng)域,尤其是AI應(yīng)用領(lǐng)域,在最近二十年內(nèi)出現(xiàn)了數(shù)次顛覆性的算法發(fā)現(xiàn),它們與GPU一起,將AI從一個不起眼的研究領(lǐng)域帶到了商業(yè)化最前線。
我們意識到這些運(yùn)算領(lǐng)域“黑天鵝”的潛力,它們將使現(xiàn)有芯片架構(gòu)成為過去,或者在一夜之間讓它們的市場地位重新洗牌。對我們來說,這些「黑天鵝」最后可能會實現(xiàn)更安全的自動駕駛車輛,以及許多其他未知的應(yīng)用案例。
來源:電子工程專輯