NVIDIA造深度學(xué)習(xí)超級(jí)計(jì)算機(jī)DGX-1是為什么?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在今年硅谷的GTC上,NVIDIA發(fā)布了深度學(xué)習(xí)超級(jí)計(jì)算機(jī)DGX-1。黃仁勛稱它是“裝進(jìn)機(jī)箱里的數(shù)據(jù)中心”。
DGX-1內(nèi)置了8塊基于Pascal架構(gòu)的Tesla P100加速器和4塊1.92TB的固態(tài)硬盤,使用比傳統(tǒng)PCIe快5 -12倍的NVLink技術(shù)連接CPU與GPU以及GPU之間的數(shù)據(jù)傳輸。在深度學(xué)習(xí)訓(xùn)練上,它比一臺(tái)普通的Xeon E5 2697 v3的雙CPU服務(wù)器快75倍,整體性能相當(dāng)于250臺(tái)普通x86服務(wù)器。單臺(tái)DGX-1的售價(jià)是12.9萬美金。
在GTC之后,黃仁勛親自將第一臺(tái)DGX-1送給了Elon Musk的人工智能項(xiàng)目OpenAI。NVIDIA還會(huì)將首批DGX-1優(yōu)先發(fā)給近年對(duì)人工智能有突出貢獻(xiàn)的研究機(jī)構(gòu),這個(gè)名單里包含了Stanford、UC Berkeley、CMU、MIT、香港中文大學(xué)等等。而在中國大陸,已經(jīng)公開的信息是7月份??低曂ㄟ^曙光簽下了國內(nèi)第一單DGX-1;NVIDIA方面則告訴我們目前DGX-1在國內(nèi)已有十來家客戶。
在10月份剛剛結(jié)束的HPC China 2016上,我們和NVIDIA的高層聊了聊他們?cè)诟咝阅苡?jì)算上的看法以及他們?yōu)槭裁匆爝@臺(tái)超級(jí)計(jì)算機(jī)。
下一代程序大部分會(huì)由機(jī)器編寫NVIDIA負(fù)責(zé)解決方案與工程架構(gòu)的副總裁Marc Hamilton在HPC China 2016上表達(dá)了這么一個(gè)觀點(diǎn),AI會(huì)催生一種新的計(jì)算模型,未來大部分程序不會(huì)是由人來編寫,而是通過深度學(xué)習(xí)網(wǎng)絡(luò)來編寫。
他舉了一個(gè)例子,過去編寫的程序比如通訊錄或者工資的發(fā)放,它們是非常規(guī)整的數(shù)字。而今天有大量更復(fù)雜的數(shù)據(jù),比如圖像、聲音、視頻。哪怕把13億中國人都變成碼農(nóng),也不可能編出足夠多的軟件來處理一天所產(chǎn)生的大量數(shù)據(jù)。所以大部分程序會(huì)由深度神經(jīng)網(wǎng)絡(luò)來編寫,而NVIDIA相信大部分深度神經(jīng)網(wǎng)絡(luò)會(huì)運(yùn)行在GPU上。
NVIDIA方面講了2個(gè)案例:在上海,他們有一家生物醫(yī)療行業(yè)的合作伙伴,在通過深度學(xué)習(xí)對(duì)核磁共振、CT影像做分析進(jìn)行癌癥的審查和復(fù)核。而另一個(gè)在國內(nèi)走得比較快的領(lǐng)域是安防,比如在視頻中去比對(duì)疑犯照片或者是尋找特定的物體。這方面典型的合作伙伴如??低暎笳咚少彽腄GX-1也是用于視頻監(jiān)控方面的深度學(xué)習(xí)研究。
DGX-1是一種傻瓜式的設(shè)計(jì)DGX-1的設(shè)計(jì)可以回溯到2015年的GTC,當(dāng)時(shí)NVIDIA公布了最新一代的Pascal架構(gòu),這一新架構(gòu)會(huì)把一些關(guān)鍵的深度學(xué)習(xí)應(yīng)用提升10倍以上的速率。但這一新架構(gòu)也帶來了新的問題:開發(fā)/研究人員可能要花數(shù)周甚至數(shù)月的時(shí)間配置這些GPU。所以在幾個(gè)月后,黃仁勛在內(nèi)部提出了一個(gè)要求:希望在第二年的GTC之前,由NVIDIA的工程部門打造一臺(tái)基于Pascal架構(gòu)的服務(wù)器,這樣研究機(jī)構(gòu)和公司們只要按下機(jī)箱按鈕就能把8塊GPU用在深度學(xué)習(xí)上。
今天我們看到的DGX-1并不是8塊GPU捏在一起那么簡(jiǎn)單。Marc Hamilton告訴我們,DGX-1還囊括了3類軟件和服務(wù)的整合。
第一是對(duì)所有深度學(xué)習(xí)框架的支持。比如Caffe、TensorFlow、CNTK.。.DGX-1對(duì)現(xiàn)在流行的深度學(xué)習(xí)框架都進(jìn)行了優(yōu)化。
第二類是底層的庫,稱為cuDNN,可以理解成是CUDA融合了Deep Neural Network。
第三類是DGX的云服務(wù),等于從云上給DGX服務(wù)器做一個(gè)鏡像。任何一家公司,他們未必知道如何去管理深度學(xué)習(xí)的系統(tǒng)軟件,但知道怎樣在云端管理一臺(tái)DGX-1服務(wù)器。
當(dāng)下,對(duì)NVIDIA來說,最大的挑戰(zhàn)是如何快速普及深度學(xué)習(xí),其中國區(qū)企業(yè)事業(yè)部總經(jīng)理沈威說,深度學(xué)習(xí)是一個(gè)獨(dú)特的市場(chǎng),NVIDIA自己造DGX-1則是這個(gè)背景下的新嘗試。Marc Hamilton告訴我們,要實(shí)現(xiàn)150個(gè)petaflop浮點(diǎn)計(jì)算的性能,如果基于多個(gè)GPU的話,需要3400個(gè)服務(wù)器,而如果使用傳統(tǒng)x86的解決方案,則需要10萬個(gè)服務(wù)器。對(duì)于程序員來說,維護(hù)這兩個(gè)數(shù)量級(jí)的服務(wù)器,其中的選擇是顯而易見的。