GPU重分IT奶酪
當(dāng)年一場(chǎng)場(chǎng)CPU革命把人類推上了IT列車,如今GPU正把火車換成飛機(jī)。而一直在IT方面不斷追趕的中國(guó),此次也搭上了頭等艙。
近日,中國(guó)科學(xué)院和清華大學(xué)分別被授予CUDA卓越中心的稱號(hào),以表彰他們?cè)诶肎PU進(jìn)行高性能計(jì)算的突出貢獻(xiàn),而親自授予他們這個(gè)榮譽(yù)的正是GPU計(jì)算革命的發(fā)起者和主導(dǎo)者-----NVIDIA(英偉達(dá))公司。
在雙方眼中,GPU計(jì)算不僅是世界IT業(yè)的下一場(chǎng)革命,也是中國(guó)贏得IT奶酪的絕佳機(jī)會(huì)。
GPU取長(zhǎng)CPU補(bǔ)短
在人們都習(xí)慣了“Intel Inside”之后,再提計(jì)算革命似乎總有點(diǎn)班門弄斧,但事實(shí)勝于雄辯,GPU以極其強(qiáng)悍的數(shù)據(jù)證明,下一場(chǎng)顛覆性的計(jì)算革命已經(jīng)到來,世界需要新的計(jì)算之王。
這不是噪音,也不是口號(hào),而是正在發(fā)生的巨變。
在英特爾的奔騰時(shí)代,摩爾定律讓處理器的主頻時(shí)鐘速度在短短幾年顯著提升。但是隨著摩爾定律的進(jìn)步,從45納米到32納米,CPU集成的晶體管越來越多,但在高性能計(jì)算方面性能還不能滿足用戶持續(xù)增長(zhǎng)的需求。同時(shí)基于CPU的大型計(jì)算服務(wù)器也由于高額的采購(gòu)成本和維護(hù)費(fèi)用也成為了無法逃避的弊端。
高性能計(jì)算的明天在哪里?革命在何方?GPU計(jì)算應(yīng)運(yùn)而生。
如果說上一次計(jì)算革命——集成電路,讓過去占據(jù)一幢房子大小的高性能計(jì)算機(jī)縮小到一個(gè)房間,也就此掀起一場(chǎng)個(gè)人消費(fèi)電腦的普及革命。而如今GPU計(jì)算的革命可以將幾個(gè)房間大小的高性能計(jì)算服務(wù)器縮小成一臺(tái)個(gè)人電腦的大小,以GPU為基礎(chǔ)的個(gè)人高性能超級(jí)計(jì)算機(jī)就此誕生!
改變的秘密在于CPU和GPU的本質(zhì)區(qū)別。
CPU的設(shè)計(jì)宗旨就是要從指令流中得到最高的處理效能,即要用最短的時(shí)間完成一項(xiàng)任務(wù),這就是串行計(jì)算,但串行計(jì)算架構(gòu)的CPU天生就不適合高性能計(jì)算領(lǐng)域所強(qiáng)調(diào)的并行計(jì)算工作,這是為什么CPU現(xiàn)在成為了高性能計(jì)算性能提升的瓶頸。
相形之下,始于圖形處理的GPU一開始就是被設(shè)計(jì)來處理大規(guī)模的并行計(jì)算,數(shù)千萬的多邊形和像素的并行處理使得GPU在發(fā)展的同時(shí)不斷地加入更多的處理核心并完善并行處理能力。
舉個(gè)今天GPU計(jì)算應(yīng)用的實(shí)例,比利時(shí)安特衛(wèi)普大學(xué)原來用的超級(jí)計(jì)算機(jī)有512顆處理器核,成本是530萬美元,占用了好幾個(gè)機(jī)柜;而后來換成一臺(tái)擁有8個(gè)GPU的臺(tái)式系統(tǒng),性能相當(dāng),成本只有7000美元,占地面積也大為減少。以GPU計(jì)算為基礎(chǔ)的高性能計(jì)算服務(wù)器在成本、性能等方面的優(yōu)勢(shì)毋庸置疑。
但擁有先天的強(qiáng)大并行計(jì)算能力的GPU被廣大高性能計(jì)算用戶所接受的道路并非一帆風(fēng)順。
作為先驅(qū)者,NVIDIA(英偉達(dá))1999年就推出GPU,2002年就開始大力推廣GPU計(jì)算技術(shù),推出第一個(gè)可編程的GPU,提出了GPGPU概念,即具有通用計(jì)算用途的GPU,這開始讓CPU廠商恐慌。但GPGPU編程難度太高,無法快速推廣。
2003年,NVIDIA(英偉達(dá))開始全新嘗試,舉三年之力,于2006年成功推出CUDA架構(gòu)(Compute Unified Device Architecture),于2007年正式發(fā)布。
CUDA是一個(gè)更適合于并行計(jì)算的架構(gòu),提供了硬件的直接訪問接口,并率先提供了針對(duì)GPU(圖形處理器)編程的C語言開發(fā)環(huán)境。
CUDA是由NVIDIA(英偉達(dá))推出的通用并行計(jì)算架構(gòu)。該架構(gòu)充分將GPU強(qiáng)大的并行計(jì)算能力調(diào)動(dòng)起來,使GPU能夠在解決復(fù)雜計(jì)算問題上發(fā)揮其先天的優(yōu)勢(shì)。開發(fā)人員現(xiàn)在僅使用C語言(C語言是應(yīng)用最廣泛的一種高級(jí)編程語言),就能在基于CUDA架構(gòu)的GPU(圖形處理器)上編寫程序,所編寫出的程序可以在支持CUDA的處理器上以超高性能運(yùn)行。CUDA將來還會(huì)支持其它語言,包括FORTRAN, Python以及C++。[!--empirenews.page--]
不僅如此,CUDA還是免費(fèi)的開源技術(shù),使廣大開發(fā)者都能挖掘NVIDIA(英偉達(dá)) GPU巨大的計(jì)算能力,解決復(fù)雜的科學(xué)運(yùn)算問題。
CUDA技術(shù)開啟了GPU實(shí)現(xiàn)通用運(yùn)算的大門,是GPU從專用平臺(tái)走向通用平臺(tái)的一個(gè)里程碑,自然也是下一場(chǎng)計(jì)算革命的真正起點(diǎn)。
與英特爾的X86架構(gòu)不同,CUDA基于GPU,但不拘于GPU,而是取長(zhǎng)補(bǔ)短,將CPU串行計(jì)算和GPU的并行計(jì)算融合,開啟“CPU+GPU協(xié)同計(jì)算”的全新時(shí)代,即“異構(gòu)計(jì)算”。
“異構(gòu)計(jì)算”真正實(shí)現(xiàn)了系統(tǒng)整體計(jì)算能力的最大化利用:GPU和CPU協(xié)同工作,GPU處理大量的圖形和并行處理,CPU處理操作系統(tǒng)和指令的邏輯控制。
兩者的協(xié)同比以往單純CPU運(yùn)算高出幾十倍甚至幾百倍,上千倍,將一直局限在大型服務(wù)器集群和超型計(jì)算機(jī)領(lǐng)域的高性能計(jì)算推向主流,可以使得PC和工作站具有超級(jí)計(jì)算的能力,使得個(gè)人超級(jí)計(jì)算機(jī)的普及成為可能,成為一場(chǎng)真正的革命。
目前,基于CUDA架構(gòu)的GPU不僅成為游戲玩家的最愛,也受到科研機(jī)構(gòu)的青睞。諸如地質(zhì)勘探、生物科學(xué)、流體力學(xué)、金融建模、醫(yī)療成像、有限元計(jì)算等新興應(yīng)用領(lǐng)域,都開始廣泛地通過CUDA架構(gòu)利用到GPU強(qiáng)大并行處理能力,所有開發(fā)人員都能夠使用標(biāo)準(zhǔn)的C語言,挖掘GPU中多個(gè)處理單元強(qiáng)大的并行計(jì)算能力。
隨著開發(fā)人員的不斷壯大,現(xiàn)在GPU計(jì)算滲透的領(lǐng)域不斷增加,與CPU并駕齊驅(qū)。
迄今為止,NVIDIA(英偉達(dá))已經(jīng)在全球賣出了超過1億顆以上支持CUDA架構(gòu)的GPU產(chǎn)品,CUDA開發(fā)人員的數(shù)量已經(jīng)超過25000人,應(yīng)用程序超過100個(gè),全世界有250多所大學(xué)開設(shè)了CUDA課程,包括中國(guó)科學(xué)院、清華大學(xué)等,GPU計(jì)算的生態(tài)系統(tǒng)已經(jīng)形成。
目前由GPU集群組成的高性能計(jì)算機(jī)集群數(shù)量已經(jīng)達(dá)到30個(gè),預(yù)計(jì)到2010年采用NVIDIA(英偉達(dá)) Tesla GPU構(gòu)建的超級(jí)計(jì)算機(jī)有望進(jìn)入全球高性能計(jì)算機(jī)TOP500排行榜的前十位。
中國(guó)奶酪
GPU運(yùn)算無疑將改變世界IT產(chǎn)業(yè)的版圖??上驳氖?,包袱較少的中國(guó)在接受新潮流方面處于更加有利的地位。
如今,中科院、清華大學(xué)、中國(guó)同濟(jì)大學(xué)、上海交大、西安交大等7所高校已經(jīng)將基于CUDA架構(gòu)的并行計(jì)算課程融入其教學(xué)之中,其中中科院和清華大學(xué)已經(jīng)走到全球CUDA應(yīng)用的前列。
在學(xué)術(shù)機(jī)構(gòu)支持下,NVIDIA(英偉達(dá))的GPU計(jì)算迅速超越大學(xué)與科研機(jī)構(gòu),為中國(guó)頂級(jí)工業(yè)效力。[!--empirenews.page--]
在寶鋼,使用異構(gòu)計(jì)算技術(shù)使得冶金過程模擬時(shí)間從一天縮短到兩分鐘,效率提高了50倍以上;在清華大學(xué),采用GPU使得過去要用一個(gè)小時(shí)的三維圖像重構(gòu)減少到幾十秒甚至幾秒鐘,將實(shí)時(shí)重構(gòu)的不可能變?yōu)榭赡?;在中?guó)科學(xué)院北京基因組研究所,采用GPU+CPU混合計(jì)算平臺(tái)做基因比對(duì)比傳統(tǒng)CPU集群快30倍,而功耗降低5倍,成本降低10倍。
2009年4月,中國(guó)科學(xué)院過程工程研究所抓住 GPU編程環(huán)境更新的機(jī)遇,采用NVIDIA(英偉達(dá))Tesla技術(shù)自主研制成功基于多尺度離散化并行計(jì)算模式的計(jì)算系統(tǒng),這是中國(guó)第一套單精度峰值超過每秒1000萬億次浮點(diǎn)運(yùn)算的超級(jí)計(jì)算系統(tǒng),將中國(guó)的高性能計(jì)算機(jī)水平推到全球前列,代表了中國(guó)國(guó)家能力的增強(qiáng)。
NVIDIA(英偉達(dá))正與中國(guó)的科研機(jī)構(gòu)和產(chǎn)業(yè)一起,推動(dòng)著一場(chǎng)基于GPU計(jì)算的集成創(chuàng)新的革命,這將幫助中國(guó)IT產(chǎn)業(yè)實(shí)現(xiàn)集成創(chuàng)新的“跨越式可能”。
每一次技術(shù)革命的興起都是一個(gè)拐點(diǎn),既是企業(yè)的拐點(diǎn),也是行業(yè)的戰(zhàn)略轉(zhuǎn)折點(diǎn),乃至國(guó)家、政府和民族的戰(zhàn)略轉(zhuǎn)折點(diǎn)。
過去20年,在摩爾定律的帶領(lǐng)下,在CPU為中心的時(shí)代里,中國(guó)IT業(yè)只有一路跟跑,一路落后。盡管有863計(jì)劃,盡管有龍芯等一系列項(xiàng)目,但實(shí)現(xiàn)核心技術(shù)突破的難度越來越大。
在原始創(chuàng)新方面,中國(guó)IT產(chǎn)業(yè)已經(jīng)注定處于劣勢(shì),原因有三。
第一,中國(guó)IT企業(yè)的技術(shù)、人才積累遠(yuǎn)遠(yuǎn)不如國(guó)外企業(yè);第二,資金實(shí)力不足以應(yīng)付如今IT產(chǎn)業(yè)大規(guī)模、高投資的研發(fā)趨勢(shì),英特爾、三星等企業(yè)每年投入的研發(fā)資金都超過50億美元,僅建設(shè)半導(dǎo)體產(chǎn)業(yè)芯片生產(chǎn)線就需要數(shù)百億投資;第三,技術(shù)發(fā)展速度加快,摩爾定律下,芯片集成度每18個(gè)月就翻一番,因此,在英特爾和微軟控制核心知識(shí)產(chǎn)權(quán)的世界里, 中國(guó)IT產(chǎn)業(yè)想靠原始創(chuàng)新切入,可能性很低。
另一方面,中國(guó)在第二次創(chuàng)新浪潮中“市場(chǎng)換技術(shù)”策略最終敗給了殘酷的事實(shí)。
因此,在IT的世界里,中國(guó)只剩下一條路好走,那就是“集成創(chuàng)新”,這是中國(guó)IT產(chǎn)業(yè)自主創(chuàng)新的必由之路,也是最現(xiàn)實(shí)的選擇。集成創(chuàng)新是把已有的知識(shí)、技術(shù)等生產(chǎn)要素創(chuàng)造性地加以集成,以系統(tǒng)集成的方式創(chuàng)造出前所未有的新產(chǎn)品、新工藝、新生產(chǎn)方式或新服務(wù)方式,以滿足不斷發(fā)展的新需求。
通過集成創(chuàng)新,我們還能逐漸培養(yǎng)自主創(chuàng)新的能力。
GPU計(jì)算革命,恰好為中國(guó)IT產(chǎn)業(yè)提供了極大的市場(chǎng)應(yīng)用機(jī)遇。CUDA采取免費(fèi)開源,GPU編程語言也基于標(biāo)準(zhǔn)的C語言,這意味著基于CUDA架構(gòu)的集成創(chuàng)新具有廣泛的應(yīng)用前景,是支撐中國(guó)IT企業(yè)集成創(chuàng)新的理想平臺(tái)。
CPU時(shí)代造就了微軟,GPU時(shí)代將造就一批新的王者,而中國(guó)稱王的機(jī)會(huì)遠(yuǎn)比CPU時(shí)代均衡。
過去10年間,GPU 的計(jì)算能力飛速發(fā)展,基本上平均6個(gè)月就性能翻倍,預(yù)計(jì)GPU的浮點(diǎn)性能將每?jī)赡攴环_@是新的摩爾定律,也是中國(guó)IT產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展的末班車。
中國(guó)應(yīng)當(dāng)在這塊奶酪中爭(zhēng)取更多的份額,否則將會(huì)在下一個(gè)時(shí)代繼續(xù)挨餓。