GK110來了,NVIDIA正式發(fā)布Tesla K20X/K20
新一屆超級計算大會SC12今天開幕了,除了公布新的TOP500超算榜單,各大相關廠商也是一股腦地發(fā)布或者宣布了多款高性能計算產(chǎn)品。先來看NVIDIA這邊,基于開普勒大核心GK110、擁有71億個晶體管的Tesla K20終于正式發(fā)布了,而且還有更高端的Tesla K20X。
Tesla K20X擁有十四組SMX、2688個流處理器,屏蔽了一組192個,但同時啟用完整的384-bit顯存位寬和1.5MB二級緩存,搭配6GB GDDR5。頻率方面核心定在732MHz,浮點性能為單精度FP32 3.95TFlops、雙精度FP64 1.31TFlops(這代3:1上代費米2:1),顯存頻率則是5.2GHz,帶寬達249.6GB/s。
事實上,美國橡樹嶺國家實驗室的新一代超級計算機“泰坦”里配備的就是Tesla K20X,而不是Tesla K20,只不過之前雙方都口風甚緊,誰也沒有明說。泰坦此番不僅成功登頂超算王者,拿下世界性能第一,還在能效上超越了半年前的綠色超算第一名。
Tesla K20又放棄了一組SMX和一個顯存控制器,因此有2496個流處理器、320-bit位寬,顯存容量5GB GDDR5,二級緩存也對應地減少到1.25MB。核心頻率也略降至706MHz,因此浮點性能減少為單精度3.52TFlops、雙精度 1.17TFlops,而顯存頻率仍然是5.2GHz,帶寬為208GB/s。
Tesla K20X的熱設計功耗為235W,Tesla K20則降低到225W——別小看了這區(qū)區(qū)10W,225W正是絕大多數(shù)服務器和機柜所允許的擴展卡最大TDP,再高就需要定制了,AMD 375W的雙芯型FirePro S10000就比較麻煩。二者都提供主動和被動散熱,供客戶選擇。
相比之下,上一代費米架構的Tesla M2090/M2070Q只有30億個晶體管、最多512個流處理器、384-bit 3.7GHz 6GB GDDR5顯存,浮點性能最高單精度1.33TFlops、雙精度655GFlops,熱設計功耗最高250W。
Tesla K20的建議零售價為3199美元,Tesla K20X則未公布,估計4000-5000美元范圍。二者均已開始大規(guī)模出貨了,客戶包括Appro、華碩、Cray、Eurotech、富士通、惠普、IBM、廣達、SGI、Supermicro、T-Platforms、泰安。
除了橡樹嶺,其它采納Tesla K20系列的機構還有:美國克萊姆森大學、印第安納大學、南加州大學(USC)、托馬斯·杰斐遜國家加速器實驗室、國家超級計算應用中心(NCSA)、國家海洋和大氣管理局(NOAA);沙特阿拉伯阿卜杜拉國王科技大學(KAUST);中國上海交大。
NVIDIA宣稱,Tesla K20X搭配Intel Sandy Bridge處理器,可以將大量高性能計算應用的性能提升十倍乃至更多,包括:
- MATLAB(工程):18.1倍
- Chroma(物理):17.9倍
- SPECFEM3D(地球科學):10.5倍
- AMBER(分子動力學):8.2倍
NVIDIA還表示,Tesla K20X/K20在過去三十天內(nèi)就累計出貨提供了超過30PFlops的浮點性能,相當于過去時間最快超級計算機的總和!
此前發(fā)布的雙GK104核心的Tesla K10并不會被取代和淘汰,而是將與Tesla K20系列并存。事實上,Tesla K20的單精度浮點性能還更高呢,達到了4.5TFlops,只是沒有SRAM ECC、HyperQ、Dynamic Parallelism等高端技術。
Tesla K20X高清實物照
Tesla K20高清實物照
GK110核心架構圖(完整的2880個流處理器)
GK110 SMX陣列架構圖
Tesla K20/2000系列規(guī)格對比
開普勒、費米核心規(guī)格對比
雙精度浮點效率:上代只有65%,現(xiàn)在提高到了驚人的93%,Intel Xeon也才不過86%
HyperQ、Dynamic Parallism技術
之前說的Tesla K20價格和出貨時間,實際上提前了
泰坦超級計算機的計算板:四顆十六核心Opteron、四塊Tesla K20X(左側)