NVIDIA高速GPU互聯(lián)技術鋪平百億億次級計算的道路

時間：2014-04-04 10:17:34

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]NVIDIA近日宣布，該公司計劃將名為 NVIDIANVLink的高速互連技術集成到其未來的GPU中，讓GPU與CPU之間共享數(shù)據的速度能夠比當今速度快5 - 12倍。這將消除長期以來的瓶頸，有助于鋪平新一代百億億次級(Exascale)超級計

NVIDIA近日宣布，該公司計劃將名為 NVIDIANVLink的高速互連技術集成到其未來的GPU中，讓GPU與CPU之間共享數(shù)據的速度能夠比當今速度快5 - 12倍。這將消除長期以來的瓶頸，有助于鋪平新一代百億億次級(Exascale)超級計算機的道路，這種超級計算機比當今最強大的系統(tǒng)還要快50-100倍。
NVIDIA將把NVLink技術添加到其Pascal GPU架構當中，該架構將承接今年全新的NVIDIA Maxwell計算架構，預計將于2016 年推出。這一全新的互聯(lián)技術是與IBM合作開發(fā)的，IBM 正在將該技術融入到其未來版本的 POWER CPU 當中。

NVIDIA高速GPU互聯(lián)技術鋪平百億億次級計算的道路

NVIDIA GPU工程高級副總裁Brian Kelleher表示：“NVLink技術通過大幅提升CPU與GPU之間的數(shù)據傳輸速度，最大限度縮短了GPU等待數(shù)據處理的時間，從而釋放了GPU的全部潛能?！?BR>IBM 副總裁兼 IBM 院士 Bradley McCredie 表示：“NVLink 讓CPU與GPU之間能夠快速交換數(shù)據，從而提升了整個計算系統(tǒng)的數(shù)據吞吐量，克服了當今加速計算的一大瓶頸。NVLink 讓開發(fā)者能夠更輕松地修改高性能與數(shù)據分析應用，以便充分利用加速的 CPU-GPU 系統(tǒng)。我們認為，該技術標志著我們對 OpenPOWER 生態(tài)系統(tǒng)又做出了一大貢獻?！?BR>由于NVLink 技術能夠將 IBM POWER CPU 與 NVIDIA Tesla GPU 緊密結合，POWER 數(shù)據中心生態(tài)系統(tǒng)將能夠在各種各樣的應用程序上充分利用GPU加速，例如高性能計算、數(shù)據分析以及機器學習等應用。
與 PCI Express 3.0 相比之下的優(yōu)勢
當今的GPU 通過 PCI Express (PCIe) 接口連接至 x86 CPU。PCIe 限制了 GPU 存取 CPU 系統(tǒng)內存的能力，比一般的 CPU 內存系統(tǒng)慢 4-5 倍。IBM POWER CPU的帶寬高于x86 CPU，因此在 GPU 與 IBM POWER CPU 之間，PCIe 成為了更加顯著的瓶頸。由于 NVLink 接口可與一般 CPU 內存系統(tǒng)的帶寬相匹配，因而讓 GPU 能夠以全帶寬的速度存取 CPU 內存。
這一高帶寬互聯(lián)技術將大幅提高加速軟件應用的性能。GPU 的顯存速度快但容量小，CPU 內存速度慢但容量大。因為內存系統(tǒng)的差異，加速的計算應用一般先把數(shù)據從網絡或磁盤移至 CPU 內存，然后再把數(shù)據復制到 GPU 顯存，數(shù)據才可以被 GPU 處理。憑借 NVLink，數(shù)據在 CPU 內存與 GPU 顯存之間的移動速度得到了大幅提升，從而讓 GPU 加速的應用能夠大幅提升運行速度。
統(tǒng)一內存特性
更快的數(shù)據移動加上名為統(tǒng)一內存的另一大特性，將簡化GPU加速器的編程。統(tǒng)一內存讓程序員能夠將CPU內存和 GPU 顯存視為一個內存塊。程序員可以操作數(shù)據，無需擔心數(shù)據存在于 CPU 內存還是 GPU 顯存當中。
　雖然將來的 NVIDIA GPU 會繼續(xù)支持 PCIe，但是 NVLink 技術將被用于連接GPU與支持 NVLink 技術的CPU，另外還將用于在多顆 GPU 之間直接提供高帶寬連接。此外，盡管擁有極高的帶寬，NVLink 卻在每比特數(shù)據的傳輸上比 PCIe 節(jié)能得多。
NVIDIA 現(xiàn)已設計了一個模塊來容納 Pascal 架構的GPU與NVLink。這一全新的GPU模塊僅為當今標準 PCIe 顯卡尺寸的三分之一。Pascal 模塊底部的接口使其能夠插入到主板當中，從而改善了系統(tǒng)設計、提升了信號完整性。
NVLink 高速互連技術將成就緊密結合的系統(tǒng)，這類系統(tǒng)為人們呈現(xiàn)了一條通往超節(jié)能可擴展百億億次級超級計算機的道路。百億億次級超級計算機的運行速度為 1,000 Petaflops (每秒 1 x 1018 次浮點運算)，比當今最快的系統(tǒng)還要快50 - 100倍。