英偉達推出下一代 GPU 架構：Hopper

時間：2022-04-10 14:15:01

關鍵字：英偉達 AI 人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]Nvidia 推出了其下一代 GPU 架構——名為 Hopper，以及使用 Hopper 架構的新旗艦 GPU H100。也許令人驚訝的是，英偉達并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm 2中的 800 億個晶體管基于臺積電的 4N 工藝構建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進行封裝。

Nvidia 推出了其下一代 GPU 架構——名為 Hopper，以及使用 Hopper 架構的新旗艦 GPU H100。也許令人驚訝的是，英偉達并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm ²中的 800 億個晶體管基于臺積電的 4N 工藝構建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進行封裝。

以美國計算機科學先驅(qū) Grace Hopper 命名的 Nvidia Hopper H100 將取代 Ampere A100，成為該公司用于人工智能和科學工作負載的旗艦 GPU。它將提供 3 到 6 倍的 A100 原始性能（FP8 性能的 4 PFLOPS，或 FP64 的 60 TFLOPS）。作為第一款采用 HBM3 技術的 GPU，其顯存帶寬達到了驚人的 3 TB/s，同時也是第一款支持 PCIe Gen5 的 GPU。該芯片具有近 5 TB/s 的外部連接速度。綜上所述，20 個 H100 GPU 可以維持相當于當今全球互聯(lián)網(wǎng)流量的全部。

新的 Nvidia Hopper H100 GPU – Nvidia 用于數(shù)據(jù)中心 AI 和科學工作負載的新旗艦 GPU

變壓器引擎

Hopper 架構為 AI 處理和科學工作負載提供了一些技巧。

第一個是新的變壓器引擎。Transformer 網(wǎng)絡已經(jīng)是當今自然語言處理的事實上的標準，在許多其他人工智能應用中顯示出前景，包括蛋白質(zhì)折疊，甚至在計算機視覺中。如今，它們?yōu)樵S多對話式 AI 應用程序提供支持。變壓器網(wǎng)絡的問題在于它們非常龐大——數(shù)十億或數(shù)萬億個參數(shù)——這使得它們的訓練計算成本極高。今天訓練一個體面大小的變壓器可能需要幾個月的時間，這取決于你可以使用的計算能力。

Nvidia 為其 Hopper 張量核心發(fā)明了一種新的低精度格式 FP8。新的 Hopper 張量引擎可以應用混合的 FP16 和 FP8 格式，以在適當?shù)那闆r下加速 Transformer 訓練。挑戰(zhàn)在于知道何時切換到較低精度以加快吞吐量，同時保持最終結果的準確性。Nvidia 提出了可以在訓練期間動態(tài)執(zhí)行此操作的策略。

將張量引擎與 Hopper 帶來的其他改進相結合，結果是訓練變壓器網(wǎng)絡的時間減少了 9 倍——在 Nvidia 的示例中，對于 3950 億參數(shù)的混合，從使用 A100 的 7 天到使用 H100 的 20 小時專家網(wǎng)絡。對于擁有 5300 億個參數(shù)的 Megatron-530B，H100 的性能比 A100 高出 30 倍。

是時候為 H100 與 A100 訓練混合專家變壓器網(wǎng)絡了（來源：Nvidia）

另一個巧妙的技巧是添加新指令來加速動態(tài)編程。動態(tài)編程是一種流行的科學算法使用的技術，包括 Floyd-Warshall（用于路線優(yōu)化）和 Smith-Waterman（用于 DNA 序列比對）等等。一般來說，動態(tài)規(guī)劃意味著算法被分解成更容易解決的更小的子問題。存儲子問題的答案以供重復使用，以避免重新計算它們。

Hopper 的 DPX 指令是為此類操作量身定制的。到目前為止，這些工作負載主要在 CPU 和 FPGA 上運行。使用 H100，F(xiàn)loyd-Warshall 的運行速度可以比 CPU 快 40 倍。

下一代 MIG

H100 還具有第二代多實例 GPU (mig) 技術。Mig 允許將大型數(shù)據(jù)中心 GPU 有效地分解為多個較小的 GPU。這些微型實例可用于在同一芯片上同時運行多個工作負載。下一代 mig 在云環(huán)境中跨每個 GPU 實例提供安全的多租戶配置，以便可以在不同用戶或云租戶之間安全地分配計算能力。

在 H100 的又一個首創(chuàng)中，Nvidia 聲稱該芯片是第一款具有機密計算能力的 GPU。這個想法是保護敏感或私人數(shù)據(jù)，即使它正在使用（因此被解密）。當今的機密計算方案是基于 CPU 的，因此不適用于大規(guī)模的 AI 或高性能計算 (HPC)。

英偉達的機密計算方案使用硬件和軟件，通過機密虛擬機創(chuàng)建可信的執(zhí)行環(huán)境。CPU 和 GPU 之間以及 GPU 之間的數(shù)據(jù)傳輸以全 PCI 線速進行加密和解密。H100 還具有硬件防火墻，可保護其內(nèi)存和計算引擎中的工作負載，因此除了擁有密鑰的受信任執(zhí)行環(huán)境的所有者之外，沒有人可以看到數(shù)據(jù)或代碼。

H100 還率先使用了 Nvidia 的第四代 NVLink 通信技術。當擴展到多個 GPU 時，GPU 之間的通信通常是一個瓶頸。新的 NVLink 交換機可以創(chuàng)建多達 256 個 H100 GPU 的網(wǎng)絡，比以前大 32 倍，帶寬比 Quantum InfiniBand 技術高 11 倍。

超級芯片和超級計算機

英偉達還推出了幾款“超級芯片”。Grace CPU 超級芯片是一個帶有兩個Grace CPU裸片的模塊；該組合是一個具有 1 TB/s 內(nèi)存帶寬的 144 ARM 核單插槽 CPU 龐然大物，用于超大規(guī)模數(shù)據(jù)中心 AI 和科學計算。這是市場上當前數(shù)據(jù)中心 CPU 之上的一類。該模塊消耗500W。

還有 Grace Hopper 超級芯片：一個 Grace CPU 和一個 Hopper GPU。

Nvidia 的“超級芯片”結合了兩個 Grace CPU 或一個 Grace CPU 和一個 Hopper GPU（來源：Nvidia）

這里的支持技術是一種全新的內(nèi)存一致性芯片到芯片接口 NVLink-C2C，它可以在裸片之間實現(xiàn) 900 GB/s 的鏈接。它可用于 PCB、MCM、Interposer 或晶圓級。

在他的 GTC 主題演講中，Nvidia 首席執(zhí)行官 Jensen Huang 提到 NVLink-C2C 將提供給希望實施連接到 Nvidia 平臺的定制芯片的其他客戶和合作伙伴。該公司單獨表示，它將支持英特爾、AMD、Arm 和其他公司支持的 UCIe 小芯片到小芯片標準，但沒有說明如何或何時支持。（UCIe 是一個開發(fā)中的開放平臺，用于支持現(xiàn)成的小芯片生態(tài)系統(tǒng)）。

Grace CPU 超級芯片和 Grace Hopper 超級芯片都將在明年上半年出貨。

當然會有基于 H100 的擴展系統(tǒng)，包括 DGX-H100（8 個 H100 芯片，0.5 PFLOPS 的 FP64 計算）和新的 DGX-Superpod，它是 32 個 DGX-H100 節(jié)點，可實現(xiàn) 1 ExaFLOPS 的 AI 性能（ FP8)。

作為基于 A100 的 AI 超級計算機 Selene 的姐妹，Nvidia 將構建一個名為 Eos 的新超級計算機，包括 18 個 DGX-Superpod。這個 18-ExaFLOPS 的野獸將擁有 4600 個 H100 GPU、360 個 NVlink 交換機和 500 個 Quantum InfiniBand 交換機。它將被英偉達的人工智能研究團隊使用。

Eos 預計將在今年晚些時候上線，Nvidia 預計它將成為當時排名第一的 AI 超級計算機。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

美國又出“昏招”：擬全面限制高端GPU出口

近日，美國參議院公布了一項引人注目的國防政策方案，其中包含的“2025年國家人工智能保障準入和創(chuàng)新法案”（簡稱GAIN AI法案）再次在全球科技領域掀起波瀾。

關鍵字： AI GPU

[西門子EDA]

人工智能對工業(yè)價值鏈的影響

面對市場對更智能產(chǎn)品、更短設計周期以及更高效靈活生產(chǎn)流程的需求日益增長，設計與制造企業(yè)紛紛借助人工智能，推動業(yè)務流程邁向新高度。憑借處理復雜數(shù)據(jù)的卓越能力與傳遞智能洞見的便捷性，人工智能已準備好在工業(yè)價值鏈的各個環(huán)節(jié)承擔...

關鍵字：人工智能工業(yè)物聯(lián)網(wǎng) 傳感器

[美通社全球TMT]