原創(chuàng)

美光發(fā)布第二代HBM3，加速AI計算應(yīng)用

時間：2023-08-10 17:06:54

關(guān)鍵字： Micron HBM HBM3 GPU

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]AI應(yīng)用爆發(fā)促進了數(shù)據(jù)中心基礎(chǔ)構(gòu)架的發(fā)展，而HBM市場也將受益于此，據(jù)悉未來三年HBM的年復(fù)合增長率將超過50%。目前HBM技術(shù)最新已經(jīng)發(fā)展到了HBM3e，而預(yù)期明年的大規(guī)模AI計算系統(tǒng)商用上，HBM3和HBM3e將會成為主流。

2015年，AMD發(fā)布了搭載HBM的GPU顯卡。彼時大眾對于HBM并不了解，蘇姿豐形象比喻HBM的創(chuàng)新點在于——將DRAM顆粒由傳統(tǒng)的“平房設(shè)計”轉(zhuǎn)變?yōu)椤皹欠吭O(shè)計”，可實現(xiàn)更高的性能和帶寬。

而今，HBM成為了影響GPU顯卡實現(xiàn)更高性能AI計算的關(guān)鍵，AI巨頭排隊搶購。在最近的兩次英偉達的新品發(fā)布中，黃仁勛也多次強調(diào)HBM3于AI計算的重要性。大眾也開始意識到HBM的重要性，將HBM視為是躲在GPU背后的大贏家。

作為內(nèi)存領(lǐng)導(dǎo)者，美光必然不會缺席HBM這場盛筵。近日，美光發(fā)布了業(yè)界首款8層堆疊的24GB 第二代HBM3，采用美光的1β制程工藝，實現(xiàn)了1.2TB/s超高性能。

AI應(yīng)用對內(nèi)存提出了更高的要求

我們可以把AI應(yīng)用分為三大類。首先是生成式AI，包括時下火熱的ChatGPT和Mid-Journey等，都屬于此類范疇。第二類是深度學(xué)習(xí)，例如虛擬助理、聊天機器人和醫(yī)療診斷等。這類應(yīng)用需要處理大量的數(shù)據(jù)，并通過算法來詮釋數(shù)據(jù)、加以預(yù)測。第三類是高效能計算，包括全基因測序、天氣預(yù)測等重大科學(xué)問題的解決，都需要依賴于此類AI計算能力發(fā)展。

而不論是哪種AI應(yīng)用，都驅(qū)動了大量的計算性能需求和內(nèi)存需求。據(jù)美光副總裁暨計算與網(wǎng)絡(luò)事業(yè)部計算產(chǎn)品事業(yè)群總經(jīng)理Praveen Vaidyanathan分享，光擁有大量的計算能力，卻沒有足夠的內(nèi)存帶寬來支持也是不夠的，通常計算性能的瓶頸超過半數(shù)都與內(nèi)存的帶寬有關(guān)。

此外，大語言模型的參數(shù)數(shù)量正在巨量增長，因此AI應(yīng)用上需要更高的內(nèi)存容量密度，以在相同的體積內(nèi)實現(xiàn)更高的內(nèi)存容量。最后還需要關(guān)注到功耗，據(jù)推測未來7年內(nèi)數(shù)據(jù)中心的耗電量將占全球電力消耗近8%，而AI服務(wù)器中所需的內(nèi)存是通用服務(wù)器的6～8倍，因此內(nèi)存的高能效也同樣關(guān)鍵。

為了應(yīng)對數(shù)據(jù)密集型工作負載和應(yīng)用程序的增長，數(shù)據(jù)中心基礎(chǔ)構(gòu)架已經(jīng)被重新定義。傳統(tǒng)上圍繞著CPU的數(shù)據(jù)中心架構(gòu)已經(jīng)不足以滿足當(dāng)下的計算需求，GPU、FPGA和ASIC等專用加速芯片正在成為異構(gòu)數(shù)據(jù)中心發(fā)展的核心。與此同時，僅僅靠DDR也已經(jīng)不足異構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施的需求，HBM作為超帶寬方案更為實現(xiàn)AI計算加速的關(guān)鍵。

HBM位于非?？拷麲PU或CPU的中介層上，由多個DRAM Die以堆疊的方式構(gòu)成，最底層是邏輯控制單元，每一層Die之間采用TVS的方式互聯(lián)。憑借其寬I/O總線和增加的密度，HBM提供了現(xiàn)代數(shù)據(jù)中心基于加速器的計算模型所需的高性能和功效。目前HBM技術(shù)最新已經(jīng)發(fā)展到了HBM3e，而預(yù)期明年的大規(guī)模AI計算系統(tǒng)商用上，HBM3和HBM3e將會成為主流。

美光第二代HBM3，先進工藝和封裝技術(shù)加持

AI應(yīng)用爆發(fā)促進了數(shù)據(jù)中心基礎(chǔ)構(gòu)架的發(fā)展，而HBM市場也將受益于此，據(jù)悉未來三年HBM的年復(fù)合增長率將超過50%。

美光近日推出的第二代HBM3，是24GB的單塊DRAM，也是市面上第一款八層堆疊的24GB HBM3。在帶寬、容量和功耗上，新的HBM3都實現(xiàn)了突破：內(nèi)存帶寬高達1.2TB/s，引腳傳輸速率超過9.2Gb/s，較市面上11x11毫米的HBM3 Gen1產(chǎn)品高出約50%；功耗方面每瓦性能相較前代提升了2.5倍。

能夠取得如此領(lǐng)先的表現(xiàn)，得益于美光在HBM3上的技術(shù)積累。據(jù)悉，此次采用了1β制程工藝和先進的封裝技術(shù)。

HBM3 Gen2是美光采用1β制程的第三個產(chǎn)品，該工藝已經(jīng)達到規(guī)模生產(chǎn)要求，在去年第四季度開始投入生產(chǎn)，包括最新的LPDDR5和DDR5均采用此項工藝。該工藝是支持內(nèi)存實現(xiàn)更高容量密度的關(guān)鍵，美光也計劃在24GB 8層HBM3 Gen2的基礎(chǔ)上，明年推出36GB 12層堆疊的產(chǎn)品。

而先進封裝技術(shù)則是實現(xiàn)3D IC的技術(shù)基礎(chǔ)，據(jù)Praveen介紹，美光致力于不斷提升硅通孔（TSV）與封裝以實現(xiàn)突破，達到封裝互聯(lián)的縮小。相比目前商用的產(chǎn)品，美光在HBM3 Gen2上提供了兩倍的硅通孔（TSV）數(shù)量，并且采用了縮小25%的封裝互聯(lián)，縮小了DRAM層之間的空間，從而縮短了熱量傳輸?shù)木嚯x；在封裝互聯(lián)的數(shù)量上也有所提升，從而減少了熱阻抗，實現(xiàn)了更高的散熱效率。此外，產(chǎn)品內(nèi)部采用了采用更高能效數(shù)據(jù)路徑設(shè)計，從而實現(xiàn)功耗的改善。

助力打造實現(xiàn)更高效的AI系統(tǒng)

對于AI系統(tǒng)而言，客戶在意的是提高訓(xùn)練算法的精度，同時盡量實現(xiàn)更低的系統(tǒng)功耗。而美光HBM Gen2的出現(xiàn)，可以進一步助力客戶打造更高效的AI系統(tǒng)。

據(jù)悉，在AI系統(tǒng)引入最新的HBM Gen2后，得益于內(nèi)存帶寬的提升，整個AI訓(xùn)練演算將會變得更為高效，大幅降低模型訓(xùn)練的時間。對于大語言模型而言，能夠?qū)⒂?xùn)練時間降低30%。同時由于內(nèi)存容量的提升，給予了客戶更多的靈活性。不論是客戶想追求更準確的精度，還是更快的運算速度，都是可以實現(xiàn)的。

而HBM3 Gen2的低功耗的熱點，能夠為客戶提供更高的價值。一方面，更低的功耗可以幫助數(shù)據(jù)中心客戶實現(xiàn)電費的節(jié)省，打造更綠色的服務(wù)器。假設(shè)一個數(shù)據(jù)中心裝設(shè)了1000萬個GPU，那么每個HBM哪怕實現(xiàn)了幾W的功耗降低，對于整個數(shù)據(jù)中心而言都可以實現(xiàn)巨大的電量節(jié)省。而另一方面，對于電力充足的客戶而言，HBM內(nèi)存上節(jié)省的電力可以分配給GPU或ASIC，從而實現(xiàn)了整個系統(tǒng)的效能的提升。

HBM3 Gen2的性能提升，將會最終影響到AI應(yīng)用的加速賦能?！半m然終端消費者不會直接購買HBM，但如果他們發(fā)現(xiàn)每天查詢的效率或數(shù)量增加，便能提升他們的使用體驗?！盤raveen分享到，“長期而言，整個訓(xùn)練的成本會降低，最終計算的成本也會隨之降低。因此，在未來幾年，當(dāng)越來越多人使用AI引擎，整體AI計算性能也會跟著提升?！?

HBM乃內(nèi)存廠商的兵家必爭之地，美光也已經(jīng)進行了長遠的產(chǎn)品規(guī)劃。據(jù)悉美光已經(jīng)在開發(fā) HBM Next內(nèi)存產(chǎn)品，該 HBM 迭代將為每個堆棧提供 1.5 TB/s – 2+ TB/s 的帶寬，容量范圍為 36 GB 至 64 GB。

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權(quán)不予轉(zhuǎn)載，侵權(quán)必究。

換一批

美國又出“昏招”：擬全面限制高端GPU出口

近日，美國參議院公布了一項引人注目的國防政策方案，其中包含的“2025年國家人工智能保障準入和創(chuàng)新法案”（簡稱GAIN AI法案）再次在全球科技領(lǐng)域掀起波瀾。

關(guān)鍵字： AI GPU

[極客網(wǎng)]

“神” 操作！英偉達斥資15億美元，租用搭載自家GPU的服務(wù)器

9 月 5 日，一則關(guān)于英偉達的商業(yè)動態(tài)引發(fā)行業(yè)關(guān)注。這家 AI 芯片巨頭斥資 15 億美元，從人工智能小型云服務(wù)提供商 Lambda 手中，租用了搭載自家 GPU 芯片的服務(wù)器。

關(guān)鍵字：英偉達 GPU 服務(wù)器 AI芯片

[通信先鋒]

國產(chǎn)5nm自研GPU已完成流片驗證！象帝先新一代伏羲架構(gòu)官宣

9月4日消息，國產(chǎn)GPU正在井噴式爆發(fā)，現(xiàn)在又一家國產(chǎn)廠商宣布了新的成果。

關(guān)鍵字： GPU 5nm

[Cadence]

Cadence 攜手 NVIDIA 革新功耗分析技術(shù)，加速開發(fā)十億門級 AI 設(shè)計

Cadence 全新 Palladium Dynamic Power Analysis 應(yīng)用程序助力 AI/ML 芯片和系統(tǒng)設(shè)計工程師打造高能效設(shè)計，縮短產(chǎn)品上市時間

關(guān)鍵字： AI ML GPU

[劉巖軒]

神經(jīng)技術(shù)進入移動端GPU，Arm讓手游媲美PC游戲體驗

從畫質(zhì)優(yōu)化 (NSS) 到幀率提升 (NFRU) 和光線追蹤(NSSD)，Arm 計劃覆蓋移動端圖形處理的多個維度，推動邊緣 AI 圖形革命。而未來通過持續(xù)的技術(shù)迭代，Arm也將保持在移動計算領(lǐng)域的技術(shù)領(lǐng)先，滿足手游、A...

關(guān)鍵字： ARM 神經(jīng)圖形技術(shù) GPU AI ML

[Arm]

Arm 推出神經(jīng)技術(shù)，為開發(fā)者提供更智能、清晰且高效的移動端圖形性能

Arm 控股有限公司(納斯達克股票代碼：ARM，以下簡稱 “Arm”)今日在 SIGGRAPH 上，發(fā)布 Arm 神經(jīng)技術(shù) (Arm Neural Technology)，該技術(shù)為業(yè)界首創(chuàng)，并將專用神經(jīng)加速器引入 202...

關(guān)鍵字：人工智能 GPU 神經(jīng)加速器

[Arm]

一文了解 Arm 神經(jīng)超級采樣，深入探索架構(gòu)、訓(xùn)練和推理

深入探索這一個由 ML 驅(qū)動的時域超級采樣的實用方法

關(guān)鍵字：機器學(xué)習(xí) GPU 濾波器

[Arm]

即刻探索 Arm 神經(jīng)超級采樣，實現(xiàn)卓越的移動端圖形性能

為神經(jīng)優(yōu)化升級技術(shù)奠定基礎(chǔ)，賦能新一代 Arm GPU 實現(xiàn)更清晰、更流暢的 AI 游戲體驗

關(guān)鍵字： GPU AI 虛幻引擎

[是德科技]

AI的隱藏瓶頸：網(wǎng)絡(luò)如何影響企業(yè)LLM戰(zhàn)略

在快速發(fā)展的AI領(lǐng)域，性能至關(guān)重要——而這不僅限于計算性能。現(xiàn)代數(shù)據(jù)中心里，連接GPU、交換機和服務(wù)器的網(wǎng)絡(luò)基礎(chǔ)設(shè)施承受著巨大的壓力。隨著AI模型擴展到數(shù)千億個參數(shù)，行業(yè)關(guān)注的焦點正轉(zhuǎn)向AI訓(xùn)練性能中最為關(guān)鍵但又經(jīng)常被忽...

關(guān)鍵字： AI GPU 交換機服務(wù)器

[廠商動態(tài)]