英特爾公布Nervana NNP-T深度學(xué)習(xí)訓(xùn)練加速器 16nm工藝、32GB HBM2
本文經(jīng)超能網(wǎng)授權(quán)轉(zhuǎn)載,其它媒體轉(zhuǎn)載請(qǐng)經(jīng)超能網(wǎng)同意。
現(xiàn)在深度學(xué)習(xí)已成為人工智能的重要方向,而且研究成果已經(jīng)應(yīng)用于日常使用中。但訓(xùn)練人工智能模型需要強(qiáng)大的算力支持,所以除了使用GPU加速訓(xùn)練外,很多廠商開始推出專用于深度學(xué)習(xí)訓(xùn)練的ASIC芯片。英特爾在人工智能領(lǐng)域投入頗多,除了FPGA產(chǎn)品線外,也推出了Nervana深度學(xué)習(xí)加速器,在今天的Hot Chips 31會(huì)議中,英特爾公布了旗下Nervana NNP-T深度學(xué)習(xí)加速器的細(xì)節(jié)。
這款Nervana NNP-T深度學(xué)習(xí)加速器代號(hào)為Spring Cast,是目前英特爾最新款的專用深度學(xué)習(xí)加速器。這款加速器被命名為NNP-T,表示其主要用于深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練工作定制。隨著深度學(xué)習(xí)模型越來越龐大,所以專用的訓(xùn)練加速器也逐漸流行起來,如NVIDIA也推出了Tesla T4 GPU。
具體到加速器核心上,此次英特爾反常的使用了臺(tái)積電16nm CLN16FF+工藝,而實(shí)際上Nervana在收購(gòu)前就使用的是臺(tái)積電28nm工藝制造其第一代的Lake Cast芯片。雖然使用的是臺(tái)積電的工藝,但也是用了很多臺(tái)積電的最新技術(shù)。芯片采用了4個(gè)8GB HBM2-2400內(nèi)存,每針腳2.4GB/s的傳輸速率,都安裝在一個(gè)巨大的1200平方毫米的硅基板上。同時(shí)計(jì)算核心與HBM內(nèi)存通過臺(tái)積電最新的CoWoS晶圓級(jí)封裝技術(shù)進(jìn)行互聯(lián)。最終得到了一個(gè)60 x 60mm,具有3325 pin的BGA封裝。
在展示中稱此次由于HBM2與核心是無源封裝,所以為2.5D封裝技術(shù)。而HBM2由于是4Hi,所以整體為3D封裝。實(shí)際上英特爾自家也有EMIB嵌入式多芯片互聯(lián)橋接這種橋接技術(shù)。四個(gè)HBM2堆棧共有64條SerDes通道,每個(gè)通道支持28GB/s的傳輸速率。
具體的核心規(guī)模上,Nervana NNP-T的計(jì)算核心擁有270億晶體管,包括24個(gè)Tensor Processors(TPC)。除了TPC外,芯片裸片中還有60MB的SRAM以及一些專用的接口,如IPMI、I2C及16條PCI-E 4.0通道。
芯片的工作頻率為1.1GHz,風(fēng)冷條件下功率配置為150W到250W,可通過水冷獲得更強(qiáng)大的性能表現(xiàn)。同時(shí)Nervana NNP-T加速器還擁有OCP卡及PCI-E兩種規(guī)格,以供數(shù)據(jù)中心選擇。
Nervana NNP-T加速器充分利用內(nèi)存模塊和互聯(lián)網(wǎng)絡(luò)使得計(jì)算核心得以充分使用。計(jì)算核心支持bFloat16矩陣乘法、FP32、BF16以及其他主要操作。同時(shí)在使用上英特爾已經(jīng)通過開源的nGraph庫(kù)將深度學(xué)習(xí)框架連接到硬件后端的編譯器?,F(xiàn)在英特爾正在與常見的Paddle Paddle、Pytorch及TensorFlow深度學(xué)習(xí)框架進(jìn)行合作。
由于采用了可擴(kuò)展架構(gòu)集OCP及PCI-E規(guī)格,所以對(duì)于數(shù)據(jù)中心等場(chǎng)景可以方便地進(jìn)行擴(kuò)展。架構(gòu)支持?jǐn)U展到1024個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)擁有8個(gè)NNP-T計(jì)算核心。
英特爾表示他們將在今年年底向客戶提供NNP-T的樣品,主要針對(duì)以及云服務(wù)提供商,在2020年之前面向更多用戶。