性能爆表!Intel全新處理器可以131072顆互連
近日,在美國(guó)加利福尼亞舉行的Hot CHIPS會(huì)議上,Intel展示了一款代號(hào)為“Piuma”的具有1TB/s硅光子互連的8核528線程處理器,旨在用于處理最大的分析工作負(fù)載。
7nm工藝8核心528線程
據(jù)介紹,Piuma芯片基于臺(tái)積電7nm FinFET工藝制造(如果你不知道的話,Intel在臺(tái)積電制造了很多非CPU產(chǎn)品,而且已經(jīng)有很多年了),它有八個(gè)核,每個(gè)核具有66個(gè)線程,總共528線程,晶體管數(shù)量超過(guò)276億個(gè)。
△芯片中心的一個(gè)重要部分專門用于路由器,這些路由器控制從共封裝光學(xué)器件流入的數(shù)據(jù)流
需要指出的是,該芯片并不是基于x86架構(gòu)的,它是專門為DARPA(美國(guó)國(guó)防高級(jí)研究計(jì)劃局的分層身份驗(yàn)證漏洞(HIVE)程序使用自定義RISC架構(gòu)構(gòu)建的。
美國(guó)的這項(xiàng)軍事舉措旨在開(kāi)發(fā)一種圖形分析處理器,該處理器能夠以比傳統(tǒng)計(jì)算架構(gòu)快100倍的速度處理流式數(shù)據(jù),同時(shí)功耗更低。
雖然這對(duì)DARPA來(lái)說(shuō)可能是一件奇怪的事情,但該政府機(jī)構(gòu)認(rèn)為大規(guī)模圖形分析在基礎(chǔ)設(shè)施監(jiān)控和網(wǎng)絡(luò)安全方面有應(yīng)用。
Intel首席工程師Jason Howard在他的Hot Chips演示中指出的應(yīng)用例子是社交網(wǎng)絡(luò),它可以運(yùn)行圖形分析工作負(fù)載來(lái)了解成員之間的聯(lián)系。
這項(xiàng)創(chuàng)建大規(guī)模并行圖形處理和互連芯片項(xiàng)目時(shí)間起源于2017年,Intel被選為制造 HIVE 處理器的供應(yīng)商,麻省理工學(xué)院的林肯實(shí)驗(yàn)室和亞馬遜網(wǎng)絡(luò)服務(wù)被選為基于此類處理器的系統(tǒng)創(chuàng)建和托管萬(wàn)億邊圖形數(shù)據(jù)集以供分析。
雖然Intel曾在2019和2022年對(duì)于“Piuma”處理器進(jìn)行過(guò)一些介紹,但是在本周的Hot CHIPS大會(huì)上,Intel首席工程師Jason Howard進(jìn)一步詳解了Piuma處理器和系統(tǒng),其中包括Intel與 Ayar Labs 合作創(chuàng)建的光子互連技術(shù),用于將大量處理器連接在一起。
在2012年,超級(jí)計(jì)算機(jī)制造商Cary推出的XMT系列就是一個(gè)巨大的共享內(nèi)存線程的怪物,非常適合圖形分析。
它擁有多達(dá) 8,192 個(gè)處理器,每個(gè)處理器有 128 個(gè)以 500 MHz 運(yùn)行的線程,插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部與定制的“SeaStar2+”環(huán)面互連捆綁在一起,該互連提供 105 萬(wàn)個(gè)線程和 512 TB 共享主內(nèi)存,供圖形發(fā)揮作用。
就 Linux 系統(tǒng)而言,這看起來(lái)就像一個(gè)單一的 CPU。
The nextplatform認(rèn)為,“Piuma”處理器就像是再次將舊的東西變成新的,雖然處理器本身比較普通,但其使用的硅光子互連技術(shù)更好,想必性價(jià)比也是如此。
也許Intel會(huì)將這個(gè)Piuma系統(tǒng)商業(yè)化,并真正改變一切。
全新的內(nèi)存架構(gòu)設(shè)計(jì)Jason Howard表示,當(dāng)Intel開(kāi)始設(shè)計(jì)“Piuma”處理器時(shí),從事 HIVE 項(xiàng)目的研究人員意識(shí)到圖形處理不僅是大規(guī)模并行,這意味著可能有一些方法可以利用這種并行性來(lái)提高圖形分析的性能。
當(dāng)在標(biāo)準(zhǔn) X86 處理器上運(yùn)行時(shí),圖形數(shù)據(jù)庫(kù)的緩存行利用率非常低,在圖形數(shù)據(jù)庫(kù)運(yùn)行的 80% 以上的時(shí)間里,72 字節(jié)緩存行中只有 8 字節(jié)或更少被使用。指令流中的大量分支給 CPU 管道帶來(lái)了壓力,而內(nèi)存子系統(tǒng)也因依賴負(fù)載的長(zhǎng)鏈而承受了很大的壓力,這對(duì) CPU 上的緩存造成了很大的影響。
Piuma芯片有四個(gè)管道,每個(gè)管道有 16 個(gè)線程(稱為 MTP),還有兩個(gè)管道,每個(gè)管道有一個(gè)線程(稱為 STP),其性能是MTP中一個(gè)線程的8倍。處理核心基于定制的RISC指令集,但是并未明確具體情況。
Jason Howard在他的Hot Chips演示中解釋道:“所有的管道都使用自定義ISA,它類似于RISC,是一個(gè)固定的長(zhǎng)度?!? “每個(gè)管道都有32個(gè)可用的物理寄存器。我們這樣做是為了方便您在任何管道之間遷移計(jì)算線程。因此,也許我開(kāi)始在一個(gè)多線程管道上執(zhí)行,如果我發(fā)現(xiàn)它花費(fèi)了太長(zhǎng)時(shí)間,或者可能是最后一個(gè)可用的線程,我可以快速遷移到我的單線程管道上,以獲得更好的性能。
STP 和 MTP 單元通過(guò)交叉開(kāi)關(guān)連接,并具有組合的 192 KB L1 指令和 L1 數(shù)據(jù)緩存,并且它們鏈接到比 L2 緩存更簡(jiǎn)單的共享 4 MB 暫存器 SRAM 存儲(chǔ)器。
每個(gè)Piuma芯片都有 8 個(gè)活動(dòng)核心,每個(gè)核心都有自己定制的 DDR5 內(nèi)存控制器,該控制器具有 8 字節(jié)訪問(wèn)粒度,而不是像普通 DDR5 內(nèi)存控制器那樣具有 72 字節(jié)訪問(wèn)粒度。每個(gè)插槽都有 32 GB 的定制 DDR5-4400 內(nèi)存。
Jason Howard解釋說(shuō),Piuma芯片所采用的新穎的內(nèi)存架構(gòu),這是優(yōu)化圖形分析工作負(fù)載的一個(gè)重要內(nèi)容。這些芯片與32GB DDR5-4400內(nèi)存配對(duì),通過(guò)允許8字節(jié)訪問(wèn)粒度的自定義內(nèi)存控制器進(jìn)行訪問(wèn)。
根據(jù)Jason Howard的說(shuō)法,這是有利的,因?yàn)椤懊慨?dāng)我們從內(nèi)存中取出一條數(shù)據(jù)線時(shí),我們都會(huì)嘗試?yán)盟械臄?shù)據(jù)線,而不是扔掉7/8的數(shù)據(jù)線?!?