Meta 推出自研 AI 運(yùn)算芯片:MTIA v1
21ic 獲悉,昨天 Meta 宣布將推出第一代自研的 AI 推理加速芯片(MTIA v1)以滿足 Meta 內(nèi)部 AI 開發(fā)與應(yīng)用的需要,MTIA v1 芯片在架構(gòu)方面由 PE 運(yùn)算單元、片上緩存、片外緩存、傳輸接口、控制單元等組成。
據(jù)悉,該芯片是一款于 2020 年開始設(shè)計(jì)的 ASIC 芯片,通過編程可同時(shí)執(zhí)行一項(xiàng)或多項(xiàng)任務(wù),采用臺(tái)積電 7nm 制程工藝打造,運(yùn)行頻率為 800MHz,TDP 為 25W,INT8 整數(shù)運(yùn)算能力為 102.4 TOPS,F(xiàn)P16 浮點(diǎn)數(shù)運(yùn)算能力為 51.2 TFLOPS,預(yù)計(jì)將于 2025 年推出。
該芯片在元訓(xùn)練和推理加速器上備了運(yùn)行系統(tǒng)固件的專用控制子系統(tǒng),固件管理可用的計(jì)算和內(nèi)存資源,通過專用主機(jī)接口與主機(jī)通信,并協(xié)調(diào)加速器上的作業(yè)執(zhí)行。內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源,可擴(kuò)展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪問的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。
此外,該網(wǎng)格包含以 8x8 配置組織的 64 個(gè) PE。PE 相互連接,并通過網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。網(wǎng)格可以作為一個(gè)整體來運(yùn)行一個(gè)作業(yè),也可以分成多個(gè)可以運(yùn)行獨(dú)立作業(yè)的子網(wǎng)格。
每個(gè) PE 配備兩個(gè)處理器內(nèi)核(其中一個(gè)配備矢量擴(kuò)展)和一些固定功能單元,這些單元經(jīng)過優(yōu)化以執(zhí)行關(guān)鍵操作,例如矩陣乘法、累加、數(shù)據(jù)移動(dòng)和非線性函數(shù)計(jì)算。處理器內(nèi)核基于 RISC-V 開放指令集架構(gòu) (ISA),并經(jīng)過大量定制以執(zhí)行必要的計(jì)算和控制任務(wù)。
每個(gè) PE 還具有 128 KB 的本地 SRAM 內(nèi)存,用于快速存儲(chǔ)和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性,這是高效運(yùn)行工作負(fù)載的基礎(chǔ)。該芯片提供線程和數(shù)據(jù)級(jí)并行性(TLP 和 DLP),利用指令級(jí)并行性 (ILP),并通過允許同時(shí)處理大量?jī)?nèi)存請(qǐng)求來實(shí)現(xiàn)大量的內(nèi)存級(jí)并行性 (MLP)。
Meta 官網(wǎng)表示,AI 工作負(fù)載在 Meta 中無處不在,構(gòu)成了廣泛用例的基礎(chǔ),包括內(nèi)容理解、Feed、生成 AI 和廣告排名。這些工作負(fù)載在 PyTorch 上運(yùn)行,具有一流的 Python 集成、急切模式開發(fā)和 API 的簡(jiǎn)單性。
深度學(xué)習(xí)推薦模型 ( DLRM ) 對(duì)于改善跨 Meta 服務(wù)和應(yīng)用程序的體驗(yàn)尤其重要。但隨著這些模型的規(guī)模和復(fù)雜性增加,底層硬件系統(tǒng)需要提供呈指數(shù)級(jí)增長(zhǎng)的內(nèi)存和計(jì)算能力,同時(shí)保持高效。
對(duì)于以 Meta 規(guī)模所需的效率水平運(yùn)行的特定推薦工作負(fù)載,GPU 并不總是最佳選擇。我們應(yīng)對(duì)這一挑戰(zhàn)的解決方案是設(shè)計(jì)一系列特定于推薦的元訓(xùn)練和推理加速器 (MTIA) ASIC。Meta 根據(jù)下一代推薦模型的要求共同設(shè)計(jì)了第一代 ASIC,并將其集成到 PyTorch 中以創(chuàng)建一個(gè)完全優(yōu)化的排名系統(tǒng)。
此外,Meta 聲稱保持了 PyTorch 急切模式開發(fā)提供的用戶體驗(yàn)和開發(fā)人員效率。隨著繼續(xù)支持 PyTorch 2.0,開發(fā)人員效率是一段旅程,它增強(qiáng)了 PyTorch 在編譯器級(jí)別(引擎下)的運(yùn)行方式。