該項目是DARPA快速電路實現(xiàn)(Circuit Realization At Faster Timescales:CRAFT)計劃的一部分,該計劃希望將定制集成電路的設(shè)計周期從幾年縮短到幾個月甚至幾周。Celerity團(tuán)隊首先在Hot Chips 29上展示了該芯片。
去年,在VLSI 2019上,Celerity又回來談?wù)撈涞诙酒腜LL和NoC。演示文稿由密歇根大學(xué)的Austin Rovinski進(jìn)行。
下面我們先對整個Celerity SoC進(jìn)行快速概述:它是一個多核多層(many-core multi-tier)AI加速器??傮w而言,該芯片包括三個主要層:通用層,大規(guī)模并行層和專用層。為什么要使用分層SoC?這是為了在典型的CPU設(shè)計上實現(xiàn)高靈活性和更高的電源效率(盡管效率不及ASIC NPU)。
通用層幾乎可以執(zhí)行任何操作,例如通用計算,內(nèi)存管理以及控制芯片的其余部分。為此,他們集成了Free Chip Project的五個高性能亂序RISC-V Rocket內(nèi)核。
下一層是大規(guī)模并行層,它將496個低功耗定制設(shè)計的RISC-V內(nèi)核集成到一個網(wǎng)格中。這些稱為Vanilla-5的自定義內(nèi)核是有序標(biāo)量內(nèi)核,其占用的空間比Rocket內(nèi)核少40倍。最后一層是集成二值神經(jīng)網(wǎng)絡(luò)(BNN)加速器的專業(yè)化層。這三層都是緊密鏈接的,并通過400 MHz運行的DDR存儲器接口連接。
Celerity上的Manycore Mesh時鐘由自定義數(shù)字PLL提供。這是一個相當(dāng)簡單的一階ΔΣ頻率數(shù)字轉(zhuǎn)換器(FDC)PLL。該實現(xiàn)使用了一組16個DCO ,每個實現(xiàn)為環(huán)形振蕩器,其反相元件裝有NAND門FCE,如以下幻燈片中的電路圖所示。這樣做是為了僅使用標(biāo)準(zhǔn)單元來實現(xiàn)整個設(shè)計。為此,整個數(shù)字PPL是完全合成的并自動放置和布線的設(shè)計。該PLL在其16納米芯片上的頻率范圍為10 MHz至3.3 GHz。