告別多芯片方案!用一顆自適應(yīng)SoC實(shí)現(xiàn)端側(cè)的AI全流程計(jì)算加速
掃描二維碼
隨時(shí)隨地手機(jī)看文章
2018年ACAP(適應(yīng)性計(jì)算加速平臺(tái))是Xlinx(現(xiàn)已并入AMD)的一個(gè)重要里程碑。彼時(shí)剛上任CEO的Victor Peng宣布了Versal ACAP這一全新的平臺(tái),這一更靈活的產(chǎn)品形態(tài)打開(kāi)了傳統(tǒng)FPGA產(chǎn)品邁向全面自適應(yīng)加速計(jì)算的新市場(chǎng)。
在2018年,ACAP需要解決的問(wèn)題是為端邊云實(shí)現(xiàn)大幅計(jì)算加速,增加在各種工作負(fù)載中的計(jì)算密度。Versal" 可能是 "Versatile"(多功能的)和 "Universal"(通用的)的結(jié)合,通過(guò)對(duì)于多種加速器IP的融合,旨在“在整個(gè)行業(yè)工藝制程線(xiàn)性增長(zhǎng)受限的情況下,維持計(jì)算密度的加速增長(zhǎng)曲線(xiàn)”。而到了2024年的今天,無(wú)人不談AI,AI無(wú)處不在。當(dāng)AI從云走向端側(cè),新的計(jì)算難題來(lái)了。如何為端側(cè)設(shè)備實(shí)現(xiàn)更高效的AI計(jì)算,為其插上AI的翅膀?這將會(huì)是AMD最新發(fā)布的第二代Versal? AI Edge系列自適應(yīng) SoC想要解決的難題。
在端側(cè)設(shè)備上的實(shí)現(xiàn)AI加速計(jì)算,面臨哪些難題?
在端側(cè)設(shè)備,也就是嵌入式系統(tǒng)中要實(shí)現(xiàn)AI計(jì)算,面臨著諸多的限制。這些限制一部分是來(lái)自傳統(tǒng)的我們所能熟知的應(yīng)用環(huán)境和設(shè)備自身,包括功耗水平、體積、散熱、實(shí)時(shí)性、信息安全和功能安全等等,針對(duì)這些問(wèn)題的優(yōu)化,是所有類(lèi)型的端側(cè)計(jì)算芯片廠(chǎng)商都在著力的方向。而談及在端側(cè)上部署AI計(jì)算,AMD則從系統(tǒng)角度觀(guān)察到了另一個(gè)更為關(guān)鍵的問(wèn)題。
據(jù)AMD自適應(yīng)與嵌入式計(jì)算事業(yè)部(AECG ) Versal產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Manuel Uhm介紹,在AI驅(qū)動(dòng)型嵌入式系統(tǒng)中,包含三個(gè)處理階段,分別是預(yù)處理(傳感器處理于融合,數(shù)據(jù)調(diào)節(jié))、AI推理(感知、分析、情景感知)和后處理(決策、控制、反饋)。
目前大家的關(guān)注重點(diǎn)都放在AI推理階段,因?yàn)檫@是AI算法運(yùn)行的階段。但其實(shí)在嵌入式系統(tǒng)中要應(yīng)該從更加宏觀(guān)的系統(tǒng)視角來(lái)審視——首先要有數(shù)據(jù),數(shù)據(jù)要經(jīng)過(guò)預(yù)處理,才能提供給推斷來(lái)使用;推斷之后又必須要進(jìn)行后處理,這樣才可以通過(guò)推斷的結(jié)果做出決策?!霸趯?shí)時(shí)AI驅(qū)動(dòng)嵌入式系統(tǒng)當(dāng)中,這三類(lèi)算力都必須能夠加速,才能夠真正實(shí)現(xiàn)全系統(tǒng)的實(shí)時(shí)?!盡anuel Uhm解釋到。
預(yù)處理階段需要將各類(lèi)傳感器采集的原始數(shù)據(jù)進(jìn)行處理,這其中也涉及到了一些傳感器的數(shù)據(jù)融合和數(shù)據(jù)調(diào)節(jié)的工作,該階段是提高AI驅(qū)動(dòng)型嵌入式系統(tǒng)的實(shí)時(shí)性和高效計(jì)算的關(guān)鍵??删幊踢壿嬙谶@一階段的優(yōu)勢(shì)在于,能夠非常靈活地適用各類(lèi)傳感器類(lèi)型接口,同時(shí)保證更低的時(shí)延和更好的確定性,并且能夠在現(xiàn)場(chǎng)完成部署之后持續(xù)升級(jí)。接下來(lái)在推理過(guò)程中,包含著大量的矢量數(shù)據(jù)計(jì)算工作,需要的是專(zhuān)用的矢量處理器來(lái)實(shí)現(xiàn)加速分析。而在最后一步的后處理階段則需要高性能的嵌入式CPU來(lái)做出決策和實(shí)現(xiàn)控制。
梳理完整個(gè)AI驅(qū)動(dòng)型嵌入式系統(tǒng)的內(nèi)部數(shù)據(jù)處理流程之后,就不難發(fā)現(xiàn)當(dāng)前的行業(yè)痛點(diǎn)所在——目前沒(méi)有一類(lèi)處理器能夠同時(shí)針對(duì)預(yù)處理、AI推理和后處理三個(gè)階段同時(shí)優(yōu)化。即便是集成了AI Core的第一代Verssal自適應(yīng)SoC,也只可以完成“預(yù)處理+AI推理”兩個(gè)階段,但無(wú)法覆蓋到最終的決策和控制過(guò)程中。
多芯片方案將會(huì)帶來(lái)更高的BOM成本、更大的體積占用、更高的功耗、更復(fù)雜的供電設(shè)計(jì)。多芯片之間的互聯(lián)互通問(wèn)題,也帶來(lái)了更高的系統(tǒng)時(shí)延和信息安全挑戰(zhàn),也使得系統(tǒng)集成、軟件設(shè)計(jì)方面的復(fù)雜度進(jìn)一步提升。
而AMD此次最新推出的第二代Versal自適應(yīng)SoC中的AI Edge系列就可以很好地解決這一系列的難題,為AI驅(qū)動(dòng)型嵌入式系統(tǒng)提供單片智能的解決方案。
在單芯片中實(shí)現(xiàn)AI應(yīng)用的端到端加速,第二代Versal AI Edge從邊緣傳感器走向中央計(jì)算
據(jù)悉,此次最新發(fā)布的第二代Versal自適應(yīng)SoC包含兩個(gè)系列,其中AI Edge系列是專(zhuān)門(mén)面向AI驅(qū)動(dòng)型嵌入式系統(tǒng)打造,Prime系列則是主打經(jīng)典嵌入式系統(tǒng)的市場(chǎng)。相比上一代Versal產(chǎn)品,新一代實(shí)現(xiàn)了高達(dá)3倍的每瓦TOPS性能提升,全新的高性能集成CPU也帶來(lái)了高達(dá)10倍的標(biāo)量計(jì)算能力提升。
“單芯片智能意味著在單個(gè)器件中提供端到端的加速,也就是可以實(shí)現(xiàn)AI全部三個(gè)階段的加速?!盡anuel分享到。在Versal第二代產(chǎn)品中,第一階段的傳感器數(shù)據(jù)預(yù)處理加速,可以由其中的可編輯邏輯塊來(lái)完成,而特別針對(duì)視頻和圖像信號(hào)預(yù)處理,還可以直接調(diào)用其中針對(duì)視頻和圖像處理的硬加速I(mǎi)P來(lái)完成。在第二階段的AI推理方面,可以通過(guò)新產(chǎn)品中內(nèi)置的AIE-ML v2這一AI引擎來(lái)完成。而在第三階段的控制和執(zhí)行階段的實(shí)時(shí)性保證方面,則有集成的Arm Cortex-A78AE和Cortex-R52來(lái)支持。
據(jù)了解,Versal不僅僅是單芯片實(shí)現(xiàn)AI智能,帶來(lái)了單芯片的方案優(yōu)勢(shì)。而且每一階段分開(kāi)來(lái)對(duì)比多芯片的方案,也有著明顯的計(jì)算加速的提升。
在預(yù)處理階段,傳統(tǒng)的非自適應(yīng)SoC的接口數(shù)量和類(lèi)型往往是有限且固定的,當(dāng)需要照顧到一些不同類(lèi)型的傳感器連接、進(jìn)行多類(lèi)型數(shù)據(jù)傳輸和處理時(shí),就必然要通過(guò)外部的內(nèi)存來(lái)進(jìn)行緩存,這就必然會(huì)導(dǎo)致整個(gè)處理效率低下,時(shí)延變長(zhǎng)。而采用可編程邏輯就靈活的多,能夠應(yīng)對(duì)各種復(fù)雜的多傳感器配置,且不需要外部?jī)?nèi)存,也沒(méi)有緩存的配置需求,整個(gè)執(zhí)行時(shí)間大大縮短,時(shí)延得到有效降低。
在AI推理方面,面臨著多類(lèi)型數(shù)據(jù)高速吞吐和精準(zhǔn)度的挑戰(zhàn)。而二代Versal AI Edge系列能夠?qū)崿F(xiàn)對(duì)于MX6數(shù)據(jù)類(lèi)型高達(dá)370 TFLOPS的算力支持,對(duì)于INT8高達(dá)184TOPS的算力支持;內(nèi)部集成的AIE-ML v2引擎還可以進(jìn)行像FIR、FFT等數(shù)據(jù)信號(hào)的處理工作。
在最后的控制和執(zhí)行階段,二代Versal中的Arm Cortex-A78AE核心,每核心最高頻率高達(dá)2.2GHz,并且有高達(dá)200.3K的DMIPS算力。針對(duì)控制功能的實(shí)時(shí)處理單元,RPU可以有高達(dá)10倍的Arm Cortex-R52核心,每核心最高頻率高達(dá)1.05 GHz,提供高達(dá)28.5K的DMIPS算力。
同時(shí)Manuel也強(qiáng)調(diào),二代Versal AI Edge系列最高級(jí)別產(chǎn)品將會(huì)通過(guò)ASIL-D車(chē)規(guī)級(jí)認(rèn)證和SIL3安全認(rèn)證,以滿(mǎn)足汽車(chē)、工業(yè)和機(jī)器人等應(yīng)用客戶(hù)的功能安全需求。
據(jù)悉,斯巴魯將會(huì)在EyeSight系統(tǒng)中使用AMD的第二代Versal器件,通過(guò)單芯片智能的極低時(shí)延、多數(shù)據(jù)類(lèi)型支持和高吞吐量等優(yōu)勢(shì),來(lái)支持其車(chē)型實(shí)現(xiàn)碰撞前制動(dòng)、車(chē)道偏離預(yù)警、自適應(yīng)巡航控制和車(chē)道保持輔助。
第二代Versal的單芯片方案,相對(duì)于傳統(tǒng)的多芯片方案而言,在AI驅(qū)動(dòng)型嵌入式系統(tǒng)上帶來(lái)的優(yōu)化是顯著的。舉例而言,在一個(gè)高級(jí)自動(dòng)駕駛輔助系統(tǒng)中,同等的功率水平下就能夠具有4倍圖像處理的能力;而在智慧城市攝像頭的系統(tǒng)中,可以實(shí)現(xiàn)30%的占板面積減少和支持2倍的視頻流提升;在專(zhuān)業(yè)的音視頻和廣播視頻流處理系統(tǒng)中,能夠?qū)崿F(xiàn)每秒60幀的高精度流量表現(xiàn),與Zynq MPSoC的效率相比,提供2倍的視頻處理面積,每路視頻流占板面積縮小35%。
Manuel表示,“第二代Versal AI Edge系列的產(chǎn)品,最主要的目的是能夠形成系統(tǒng)的中央計(jì)算,這與第一代是不同的。第一代更多是進(jìn)行CPU的加速,但是現(xiàn)在新一代主要針對(duì)的就是中央計(jì)算引擎。我們?cè)谶@個(gè)領(lǐng)域也是深耕很多年,憑借著幾十年的經(jīng)驗(yàn),也是在市場(chǎng)上能夠應(yīng)對(duì)嵌入式系統(tǒng)所帶來(lái)的各種挑戰(zhàn)而推出解決方案?!?
---
據(jù)悉,的第二代Versal自適應(yīng)SoC目前正在與主要客戶(hù)進(jìn)行接洽,早期訪(fǎng)問(wèn)文檔現(xiàn)已發(fā)布。而芯片樣片預(yù)計(jì)將于2025上半年正式發(fā)布,有望在2025年末實(shí)現(xiàn)大規(guī)模量產(chǎn)出貨。