AI優(yōu)先!Arm Lumex CCS發(fā)布,移動(dòng)設(shè)備邁向AI計(jì)算時(shí)代
新的命名,新的時(shí)代開(kāi)啟。從Lumex CSS開(kāi)始,性能提升不再是單純的每代際雙位數(shù)提升這么簡(jiǎn)單,Arm開(kāi)始以AI First(AI優(yōu)先)的理念覆蓋全面的計(jì)算平臺(tái)設(shè)計(jì)。這種理念從指令集、到CPU/GPU Core、CSS子系統(tǒng)、再到軟件棧,實(shí)現(xiàn)了從下至上的垂直貫徹創(chuàng)新,并且在各種AI跑分測(cè)試中取得顯著成效。
在近日的Arm Unlocked大會(huì)上,Arm Lumex CSS 平臺(tái)及其所集成的C1 CPU集群、第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2) 及Mail-G1-Ultra GPU等創(chuàng)新技術(shù)發(fā)布,或可看作Arm推動(dòng)移動(dòng)終端邁向全面AI計(jì)算的關(guān)鍵節(jié)點(diǎn)。
圖:Arm高級(jí)副總裁兼終端事業(yè)部總經(jīng)理Chris Bergey
Arm 高級(jí)副總裁兼終端事業(yè)部總經(jīng)理 Chris Bergey在主題演講中談到:“為擴(kuò)展而生,為 AI 時(shí)代而設(shè)計(jì)。Arm Lumex CSS 平臺(tái)正是移動(dòng)創(chuàng)新未來(lái)的起點(diǎn)?!?
SME2引入,5倍端側(cè)AI性能提升
Arm Lumex 計(jì)算子系統(tǒng)(CSS)平臺(tái)整合了最新的 Armv9.3 CPU 集群(包括 C1-Ultra、C1-Pro 和 C1-Premium 核心)、Mali G1-Ultra-Ultra GPU、高效系統(tǒng)互連以及 3nm 工藝優(yōu)化的物理實(shí)現(xiàn),輔以無(wú)縫的軟件支持,旨在為異構(gòu) AI 工作負(fù)載提供強(qiáng)大的計(jì)算能力。
其中Arm C1-Ultra CPU能為設(shè)備帶來(lái)出色的 25% 性能提升,非常適合處理嚴(yán)苛的 AI 與計(jì)算工作負(fù)載。而Arm C1-Pro CPU則將能效提升幅度達(dá)到了可觀的 12%。 GPU 方面,全新的Mali G1-Ultra 集性能與能效于一身,性能提升 20% 的同時(shí),功耗也降低了 9%。
通過(guò)引入 SME2技術(shù),Lumex CSS 平臺(tái)實(shí)現(xiàn)高達(dá)5 倍的 AI 性能提升,為實(shí)時(shí)語(yǔ)音處理、圖像增強(qiáng)和智能助手等應(yīng)用帶來(lái)低延遲和高效能表現(xiàn)。Mali G1-Ultra-Ultra GPU 則將光線追蹤性能提升高達(dá)2倍,支持桌面級(jí)游戲畫(huà)質(zhì)和 20% 的 AI 推理性能提升,為移動(dòng)游戲和擴(kuò)展現(xiàn)實(shí)(XR)體驗(yàn)帶來(lái)突破。此外,平臺(tái)支持主流 AI 框架(如 PyTorch ExecuTorch 和 ONNX Runtime),通過(guò) KleidiAI 庫(kù)實(shí)現(xiàn)自動(dòng)化的 SME2 加速,讓開(kāi)發(fā)者無(wú)需修改代碼即可獲得性能提升。
Chris Bergey提到,開(kāi)發(fā)者構(gòu)建 AI 工作負(fù)載時(shí)的首選目標(biāo)是 CPU,因此Arm投入了大量資源,讓 Lumex CPU 能實(shí)現(xiàn)出色的 AI 加速效果。
SME2的核心在于其對(duì)矩陣運(yùn)算的原生支持,這對(duì)AI工作負(fù)載至關(guān)重要。通過(guò)更為先進(jìn)的指令調(diào)度和緩存預(yù)取機(jī)制,Arm針對(duì)開(kāi)發(fā)者常見(jiàn)痛點(diǎn)如分支預(yù)測(cè)失效和內(nèi)存訪問(wèn)瓶頸進(jìn)行了針對(duì)性調(diào)優(yōu)。這使得SME2在構(gòu)建AI代理系統(tǒng)時(shí),能夠高效支持動(dòng)態(tài)推理路徑,而無(wú)需額外硬件抽象層。
Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven表示:“SME2 在機(jī)器學(xué)習(xí)、AI 場(chǎng)景中具有顯著優(yōu)勢(shì),特別是對(duì)延遲敏感型任務(wù)。因其集成于 CPU 核心,無(wú)需將數(shù)據(jù)外傳處理,這種架構(gòu)優(yōu)勢(shì)正是 SME2 的核心競(jìng)爭(zhēng)力所在?!?
Chris Bergey則在主題演講中強(qiáng)調(diào),SME2全面集成于Arm Lumex的Arm C1 CPU集群中,相較于未啟用SME2的基準(zhǔn),性能提升3至6倍。具體而言,SME2在語(yǔ)音識(shí)別任務(wù)中將延遲縮短超4.7倍,經(jīng)典大語(yǔ)言模型任務(wù)性能提升4.7倍,生成式AI處理速度加快2.8倍。對(duì)于傳統(tǒng)AI任務(wù)(如圖像分類(lèi)、分割和深度估計(jì)),SME2在小型模型上的表現(xiàn)尤為突出,甚至超越專(zhuān)用GPU的性能。Chris Bergey還提到,SME2通過(guò)與KleidiAI軟件的協(xié)同優(yōu)化,確保主流AI框架(如LiteRT)能夠無(wú)縫利用CPU的增強(qiáng)能力,從而提升開(kāi)發(fā)者在Android和iOS生態(tài)中的開(kāi)發(fā)效率。
可拓展性是Arm在進(jìn)行AI計(jì)算平臺(tái)布局時(shí)的另一個(gè)關(guān)注點(diǎn),SME2在C1的全系列中都有支持,包括從C1 Ultra一直到C1 Nano。SME2的靈活性使其能夠適配從旗艦智能手機(jī)到電池供電傳感器的多樣化設(shè)備,為開(kāi)發(fā)者提供統(tǒng)一的AI加速平臺(tái),加速創(chuàng)新應(yīng)用的上市進(jìn)程。
圖:Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven
此外,SME2不僅提升了單設(shè)備性能,還通過(guò)規(guī)?;渴馂檎麄€(gè)行業(yè)注入動(dòng)能。預(yù)計(jì)到2030年,SME2(連同其前一代版本SME)將為超30億臺(tái)設(shè)備新增超過(guò)100億TOPS的計(jì)算能力,推動(dòng)端側(cè)AI實(shí)現(xiàn)指數(shù)級(jí)飛躍。這種計(jì)算能力的提升將降低對(duì)云端的依賴,減少延遲并增強(qiáng)數(shù)據(jù)隱私,特別適用于隱私敏感型應(yīng)用。Chris Bergey特別提到與Google在AICore模型上的合作,SME2使小型安全模型的性能提升20%,證明了其在輕量級(jí)AI任務(wù)中的高效性。
SME2增強(qiáng)CPU矩陣計(jì)算能力,但CPU與GPU、NPU在AI工作負(fù)載上的分工仍然是有所不同的:
· CPU(SME2):高度可編程,支持任意數(shù)據(jù)類(lèi)型,適合語(yǔ)音識(shí)別、生成式AI音頻、低延遲任務(wù)(如安全檢查)。因數(shù)據(jù)留存
· CPU,無(wú)需跨單元傳輸,延遲敏感任務(wù)性能提升20%(如Google AICore)。
· GPU:優(yōu)化圖形與AI推理,例如適合視覺(jué)密集任務(wù)。
· NPU:專(zhuān)用AI加速,但因標(biāo)準(zhǔn)化缺失,需抽象層(如AICore)支持。
而站在開(kāi)發(fā)者角度而言,他們可能更偏好CPU開(kāi)發(fā)AI應(yīng)用,只有當(dāng)CPU的AI算力不夠的時(shí)候,才會(huì)考慮將計(jì)算遷移到專(zhuān)用加速器。這是因?yàn)镃PU的開(kāi)發(fā)框架更為成熟(如PyTorch),編程簡(jiǎn)單。相比之下,GPU(OpenCL優(yōu)化圖形)與NPU(廠商特定單元)復(fù)雜性更高。
關(guān)鍵組件協(xié)同,提升AI計(jì)算系統(tǒng)性能
隨著物理極限的逼近,針對(duì)計(jì)算能效的提升必須從系統(tǒng)的層面,依賴著諸多關(guān)鍵組件的協(xié)同優(yōu)化來(lái)實(shí)現(xiàn)。尤其是在圍繞著AI計(jì)算這樣的特定目標(biāo)時(shí),僅僅通過(guò)CPU和GPU等計(jì)算核心的提升是不夠的,在系統(tǒng)總線和內(nèi)存訪問(wèn)調(diào)度方面,也需要更精細(xì)高效的調(diào)校。
據(jù) James McNiven的分享,Lumex CSS上采用了全新的SI L1和MMU L1。
SI L1 是一種可擴(kuò)展的系統(tǒng)互連組件,集成了SLC(靜態(tài)鎖存器緩存)和NoC(網(wǎng)絡(luò)芯片),旨在為高性能AI設(shè)備提供完整的SoC(片上系統(tǒng))連接性;與此同時(shí),SMMU L1 作為系統(tǒng)內(nèi)存管理單元,通過(guò)基于內(nèi)存翻譯的虛擬化技術(shù),實(shí)現(xiàn)成本效益高的安全安卓和Windows設(shè)備的內(nèi)存管理。
對(duì)比上一代的CSS互連架構(gòu)設(shè)計(jì),CPU子系統(tǒng)、GPU子系統(tǒng)以及各種設(shè)備分別通過(guò)不同的路徑(CI-700和NI-700 NoC)獨(dú)立連接到內(nèi)存,這導(dǎo)致這些組件之間的通信效率不高且缺乏統(tǒng)一性。而新的Lumex CSS的互連架構(gòu)將全新的SI L1作為所有核心的統(tǒng)一互連層。SI L1中包含多個(gè)MCN和SLC,能夠?qū)PU、GPU子系統(tǒng)以及其他設(shè)備都通過(guò)這一個(gè)層級(jí)連接到內(nèi)存和NoC上。這種設(shè)計(jì)實(shí)現(xiàn)了更高效的數(shù)據(jù)傳輸和更好的系統(tǒng)擴(kuò)展性,從而提升了整個(gè)系統(tǒng)的性能和效率。
全新MMU L1的引入,對(duì)于多模態(tài)AI任務(wù)(如同時(shí)處理圖像、文本和音頻)尤為重要,因?yàn)檫@些任務(wù)往往需要頻繁的內(nèi)存交互。MMU L1的增強(qiáng)還支持開(kāi)發(fā)者在主流AI框架中實(shí)現(xiàn)更高效的數(shù)據(jù)流水線,無(wú)需額外調(diào)整即可利用Lumex平臺(tái)的內(nèi)存優(yōu)勢(shì),從而加速了軟件開(kāi)發(fā)和調(diào)試流程。
此外,在在成本效益方面,下一代移動(dòng)優(yōu)化內(nèi)存管理單元MMU L1通過(guò)PPA優(yōu)化降低了SMMU的成本,提供了可擴(kuò)展的安全基礎(chǔ)架構(gòu),支持更廣泛的細(xì)分市場(chǎng),從而增強(qiáng)了系統(tǒng)的安全性和靈活性。NoC S3(網(wǎng)絡(luò)芯片互連)作為非一致性通信和區(qū)域高效的SoC連接方案,提供了靈活的片上網(wǎng)絡(luò)互連,能夠在保持必要性能的同時(shí)減少芯片面積和功耗,進(jìn)一步縮減整體的成本。
總的來(lái)說(shuō),Arm Lumex利用SI L1、MMU L1和NoC S3,在保證高性能的同時(shí)也兼顧成本控制,還得以實(shí)現(xiàn)更高層次的系統(tǒng)可擴(kuò)展性,滿足從高性能計(jì)算到移動(dòng)設(shè)備等不同應(yīng)用場(chǎng)景的需求。
Chris Bergey還在演講中進(jìn)一步強(qiáng)調(diào)了Arm CSS的靈活交付方式:“在某些市場(chǎng)我們提供高度集成的計(jì)算網(wǎng)格,而在其他市場(chǎng)則采用可靈活組合的子模塊?!边@種靈活的方法已初見(jiàn)成效,目前全球已有超過(guò) 16 個(gè) CSS 的技術(shù)授權(quán)許可,其中半數(shù)是在過(guò)去 12 個(gè)月內(nèi)所發(fā)生。
自始至終,Arm CSS的初衷即為客戶提供一個(gè)經(jīng)過(guò)驗(yàn)證的計(jì)算基礎(chǔ),讓客戶能夠以相對(duì)較低的成本實(shí)現(xiàn)自身所需的定制化。Arm關(guān)注的是構(gòu)建高效計(jì)算平臺(tái)本身,而非直接打造一個(gè)公版的SoC給客戶,這里面存在著極大的區(qū)別。
因?yàn)橛辛薈SS,客戶就無(wú)需花費(fèi)更多時(shí)間精力在整合Arm IP上,而是可以把更多專(zhuān)注于真正能帶來(lái)差異化的部分,這些部分才是客戶自己對(duì)于應(yīng)用場(chǎng)景的深入理解和獨(dú)有專(zhuān)長(zhǎng)能夠發(fā)揮的地方——例如自動(dòng)駕駛加速器、手機(jī)端的 ISP 與影像處理管線,或是數(shù)據(jù)中心中與計(jì)算單元深度耦合的特定工作負(fù)載加速器等等。
結(jié)語(yǔ)
Arm Lumex CSS平臺(tái)的發(fā)布,不僅標(biāo)志著移動(dòng)計(jì)算邁向AI優(yōu)先的新時(shí)代,更彰顯了Arm以生態(tài)協(xié)同與技術(shù)創(chuàng)新驅(qū)動(dòng)未來(lái)的雄心。從SME2賦能的5倍AI性能飛躍,到SI L1與MMU L1的系統(tǒng)級(jí)優(yōu)化,Lumex為旗艦智能手機(jī)到智能端側(cè)設(shè)備提供了統(tǒng)一的計(jì)算底座,兼顧性能、能效與普惠性。預(yù)計(jì)到2030年,SME與SME2將為超30億臺(tái)設(shè)備新增100億TOPS算力,推動(dòng)端側(cè)AI在隱私、延遲與成本上的指數(shù)級(jí)突破。與vivo、支付寶、Google等伙伴的深度合作,也印證了Arm Lumex在中國(guó)市場(chǎng)的落地潛力,足以覆蓋從智能助手到游戲AI等更為豐富的應(yīng)用場(chǎng)景。