以AI驅(qū)動創(chuàng)“芯”體驗,Arm多款新品重磅來襲!
近兩年,生成式AI的橫空出世,給終端市場帶來了全新的交互模式,并推動高性能算力需求呈現(xiàn)出了爆發(fā)式增長態(tài)勢。在此背景下,越來越多的芯片廠商開始厲兵秣馬,加快推進(jìn)與之相關(guān)的產(chǎn)品研發(fā)與技術(shù)應(yīng)用。
作為全球領(lǐng)先的半導(dǎo)體計算平臺公司,Arm自然也觀察到了這一趨勢,為此在今年推出了一系列先進(jìn)的解決方案,包括面向消費電子設(shè)備的全新計算子系統(tǒng)——Arm終端計算子系統(tǒng)(CSS),內(nèi)涵基于Arm第五代GPU架構(gòu)構(gòu)建的全新GPU和最新的Armv9.2 CPU集群,以及面向熱門AI框架的Arm Kleidi軟件庫。
為了讓大家全面地了解這些創(chuàng)新成果,在近日舉辦的“Arm技術(shù)媒體分享日”活動上,官方對其進(jìn)行了詳細(xì)介紹,并分享了相關(guān)領(lǐng)域的技術(shù)發(fā)展與應(yīng)用情況。
Arm終端CSS——消費電子技術(shù)的AI根基
作為AI體驗的計算基礎(chǔ),Arm終端CSS顯得尤為重要。
據(jù)Arm終端事業(yè)部智能手機(jī)市場高級總監(jiān)Steve Raphael介紹,以Arm為計算基礎(chǔ)構(gòu)建的軟件平臺是世界上最為普適且重要的軟件平臺,而今年全新推出的Arm終端CSS則是為各類消費電子設(shè)備打造新一代AI體驗的專用計算平臺。該平臺囊括了最新的Armv9.2 Cortex CPU集群和最新的Arm Immortalis與Arm Mali GPU、CoreLink互連系統(tǒng)IP,以及知名代工廠采用3nm工藝生產(chǎn)就緒的CPU和GPU物理實現(xiàn),可以為AI和其他實際用例計算工作負(fù)載提供出色的性能和效率。
“事實上,Arm在AI方面已鉆研許久,早在2021年,我們就推出了專為性能和AI而設(shè)計的Armv9架構(gòu),并在過去幾年中提高了在矢量加速、機(jī)器學(xué)習(xí)(ML)等領(lǐng)域的計算能力、增強(qiáng)了系統(tǒng)的安全性和穩(wěn)健性,更重要的是增加了面向AI的功能?!盨teve Raphael在會上談道,基于去年Armv9.2取得的成功,Arm進(jìn)一步提升了高性能計算水平,并以效率為核心,為開發(fā)者和消費者帶來了全新的Arm終端CSS,希望他們能夠在Arm平臺上打造更卓越、快速的AI體驗。
圖:Arm終端事業(yè)部智能手機(jī)市場高級總監(jiān) Steve Raphael
作為Arm目前面向安卓系統(tǒng)速度最快的平臺,Arm終端CSS相較于2023 Arm全面計算解決方案(TCS23)平臺,在關(guān)鍵基準(zhǔn)和一般計算用例方面實現(xiàn)了顯著改進(jìn)。
根據(jù)官方提供的數(shù)據(jù)顯示,在Arm終端CSS強(qiáng)大的性能優(yōu)勢下,通過Geekbench 6單核分?jǐn)?shù)測量可知,得益于新的Cortex-X925,峰值性能提高了36%;在前十大應(yīng)用中,五款應(yīng)用的平均啟動時間加快了33%;通過Speedometer 2.1瀏覽器基準(zhǔn)測量時,網(wǎng)頁瀏覽速度加快了60%;在包括光線追蹤和可變速率著色(VRS)基準(zhǔn)等七項圖形基準(zhǔn)中,峰值圖形性能平均提高了30%。
圖:Arm終端CSS的一些性能優(yōu)勢
對此,Arm終端事業(yè)部產(chǎn)品管理總監(jiān)Steve Hopper指出,高端移動平臺配置往往由三個主要因素驅(qū)動,即需要針對實際工作負(fù)載優(yōu)化計算性能、需要針對生成式AI工作負(fù)載提高性能,以及持續(xù)專注于提高系統(tǒng)能效以充分延長電池的使用時間。這三個驅(qū)動因素構(gòu)成了Arm內(nèi)部參考平臺演進(jìn)的基礎(chǔ)。
要知道,移動AI帶來的終端算力提升,最直接的反應(yīng)在于圖像與視頻的處理能力上。而Arm終端CSS的一大亮點,便是可以為計算攝影工作負(fù)載提供高能效的性能、賦能新的視覺效果?!芭c去年的上一代產(chǎn)品相比,我們在CPU上運行焦外成像工作負(fù)載算法的性能提高了24%。這意味著,用戶可在不影響電池續(xù)航時間的前提下,在照片和視頻上獲得更快、更順暢的焦外成像效果。”Steve Hopper介紹說。
除此之外,Arm終端CSS的另一個特點,則是為CPU和GPU上的AI推理工作負(fù)載帶來了顯著的性能飛躍。例如,采用Cortex-X925時,與上一代Cortex-X4相比,推理速度加快59%;采用Immortalis-G925時,與2023 Arm全面計算解決方案 (TCS23) 相比,AI推理速度加快36%。另外,通過在Arm終端CSS的CPU集群配置中利用一顆額外的Cortex-X925 CPU,Arm還觀察到,在17個主流網(wǎng)絡(luò)中,針對int8和fp16數(shù)據(jù)類型的AI推理性能大幅提升了170%,這一漲幅是十分驚人的!
圖:Arm終端CSS提升AI推理
據(jù)悉,Arm終端CSS之所以能夠?qū)崿F(xiàn)卓越的AI用戶體驗,并稱為“Arm最快的安卓平臺”,主要得益于硬件進(jìn)步與Arm Compute Library優(yōu)化相結(jié)合所產(chǎn)生的強(qiáng)大效果。
“以大語言模型(LLM)工作負(fù)載為例,除了計算吞吐量之外,內(nèi)存系統(tǒng)、帶寬和工作負(fù)載大小等也起著重要作用。所有的這些方面都需要精心調(diào)整,才能在細(xì)分市場和設(shè)備級別均獲得理想的移動體驗。我們設(shè)計了從IP到軟件的整個平臺,以提供出色能效,從而實現(xiàn)更久、更豐富的移動體驗。終端CSS為高端移動設(shè)備解鎖了AI性能,并推動了AI在更低價位的設(shè)備中的應(yīng)用?!盨teve Hopper如是說。
圖:Arm終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper
Armv9.2 CPU集群——開啟新一代AI體驗
隨著AI工作負(fù)載的計算強(qiáng)度及復(fù)雜度持續(xù)增長,Arm還推出了最新的Armv9.2 CPU集群,其更強(qiáng)性能、更高效率,以及更多功能,為新一代AI奠定了扎實基礎(chǔ)。
據(jù)官方介紹,新增至Armv9 CPU組合的新品包括具備超強(qiáng)性能的Arm Cortex-X925 CPU和可持續(xù)提供出色性能的Arm Cortex-A725 CPU;而更新后的Arm Cortex-A520,可為低強(qiáng)度工作負(fù)載提供更卓越的能效表現(xiàn)。與此同時,Arm也更新了DynamIQ Shared Unit(DSU-120),從而在Armv9.2 CPU集群配置中,降低功耗和縮小面積。
據(jù)悉,所有的這些產(chǎn)品都被集成到了Arm終端CSS上,通過提供一整套實際用例的改進(jìn),集群中的各個CPU組件均涵蓋了廣泛的實際用例和工作負(fù)載,從而為安卓智能手機(jī)、PC和筆記本電腦等設(shè)備,提供了出色的性能與用戶體驗。
圖:Armv9 CPU系列的新產(chǎn)品及更新
據(jù)Arm終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey介紹,在最新的Armv9.2 CPU集群中,Cortex-X925是Arm迄今為止速度最快、性能最強(qiáng)的CPU。與此前的Cortex-X產(chǎn)品相比,Cortex-X925的單線程(峰值)性能提升了36%,AI性能提高了46%。另外,Cortex-X925通過經(jīng)優(yōu)化的3nm工藝,輔以卓越的子系統(tǒng)和封裝,還使得新一代消費電子設(shè)備的性能分?jǐn)?shù)可提高30%以上。
在Manish Pandey看來,Cortex-X925不僅是另一個CPU換代產(chǎn)品,更是實現(xiàn)了相當(dāng)出色的IPC表現(xiàn)?!拔覀儤?gòu)建Cortex-X核心的目的,不僅是為了取得卓越的基準(zhǔn)測試結(jié)果,更是為了滿足AI等實際用例的需求。Cortex-X925代表了Arm在性能方面的又一次重大飛躍,得益于這些微架構(gòu)的進(jìn)展,我們實現(xiàn)了Cortex-X系列有史以來最大幅度的性能提升,在基準(zhǔn)測試、AI和實際應(yīng)用中均取得了全面提升?!?/span>
圖:Cortex-X925性能提升
為了將性能效率推向新的高度,Arm在最新的Armv9.2 CPU集群中還推出了Cortex-A725。據(jù)悉,Cortex-A725的性能效率提升,同樣得益于其微架構(gòu)的改進(jìn)。
與上一代產(chǎn)品Cortex-A720相比,Cortex-A725的性能效率提升了35%,能效提升了25%。
圖:Cortex-A725性能和能效提升
而更新后的Cortex-A520,則是Arm今年推出的另一個重要產(chǎn)品。雖然這款產(chǎn)品所采用的微架構(gòu)更新頻率較低,但這并不意味著Arm沒有做出任何改進(jìn)。得益于3nm工藝的實現(xiàn),Cortex-A520與TCS23中的Cortex-A520相比,能效提升了15%。
圖:更新后的Cortex-A520
值得一提的是,DSU是一款特別的IP,它的性能指標(biāo)包括緩存大小、帶寬、延遲、漏電和動態(tài)功耗,這些指標(biāo)往往會與實際用例之間存在緊密的牽動。據(jù)Manish Pandey介紹,今年Arm的DSU-120針對多個新用例進(jìn)行了重點更新,主要聚焦在PPA和功耗方面的改善。
作為Arm終端CSS的一部分,DSU-120現(xiàn)已針對新一代用例和消費電子設(shè)備體驗進(jìn)行了強(qiáng)化,其中包括新的性能和效率功能、新的低功耗模式和面向主流消費電子設(shè)備的強(qiáng)化,并保留了為高性能用例擴(kuò)展到14個核心的選項。得益于此,典型工作負(fù)載的功耗顯著降低50%,并且整個CPU集群的緩存未命中功耗降低60%,從而可減少漏電并延長設(shè)備的電池壽命。
除此之外,最新的Arm CPU集群還可為各類的消費電子設(shè)備提供出色的擴(kuò)展能力。
圖:DSU-120更新和提升
“總之,在最新的Armv9.2 CPU集群當(dāng)中,Cortex-A925實現(xiàn)了一流的IPC,卓越的單線程核心性能;而Cortex-A725提供了出色的持續(xù)性能。這是Arm迄今為止面向AI和UI的性能最強(qiáng)大的CPU集群?!盡anish Pandey表示,展望未來,Arm有信心在下一代設(shè)備的CPU IPC方面取得領(lǐng)先,為廣泛的消費電子設(shè)備提供前所未有的性能、效率和廣泛用途。
圖:Arm終端事業(yè)部高級產(chǎn)品經(jīng)理 Manish Pandey
全新Arm GPU——為AI創(chuàng)新帶來無限可能
作為Arm終端CSS的重要組件之一,第二代基于Arm第五代GPU架構(gòu)構(gòu)建的GPU產(chǎn)品同樣值得一提。
據(jù)安謀科技(Arm China)市場總監(jiān)王剛介紹,新一代Arm GPU包括了新的Arm Immortalis-G925 GPU、Arm Mali-G725 GPU和Arm Mali-G625 GPU,它們適用于從旗艦智能手機(jī)、高端手機(jī),到智能手表、入門級移動設(shè)備等各類消費電子設(shè)備,可為新一代AI和游戲體驗提供出色的性能和效率優(yōu)勢,并帶來無可匹敵的用戶體驗。
“我們看到,最近一年來,應(yīng)用商店中的游戲應(yīng)用收益不斷攀升,更多的游戲和應(yīng)用都在越來越多地采用AI。游戲內(nèi)容愈發(fā)復(fù)雜,而我們正通過創(chuàng)新產(chǎn)品滿足不斷演進(jìn)的需求,以提供新一代游戲體驗。基于此,我們推出了新的Immortalis-G925 GPU,希望能為開發(fā)者和玩家?guī)肀普娴挠螒蝮w驗?!蓖鮿?cè)缡钦f。
圖:安謀科技(Arm China)市場總監(jiān) 王剛
據(jù)介紹,Immortalis-G925是Arm目前性能最強(qiáng)、效率最高的GPU。
與上一代產(chǎn)品Immortalis-G720相比,Arm終端CSS中的Immortalis-G925在各種圖形應(yīng)用中的性能提高了37%;在運行AI/ML網(wǎng)絡(luò)方面,性能顯著提高了36%。
與此同時,在提供與2023年參考平臺相當(dāng)?shù)挠螒蛐阅軙r,Immortalis-G925還能節(jié)省高達(dá)30%的功耗;而在對復(fù)雜對象進(jìn)行光線追蹤,其性能更是提升了高達(dá)52%。
圖:Immortalis-G925整體性能提升
另外,在Arm新推出的GPU中,著色器核心的數(shù)量均已擴(kuò)展。其中,Immortalis-G925可配置10個以上的核心,適用于旗艦智能手機(jī)等高性能消費技術(shù)市場;Mali-G725則可在6-9個核心之間擴(kuò)展,主要針對高端手機(jī)市場;而Mali-G625可在1-5個核心之間擴(kuò)展,適用于智能手表和入門級移動設(shè)備。
圖:Immortalis-G925、Mali-G725和Mali-G625的核心數(shù)
“總的來說,Immortalis-G925出色的游戲和AI性能將帶領(lǐng)我們邁向嶄新時代,為手持設(shè)備打造媲美游戲主機(jī)的圖形效果以及更為智能的應(yīng)用體驗;而Mali-G725和Mali-G625這兩款產(chǎn)品,則可為各類不同級別的設(shè)備帶來出色的游戲體驗?!蓖鮿偙硎?,未來隨著手游和AI工作負(fù)載的不斷演進(jìn),新一代Arm GPU可提供出色的性能和效率優(yōu)勢,帶來無可匹敵的用戶體驗。
Arm Kleidi——助力AI開發(fā)者加速創(chuàng)新
作為Arm推出的另一款重磅產(chǎn)品,Arm Kleidi對于AI開發(fā)者的重要性不言而喻。
據(jù)安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理李陳魯介紹,Arm Kleidi是一項廣泛的軟件和軟件社區(qū)參與計劃,其軟件庫包含了面向AI工作負(fù)載的KleidiAI和面向運行于Arm CPU上出色的計算機(jī)視覺工作負(fù)載的KleidiCV。該軟件庫可以被直接嵌入到熱門的AI框架中,開發(fā)者無需進(jìn)行任何操作,即可輕松啟用Arm CPU的AI功能,從而快速構(gòu)建AI應(yīng)用,并在盡可能廣泛的設(shè)備上實現(xiàn)最出色性能。
其中,KleidiAI是為了應(yīng)對設(shè)備類型、神經(jīng)網(wǎng)絡(luò)和推理引擎的爆發(fā)式增長而推出的解決方案,由一系列高度優(yōu)化的AI內(nèi)核組成,可在生成式AI等用例中實現(xiàn)高性能。KleidiAI的最大優(yōu)勢在于能夠大大降低開發(fā)者的門檻,不會給他們額外增加工作量,而是直接與領(lǐng)先的AI框架合作,包括MediaPipe(通過XNNPACK)、LLAMA.cpp、PyTorch(通過ExecuTorch)和TensorFlow Lite(通過XNNPACK),以集成KleidiAI。這不僅加快了開發(fā)流程,還充分釋放了AI性能,使開發(fā)者能夠順利地打造出色的AI體驗。
而KleidiCV是計算機(jī)視覺算法的集大成者,可以對其帶來顯而易見的巨大性能提升。據(jù)官方介紹,OpenCV是全球最大的計算機(jī)視覺庫,里面包含了2500多種算法,為數(shù)十萬開發(fā)者提供支持。而基于KleidiCV集成,OpenCV發(fā)現(xiàn)各種圖像處理任務(wù)的典型性能提升了高達(dá)75%。
總之,Arm Kleidi有助于在使用Arm CPU的各種地方加速機(jī)器學(xué)習(xí)。這一軟件庫的推出,再次突顯了Arm作為端側(cè)生成式AI計算平臺的領(lǐng)先地位。
圖:安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理 李陳魯
可以預(yù)見,在AI時代下,萬億級參數(shù)大模型正在不斷涌現(xiàn),多樣性算力需求也將逐年增長。憑借上述產(chǎn)品的出色性能表現(xiàn),以及Arm架構(gòu)的強(qiáng)大實力和領(lǐng)先能力,下一代AI體驗勢必將會迎來重大變革。