www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 原創(chuàng) > 劉巖軒
[導(dǎo)讀]大數(shù)據(jù)集計(jì)算的真正限制來(lái)自網(wǎng)絡(luò)和內(nèi)存兩大瓶頸,而AMD Alveo V80則能夠處理掉這兩大瓶頸,并且?guī)椭蛻舸蠓档蚑CO。

為提高特定類(lèi)型的計(jì)算負(fù)載,在數(shù)據(jù)中心中存在著大量的加速卡,包括GPU、FPGA和ASIC等多種不同的類(lèi)型。GPU憑借著更高的并行計(jì)算能力聞名,對(duì)于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)能夠提供更好的效能優(yōu)勢(shì);而FPGA則具備高度可編程性和可配置性,可針對(duì)特定任務(wù)進(jìn)行硬件優(yōu)化來(lái)顯著提高性能、優(yōu)化延遲并帶來(lái)成本效益。

全球數(shù)據(jù)中心加速器市場(chǎng)預(yù)計(jì)將以24%的年增長(zhǎng)率飛速發(fā)展,到2032年達(dá)到1300億。這背后不僅是生成式AI的訓(xùn)練來(lái)推動(dòng),還包括了各類(lèi)的推理場(chǎng)景的落地。而在像銀行業(yè)的高頻交易、電信行業(yè)的網(wǎng)絡(luò)虛擬化和安全加密、醫(yī)學(xué)和科研領(lǐng)域的大規(guī)模數(shù)據(jù)分析和實(shí)時(shí)洞見(jiàn)等具備大規(guī)模數(shù)據(jù)集和低延遲需求的應(yīng)用中,F(xiàn)PGA加速卡憑借著靈活計(jì)算和低延遲的優(yōu)勢(shì),通常會(huì)為計(jì)算負(fù)載帶來(lái)著更好的加速表現(xiàn)。

近日AMD發(fā)布了其最新的基于Versal HBM自適應(yīng)SoC的加速卡——AMD Alveo V80加速卡,這是其第一款面向大規(guī)模市場(chǎng)的加速卡產(chǎn)品,旨在幫助突破計(jì)算和存儲(chǔ)密集型工作負(fù)載中的網(wǎng)絡(luò)和內(nèi)存帶寬瓶頸,幫助客戶實(shí)現(xiàn)性能最大化的同時(shí)減少功耗、占板面積和時(shí)延。


大數(shù)據(jù)集計(jì)算的真正限制——網(wǎng)絡(luò)和內(nèi)存瓶頸

一個(gè)高性能計(jì)算架構(gòu)需要包含數(shù)據(jù)的輸入、前級(jí)處理、主處理單元、內(nèi)存和高速互聯(lián)輸出等多個(gè)部分,而限制整個(gè)計(jì)算加速的瓶頸,其實(shí)并不出現(xiàn)在計(jì)算部分。如下圖所示,傳統(tǒng)的架構(gòu)中,網(wǎng)絡(luò)的輸入帶寬較低,僅支持25G和100G兩個(gè)通路的數(shù)據(jù)輸入,這為整個(gè)計(jì)算架構(gòu)帶來(lái)了第一個(gè)瓶頸;而計(jì)算單元還需要和DDR進(jìn)行反復(fù)的數(shù)據(jù)讀寫(xiě)。但其實(shí)DDR內(nèi)存的帶寬,遠(yuǎn)低于計(jì)算單元計(jì)算帶寬,這就又產(chǎn)生了第二個(gè)瓶頸。

網(wǎng)絡(luò)帶寬不足可能會(huì)成為整個(gè)系統(tǒng)性能的瓶頸,限制數(shù)據(jù)處理的速度和效率。內(nèi)存速度和容量如果不足,將影響數(shù)據(jù)的快速訪問(wèn)和處理,尤其是在涉及大規(guī)模數(shù)據(jù)集或需要復(fù)雜計(jì)算的應(yīng)用中。在這兩個(gè)瓶頸的限制下,即使計(jì)算單元有著更高的計(jì)算速度、后端的PCIe和Interlaken與其他芯片有著更快的連接速度,也無(wú)法完全釋放整個(gè)計(jì)算架構(gòu)的真正能力。從整個(gè)架構(gòu)來(lái)看,要實(shí)現(xiàn)數(shù)據(jù)流的管理和優(yōu)化,讓其保持與計(jì)算單元相匹配的快速響應(yīng)。

在像高性能科學(xué)模擬、視頻處理和分析、金融技術(shù)等大型計(jì)算任務(wù)中,對(duì)于網(wǎng)絡(luò)帶寬和內(nèi)存瓶頸尤其敏感。網(wǎng)絡(luò)和內(nèi)存性能不足都會(huì)直接影響到任務(wù)的處理速度、系統(tǒng)的響應(yīng)時(shí)間以及最終的輸出質(zhì)量。因此,在設(shè)計(jì)和部署這些應(yīng)用時(shí),優(yōu)化網(wǎng)絡(luò)和內(nèi)存配置是關(guān)鍵。

“通過(guò)Versal HBM,也就是今天給大家介紹的Alveo V80計(jì)算加速卡,能夠主要解決高性能計(jì)算工作負(fù)載的內(nèi)存和網(wǎng)絡(luò)訪問(wèn)方面形成瓶頸的這兩個(gè)問(wèn)題。“AMD 自適應(yīng)和嵌入式計(jì)算事業(yè)部(AECG )高級(jí)產(chǎn)品線經(jīng)理Shyam Chander在發(fā)布會(huì)上分享到,“V80芯片支持的工作負(fù)載非常廣泛,可以從10G到800G,范圍非常廣泛,而且速率有所提高,能夠支持不同的協(xié)議。HBM再加上其他各種Versal器件,它可以處理掉剛剛提到的瓶頸問(wèn)題,所以不再需要DDR4或其他外部芯片。把安全連接再加上靈活應(yīng)變的計(jì)算,再加上HBM,我們可以幫助用戶實(shí)現(xiàn)性能的最大化,同時(shí)減少功耗、占板面積以及時(shí)延。”


Alveo V80加速卡:靈活硬件加速和低時(shí)延處理

Alveo V80加速卡上搭載的加速芯片是來(lái)自AMD的一顆7nm Versal系列自適應(yīng)SoC,其中包含了260萬(wàn)LUT可編程邏輯資源,以及集成了32GB的HBM2e,能夠達(dá)到820GB/s的數(shù)據(jù)帶寬。此外,該SoC上還集成了400G加密引擎和600G以太網(wǎng)的高帶寬核心,還包括了DDR控制器、PCIe5等硬核資源。

整個(gè)加速卡上除了這顆Versal自適應(yīng)SoC外,還具備豐富的拓展和連接能力。板載高帶寬收發(fā)器和光纖模塊,能夠支持800G(4X200G)網(wǎng)絡(luò)帶寬、PCIe Gen5金手指、32GB DDR4 DIMM拓展插槽和MCIO拓展插槽等。

據(jù)Shyam Chander介紹,相比上一代的Alveo U55C加速卡,Alveo V80的提升明顯。通過(guò)參數(shù)對(duì)比可以看到存儲(chǔ)器帶寬方面,V80是至高1.8倍,邏輯密度是至高2倍,網(wǎng)絡(luò)帶寬從200GB每秒升至800GB每秒,至高4倍,在PCle帶寬方面至高2倍。

【FPGA加速卡的獨(dú)特優(yōu)勢(shì)】

網(wǎng)絡(luò)附接加速卡需要與本地的CPU進(jìn)行連接,而受限于CPU的連接能力,所以不能夠無(wú)限增加加速卡的數(shù)量。而如果選擇Alveo V80作為網(wǎng)絡(luò)附接加速卡,那么就可以以以網(wǎng)絡(luò)限速加速傳入數(shù)據(jù),避開(kāi)CPU至加速器的PCle的瓶頸,實(shí)現(xiàn)每服務(wù)器卡數(shù)和計(jì)算密度的最大化。

憑借著靈活的存儲(chǔ)器層次,自適應(yīng)計(jì)算架構(gòu)相比傳統(tǒng)架構(gòu)有著更低的時(shí)延和功耗。在傳統(tǒng)的CPU/GPU架構(gòu)中,計(jì)算核心和緩存之間有著固定的層次結(jié)構(gòu),大數(shù)據(jù)量的讀寫(xiě)必然需要夸層訪問(wèn),這種不規(guī)則的訪問(wèn)模式會(huì)帶來(lái)了潛在的低效率。而在自適應(yīng)計(jì)算架構(gòu)中,內(nèi)存可以部署地更靠近計(jì)算核心,這能夠大大降低了數(shù)據(jù)遷移的成本。


加速傳感器處理和數(shù)據(jù)壓縮分析等工作負(fù)載,大幅降低客戶總體擁有成本

憑借著Alveo V80的獨(dú)特優(yōu)勢(shì),不少客戶已經(jīng)獲得了更好的加速體驗(yàn)。AMD在發(fā)布會(huì)現(xiàn)場(chǎng)展示了多個(gè)不同類(lèi)型的案例。一個(gè)非常適合FPGA加速卡的場(chǎng)景是在傳感器處理方面,Alveo V80能夠強(qiáng)化處理相信你,且大幅降低客戶的成本。

聯(lián)邦科學(xué)與工業(yè)研究組織(CSIRO)需要在每平方公里的面積上部署131000個(gè)天線,以15TB/s的速率進(jìn)行次序的傳感器數(shù)據(jù)采集和傳輸。此前CSIRO選擇的是420塊Alveo U55C卡用于波束成形和相關(guān)器計(jì)算,總計(jì)需要占用21臺(tái)服務(wù)器和4個(gè)機(jī)架。而在更新到ALveo V80之后,通過(guò)單卡的密集計(jì)算簡(jiǎn)化了整個(gè)新系統(tǒng)的集成、擴(kuò)展和集群。最終僅需140張V80加速卡就可以完成之前420張U55C才能完成的計(jì)算,服務(wù)器數(shù)量也減少至14臺(tái),電力消耗也節(jié)省了一半以上。換算總擁有成本預(yù)計(jì)至高可以降低21%。

另一個(gè)典型的用例是在具備壓縮與數(shù)據(jù)分析功能的服務(wù)器存儲(chǔ)節(jié)點(diǎn)上,V80加速卡可用于數(shù)據(jù)壓縮和分析的功能。NVMe SSD可以直接透過(guò)MICO連接器將數(shù)據(jù)傳入V80上的Versal SoC中進(jìn)行壓縮、分析和解壓縮等操作,然后將數(shù)據(jù)通過(guò)PCIe 5傳輸給主機(jī)CPU。因?yàn)閂ersal SoC中集成了HBM,所以大大減少了數(shù)據(jù)遷移,加速了數(shù)據(jù)查詢的效率。

據(jù)Shyam Chander分享,通過(guò)Alveo V80帶來(lái)的壓縮加速和存儲(chǔ)容量增加,傳統(tǒng)上需要55臺(tái)服務(wù)器、1303個(gè)SSD驅(qū)動(dòng)器才能完成的計(jì)算負(fù)載,現(xiàn)在僅需21臺(tái)服務(wù)器、504個(gè)SSD驅(qū)動(dòng)器和42張V80加速卡即可完成。服務(wù)器成本降低了44%,功耗降低了55%,總擁有成本最高可以降低56%。

除此外,在網(wǎng)絡(luò)安全和金融科技方面,V80加速卡也有著不可替代的價(jià)值。憑借著硬化的加密引擎和靈活的數(shù)據(jù)檢測(cè)、協(xié)議和安全策略,以及來(lái)自HBM帶來(lái)的緩沖和流量表儲(chǔ)存功能,Alveo V80可以推動(dòng)下一代800G網(wǎng)絡(luò)防火墻的構(gòu)建。在金融建模和算法交易方面,Alveo V80中的FPGA和DSP計(jì)算資源可用于建模仿真和回測(cè),而HBM資源則可用于大數(shù)據(jù)集和歷史定價(jià)數(shù)據(jù)存儲(chǔ),此外還有752Mb的RAM用于定價(jià)數(shù)據(jù)、交易記錄。


結(jié)語(yǔ)

FPGA加速卡相比GPU加速卡,在某些工作負(fù)載方面有著獨(dú)特的優(yōu)勢(shì)。而Alveo V80還集成了HBM,因此在提供靈活計(jì)算能力的同時(shí),還大大降低了處理的時(shí)延和能效。但不可否認(rèn)的是,F(xiàn)PGA加速卡對(duì)于開(kāi)發(fā)者的硬件編程能力要求更高,純軟件工程師上手可能還需要一些學(xué)習(xí)成本。AMD也表示,Alveo V80針對(duì)傳統(tǒng)FPGA開(kāi)發(fā)者提供了更為優(yōu)化的開(kāi)發(fā)流程,當(dāng)他們需要針對(duì)自定義工作負(fù)載進(jìn)行硬件優(yōu)化的時(shí)候,可以通過(guò)AMD VVivado設(shè)計(jì)套件來(lái)優(yōu)化RTL設(shè)計(jì),快速完成啟動(dòng)項(xiàng)目的示例設(shè)計(jì)。

Shyam Chander表示,根據(jù)不同的工作負(fù)載會(huì)有不同的計(jì)算加速需求,未來(lái)各種類(lèi)型的加速卡將會(huì)共存。GPU主要擅長(zhǎng)浮點(diǎn)、并聯(lián)、定點(diǎn)計(jì)算,可以提供大量的HBM。FPGA主要擅長(zhǎng)線上訪問(wèn)的實(shí)時(shí)處理,而且具備低時(shí)延、靈活應(yīng)變特點(diǎn),有非常豐富的存儲(chǔ)器架構(gòu)資源,就像樂(lè)高積木一樣,可以自定義進(jìn)行拼接和拼裝?!癋PGA的自適應(yīng)SoC能降低時(shí)延,也能進(jìn)行實(shí)時(shí)的傳入數(shù)據(jù)的處理,同時(shí)還能夠減少功耗。所以我覺(jué)得對(duì)于硬件開(kāi)發(fā)者來(lái)說(shuō),FPGA為基礎(chǔ)的加速器卡是最為適用的?!?

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月3日消息,近日,市場(chǎng)傳出AI芯片巨頭NVIDIA的H100/H200芯片供應(yīng)受限,該公司2日出面否認(rèn)傳聞,強(qiáng)調(diào)需求雖依然強(qiáng)勁,但完全能夠滿足所有客戶需求。

關(guān)鍵字: NVIDIA AMD

9月3日消息,Intel近日坦言自家高端桌面CPU競(jìng)爭(zhēng)力不如AMD銳龍9000系列,但強(qiáng)調(diào)下一代Nova Lake將全力反擊。

關(guān)鍵字: AMD 臺(tái)積電

8月20日消息,NVIDIA對(duì)其RTX 50系列顯卡在歐洲的價(jià)格進(jìn)行了調(diào)整,其中RTX 5090、RTX 5080和RTX 5070的降價(jià)幅度接近10%。

關(guān)鍵字: NVIDIA AMD AI

8月17日消息,國(guó)產(chǎn)AI芯片公司寒武紀(jì)日前發(fā)布公告稱(chēng)其近40億元定向增發(fā)方案獲上交所審核通過(guò)。

關(guān)鍵字: NVIDIA AMD

8月18日消息,近日,NVIDIA在社交媒體平臺(tái)上分享了AI公司Hydra Host聯(lián)合創(chuàng)始人Aaron Ginn的文章,指出雖然美國(guó)對(duì)H20芯片實(shí)施了出口管制,但中國(guó)AI領(lǐng)域仍然取得了顯著進(jìn)展。

關(guān)鍵字: NVIDIA AMD

在數(shù)字化浪潮席卷全球的今天,F(xiàn)PGA技術(shù)正成為驅(qū)動(dòng)創(chuàng)新的核心引擎。2025年8月21日,深圳將迎來(lái)一場(chǎng)聚焦FPGA技術(shù)與產(chǎn)業(yè)應(yīng)用的盛會(huì)——2025安路科技FPGA技術(shù)沙龍。本次沙龍以“定制未來(lái) 共建生態(tài)”為主題,匯聚行業(yè)...

關(guān)鍵字: FPGA 核心板 開(kāi)發(fā)板

在現(xiàn)代電子系統(tǒng)中,現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)憑借其開(kāi)發(fā)時(shí)間短、成本效益高以及靈活的現(xiàn)場(chǎng)重配置與升級(jí)等諸多優(yōu)點(diǎn),被廣泛應(yīng)用于各種產(chǎn)品領(lǐng)域。從通信設(shè)備到工業(yè)控制,從汽車(chē)電子到航空航天,F(xiàn)PGA 的身影無(wú)處不在。為了充分發(fā)揮...

關(guān)鍵字: 可編程門(mén)陣列 FPGA 數(shù)字電源

8月12日消息,據(jù)外媒Tweakers最新報(bào)道稱(chēng),AMD將停產(chǎn)一代游戲神U Ryzen 7 5700X3D。

關(guān)鍵字: AMD 臺(tái)積電

2025年8月4日 – 提供超豐富半導(dǎo)體和電子元器件?的業(yè)界知名新品引入 (NPI) 代理商貿(mào)澤電子 (Mouser Electronics) 即日起開(kāi)售Altera?的Agilex? 3 FPGA C系列開(kāi)發(fā)套件。此開(kāi)...

關(guān)鍵字: FPGA 邊緣計(jì)算 嵌入式應(yīng)用

8月3日消息,兩位消息人士透露,美國(guó)公司向全球(包括中國(guó))出口商品與技術(shù)所申請(qǐng)的數(shù)千種許可證正陷入停滯,因?yàn)樨?fù)責(zé)審核的機(jī)構(gòu)陷入內(nèi)部動(dòng)蕩,幾乎呈現(xiàn)癱瘓。

關(guān)鍵字: NVIDIA AMD
關(guān)閉