加速主機連接,解鎖更高內存帶寬|全新第二代 AMD Versal? Premium 系列自適應SoC賦能大計算量和高密度計算場景
在現代計算領域,數據量的激增、帶寬需求的提升以及傳輸效率的優(yōu)化,正在推動存儲與主機連接技術的迅速發(fā)展,安全威脅也因此日益加劇。人工智能(AI)的快速普及進一步加速了這一趨勢,對計算架構提出了前所未有的嚴苛要求。
而在計算架構的演進過程中,內存和存儲標準和技術也在不斷發(fā)展。DDR5已成為主流DRAM標準,預計將在未來幾年繼續(xù)主導市場。同時,CXL(Compute Express Link)作為連接存儲與主機的創(chuàng)新技術,正以212%的年均復合增長率快速普及。如今,約半數服務器已支持CXL技術,預計到2029年這一比例將接近100%,大大增強了數據中心的內存擴展能力與資源共享靈活性。
為更好地滿足高數據量、高帶寬和低延遲的計算需求,AMD重磅推出了第二代AMD Versal? Premium系列。該系列基于最新的技術架構,支持PCIe Gen6、LPDDR5X和CXL 3.0等前沿連接技術,專為數據密集型和計算密集型應用設計,為高性能計算和智能應用提供了堅實的技術支柱,推動行業(yè)邁向更高效、更智能的未來。
近日AMD召開了第二代AMD Versal? Premium系列自適應SoC的新品發(fā)布會,AMD自適應與嵌入式計算事業(yè)部( AECG) Versal產品營銷總監(jiān)Manuel Uhm,AMD自適應和嵌入式計算事業(yè)部( AECG) 高級產品線經理Mike Rather兩位發(fā)言人進行了精彩的分享。
據悉,第二代AMD Versal Premium系列產品是基于已經生產一年的第一代產品,在其極限硬IP的基礎上進行了進一步的新標準和技術擴充,尤其是在針對I/O、收發(fā)器以及存儲/內存的控制器、主機的接口方面,AMD都帶來了一系列創(chuàng)新。
透過對PCIe Gen 6規(guī)范,以及CXL3.1規(guī)范,第二代進一步加速了主機連接;用LPDDR5X和DDR5以及CXL存儲器擴展模塊,更快地釋放更多內存。同時也通過IDE、DDR加密和400G的高速加密引擎來確保了各種用例中的數據安全性。
Manuel表示,第一代Versal Premium系列產品更多關注的是加速網絡,在高安全性、高通量和帶寬的情況下加速網絡。而隨著大語言模型的興起,數據中心需要更多的內存來支持。因此第二代中增加了CXL內存的分享和池化的技術。
“第二代AMD Versal? Premium最好的理解就是它是在助力計算,主要是通過更好地來管理系統(tǒng)的內存,因為這方面正是現在人工智能模型以及各種數據集成最需要的。”Manuel解釋到。同時他也強調,第二代是為了適配新的應用,而非取代第一代。Mike也補充道,兩者目標市場會有一定重合,但兩代產品將會是同時進行推廣。
加速主機連接:高端應用的性能躍升與資源優(yōu)化之道
加速主機連接在高端應用中至關重要,它為數據密集型和計算密集型任務提供了更高的帶寬和更低的延遲,從而滿足AI訓練、大數據分析、5G通信、自動駕駛等場景的苛刻需求。高速連接如PCIe Gen6和CXL 3.1,使主機與加速器之間的數據傳輸更加順暢,有效減少數據搬運的瓶頸,支持多種加速器的異構計算,提升系統(tǒng)的資源利用率和能效。此外,CXL協議還允許內存共享,提升計算資源的靈活性;硬件級的加密模塊則保障了數據傳輸的安全性。因此,加速主機連接技術不僅提高了高端應用的性能和實時性,也為數據安全和資源優(yōu)化提供了有力支持,成為數據中心、云計算等領域不可或缺的基礎。
據悉,AMD Versal? Premium自適應SoC與AMD EPYC? CPU之間能夠實現深度協同,通過PCIe Express接口構建起高效的數據通道,為計算、網絡和存儲任務的卸載提供卓越的性能支持。借助這一高速連接,Versal Premium與EPYC處理器實現了流暢的內存空間共享,減少了內存冗余的占用,從而提高了資源利用效率。此外,PCIe IDE和DRAM加密技術為整個數據傳輸過程提供了端到端的安全保障,確保數據的完整性與保密性,滿足高安全性需求的應用場景。
值得一提的是,在第二代AMD Versal Premium系列中,創(chuàng)新性的GTM2收發(fā)器為系統(tǒng)性能再添助力。GTM2集成了上一代產品中的GTM和GTM1收發(fā)器,支持1.25 Gb/s至128 Gb/s的廣泛數據速率,并兼容NRZ與PAM4編碼格式。與此同時,GTM2延續(xù)了上一代成熟的設計流程,使開發(fā)者能夠輕松上手,并在系統(tǒng)的各個階段確保高度的可靠性。這一新型收發(fā)器的引入,進一步強化了Versal Premium的高速數據傳輸能力,為開發(fā)者帶來了可靠、靈活且強大的解決方案。
解鎖更多內存:升級到DDR5/LPDDR5X,支持CXL® 3.1拓展
在內存方面,第二代AMD Versal? Premium系列實現了對DDR5和LPDDR5的支持,因此數據速率達到了第一代產品DDR4和LPDDR4的兩倍。此外,與DDR4和LPDDR4相比,DDR5和LPDDR5的功耗降低了20%到30%。為了進一步保障內存安全,在第二代Versal Premium還增加了硬內聯ECC和加密功能。
同時,AMD還在新品中引入了支持CXL 3.1的存儲器擴展模塊,可以靈活擴展內存容量,并與多家DRAM供應商實現兼容。例如,使用LPDDR5X內存時可以實現高達256比特的傳輸帶寬,通過兩個8通道CXL連接,速率可達64 Gb/s,從外部存儲器獲取的帶寬超過500 Gb/s,為高效數據處理提供了強大的支持。
增強數據安全:端到端安全架構和400G高速加密引擎
AMD最新的Versal Premium系列通過端到端的數據安全機制,實現了對數據傳輸、存儲和使用過程的全面保護。在傳輸過程中,PCIe IDE和高速加密引擎對數據進行加密,確保數據在公共或專用網絡中的安全傳輸;在靜態(tài)存儲方面,DDR內聯加密與ECC技術為存儲中的非活動數據提供了有效的加密保護,防止數據被篡改或泄露;在數據使用過程中,通過RAM內存中的加密保障,確保數據在實時計算中不受攻擊。這一完整的端到端安全架構,滿足了現代高端應用對數據安全的嚴苛需求。
此外,Versal Premium系列的400G高速加密引擎為高帶寬和高安全性場景提供了強大的支持。該引擎具備高達800 Gb/s的吞吐量,采用AES-GCM-256/128算法進行加密和解密,并支持從40x10G到1x400G的多種通道配置,適應不同的網絡需求。同時,它還兼容MACsec和IPsec協議,其中MACsec適用于保護端到端或共享的以太網鏈路,常用于廣域網(WAN)和數據中心互聯(DCI);IPsec則保障了IP網絡的連接安全,適用于VPN等場景。通過集成這些先進的安全技術,Versal Premium系列為數據中心、云計算和高性能網絡應用提供了靈活且可靠的安全解決方案。
高帶寬與靈活擴展,賦能大數據量及高級算密度場景
通過進一步提升了系統(tǒng)的帶寬、擴展性和靈活性,第二代AMD Versal? Premium系列更適用于大數據量以及高計算密度的應用場景,包括數據中心、通信、測試與測量等。
首先,該系列通過支持CXL 3.1協議,提供了強大的內存擴展和高性能內存接口。在數據中心,CXL內存池和單節(jié)點(如下圖中所示的多個機架)通過高帶寬的交換結構連接,實現了各機架之間的資源共享和統(tǒng)一管理。
CXL 3.1采用PCIe Gen6技術,與CXL 2.0相比,具備兩倍帶寬,并通過NUMA架構實現與現有軟件的輕松集成。Versal Premium在操作模式上支持CXL.io、CXL.mem和CXL.cache三種模式,提供全面的內存管理功能。在器件模式下,Versal Premium可以作為內存控制器運行,同時在主機模式下可連接CXL擴展模塊,以實現系統(tǒng)的靈活擴展。此外,Versal Premium還支持多主機單邏輯設備(MH-SLD)架構和系統(tǒng)可組合性,為多主機共享資源提供了硬件支持。
在高性能GPU集群與自適應網絡方面,第二代Versal Premium系列也展現了卓越的帶寬與靈活性。隨著越來越多的客戶購買并部署大規(guī)模GPU集群,傳統(tǒng)的網絡接口往往難以滿足其性能與擴展需求。而第二代Versal Premium通過單個網絡適配器支持兩個400G接口,顯著提升了GPU集群的數據傳輸能力,確保其在復雜計算場景中的穩(wěn)定性與高效性。這一功能此前在Virtex UltraScale+和第一代Versal Premium中已有應用,而第二代Versal Premium在帶寬支持和集群靈活性上更進一步。
在測試與測量領域,第二代Versal Premium也有廣泛應用。隨著PCIe Gen7標準的開發(fā)逐步推進,分析器、控制器和練習器等相關測試設備需要支持高達128 Gb/s的數據傳輸速率,對收發(fā)器性能提出了極高要求。第二代Versal Premium不僅集成了高效的DSP引擎和內存帶寬,還支持多種重要的接口協議,包括C-PHY和D-PHY,滿足了測試設備制造商的嚴苛需求。這一架構設計使Versal Premium在支持先進協議和高帶寬測試需求方面具備獨特的優(yōu)勢,為下一代高速接口的開發(fā)與測試提供了理想的解決方案。
---
據悉,第二代AMD Versal? Premium系列提供四種不同型號,邏輯單元從140萬到330萬不等,包含3300到7600個DSP引擎。并集成了片上內存、內存控制器、雙核A72應用處理器、雙核R5F實時處理器、32至72個GTM2收發(fā)器、PCIe和CXL支持模塊、100G和600G以太網MAC、400G高速加密引擎以及LDPC解碼器。該系列將于2024年第四季度推出功率估算工具,2025年下半年提供完整的Vivado工具,2026年上半年發(fā)布芯片樣片和開發(fā)套件,并在2026年中實現量產。