www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 原創(chuàng) > 劉巖軒
[導讀]AI訓練不僅是“算力游戲”,更是“網絡與系統(tǒng)工程”。在資源最密集的LLM訓練中,僅靠算力是不夠的——網絡可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關重要,必須在系統(tǒng)級別優(yōu)化網絡吞吐、延遲及通信協(xié)議,否則大量算力浪費在重試或錯誤恢復上。網絡性能和組件協(xié)同工作是AI集群效率的關鍵,任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn),凸顯了系統(tǒng)級驗證和優(yōu)化需求的重要性。

AI訓練不僅是“算力游戲”,更是“網絡與系統(tǒng)工程”。根據實際案例,GPU在“真正計算”的工作時間不超過20%;超過一半時間被網絡/數(shù)據傳輸拖慢。而且訓練成功率也差強人意,總體成功率僅57%,意味著>43%的訓練任務被中斷或失敗。在資源最密集的LLM訓練中,僅靠算力是不夠的——網絡可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關重要,必須在系統(tǒng)級別優(yōu)化網絡吞吐、延遲及通信協(xié)議,否則大量算力浪費在重試或錯誤恢復上。網絡性能和組件協(xié)同工作是AI集群效率的關鍵,任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn),凸顯了系統(tǒng)級驗證和優(yōu)化需求的重要性。

人工智能(AI)技術的飛速發(fā)展正在深刻改變全球科技格局,其在數(shù)據中心、通信網絡、自動駕駛、醫(yī)療健康和工業(yè)制造等領域的廣泛應用,不僅推動了技術創(chuàng)新,也對測試與測量領域提出了前所未有的挑戰(zhàn)。AI的高計算需求、大規(guī)模數(shù)據處理以及實時決策能力,使傳統(tǒng)測試方法顯得力不從心。尤其是隨著AI系統(tǒng)復雜性的不斷提升,如何在開發(fā)和部署過程中確保其性能、穩(wěn)定性和可靠性,成為了行業(yè)亟待解決的難題。

是德科技(Keysight Technologies),作為測試與測量領域的全球領導者,深刻認識到AI帶來的這些挑戰(zhàn),并推出了KAI(Keysight Artificial Intelligence)系列解決方案,旨在通過創(chuàng)新的測試工具和策略,為AI系統(tǒng)的開發(fā)和部署提供強有力的支持。

是德科技大中華區(qū)高速數(shù)字市場部經理李堅


AI帶來的測試挑戰(zhàn)

AI技術的快速發(fā)展為各行業(yè)帶來了巨大的市場機遇,但同時也伴隨著嚴峻的測試挑戰(zhàn)。綜合多家市場研究機構的預測,全球AI市場規(guī)模預計將從2022年的869億美元增長到2030年的1.3萬億美元,2024年到2030年的年均復合增長率高達35.7%,并將為美國GDP貢獻21%的凈增長(到2030年)。這一迅猛增長的背后,是AI系統(tǒng)對計算能力、數(shù)據處理和網絡性能的極高要求,而這些需求直接導致了測試領域的多重挑戰(zhàn)。

AI系統(tǒng)的核心在于其高性能計算和大規(guī)模數(shù)據處理能力,這直接推動了對帶寬的極高需求。當前的AI應用場景,如大規(guī)模語言模型訓練、實時圖像識別和自動駕駛決策,要求系統(tǒng)能夠在極短時間內處理海量數(shù)據。這意味著測試驗證必須在系統(tǒng)級別進行,以確保所有組件能夠在高負載下協(xié)同工作。未來3到5年內,技術將迎來顯著的轉折點:以太網速度將從400/800G升級至1.6/3.2T,帶寬提升4倍;內存技術將從DDR5 8.4 GT/s發(fā)展到DDR6/HBM3 12.8 GT/s,速度提升1.5倍;銅纜和光纖傳輸速率將從100 Gb/s提升至224/448 Gb/s,增長4倍;PCIe和CXL傳輸速率將從32 GT/s提升至128 GT/s,同樣增長4倍;無線通信將從5G的10 Gbit/s躍升至6G的100+ Gbit/s,速度提升10倍。這些技術升級對測試工具提出了更高的要求:測試設備不僅需要支持更高的帶寬,還必須能夠模擬和驗證這些高速系統(tǒng)在實際應用中的表現(xiàn)。

此外,帶寬需求的增長并非僅通過提升硬件性能就能完全解決,優(yōu)化系統(tǒng)效率同樣至關重要。AI系統(tǒng)的性能瓶頸往往出現(xiàn)在數(shù)據傳輸和計算資源的協(xié)調上。例如,在AI訓練過程中,數(shù)據傳輸?shù)难舆t可能導致計算資源的閑置,進而影響整體效率。因此,測試工具需要能夠在系統(tǒng)級別模擬真實的工作負載,識別潛在的瓶頸,并提供優(yōu)化建議。

“坦白說,現(xiàn)在的算力中心、數(shù)據中心里,很多設備和系統(tǒng)其實是還未完善便被在短時間內部署上崗的,它們的穩(wěn)定性并不理想。如果仔細去觀察和深入數(shù)據中心,會發(fā)現(xiàn)數(shù)據中心里會存在各種各樣的問題?!笔堑驴萍即笾腥A區(qū)高速數(shù)字市場部經理 李堅分享到,“總結來說,人工智能發(fā)展需要非常大的模型、大的算力和大的帶寬,而這些都給我們的技術和產業(yè)帶來很大的挑戰(zhàn)。”

數(shù)據中心基礎設施的復雜挑戰(zhàn)

AI數(shù)據中心是支持AI應用的核心基礎設施,但其復雜性帶來了多方面的挑戰(zhàn),主要集中在計算與內存擴展、網絡性能優(yōu)化以及多重故障點的管理上。首先,計算與內存擴展是AI訓練集群的基礎需求?,F(xiàn)代AI模型,如大型語言模型(LLM),可能包含數(shù)千億個參數(shù),需要數(shù)千個GPU組成的集群進行訓練。這對數(shù)據中心的計算能力和內存帶寬提出了極高的要求。研究表明,GPU在AI訓練中的利用率往往不高,超過50%的GPU時間因數(shù)據等待而閑置:通信延遲占62%,計算占20%,內存訪問占2%,其他重疊因素占16%(Keysight AI計算視覺GPU利用率,2025)。這種低效的資源利用率直接導致了訓練成本的增加和開發(fā)周期的延長。

其次,網絡性能是AI數(shù)據中心的一個關鍵瓶頸。AI數(shù)據中心的流量模式已經從傳統(tǒng)的南北向(客戶端到服務器)轉向東西向(服務器到服務器),這意味著集群內部的數(shù)據傳輸需求大幅增加。低延遲和高吞吐量成為網絡設計的核心目標。為了滿足這一需求,業(yè)界正在采用Scale Out(如InfiniBand和Ultra Ethernet)來減少延遲和擁堵,同時采用Scale Up(如NVLink、Infinity、UALink)將多個GPU集群視為一個統(tǒng)一的計算單元,支持超過10萬個GPU的超大規(guī)模訓練集群(Keysight網絡組件影響,2025)。然而,這種復雜的網絡架構也增加了測試的難度:測試工具需要能夠在高負載下驗證網絡的穩(wěn)定性,同時識別潛在的擁堵點和延遲問題。

最后,多重故障點是AI數(shù)據中心的一個顯著挑戰(zhàn)。AI訓練任務的失敗率高達43%,其中網絡問題占21%,計算和驅動錯誤占22%,只有57%的任務能夠成功完成(Keysight訓練任務失敗分布,2025)。這些故障可能發(fā)生在硬件層面(如GPU過熱、網絡連接中斷)、軟件層面(如驅動兼容性問題)或數(shù)據層面(如數(shù)據損壞或丟失)。因此,測試方案必須能夠全面覆蓋所有可能的故障點,并提供有效的診斷工具,幫助工程師快速定位和解決問題。

網絡與組件的協(xié)同重要性

AI系統(tǒng)的性能高度依賴于其基礎設施中每個組件的協(xié)同工作。一個次優(yōu)的組件可能成為整個系統(tǒng)的瓶頸,拖慢整體性能。例如,在一個AI數(shù)據中心中,如果網絡交換機的延遲過高,可能導致GPU集群之間的數(shù)據傳輸效率下降,進而影響訓練速度。同樣,如果內存帶寬不足,GPU可能無法及時獲取所需的數(shù)據,導致計算資源的閑置。測試工具需要能夠在系統(tǒng)級別模擬這些組件的交互,驗證其協(xié)同工作的能力,并識別潛在的性能瓶頸。

此外,隨著AI數(shù)據中心規(guī)模的不斷擴大,測試的復雜性也在增加。傳統(tǒng)的測試方法往往專注于單個組件的性能,而忽視了系統(tǒng)級別的交互效應。在AI場景下,這種方法已經不再適用。測試方案需要能夠模擬真實的AI工作負載(如模型訓練、推理任務),并在高負載下驗證整個系統(tǒng)的性能和穩(wěn)定性。


是德科技KAI解決方案:應對AI測試挑戰(zhàn)的利器

針對AI帶來的測試挑戰(zhàn),是德科技推出了KAI系列解決方案,旨在通過集成先進的硬件、軟件和AI驅動的分析能力,提供端到端的測試支持。KAI方案的核心目標是幫助工程師驗證AI系統(tǒng)的性能,優(yōu)化資源利用率,并加速開發(fā)和部署過程。通過結合是德科技在測試與測量領域的深厚經驗,KAI為AI數(shù)據中心、通信網絡和其他關鍵應用場景提供了強大的支持。

KAI方案的一個顯著優(yōu)勢是其能夠模擬真實的工作負載,并提供系統(tǒng)級別的測試能力。例如,KAI可以模擬大規(guī)模AI訓練集群的工作負載,驗證網絡、計算和存儲組件在高負載下的表現(xiàn)。此外,KAI還集成了AI驅動的分析工具,能夠自動識別性能瓶頸并提供優(yōu)化建議。這種智能化的測試方法不僅提高了測試效率,還幫助工程師更快速地解決復雜問題。

在KAI解決方案的框架下,是德科技推出了一系列新產品,專門針對AI測試中的核心挑戰(zhàn)。這些新品包括DCA-M采樣示波器、互連與網絡性能測試儀以及KAI數(shù)據中心構建器,每款產品都為AI系統(tǒng)的驗證和優(yōu)化提供了獨特的功能。

DCA-M采樣示波器(型號:N1093A、N1093B)

DCA-M采樣示波器是專為高速通信系統(tǒng)設計的測試工具,支持224 Gb/s單通道和雙通道光學采樣能力。N1093A和N1093B型號特別適用于AI數(shù)據中心光模塊的信號完整性測試,能夠精確測量高速信號的眼圖、抖動等關鍵參數(shù)。通過其高精度采樣和實時分析功能,DCA-M示波器能夠幫助工程師快速識別信號傳輸中的潛在問題,確保AI系統(tǒng)的高速通信鏈路的可靠性。

李堅總結了DCA-M采樣示波器的三大特點:一是大帶寬;二是低抖動、低噪聲;三是全集成?!八饕嫦虻氖枪庑酒?、光模塊領域的客戶。光模塊或者電模塊打出信號以后,我們主要使用DCA-M采樣示波器來評估信號的質量。這是一個純物理層的測試?!?

互連與網絡性能測試儀(型號:1.6T)

互連與網絡性能測試儀(型號1.6T)是專為高速網絡設計的測試工具,支持1.6T(224 Gb/s * 8通道)的1-3層網絡性能測試。該測試儀能夠模擬AI數(shù)據中心中的高密度網絡環(huán)境,驗證網絡設備的吞吐量、延遲和丟包率。

在AI數(shù)據中心中,網絡性能直接影響訓練任務的效率。例如,一個大型語言模型的訓練可能需要數(shù)千個GPU之間的頻繁數(shù)據交換。如果網絡存在擁堵或延遲,訓練速度將顯著下降。1.6T測試儀通過模擬真實的工作負載,幫助工程師識別網絡中的瓶頸,并優(yōu)化交換機和路由器的配置。此外,該測試儀還支持多協(xié)議測試,確保網絡設備能夠在不同的AI應用場景中穩(wěn)定運行。

“該產品是包含層2、層3測試功能的分析儀,并且是高度集成的?!崩顖钥偨Y道,“它面向的客戶是一些光模塊、電模塊領域的廠商,以及生產網卡交換機的廠商。無論是研發(fā)還是生產都可以使用它。”

KAI數(shù)據中心構建器(工作負載仿真)

KAI數(shù)據中心構建器是一款專注于工作負載仿真的軟件工具,旨在優(yōu)化AI數(shù)據中心的基礎設施。該工具能夠重放真實的AI工作負載(如模型訓練、推理任務),并對網絡的性能進行基準測試。

AI數(shù)據中心構建器的核心功能在于其工作負載仿真能力。例如,它可以模擬一個包含多GPU的訓練集群,生成真實的數(shù)據流量。這種仿真能力對于驗證超大規(guī)模AI系統(tǒng)的穩(wěn)定性至關重要。此外,該工具還提供了詳細的性能報告,幫助工程師識別系統(tǒng)中的瓶頸,并制定優(yōu)化策略。例如,如果報告顯示網絡延遲是主要瓶頸,工程師可以通過調整交換機配置或增加帶寬來解決問題。

“現(xiàn)在網絡更新迭代的速度非???,GPU基本上1-2年就要更新一代,交換機其實也是同樣的情況。原來設計好的網絡,換一個交換機使用,其原本的性能、參數(shù)可能就會發(fā)生變化。新安裝到系統(tǒng)中的設備會不會催生出一些新的問題?用戶可以在將設備安裝上去之前先用測試工具去測試一下?!崩顖越忉尩?,“我們提供的KAI數(shù)據中心構建器就是這樣的測試工具,能夠幫助用戶比較好地定義AI網絡可能會出現(xiàn)的各種各樣的問題,讓用戶在真正在線網部署實施時將設備調通,從而將潛在的問題消滅于無形?!?


未來展望:AI測試的持續(xù)演進

隨著AI技術的不斷發(fā)展,其對測試與測量的需求也將持續(xù)演進。未來,AI系統(tǒng)將更加依賴于超大規(guī)模計算集群、超高速網絡和新型存儲技術,這將進一步加劇測試的復雜性。例如,6G網絡的部署將帶來更高的帶寬和更低的延遲要求,而新型內存技術(如HBM4)將需要更高的測試精度。為了應對這些挑戰(zhàn),測試工具需要不斷創(chuàng)新,融入更多的AI技術,以實現(xiàn)更高效、更智能的測試流程。

是德科技的KAI解決方案及其新產品矩陣為AI測試的未來奠定了堅實的基礎。通過結合高性能硬件、智能軟件和AI驅動的分析能力,KAI不僅能夠應對當前的測試挑戰(zhàn),還能夠適應未來的技術演進。例如,DCA-M示波器的高速采樣能力可以擴展到支持448 Gb/s的信號測試。此外,AI數(shù)據中心構建器的工作負載仿真功能可以通過更新模型庫,支持新型AI工作負載的測試。

隨著AI市場的持續(xù)增長,是德科技的KAI解決方案將繼續(xù)在測試與測量領域發(fā)揮關鍵作用,推動AI技術以更高的可靠性和效率落地,為行業(yè)的未來發(fā)展注入新的動力。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

近日,美國參議院公布了一項引人注目的國防政策方案,其中包含的“2025年國家人工智能保障準入和創(chuàng)新法案”(簡稱GAIN AI法案)再次在全球科技領域掀起波瀾。

關鍵字: AI GPU

重慶2025年9月6日 /美通社/ -- iChongqing新聞報道:2025世界智能產業(yè)博覽會于9月5日在重慶開幕,550余家企業(yè)參展,展示了從自動駕駛和人工智能(AI)座艙到擴展現(xiàn)實(XR)影視和機器人咖啡廳的30...

關鍵字: 人工智能 新能源汽車 AI 機器人

慕尼黑2025年9月6日 /美通社/ -- 近日,廣汽正式推出全新增程技術——"星源增程"(英文名為ADiMOTION),全面提升增程器效率、動力響應及NVH表現(xiàn),同時配合AI能量控制平臺,實現(xiàn)每一度...

關鍵字: 廣汽 AI 增程器 電機

北京2025年9月5日 /美通社/ -- 近日,2025年中瑞商業(yè)大獎頒獎典禮在北京舉行,SGS通標標準技術服務有限公司(以下稱SGS通標)作為瑞士SGS在中國的分支機構榮獲了傳承獎的殊榮。SGS通標北京總經理...

關鍵字: 可持續(xù)發(fā)展 ST AI ABILITY

北京2025年9月5日 /美通社/ -- 9月2日,濟南城市投資集團有限公司(簡稱"濟南城投")與軟通動力信息技術(集團)股份有限公司(簡稱"軟通動力")正式簽署戰(zhàn)略合作...

關鍵字: AI 數(shù)字經濟 智能化 人工智能技術

中國鄭州2025年9月5日 /美通社/ --?全球領先的電動客車制造商宇通客車("宇通",上交所代碼:600066)全新升級的車聯(lián)網系統(tǒng)Link+采用先進技術實現(xiàn)車隊車輛與管理平臺的智能互聯(lián)。作為Vehicle+升級版,...

關鍵字: LINK 車聯(lián)網 AI PS

大眾汽車集團加速推進生產數(shù)字化轉型 數(shù)字化生產平臺(Digital Production Platform)成為大眾汽車的"工廠云",在全球生產基地實現(xiàn)人工智能(AI)與前沿 IT...

關鍵字: 亞馬遜 大眾汽車 AI 數(shù)字化

北京2025年9月5日 /美通社/ -- 9月4日,在北京市人民政府新聞辦公室舉行的"一把手發(fā)布?京華巡禮"系列主題新聞發(fā)布會上,北京經開區(qū)對外發(fā)布,北京經濟技術開發(fā)區(qū)(簡稱"北京經開區(qū)&q...

關鍵字: 人工智能 模型 開源 AI

RighValor現(xiàn)已基于Synaptics? Astra? SL1600系列SOC運行,提供隱私至上的實時邊緣智能。 加利福尼亞州帕洛阿爾托2025年9月5日 /美通社/ --?邊緣分布式代理AI先驅企業(yè)Righ今日...

關鍵字: 智能家居 SYNAPTICS AI ST

柏林2025年9月4日 /美通社/ -- 全球消費電子與家電領先品牌海信,將以AI Your Life為主題在IFA 2025呈現(xiàn)全線人工智能創(chuàng)新成果。從沉浸式娛樂、影院級畫質到智能家居生活與氣候智能健康,海信將展示AI...

關鍵字: 海信 AI RGB MINILED
關閉