人工智能處理器和加速器到底是什么?
AI 加速器是一種專用硬件組件,旨在增強人工智能 (AI)和機器學(xué)習(xí) (ML)應(yīng)用程序的性能。與傳統(tǒng)處理器不同,AI 加速器針對 AI 任務(wù)(例如深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)處理)的獨特計算要求進行了優(yōu)化。這些加速器對于加速AI 工作負載、提高效率和實現(xiàn)實時數(shù)據(jù)處理至關(guān)重要,因此對于各種行業(yè)和應(yīng)用程序來說都是必不可少的。
AI 加速器有多種形式,包括圖形處理單元 (GPU)、張量處理單元 (TPU)、現(xiàn)場可編程門陣列 (FPGA)和專用集成電路 (ASIC)。每種類型的加速器都旨在處理特定類型的 AI 工作負載,提供不同級別的性能、靈活性和能效。最常見的有:
GPU:GPU 最初設(shè)計用于圖形渲染,擅長同時執(zhí)行多項任務(wù),也就是所謂的并行處理,使其成為處理 AI 應(yīng)用程序所需的大規(guī)模計算的理想選擇。
TPU:TPU 由谷歌開發(fā),專為張量運算而設(shè)計,張量運算是一種涉及多維數(shù)組的數(shù)學(xué)運算,是深度學(xué)習(xí)算法的基礎(chǔ)。
FPGA:這些是可配置的硬件組件,可以進行編程來執(zhí)行特定任務(wù),在性能和靈活性之間實現(xiàn)平衡。
ASIC:專為特定應(yīng)用而定制,ASIC 為專用 AI 任務(wù)提供最高的性能和效率,但缺乏 GPU 和 FPGA 的靈活性。
AI加速器芯片(又稱“AI芯片”)是專門的微電子硬件設(shè)備,可加速和優(yōu)化AI/機器學(xué)習(xí)軟件模型的處理。在這里,我們的分析重點是圖形處理器之外的架構(gòu)。AI發(fā)展的速度可能取決于新的芯片材料和設(shè)計。此外,地緣政治緊張局勢也會和芯片制造行業(yè)互相影響,美國《芯片與科學(xué)法》是恢復(fù)美國在半導(dǎo)體領(lǐng)域領(lǐng)導(dǎo)地位的關(guān)鍵努力。在短期內(nèi),邊緣應(yīng)用可能會發(fā)生重大變革,例如無人機系統(tǒng)上的高保真計算機視覺等。最終,隨著芯片變得越來越“類似大腦”,芯片的能力將開始與人類大腦相匹敵,甚至高度復(fù)雜的模型如大語言模型,有朝一日也可以在小尺寸、低重量和低功耗的設(shè)備上運行。AI芯片有幾種類型,通常需要在能效和可運行模型的靈活性之間進行權(quán)衡。隨著芯片晶體管達到物理尺寸的極限,摩爾定律放緩,其他技術(shù)正在經(jīng)歷一場創(chuàng)新的復(fù)興,并有望徹底改變AI行業(yè)。
人工智能加速器(AI accelerator),又稱神經(jīng)處理單元(NPU,neural processing unit),是一類專用于人工智能應(yīng)用的硬件加速單元或計算系統(tǒng),主要為人工神經(jīng)網(wǎng)絡(luò)、計算機視覺、語音識別、機器學(xué)習(xí)和其他人工智能技術(shù)算法提供硬件加速。 NPU按應(yīng)用分,主要有:目標(biāo)檢測、面部檢測識別、手勢識別、語音識別、聲音和圖像識別、噪聲消除等;NPU按市場分,主要有智能家居、消費電子、醫(yī)療保健、智能相機、物聯(lián)網(wǎng)、無人機、機器人、AV/VR、汽車、邊緣計算等。AI加速器和神經(jīng)處理單元(NPU)的集成,為微控制器(MCU)和微處理器(MPU)帶來了顯著的性能提升。一些廠商都在積極發(fā)展這一領(lǐng)域,推出了一些創(chuàng)新的產(chǎn)品,以滿足市場對于高效能邊緣AI處理能力的需求。以下是一些集成了AI加速器或神經(jīng)處理單元(NPU)的MCU和MPU廠商和產(chǎn)品,及具有NPU的IP公司。
數(shù)據(jù)中心是互聯(lián)網(wǎng)的后端。無論是 Netflix 還是 Google,所有大公司都利用數(shù)據(jù)中心及其托管的計算機系統(tǒng)向最終用戶提供數(shù)字服務(wù)。隨著企業(yè)的重點轉(zhuǎn)向高級 AI 工作負載,數(shù)據(jù)中心傳統(tǒng)的以 CPU 為中心的服務(wù)器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強。
從本質(zhì)上講,這些協(xié)處理器背后的想法是引入某種附加組件來增強服務(wù)器的計算能力。這使它們能夠處理 AI 訓(xùn)練、推理、數(shù)據(jù)庫加速和網(wǎng)絡(luò)功能等工作負載的計算需求。在過去幾年中,以 Nvidia 為首的 GPU 已成為協(xié)處理器的首選,因為它們能夠以無與倫比的速度處理大量數(shù)據(jù)。根據(jù)Futurum Group的一項研究,由于需求增加,去年 GPU 占數(shù)據(jù)中心內(nèi)支持 AI 用例的協(xié)處理器的 74% 。
研究顯示,GPU 的主導(dǎo)地位預(yù)計只會增長,到 2028 年,該類別的收入將以每年 30% 的速度增長,達到 1020 億美元。但問題是:雖然 GPU 憑借其并行處理架構(gòu)成為加速各種大規(guī)模 AI 工作負載(如訓(xùn)練和運行大規(guī)模、萬億參數(shù)語言模型或基因組測序)的強大伙伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200“超級芯片”結(jié)合了 Grace CPU 和兩個 B200 GPU,預(yù)計成本在 60,000 至 70,000 美元之間。一臺裝有 36 個這種超級芯片的服務(wù)器估計成本約為 200 萬美元。
雖然這在某些情況下可能有效,例如大型項目,但并非適用于每家公司。許多企業(yè) IT 經(jīng)理都希望采用新技術(shù)來支持選定的低到中等密集型 AI 工作負載,并特別關(guān)注總體擁有成本、可擴展性和集成度。畢竟,大多數(shù) AI 模型(深度學(xué)習(xí)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、大型語言模型等)都處于成熟階段,需求正在轉(zhuǎn)向 AI 推理和增強特定工作負載(如圖像識別、推薦系統(tǒng)或?qū)ο笞R別)的性能,同時保持高效。
這正是芯片制造商、初創(chuàng)公司和云提供商正在構(gòu)建的專用 AI 處理器和加速器的新興領(lǐng)域。
從本質(zhì)上講,AI 處理器和加速器是位于服務(wù)器 CPU 生態(tài)系統(tǒng)中的芯片,專注于特定的 AI 功能。它們通常圍繞三種關(guān)鍵架構(gòu):專用集成電路 (ASIC)、現(xiàn)場可編程門陣列 (FPGA) 和最新創(chuàng)新的神經(jīng)處理單元 (NPU)。ASIC 和 FPGA 已經(jīng)存在了相當(dāng)長一段時間,可編程性是兩者之間的唯一區(qū)別。ASIC 是為特定任務(wù)(可能與 AI 相關(guān),也可能不相關(guān))從頭定制的,而 FPGA 可以在后期重新配置以實現(xiàn)自定義邏輯。NPU 與兩者的區(qū)別在于,NPU 是一種專用硬件,只能加速 AI/ML 工作負載,如神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練。
Futurum 集團首席執(zhí)行官 Daniel Newman 告訴 Venturebeat:“加速器往往能夠單獨執(zhí)行任何功能,有時采用晶圓級或多芯片 ASIC 設(shè)計,它們能夠處理一些不同的應(yīng)用程序。NPU 是專用芯片(通常是系統(tǒng)的一部分)的一個很好的例子,它可以處理許多矩陣數(shù)學(xué)和神經(jīng)網(wǎng)絡(luò)用例以及使用更少功率的各種推理任務(wù)?!边@些加速器,尤其是為特定應(yīng)用而構(gòu)建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。IBM 云和行業(yè)平臺總經(jīng)理 Rohit Badlaney 告訴 VentureBeat:“GPU 設(shè)計主要以算術(shù)邏輯單元 (ALU) 為中心,這樣它們就可以同時執(zhí)行數(shù)千次計算,而 AI 加速器設(shè)計主要以張量處理器核心 (TPC) 或單元為中心。一般來說,AI 加速器的性能與 GPU 性能的比較取決于該設(shè)計的固定功能?!?
目前,IBM 采用混合云方法,在整個堆棧中使用多個 GPU 和 AI 加速器,包括來自 Nvidia 和 Intel 的產(chǎn)品,為企業(yè)提供選擇,以滿足其獨特工作負載和應(yīng)用的需求 - 高性能和高效率?!拔覀兊娜珬=鉀Q方案旨在幫助改變企業(yè)、開發(fā)人員和開源社區(qū)構(gòu)建和利用生成式人工智能的方式。人工智能加速器是我們認(rèn)為對希望部署生成式人工智能的客戶非常有益的產(chǎn)品之一,"Badlaney 說。他補充說,雖然 GPU 系統(tǒng)最適合大型模型訓(xùn)練和微調(diào),但加速器同樣可以處理許多人工智能任務(wù),而且成本更低。
例如,IBM 云虛擬服務(wù)器使用了英特爾的Gaudi 3加速器,并配備了專為推理和大內(nèi)存需求設(shè)計的定制軟件棧。該公司還計劃通過由多個系統(tǒng)組成的小型集群,將加速器用于微調(diào)和小型訓(xùn)練工作負載?!叭斯ぶ悄芗铀倨骱?GPU 可以有效地用于一些類似的工作負載,例如從 LLM 和擴散模型(像穩(wěn)定擴散這樣的圖像生成)到標(biāo)準(zhǔn)物體識別、分類和語音配音。不過,人工智能加速器和 GPU 之間的優(yōu)勢和差異完全取決于硬件提供商的設(shè)計。Badlaney 解釋說:"例如,Gaudi 3 AI 加速器的設(shè)計旨在顯著提升計算能力、內(nèi)存帶寬和基于架構(gòu)的能效。