人工智能處理器和加速器到底是什么?
AI 加速器是一種專用硬件組件,旨在增強(qiáng)人工智能 (AI)和機(jī)器學(xué)習(xí) (ML)應(yīng)用程序的性能。與傳統(tǒng)處理器不同,AI 加速器針對(duì) AI 任務(wù)(例如深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)處理)的獨(dú)特計(jì)算要求進(jìn)行了優(yōu)化。這些加速器對(duì)于加速AI 工作負(fù)載、提高效率和實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理至關(guān)重要,因此對(duì)于各種行業(yè)和應(yīng)用程序來(lái)說(shuō)都是必不可少的。
AI 加速器有多種形式,包括圖形處理單元 (GPU)、張量處理單元 (TPU)、現(xiàn)場(chǎng)可編程門陣列 (FPGA)和專用集成電路 (ASIC)。每種類型的加速器都旨在處理特定類型的 AI 工作負(fù)載,提供不同級(jí)別的性能、靈活性和能效。最常見(jiàn)的有:
GPU:GPU 最初設(shè)計(jì)用于圖形渲染,擅長(zhǎng)同時(shí)執(zhí)行多項(xiàng)任務(wù),也就是所謂的并行處理,使其成為處理 AI 應(yīng)用程序所需的大規(guī)模計(jì)算的理想選擇。
TPU:TPU 由谷歌開(kāi)發(fā),專為張量運(yùn)算而設(shè)計(jì),張量運(yùn)算是一種涉及多維數(shù)組的數(shù)學(xué)運(yùn)算,是深度學(xué)習(xí)算法的基礎(chǔ)。
FPGA:這些是可配置的硬件組件,可以進(jìn)行編程來(lái)執(zhí)行特定任務(wù),在性能和靈活性之間實(shí)現(xiàn)平衡。
ASIC:專為特定應(yīng)用而定制,ASIC 為專用 AI 任務(wù)提供最高的性能和效率,但缺乏 GPU 和 FPGA 的靈活性。
AI加速器芯片(又稱“AI芯片”)是專門的微電子硬件設(shè)備,可加速和優(yōu)化AI/機(jī)器學(xué)習(xí)軟件模型的處理。在這里,我們的分析重點(diǎn)是圖形處理器之外的架構(gòu)。AI發(fā)展的速度可能取決于新的芯片材料和設(shè)計(jì)。此外,地緣政治緊張局勢(shì)也會(huì)和芯片制造行業(yè)互相影響,美國(guó)《芯片與科學(xué)法》是恢復(fù)美國(guó)在半導(dǎo)體領(lǐng)域領(lǐng)導(dǎo)地位的關(guān)鍵努力。在短期內(nèi),邊緣應(yīng)用可能會(huì)發(fā)生重大變革,例如無(wú)人機(jī)系統(tǒng)上的高保真計(jì)算機(jī)視覺(jué)等。最終,隨著芯片變得越來(lái)越“類似大腦”,芯片的能力將開(kāi)始與人類大腦相匹敵,甚至高度復(fù)雜的模型如大語(yǔ)言模型,有朝一日也可以在小尺寸、低重量和低功耗的設(shè)備上運(yùn)行。AI芯片有幾種類型,通常需要在能效和可運(yùn)行模型的靈活性之間進(jìn)行權(quán)衡。隨著芯片晶體管達(dá)到物理尺寸的極限,摩爾定律放緩,其他技術(shù)正在經(jīng)歷一場(chǎng)創(chuàng)新的復(fù)興,并有望徹底改變AI行業(yè)。
人工智能加速器(AI accelerator),又稱神經(jīng)處理單元(NPU,neural processing unit),是一類專用于人工智能應(yīng)用的硬件加速單元或計(jì)算系統(tǒng),主要為人工神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、機(jī)器學(xué)習(xí)和其他人工智能技術(shù)算法提供硬件加速。 NPU按應(yīng)用分,主要有:目標(biāo)檢測(cè)、面部檢測(cè)識(shí)別、手勢(shì)識(shí)別、語(yǔ)音識(shí)別、聲音和圖像識(shí)別、噪聲消除等;NPU按市場(chǎng)分,主要有智能家居、消費(fèi)電子、醫(yī)療保健、智能相機(jī)、物聯(lián)網(wǎng)、無(wú)人機(jī)、機(jī)器人、AV/VR、汽車、邊緣計(jì)算等。AI加速器和神經(jīng)處理單元(NPU)的集成,為微控制器(MCU)和微處理器(MPU)帶來(lái)了顯著的性能提升。一些廠商都在積極發(fā)展這一領(lǐng)域,推出了一些創(chuàng)新的產(chǎn)品,以滿足市場(chǎng)對(duì)于高效能邊緣AI處理能力的需求。以下是一些集成了AI加速器或神經(jīng)處理單元(NPU)的MCU和MPU廠商和產(chǎn)品,及具有NPU的IP公司。
數(shù)據(jù)中心是互聯(lián)網(wǎng)的后端。無(wú)論是 Netflix 還是 Google,所有大公司都利用數(shù)據(jù)中心及其托管的計(jì)算機(jī)系統(tǒng)向最終用戶提供數(shù)字服務(wù)。隨著企業(yè)的重點(diǎn)轉(zhuǎn)向高級(jí) AI 工作負(fù)載,數(shù)據(jù)中心傳統(tǒng)的以 CPU 為中心的服務(wù)器正在通過(guò)集成新的專用芯片或“協(xié)處理器”而得到增強(qiáng)。
從本質(zhì)上講,這些協(xié)處理器背后的想法是引入某種附加組件來(lái)增強(qiáng)服務(wù)器的計(jì)算能力。這使它們能夠處理 AI 訓(xùn)練、推理、數(shù)據(jù)庫(kù)加速和網(wǎng)絡(luò)功能等工作負(fù)載的計(jì)算需求。在過(guò)去幾年中,以 Nvidia 為首的 GPU 已成為協(xié)處理器的首選,因?yàn)樗鼈兡軌蛞詿o(wú)與倫比的速度處理大量數(shù)據(jù)。根據(jù)Futurum Group的一項(xiàng)研究,由于需求增加,去年 GPU 占數(shù)據(jù)中心內(nèi)支持 AI 用例的協(xié)處理器的 74% 。
研究顯示,GPU 的主導(dǎo)地位預(yù)計(jì)只會(huì)增長(zhǎng),到 2028 年,該類別的收入將以每年 30% 的速度增長(zhǎng),達(dá)到 1020 億美元。但問(wèn)題是:雖然 GPU 憑借其并行處理架構(gòu)成為加速各種大規(guī)模 AI 工作負(fù)載(如訓(xùn)練和運(yùn)行大規(guī)模、萬(wàn)億參數(shù)語(yǔ)言模型或基因組測(cè)序)的強(qiáng)大伙伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200“超級(jí)芯片”結(jié)合了 Grace CPU 和兩個(gè) B200 GPU,預(yù)計(jì)成本在 60,000 至 70,000 美元之間。一臺(tái)裝有 36 個(gè)這種超級(jí)芯片的服務(wù)器估計(jì)成本約為 200 萬(wàn)美元。
雖然這在某些情況下可能有效,例如大型項(xiàng)目,但并非適用于每家公司。許多企業(yè) IT 經(jīng)理都希望采用新技術(shù)來(lái)支持選定的低到中等密集型 AI 工作負(fù)載,并特別關(guān)注總體擁有成本、可擴(kuò)展性和集成度。畢竟,大多數(shù) AI 模型(深度學(xué)習(xí)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、大型語(yǔ)言模型等)都處于成熟階段,需求正在轉(zhuǎn)向 AI 推理和增強(qiáng)特定工作負(fù)載(如圖像識(shí)別、推薦系統(tǒng)或?qū)ο笞R(shí)別)的性能,同時(shí)保持高效。
這正是芯片制造商、初創(chuàng)公司和云提供商正在構(gòu)建的專用 AI 處理器和加速器的新興領(lǐng)域。
從本質(zhì)上講,AI 處理器和加速器是位于服務(wù)器 CPU 生態(tài)系統(tǒng)中的芯片,專注于特定的 AI 功能。它們通常圍繞三種關(guān)鍵架構(gòu):專用集成電路 (ASIC)、現(xiàn)場(chǎng)可編程門陣列 (FPGA) 和最新創(chuàng)新的神經(jīng)處理單元 (NPU)。ASIC 和 FPGA 已經(jīng)存在了相當(dāng)長(zhǎng)一段時(shí)間,可編程性是兩者之間的唯一區(qū)別。ASIC 是為特定任務(wù)(可能與 AI 相關(guān),也可能不相關(guān))從頭定制的,而 FPGA 可以在后期重新配置以實(shí)現(xiàn)自定義邏輯。NPU 與兩者的區(qū)別在于,NPU 是一種專用硬件,只能加速 AI/ML 工作負(fù)載,如神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練。
Futurum 集團(tuán)首席執(zhí)行官 Daniel Newman 告訴 Venturebeat:“加速器往往能夠單獨(dú)執(zhí)行任何功能,有時(shí)采用晶圓級(jí)或多芯片 ASIC 設(shè)計(jì),它們能夠處理一些不同的應(yīng)用程序。NPU 是專用芯片(通常是系統(tǒng)的一部分)的一個(gè)很好的例子,它可以處理許多矩陣數(shù)學(xué)和神經(jīng)網(wǎng)絡(luò)用例以及使用更少功率的各種推理任務(wù)。”這些加速器,尤其是為特定應(yīng)用而構(gòu)建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。IBM 云和行業(yè)平臺(tái)總經(jīng)理 Rohit Badlaney 告訴 VentureBeat:“GPU 設(shè)計(jì)主要以算術(shù)邏輯單元 (ALU) 為中心,這樣它們就可以同時(shí)執(zhí)行數(shù)千次計(jì)算,而 AI 加速器設(shè)計(jì)主要以張量處理器核心 (TPC) 或單元為中心。一般來(lái)說(shuō),AI 加速器的性能與 GPU 性能的比較取決于該設(shè)計(jì)的固定功能?!?
目前,IBM 采用混合云方法,在整個(gè)堆棧中使用多個(gè) GPU 和 AI 加速器,包括來(lái)自 Nvidia 和 Intel 的產(chǎn)品,為企業(yè)提供選擇,以滿足其獨(dú)特工作負(fù)載和應(yīng)用的需求 - 高性能和高效率?!拔覀兊娜珬=鉀Q方案旨在幫助改變企業(yè)、開(kāi)發(fā)人員和開(kāi)源社區(qū)構(gòu)建和利用生成式人工智能的方式。人工智能加速器是我們認(rèn)為對(duì)希望部署生成式人工智能的客戶非常有益的產(chǎn)品之一,"Badlaney 說(shuō)。他補(bǔ)充說(shuō),雖然 GPU 系統(tǒng)最適合大型模型訓(xùn)練和微調(diào),但加速器同樣可以處理許多人工智能任務(wù),而且成本更低。
例如,IBM 云虛擬服務(wù)器使用了英特爾的Gaudi 3加速器,并配備了專為推理和大內(nèi)存需求設(shè)計(jì)的定制軟件棧。該公司還計(jì)劃通過(guò)由多個(gè)系統(tǒng)組成的小型集群,將加速器用于微調(diào)和小型訓(xùn)練工作負(fù)載?!叭斯ぶ悄芗铀倨骱?GPU 可以有效地用于一些類似的工作負(fù)載,例如從 LLM 和擴(kuò)散模型(像穩(wěn)定擴(kuò)散這樣的圖像生成)到標(biāo)準(zhǔn)物體識(shí)別、分類和語(yǔ)音配音。不過(guò),人工智能加速器和 GPU 之間的優(yōu)勢(shì)和差異完全取決于硬件提供商的設(shè)計(jì)。Badlaney 解釋說(shuō):"例如,Gaudi 3 AI 加速器的設(shè)計(jì)旨在顯著提升計(jì)算能力、內(nèi)存帶寬和基于架構(gòu)的能效。