www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > > 新基建
[導讀]特斯拉在 8 月中旬的 AI 日推出了用于機器學習和神經(jīng)網(wǎng)絡訓練的汽車芯片、系統(tǒng)和軟件。他們將共同推進自動駕駛汽車模型的培訓。 埃隆馬斯克和他的芯片和系統(tǒng)設(shè)計師團隊在三個多小時的演示中提供了大量技術(shù)細節(jié)。以下是重點。

特斯拉在 8 月中旬的 AI 日推出了用于機器學習和神經(jīng)網(wǎng)絡訓練的汽車芯片、系統(tǒng)和軟件。他們將共同推進自動駕駛汽車模型的培訓。

埃隆馬斯克和他的芯片和系統(tǒng)設(shè)計師團隊在三個多小時的演示中提供了大量技術(shù)細節(jié)。以下是重點。

神經(jīng)網(wǎng)絡

特斯拉設(shè)計了一種靈活、可擴展的分布式計算機架構(gòu),專為神經(jīng)網(wǎng)絡訓練量身定做。Tesla 的架構(gòu)始于具有 354 個訓練節(jié)點的 D1 專用芯片,每個訓練節(jié)點都有一個強大的 CPU。這些訓練節(jié)點 CPU 專為高性能 NN 和 ML 任務而設(shè)計,32 位浮點運算的最大性能為 64 GFLOP。

對于具有 354 個 CPU 的 D1 芯片,32 位浮點運算的最大性能為 22.6 TFLOPs。對于 16 位浮點計算,D1 最大性能躍升至 362 TFLOP。

特斯拉推出了兩個用于神經(jīng)網(wǎng)絡訓練的系統(tǒng):Training Tile 和 ExaPOD。一個訓練塊在一個多芯片封裝中具有 25 個連接的 D1 芯片。具有 25 個 D1 芯片的訓練塊構(gòu)成 8,850 個訓練節(jié)點,每個訓練節(jié)點都具有上面總結(jié)的高性能 CPU。對于 32 位浮點計算,訓練 tile 的最大性能為 565 TFLOP。

ExaPOD 將 120 個訓練塊連接到一個系統(tǒng)中,或者將 3,000 個 D1 芯片與 106.2 萬個訓練節(jié)點連接起來。對于 32 位浮點計算,ExaPOD 的最大性能為 67.8 PFLOP。

特斯拉神經(jīng)網(wǎng)絡公告詳情

D1芯片和Dojo神經(jīng)網(wǎng)絡訓練系統(tǒng)的推出,昭示了特斯拉的方向。將這些產(chǎn)品投入生產(chǎn)的研發(fā)投入無疑是非常高的。特斯拉可能會與其他公司分享這項技術(shù)——以創(chuàng)造另一個類似于出售給其他 OEM 的 BEV 積分的收入來源。

下表列出了特斯拉神經(jīng)網(wǎng)絡產(chǎn)品公告的特點。數(shù)據(jù)是從 8 月 19 日事件的視頻中提取的。我在幾個地方增加了我對芯片和系統(tǒng)架構(gòu)的理解。

特斯拉的設(shè)計目標是在其芯片和系統(tǒng)中擴展三個系統(tǒng)特性:計算性能、計算節(jié)點之間的高帶寬和低延遲通信。高帶寬和低延遲一直難以擴展到數(shù)百或數(shù)千個計算節(jié)點??雌饋硖厮估呀?jīng)成功地縮放了以連接的 2D 網(wǎng)格格式組織的所有三個參數(shù)。

訓練節(jié)點

訓練節(jié)點是D1芯片上最小的訓練單元。它有一個 64 位處理器,具有 4 寬標量和 4 路多線程程序執(zhí)行。CPU 還具有 2 寬矢量數(shù)據(jù)路徑和 8×8 矢量乘法。

CPU 的指令集架構(gòu) (ISA) 專為機器學習和神經(jīng)網(wǎng)絡訓練任務量身定制。CPU 支持多種浮點格式 — 32 位、16 位和 8 位:FP32、BFP16,以及一種新格式:CFP8 或可配置 FP8。

該處理器具有 1.25MB 高速 SRAM 存儲器,用于存儲程序和數(shù)據(jù)。內(nèi)存使用 ECC 或糾錯碼來提高可靠性。

為了獲得訓練節(jié)點之間的低延遲,Tesla 選擇了信號在 2GHz+ 時鐘頻率的一個周期內(nèi)可以傳播的最遠距離。這定義了訓練節(jié)點的距離以及 CPU 及其支持電子設(shè)備的復雜程度。這些參數(shù)還允許 CPU 以每秒 512 Gbit 的速度與四個相鄰的訓練節(jié)點進行通信。

訓練節(jié)點的最大性能因使用的算法而異。浮點性能通常用于比較。最大訓練塊 32 位浮點性能 (FP32) 為 64 GFLOP。BFP16 或 CFP8 算術(shù)的最大性能為 1,024 GFLOP。

D1芯片

令人印象深刻的 Tesla D1 芯片是專門用于神經(jīng)網(wǎng)絡訓練的設(shè)計。D1 采用 7 納米工藝制造,在一個 645 平方毫米的芯片中封裝了 500 億個晶體管。該芯片的電線長度超過 11 英里,功耗在 400 瓦范圍內(nèi)。

D1 芯片有一個帶有高速、低功耗 SerDes 的 I/O 環(huán)——芯片周圍共有 576 個通道。每個通道的傳輸速率為 112 Gbps。最大 D1 片上傳輸速率為 10 Tbps(每秒 10 TB)。芯片每側(cè)的最大板外傳輸速率為 4 Tbps。

D1 芯片上的 354 個 CPU 中的每一個都具有 1.25 MB 的 SRAM,這加起來超過 442 MB 的 SRAM。D1芯片的最大性能也是基于354個訓練節(jié)點的CPU陣列。

32 位浮點計算的 D1 最大性能達到 22.6 TFLOP。16 位浮點計算的最大性能為 362 TFLOP。

訓練瓷磚

Tesla 的 Training Tile 是擴展 AI 訓練系統(tǒng)的基石。Training Tile 將 25 個 D1 裸片集成到晶圓上,并封裝為多芯片模塊 (MCM)。特斯拉認為這可能是芯片行業(yè)最大的MCM。訓練塊被封裝為一個大芯片,可以通過一個保留訓練塊帶寬的高帶寬連接器連接到其他訓練塊。

訓練塊封裝包括多層電源和控制、電流分配、計算平面(25 個 D1 芯片)和冷卻系統(tǒng)。培訓板塊用于 IT 中心,而非自動駕駛汽車。

訓練塊為 16 位浮點計算提供 25 倍的單個 D1 芯片或高達 9 Peta FLOP 的性能,為 32 位浮點計算提供高達 565 TFLOP 的性能。

12 個 2x3x2 配置的訓練圖塊可以裝在一個機柜中,特斯拉將其稱為訓練矩陣。

ExaPOD

特斯拉描述的最大系統(tǒng)是 ExaPOD。它由 120 個訓練圖塊組成。這增加了 3000 個 D1 芯片和 106.2 萬個訓練節(jié)點。它適合 10 個櫥柜。它顯然是供 IT 中心使用的。

ExaPOD 的最大性能是 16 位浮點計算的 1.09 Exa FLOPs 和 32 位浮點計算的 67.8 Peta FLOPs。

Dojo 軟件和 DPU

Dojo 軟件旨在支持大型和小型神經(jīng)網(wǎng)絡的訓練。Tesla 有一個編譯器來創(chuàng)建利用訓練節(jié)點、D1 芯片、訓練塊和 ExaPOD 系統(tǒng)的結(jié)構(gòu)和功能的軟件代碼。它使用帶有擴展的 PyTorch 開源機器學習庫來利用 D1 芯片和 Dojo 系統(tǒng)架構(gòu)。

這些能力允許對大型神經(jīng)網(wǎng)絡進行分區(qū)和映射,以提取不同的并行度、模型、圖、數(shù)據(jù)并行度,從而加速大型神經(jīng)網(wǎng)絡的訓練。編譯器使用多種技術(shù)來提取并行性。它可以使用數(shù)據(jù)模型圖并行技術(shù)轉(zhuǎn)換網(wǎng)絡以實現(xiàn)細粒度并行,并且可以優(yōu)化以減少內(nèi)存占用。

Dojo 接口處理器用于與 IT 和數(shù)據(jù)中心的主機進行通信。它通過上面解釋的高帶寬與 PCIe 4.0 連接到主機和基于 D1 的系統(tǒng)。接口處理器還為 D1 系統(tǒng)提供高帶寬 DRAM 共享內(nèi)存。

基于 D1 的系統(tǒng)可以細分并劃分為稱為 Dojo 處理單元的單元。DPU由一個或多個D1芯片、一個接口處理器和一個或多個計算機主機組成。DPU 虛擬系統(tǒng)可以根據(jù)運行在其上的神經(jīng)網(wǎng)絡的需要進行放大或縮小。

底線

特斯拉神經(jīng)網(wǎng)絡訓練芯片、系統(tǒng)和軟件讓人印象深刻。有很多創(chuàng)新,例如從芯片到系統(tǒng)保持巨大的帶寬和低延遲。Training Tile 的電源和冷卻包裝看起來很創(chuàng)新。

神經(jīng)網(wǎng)絡訓練系統(tǒng)用于數(shù)據(jù)中心,肯定會用于改進特斯拉的 AV 軟件。其他公司很可能也會使用這些特斯拉神經(jīng)網(wǎng)絡訓練系統(tǒng)。

一個關(guān)鍵問題是神經(jīng)網(wǎng)絡系統(tǒng)將如何用于自動駕駛汽車的推理應用?在當前版本中,Training Tile 的功耗看起來太高,無法自動使用。演示中的一張圖片有“15 KW 熱排斥”標簽用于訓練瓷磚。D1 芯片可能在幻燈片中列出的 400 瓦 TDP 范圍內(nèi)。

看起來特斯拉希望和/或依賴這種神經(jīng)網(wǎng)絡訓練創(chuàng)新,將其 Autopilot 變成支持 L3 或 L4 的系統(tǒng)——僅使用基于攝像頭的傳感器。這是一個好賭注嗎?時間會證明一切,但到目前為止,埃隆馬斯克的大部分賭注都是好的——只是有些延遲。


聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉