網(wǎng)絡(luò)交換機(jī):超大規(guī)模數(shù)據(jù)中心的無名英雄
雖然我們通常將低功耗與智能手機(jī)、智能手表和筆記本電腦等電池供電的設(shè)備聯(lián)系起來,但還有其他一些不太明顯的應(yīng)用,其中低功耗對我們的日常生活產(chǎn)生了重大影響。一個這樣的例子是所有“管道”和通信基礎(chǔ)設(shè)施,通常被稱為高性能計算,由現(xiàn)代超大規(guī)模數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)交換機(jī)管理。
隨著在家工作推動的在線活動的爆炸式增長,許多行業(yè)部門都報告了互聯(lián)網(wǎng)使用和電子商務(wù)的巨大增長。我們在家工作、學(xué)習(xí)、玩耍,同時擁抱電子商務(wù)和在線交付、遠(yuǎn)程醫(yī)療、虛擬健身以及許多其他虛擬活動和體驗(yàn)。而這一切似乎都轉(zhuǎn)移到了云端。
在 2010 年代初期,近 40% 的接受調(diào)查的大公司表示,他們預(yù)計將在兩年內(nèi)超過其 IT 能力。近十年后,幾乎所有企業(yè),無論規(guī)?;蛐袠I(yè),都嚴(yán)重依賴技術(shù)來擴(kuò)展和簡化其運(yùn)營。比以往任何時候都更重要的是,訪問大量數(shù)據(jù)對于他們的成功至關(guān)重要。為了提高他們快速處理所有這些數(shù)據(jù)的能力,這些企業(yè)必須從云提供商那里獲得更多的計算和存儲容量,這些云提供商正在構(gòu)建大規(guī)模數(shù)據(jù)中心,同時加速下一代技術(shù)的部署。
超大規(guī)模技術(shù)
當(dāng)我們想到超大規(guī)模數(shù)據(jù)中心時,通常首先想到的是可信賴的服務(wù)器 CPU。性能和功耗節(jié)省來自非??深A(yù)測的 x86 擴(kuò)展。我們還見證了處理能力向 FPGA、GPU 以及最近由互聯(lián)網(wǎng)巨頭內(nèi)部設(shè)計的定制片上系統(tǒng) (SoC) 的遷移。隨著每一次后續(xù)技術(shù)的發(fā)展,處理器在歷史上都以摩爾定律定義的非常可預(yù)測的方式進(jìn)行了改進(jìn)。超大規(guī)模數(shù)據(jù)中心的其他基本組件是有線和無線連接、網(wǎng)絡(luò)和存儲。這些還通過最新的以太網(wǎng)和網(wǎng)絡(luò)標(biāo)準(zhǔn)以及最新的內(nèi)存、高速連接和存儲技術(shù)展現(xiàn)出自然的改進(jìn)進(jìn)展。
涌向云端的熱潮集中在服務(wù)器 CPU、人工智能、高級存儲器和多芯片封裝。通常,性能限制不是 CPU 性能或采用的高級內(nèi)存技術(shù)類型。相反,網(wǎng)絡(luò)和連接性是瓶頸。數(shù)據(jù)在機(jī)架內(nèi)的服務(wù)器之間、機(jī)架之間、建筑物之間、校園之間以及最終傳輸?shù)交ヂ?lián)網(wǎng)的速度有多快也是關(guān)鍵因素。
支撐這一關(guān)鍵基礎(chǔ)設(shè)施的無名英雄是網(wǎng)絡(luò)交換機(jī)。在短短五年內(nèi),我們看到網(wǎng)絡(luò)交換機(jī)主機(jī)速度每兩年翻一番——從 2015 年的 3.2 Tb 到 2019 年的 12.8 Tb 到 2020 年的 25.6 Tb。
我們離 51.2 Tb 的部署不遠(yuǎn)了,尤其是隨著高速 SerDes 開發(fā)的進(jìn)步導(dǎo)致單通道 112 G 長距離能力。這意味著模塊帶寬趨勢從 2015 年的 100 G 到 2019 年的 200/400 G。我們現(xiàn)在正處于未來兩到三年內(nèi)主要的 400 G 到 800 G 速度部署的風(fēng)口浪尖。這與從 2019 年開始從 28 Gbaud 光學(xué)過渡到 56 Gbaud 光學(xué)器件的改進(jìn)相結(jié)合。所有這些變化都與從不歸零編碼到更高調(diào)制 PAM4(脈沖幅度調(diào)制,4 級)的過渡相吻合編碼效率更高。
對商業(yè)市場上可用產(chǎn)品的快速調(diào)查顯示,大多數(shù) 12.8 Tb SoC 是在 16 納米工藝節(jié)點(diǎn)上制造的。對于 25.6 Tb,SoC 從 2019 年底開始轉(zhuǎn)向 7 nm,并于 2020 年進(jìn)入量產(chǎn)階段。第一代 25.6 Tb SoC 使用 50 G SerDes,這是當(dāng)時可用的最佳技術(shù)。最近的公告表明 100 G SerDes 芯片終于到來,預(yù)計從 50 G 到 100 G SerDes 的過渡以及從 7 納米到 5 納米工藝技術(shù)的遷移。
好處是相當(dāng)顯著的??紤]一個 25.6 Tbps 的交換機(jī):如果它依賴于 50 G SerDes,則該設(shè)備將需要 512 個通道。使用 100 G SerDes,通道數(shù)減少到 256 個。通道數(shù)的顯著減少導(dǎo)致芯片面積和功耗的減少是顯著的。這些網(wǎng)絡(luò)交換 ASIC 芯片中的每一個都消耗大量功率,超過 300 W!
下一個平臺是 51.2 Tb。那么,我們?nèi)绾蔚竭_(dá)那里?
新的設(shè)計范式
預(yù)計 51.2 Tb 開關(guān) ASIC 制造將從 5 nm 開始,最終遷移到 3 nm。這主要受較長的開發(fā)周期和與代工廠先進(jìn)工藝部署計劃的一致性的影響。它還取決于 112 G SerDes 相對于 56 G SerDes 的可用性和采用情況,以改善“通道數(shù)與裸片尺寸與功率”的考慮。
另一種可能性是下一代網(wǎng)絡(luò)交換機(jī)將采用分解的方法,而是使用多個裸片而不是大型單片裸片。這種方法將在兩個方面有所幫助。芯片越小,它們的良率就越高,尤其是當(dāng)芯片尺寸被推到光刻/光罩限制時。提高產(chǎn)量意味著降低成本。以小芯片形式重復(fù)使用經(jīng)過硅驗(yàn)證的高速 SerDes 的能力將有助于加快上市時間并提高 51.2-Tb 開關(guān) ASIC 早期部署的成功率。
然而,這種轉(zhuǎn)變將需要重新思考設(shè)計方法。從單芯片設(shè)計到多芯片設(shè)計的轉(zhuǎn)變需要更加關(guān)注芯片、基板和封裝設(shè)計的約束和邊界。這些復(fù)雜 SoC 的高速特性將帶來額外的設(shè)計和驗(yàn)證負(fù)擔(dān)。在 100 G 及以上,它不再是 SPICE 仿真。設(shè)計人員必須考慮各種材料和 s 參數(shù)的電感、寄生、傳輸線效應(yīng)(終端)、串?dāng)_和介電系數(shù)的影響,并確保應(yīng)用程序可以訪問通道模型。
這導(dǎo)致更復(fù)雜的熱設(shè)計。這不再是管理芯片內(nèi)部溫度的問題。還需要監(jiān)控芯片上的溫度梯度和熱點(diǎn)的位置?,F(xiàn)在必須從管芯到中介層再到封裝基板再到散熱器整體解決溫度問題。甚至為散熱器選擇芯片連接材料和導(dǎo)熱硅脂也是設(shè)計考慮因素。在這種設(shè)計復(fù)雜性水平上,沒有反復(fù)試驗(yàn)。
如果沒有大量技術(shù)創(chuàng)新,就不可能實(shí)現(xiàn)高速網(wǎng)絡(luò)交換機(jī) SoC。除了明顯的高速 I/O (SerDes),還需要一組基本的硬 IP 才能成功。其他支持創(chuàng)新包括高性能處理器內(nèi)核、高密度片上存儲器、高速互連(結(jié)構(gòu))和存儲器帶寬以及 SoC 集成。
SoC 設(shè)計平臺還必須包括 IP 內(nèi)核,例如 112G-LR PHY、56G-LR PHY、高帶寬存儲器 Gen 2/3 PHY 和 PCI Express 5.0/4.0 PHY。此外,需要低功耗 die-to-die PHY IP 來支持多芯片集成、邏輯和 I/O 分解,以實(shí)現(xiàn)多芯片實(shí)現(xiàn)。為了管理向 25.6 Tb/s 交換機(jī)以及最終向 51.2 Tb/s 交換機(jī)的必要過渡,我們需要一種新的設(shè)計方法。這些包括人工智能驅(qū)動的設(shè)計工具、先進(jìn)的封裝和芯片設(shè)計的其他方面長期以來被認(rèn)為是理所當(dāng)然的。
現(xiàn)在是時候提升一個檔次并啟動我們的創(chuàng)新引擎了。