當(dāng)前位置：首頁(yè) > > 充電吧

只知NVIDIA的GPU強(qiáng)，殊不知其CPU也很強(qiáng)！

時(shí)間：2018-10-16 10:36:04

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]提起NVIDIA，可能99%+的朋友第一反應(yīng)是“顯卡”和“GPU”。世界上兩大GPU巨頭之一、GPU領(lǐng)域絕對(duì)的霸主嘛，地球人都知道，前些天還剛剛發(fā)布了全新的Turing架構(gòu)和RTX 2080Ti/20

提起NVIDIA，可能99%+的朋友第一反應(yīng)是“顯卡”和“GPU”。世界上兩大GPU巨頭之一、GPU領(lǐng)域絕對(duì)的霸主嘛，地球人都知道，前些天還剛剛發(fā)布了全新的Turing架構(gòu)和RTX 2080Ti/2080/2070顯卡呢。

這其實(shí)也沒(méi)什么毛病，不過(guò)近幾年以來(lái)，人們?cè)诼槟居贜VIDIA GPU強(qiáng)大的同時(shí)，似乎冥冥之中忽略了某件事情。NVIDIA的GPU強(qiáng)不？確實(shí)強(qiáng)，爆炸強(qiáng)，不管是PC端還是SoC上，有目共睹，人盡皆知……emmm，然后嘞？

直到前陣子看到了這樣一張圖：

顯然，這是一張對(duì)目前市面上主流SoC的簡(jiǎn)要概括，生動(dòng)形象簡(jiǎn)明易懂。不過(guò)看到最后一個(gè)的時(shí)候，我瞬間意識(shí)到了人們之前忽略了哪里：NVIDIA SoC的CPU怎么樣，真的是像圖上畫的一樣么？

CPU不行？這還真不服

實(shí)際上，NVIDIA對(duì)SoC的設(shè)計(jì)并不陌生，到目前為止他們已經(jīng)發(fā)布了7代Tegra系列SoC。NVIDIA一直在Tegra SoC中使用自家的GPU架構(gòu)，但前幾代的CPU部分用的則是Arm公版CPU內(nèi)核。與同時(shí)期的高通三星聯(lián)發(fā)科處理器相比，除了“祖?zhèn)鳌钡腉PU外并無(wú)其他出彩之處。倒也有不少手機(jī)和平板電腦使用了Tegra處理器，還算差強(qiáng)人意。

然而即便時(shí)間僅止于此，我們似乎也挑不出NVIDIA SoC中的CPU有什么毛病。非要說(shuō)的話，不知NVIDIA黃教主是否為蘋果喬幫主的鐵桿擁躉，這幾代Tegra均沒(méi)有集成neon協(xié)處理器，flash播放能力欠佳。至于使用Arm公版CPU內(nèi)核雖然不假，但是同時(shí)期的三星華為聯(lián)發(fā)科德州儀器用的也都是公版內(nèi)核。

更何況，NVIDIA在CPU上的野心和實(shí)力，遠(yuǎn)非人們的固有印象可以衡量。

在2011年的CES上，NVIDIA對(duì)外公布了Denver計(jì)劃，宣布將要開發(fā)基于64位Arm v8指令集的自研架構(gòu)，用于從移動(dòng)設(shè)備到服務(wù)器等各種設(shè)備。短短三年后的2014年CES，NVIDIA便推出了使用自研Denver架構(gòu)的Tegra K1上，并依此成為了繼蘋果之后第二個(gè)發(fā)布基于Arm v8指令集的消費(fèi)級(jí)SoC的公司。

時(shí)間回退4個(gè)月，2013年9月，蘋果在其A7處理器上出人意料地使用了基于Arm v8指令集的Cyclone 架構(gòu)。此后的一年多時(shí)間里，市面上基于Arm v7指令集的Cortex A15公版架構(gòu)和高通Krait自研架構(gòu)，甚至包括同樣基于Arm v8指令集的Cortex A57在內(nèi)，所有其他同時(shí)期的CPU架構(gòu)均被Cyclone橫掃。

除了Denver。

傳統(tǒng)的CPU架構(gòu)設(shè)計(jì)分為兩種：順序執(zhí)行和亂序執(zhí)行。恰如其名，順序執(zhí)行體系嚴(yán)格按照接收順序執(zhí)行微指令，而亂序執(zhí)行體系允許在不改變指令運(yùn)算結(jié)果的前提下調(diào)整執(zhí)行順序。

一直以來(lái)，亂序執(zhí)行被認(rèn)為是順序執(zhí)行發(fā)展到極限后的一次進(jìn)化。CPU執(zhí)行的任務(wù)紛繁復(fù)雜，某些情況下RAM等周邊部件會(huì)阻塞指令的順序執(zhí)行，這時(shí)亂序執(zhí)行便可以明顯改善運(yùn)算的靈活性，有效提高吞吐量。

亂序執(zhí)行曾不止一次被提及，可見在這些高性能Arm內(nèi)核中，亂序執(zhí)行似乎已經(jīng)成為了不二的選擇。不過(guò)，換用亂序執(zhí)行需要增設(shè)亂序執(zhí)行窗口，有效識(shí)別可以重新排序的指令，確保指令可以安全的亂序執(zhí)行，這顯然會(huì)拉高架構(gòu)的復(fù)雜性，芯片尺寸和功耗都會(huì)明顯上升。

而NVIDIA在提升架構(gòu)性能方面則另辟蹊徑，認(rèn)為亂序執(zhí)行并不是解決問(wèn)題的唯一方案。不光敢想，Denver真的放棄了Arm公版高性能架構(gòu)中主流的亂序執(zhí)行方式，轉(zhuǎn)而采用了低功耗處理器上常見的順序執(zhí)行，并為其配以一套高效的二進(jìn)制翻譯和代碼優(yōu)化方案。

NVIDIA的思路很簡(jiǎn)單：順序執(zhí)行體系面臨的基本問(wèn)題很明確，無(wú)外乎內(nèi)存停滯等硬件問(wèn)題，以及指令排序不良等軟件問(wèn)題。那么這些問(wèn)題一定要硬改架構(gòu)體系么，能否在“軟層面”中解決？而這就是Denver的核心思想。

這個(gè)架構(gòu)不尋常

Denver一個(gè)不尋常的地方是，它內(nèi)部的指令格式與ARMv7或ARMv8大相徑庭。在具體的內(nèi)部結(jié)構(gòu)上，Denver使用了在GPU中頗為常見的VLIW（Very Long Instruction Word，超長(zhǎng)指令字）格式執(zhí)行指令（畢竟NVIDIA）。

而在架構(gòu)前端，Denver的指令解碼寬度達(dá)到了前無(wú)古人的7發(fā)射，比Cortex A15（3發(fā)射）、Cortex A57（4發(fā)射）和蘋果Cyclone（6發(fā)射）都要更寬。NVIDIA官方稱其為“7+”架構(gòu)，其中的“+”指的是NVIDIA為Denver設(shè)計(jì)的DCO（動(dòng)態(tài)代碼優(yōu)化器）。

DCO的任務(wù)是將Arm代碼轉(zhuǎn)換為Denver的原生格式，并優(yōu)化此代碼以使其在Denver上運(yùn)行得更好。對(duì)于CPU整體而言，DCO是最關(guān)鍵的一個(gè)環(huán)節(jié)，因?yàn)樗男阅軐⒅苯佑蒁CO決定。

長(zhǎng)期以來(lái)，一直有傳言稱Denver最初的設(shè)計(jì)意圖瞄準(zhǔn)的是x86，其底層設(shè)計(jì)和二進(jìn)制翻譯機(jī)制旨在不侵犯任何x86專利的前提下兼容x86指令的執(zhí)行。不管這傳言是不是真的，最終結(jié)果是NVIDIA在軟層面上有了驚人的成果，打造出了一套可以將硬件設(shè)計(jì)和指令集分離的架構(gòu)。

然而盡管DCO如此逆天，NVIDIA還是在其之外配備了一套Arm指令解碼器。雖然官方表示這個(gè)Arm解碼器并不是“備胎”，但實(shí)際來(lái)看顯然是“口嫌體正直”，Denver的大部分指令都來(lái)自二進(jìn)制翻譯，這個(gè)Arm解碼器只有區(qū)區(qū)2指令寬度（Cortex A8級(jí)別），只在二進(jìn)制翻譯無(wú)法高效處理時(shí)才會(huì)接手以直接解碼Arm指令。

與此同時(shí)，由于NVIDIA選擇了在“軟層面”中解決問(wèn)題的方式，Denver也擁有了其他架構(gòu)都不具備的可升級(jí)性，如果DCO有改進(jìn)的話，NVIDIA可以進(jìn)一步部署新版本的DCO。

而最終Denver的實(shí)際性能也足以用技驚四座來(lái)形容，在SPECint2000測(cè)試中，Denver相比Cortex A15有了35%的平均提升，最高提升幅度甚至高達(dá)67%：

更為具體一點(diǎn)，使用Denver核心的Tegra K1性能完全壓過(guò)了同時(shí)期Cyclone核心的蘋果A7，相較于Intel Haswell核心的賽揚(yáng)2955U也是互有來(lái)回。

醉翁之意不在酒

看到這也許有朋友會(huì)疑惑，既然NVIDIA SoC的CPU不但不弱，反而也和GPU一樣是爆炸強(qiáng)的存在，為什么NVIDIA在手機(jī)和平板領(lǐng)域卻一直不得法，到最后干脆退出了呢？

很簡(jiǎn)單，因?yàn)槿思腋緵](méi)想爭(zhēng)這塊啊……

和我們這些看熱鬧不怕事大的普通用戶不同，NVIDIA對(duì)自家SoC的情況再清楚不過(guò)了。作為剛?cè)刖值男氯?，在基帶、底包、SDK、節(jié)能降耗等方面均處于后發(fā)劣勢(shì)，和市面上這些位根深蒂固的老黃牛拼力氣實(shí)為不智之舉。

沒(méi)見人家德州儀器都在2014年退出手機(jī)SoC領(lǐng)域了，Tegra出到第4代給小米3用用也算善始善終，交個(gè)朋友嘛……

很顯然，NVIDIA看到了SoC更好的應(yīng)用領(lǐng)域——AI等高性能移動(dòng)計(jì)算平臺(tái)，說(shuō)白了就是自動(dòng)駕駛和機(jī)器人。

經(jīng)歷了Tegra K1和Tegra X1的過(guò)渡，Tegra Parker（即NVIDIA Drive PX）終于帶著改良版的Denver2架構(gòu)成功登上了自動(dòng)駕駛的舞臺(tái)。而今年剛剛推出的NVIDIA Jetson Xavier平臺(tái)則更是帶來(lái)了強(qiáng)到?jīng)]朋友的自研架構(gòu)Carmel，其指令解碼達(dá)到了驚為天人的10寬度，在Denver的基礎(chǔ)上再次向前邁進(jìn)了一大步。

在眼下的AI芯片領(lǐng)域都在追求純AI運(yùn)算的精簡(jiǎn)設(shè)計(jì)時(shí)，NVIDIA是唯一沒(méi)有放棄高性能CPU的一家，同時(shí)也是將CPU、GPU、AI三部分平衡做的最好的一家。

So，老鐵們，別再說(shuō)NVIDIA“CPU不行GPI帶”了，NVIDIA真的不是CPU差，而是是在太強(qiáng)了，強(qiáng)到已經(jīng)超出了我們所熟知的這個(gè)次元。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

Arm 全新 Lumex CSS 平臺(tái)實(shí)現(xiàn)兩位數(shù)性能提升，驅(qū)動(dòng)消費(fèi)電子設(shè)備“更智能、更高效、更個(gè)性化”

Arm 控股有限公司(納斯達(dá)克股票代碼：ARM，以下簡(jiǎn)稱 Arm)今日宣布推出全新 Arm? Lumex? 計(jì)算子系統(tǒng) (Compute Subsystem, CSS) 平臺(tái)，這是一套專為旗艦級(jí)智能手機(jī)及下一代個(gè)人電腦加...

關(guān)鍵字： CPU AI 消費(fèi)電子

[Arm]

Arm 全新 Lumex CSS 平臺(tái)實(shí)現(xiàn)兩位數(shù)性能提升，驅(qū)動(dòng)消費(fèi)電子設(shè)備“更智能、更高效、更個(gè)性化”

Arm 控股有限公司(納斯達(dá)克股票代碼：ARM，以下簡(jiǎn)稱 Arm)今日宣布推出全新 Arm? Lumex?計(jì)算子系統(tǒng) (Compute Subsystem, CSS) 平臺(tái)，這是一套專為旗艦級(jí)智能手機(jī)及下一代個(gè)人電腦加速...

關(guān)鍵字：消費(fèi)電子 CPU AI

[通信先鋒]

10倍回報(bào)率！NVIDIA：其他家產(chǎn)品免費(fèi)送都超不過(guò)我們

9月10日消息，NVIDIA在演講中展示了其Blackwell Ultra AI服務(wù)器的驚人能力，尤其是在投資回報(bào)率(ROI)方面，其表現(xiàn)遠(yuǎn)超所謂的“免費(fèi)”GPU。

關(guān)鍵字： NVIDIA AMD

[通信先鋒]

NVIDIA官宣新GPU Rubin CPX

9月10日消息，128GB顯存的RTX 5090是沒(méi)有的，不過(guò)128GB顯存的AI GPU確實(shí)有。

關(guān)鍵字： NVIDIA AMD

[行業(yè)動(dòng)態(tài)]

安軟天地?cái)y手海光CPU密碼模塊，構(gòu)筑國(guó)產(chǎn)密碼安全新生態(tài)

關(guān)鍵字： CPU

[通信先鋒]

NVIDIA：H20三季度在中國(guó)營(yíng)收可達(dá)50億美元！

9月9日消息，NVIDIA首席財(cái)務(wù)官Colette Kress在高盛Communacopia+技術(shù)大會(huì)上發(fā)表了講話。

關(guān)鍵字： NVIDIA AMD

[通信先鋒]

NVIDIA澄清“產(chǎn)品都賣光了”！系誤傳可即時(shí)滿足每個(gè)訂單

9月3日消息，近日，市場(chǎng)傳出AI芯片巨頭NVIDIA的H100/H200芯片供應(yīng)受限，該公司2日出面否認(rèn)傳聞，強(qiáng)調(diào)需求雖依然強(qiáng)勁，但完全能夠滿足所有客戶需求。

關(guān)鍵字： NVIDIA AMD

[Microchip]

高能效與靈活性能：8位單片機(jī)的持久影響力

8位單片機(jī)在嵌入式設(shè)計(jì)領(lǐng)域已經(jīng)成為半個(gè)多世紀(jì)以來(lái)的主流選擇。盡管嵌入式系統(tǒng)市場(chǎng)日益復(fù)雜，8位單片機(jī)依然不斷發(fā)展，積極應(yīng)對(duì)新的挑戰(zhàn)和系統(tǒng)需求。如今，Microchip推出的8位PIC?和AVR?單片機(jī)系列，配備了先進(jìn)的獨(dú)立...

關(guān)鍵字：單片機(jī) 嵌入式 CPU

[美通社全球TMT]

ADI采用NVIDIA Jetson Thor平臺(tái)，推動(dòng)人形機(jī)器人物理智能與推理能力發(fā)展

北京2025年8月27日 /美通社/ -- 當(dāng)前，人形機(jī)器人正逐步邁向?qū)嶋H應(yīng)用部署階段，其落地節(jié)奏取決于物理智能與實(shí)時(shí)推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺(tái)的正式面市，Analog Devices,...

關(guān)鍵字： ADI NVIDIA 機(jī)器人 JETSON

[劉巖軒]