20 世紀 90 年代末,RISC 和 CISC 爆發(fā)了一場大戰(zhàn),自那以后,大家卻說 RISC 和 CISC 的區(qū)別沒那么重要了了。許多人表示,指令集也就那么回事,對 CPU 沒什么太大的影響。但其實不然,指令集決定了我們可以輕松為微處理器做哪些優(yōu)化。本文將介紹 RISC-V 處理器是如何設(shè)計指令集的,這樣的設(shè)計具有什么好處。
20 世紀 90 年代末,RISC 和 CISC 爆發(fā)了一場大戰(zhàn),自那以后,大家卻說 RISC 和 CISC 的區(qū)別沒那么重要了了。許多人表示,指令集也就那么回事,對 CPU 沒什么太大的影響。
但其實不然,指令集決定了我們可以輕松為微處理器做哪些優(yōu)化。
我最近一直在了解有關(guān) RISC-V 指令集架構(gòu) (ISA) 的更多信息,說起來,關(guān)于 RISC-V ISA 有幾件事給我留下了非常深刻的印象:
-
它是一種 RISC 指令集,體積小,易于學習。不管是任何人,只要有興趣學習微處理器,選它準沒錯。
-
它在大學數(shù)字化設(shè)計教學中占據(jù)重要地位:為什么大學要學 RISC-V
-
經(jīng)過巧妙地設(shè)計,它允許 CPU 設(shè)計生產(chǎn)者使用 RISC-V ISA 打造高性能微處理器。
-
無需授權(quán)費,且被設(shè)計成允許簡單的硬件實現(xiàn),按道理,專業(yè)愛好者可以在合理的時間內(nèi)完成他自己的 RISC-V CPU 設(shè)計。
-
易于修改和使用的開源設(shè)計:The Berkely Out-of-Order (BOOM) RISC-V 處理器
當我開始更深入地理解 RISC-V 時,意識到 RISC-V 是一種根本性的轉(zhuǎn)變,它回到了許多人認為已經(jīng)過時的計算時代。在設(shè)計方面,RISC- V 就像乘著時光機穿越回了上世紀八九十年代的經(jīng)典 RISC 時代。
近年來,許多人指出 RISC 和 CISC 的區(qū)別不再重要,因為像 ARM 這樣的 RISC CPU 已經(jīng)添加了太多的指令,很多指令相當復雜,以至于它現(xiàn)在更像是一個混合的 RISC CPU,而不是純粹的 RISC CPU。而那些 RISC CPU 也是如此,比如 PowerPC。
相比之下,RISC- V 是 RISC CPU 真正的硬核。事實上,如果你在網(wǎng)上看過大家就 RISC- V 的討論,會發(fā)現(xiàn)有人聲稱 RISC-V 出自一些老學究式的 RISC 激進分子之手,他們拒絕與時俱進。
前 ARM 工程師 Erin Shepherd 幾年前就 RISC-V 寫過一篇評論,內(nèi)容很有意思:
RISC-V ISA 過分追求極簡主義。它非常強調(diào)最小化指令數(shù)、規(guī)范化編碼這些事。這種對極簡主義的追求導致了錯誤的正交性 (例如針對分支、調(diào)用和返回重用同一條指令) 和對冗余指令的需求,這在指令大小和數(shù)量這兩個方面影響了代碼密度。
我向大家簡單介紹一下背景。讓代碼更小對性能有好處,因為這樣就可以更容易將正在運行的代碼保存在高速 CPU 緩存中。
本文在此批評的是,RISC-V 設(shè)計者太過于追求擁有小的指令集。盡管,這是 RISC 最初的目標之一。然而,這樣做的弊端是,實際上程序在完成工作時將需要更多的指令,從而消耗更多的內(nèi)存空間。多年來,人們普遍認為 RISC 處理器應(yīng)該增加更多的指令,變得更像 CISC。其理論依據(jù)是,更專門化的指令可以替代對多個通用指令的使用。
然而,在 CPU 設(shè)計中有兩項特別的創(chuàng)新,這些創(chuàng)新從許多方面使添加更多復雜指令的策略變得多余:
·壓縮指令——在內(nèi)存中壓縮指令,并在 CPU 的第一階段進行解壓。
·宏融合——將兩個或兩個以上由 CPU 讀取的簡單指令融合成一個復雜指令。
實際上 ARM 已經(jīng)采用了這兩種策略,而 x86 CPU 則采用了后者,所以這不能算是 RISC-V 的新招術(shù)。
然而,關(guān)鍵是 RISC-V 從這些策略中獲得了更大的優(yōu)勢,這里面有兩個重要原因:
-
它從一開始就添加了壓縮指令。在 ARM 上使用的是 Thumb2 壓縮指令格式,這就必須將其作為一個單獨的 ISA 來添加以完成改造,這需要一個內(nèi)部模式切換和單獨的解碼器來進行處理。RISC-V 壓縮指令可以添加到具有 400 個額外邏輯門 (AND、OR、NOR、NAND 門) 的 CPU 上。
2.RISC 執(zhí)著地控制獨特指令的數(shù)量得到了回報,如此就有了更多的空間來容納壓縮指令。
這一部分需要進行一些解釋。指令在 RISC 體系結(jié)構(gòu)上通常是 32 位(即比特)寬的。這些比特需要用來編碼不同的信息。例如,下面這樣一條指令:
ADD x1, x4, x8 # x1 ← x4 + x8
這條指令將累加寄存器 x4 和 x8 的內(nèi)容,然后將結(jié)果存儲在 x1 中。我們需要多少比特來編碼,這取決于我們有多少寄存器。RISC-V 和 ARM64 有 32 個寄存器??梢杂?5 比特表示數(shù)字 32:
因為我們需要指定 3 個不同的寄存器,所以我們需要總共 15 比特 (3×5) 來編碼操作數(shù) (累加操作的輸入)。
因此,我們想要在指令集中支持的東西越多,那么就會消耗掉那 32 比特中更多的比特。當然,我們可以使用 64 位指令,但是這會消耗太多的內(nèi)存,從而降低性能。
通過刻意壓低指令的數(shù)量,RISC-V 節(jié)省下更多的空間來添加表示我們正在使用的壓縮指令的比特。如果 CPU 看到指令中的某些位被設(shè)置為 1,它就知道這條指令應(yīng)該作為一條壓縮指令來進行解釋。
這表示,我們可以將兩條 16 位寬的指令裝入一個 32 位字,而不是一個 32 位字只裝入一條指令。當然,并不是所有的 RISC-V 指令都可以用 16 位格式表示。因此,32 位指令的子集是根據(jù)它們的效用和使用頻率來挑選的。未壓縮指令可以接受 3 個操作數(shù) (輸入),而壓縮指令只能接受 2 個操作數(shù)。因此,壓縮后的 ADD 指令應(yīng)該如下所示:(# 號后為注釋)
C.ADD x4, x8 # x4 ← x4 + x8
RISC-V 匯編程序使用前綴 c. 來指示一條指令應(yīng)該被匯編程序轉(zhuǎn)換成一個壓縮指令。但實際上你不需要去寫它。RISC-V 匯編程序?qū)⒛軌蛟谶m當?shù)臅r候選擇是壓縮指令還是非壓縮指令。
基本上,壓縮指令減少了操作數(shù)的數(shù)量。三個寄存器操作數(shù)將消耗 15 比特,而留給我們指定操作的就只剩下 1 比特了!因此,將操作數(shù)減少到兩個,我們就能剩下 6 比特來指定操作碼 (要執(zhí)行的操作)。
這實際上接近于 x86 匯編的工作方式,在 x86 匯編中沒有足夠的比特來保留 3 個寄存器操作數(shù)。取而代之的是,x86 使用一些比特來允許像 ADD 這樣的指令從內(nèi)存和寄存器中讀取輸入。
但是,當我們將指令壓縮與宏融合結(jié)合起來看時,才能發(fā)現(xiàn)真正的收益。你看,如果 CPU 得到一個包含有兩個 16 比特的壓縮指令的 32 比特的字,它可以把這些合并成一條單一的復雜指令。
這聽起來很荒謬,我們不是又回到原點了嗎? 我們是不是又回到 CISC 風格的 CPU,這不正是我們試圖要避免的嗎?
不是的,因為我們避免用大量復雜的指令、x86 和 ARM 策略填充 ISA 規(guī)范。相反,我們基本上是通過各種簡單指令的組合來間接地表達一整套復雜指令。
在正常情況下,宏融合存在一個問題:雖然兩條指令可以被一條指令替換,但它們?nèi)匀粫膬杀兜膬?nèi)存空間。但是使用指令壓縮,我們不會消耗更多的空間。我們做到了兩全其美。
讓我們來看看艾琳·謝潑德的一個例子。在她批評 RISC-V ISA 時,展示了一個簡單的 C 函數(shù)。為了解釋起來更清楚一些,我把它重新寫了下來,內(nèi)容如下:
int get_index(int *array, int i) {
return array[i];
}
當你在編程語言中調(diào)用函數(shù)時,參數(shù)通常會根據(jù)既定的約定傳遞給寄存器中的函數(shù),這將取決于你所使用的指令集。在 x86 上,第一個參數(shù)放在寄存器 rdi 中,第二個放在 rsi 中。按照慣例,返回值必須放在寄存器 eax 中。
第一條指令將 rsi 的內(nèi)容乘以 4。它包含了變量 i。為什么乘?因為數(shù)組是由整數(shù)元素組成的,所以它們之間的間距為 4 個字節(jié)。因此,數(shù)組中的第三個元素的字節(jié)偏移量實際上是 3×4 = 12。
然后,我們把它添加到 rdi,它包含數(shù)組的基址。于是,我們得到了數(shù)組第 i 個元素的最終地址。我們讀取該地址的存儲單元的內(nèi)容,并將其存儲在 eax 中:大功告成。
LDR r0, [r0, r1, lsl #2]
BX lr ; return
這里我們不是乘以 4,而是將寄存器 r1 向左平移 2 位,這就相當于乘以 4。這也可能是更本真地表示了 x86 代碼中所發(fā)生的情況。在 x86 上,你只能乘以 2、4、8,所有這些其實都可以通過左移 1、2、3 位來實現(xiàn)。
我想,x86 描述中的剩余內(nèi)容你肯定都能猜得到了?,F(xiàn)在讓我們進入 RISC-V,真正有趣的內(nèi)容開始嘍?。? 號后為注釋)
SLLI a1, a1, 2 # a1 ← a1 << 2
ADD a0, a0, a1 # a0 ← a0 + a1
LW a0, a0, 0 # a0 ← [a0 + 0]
RET
RISC-V 上的寄存器 a0 和 a1 只是 x10 和 x11 的別名。它們是放置函數(shù)調(diào)用的第一個和第二個參數(shù)的地方。RET 是一條偽指令 (簡寫):
JALR x0, 0(ra) # sp ← 0 + ra
# x0 ← sp + 4 ignoring result
JALR 跳轉(zhuǎn)到 ra 引用返回地址的地址。ra 是 x1 的別名。
不管怎樣看,這似乎都很糟糕,對吧?對于像在表中執(zhí)行基于索引的查找并返回結(jié)果這樣簡單而常見的操作,需要兩倍的指令。
看上去確實很糟糕。這就是為什么艾琳·謝潑德強烈批評了 RISC-V 的設(shè)計選擇。她寫道:
RISC-V 的簡化使解碼器 (即 CPU 前端) 更簡單,但代價是執(zhí)行更多的指令。然而,真正棘手的問題是擴展流水線的寬度,而稍稍不規(guī)則甚至很不規(guī)則的指令其解碼都不會有太大的問題,主要難點是確定指令的長度,尤其是 x86,因為它有很多前綴。
然而,多虧了有指令壓縮和宏融合,我們可以扳回這一程。
C.SLLI a1, 2 # a1 ← a1 << 2
C.ADD a0, a1 # a0 ← a0 + a1
C.LW a0, a0, 0 # a0 ← [a0 + 0]
C.JR ra
現(xiàn)在,這和 ARM 的例子中所占用的內(nèi)存空間是完全相同的。
在 RISC-V 中允許將多個操作融合為一個的規(guī)則之一是,目標寄存器得是相同的。ADD 和 LW(加載字) 指令就屬于這種情況。因此,中央處理器將把這些轉(zhuǎn)換成一條指令。
如果 SLLI 也是這樣的話,我們就可以把這三條指令融合成一條了。因此,CPU 會看到一些類似于更復雜的 ARM 指令的東西:
因為我們的 ISA 不包含對它的支持!記住,可用的比特數(shù)是有限的。為什么不把說明寫長一點呢?不行,那樣會消耗太多的內(nèi)存,并且會更快填滿寶貴的 CPU 緩存。
然而,如果我們在 CPU 內(nèi)部制造這些半復雜的長指令,也沒有什么可擔心的。CPU 在任何時候所面對的指令最多也不過幾百條。所以在每條指令上浪費個 128 比特不是什么大問題。每個人都有足夠的硅。
因此,當解碼器得到一條正常指令時,它通常會把它轉(zhuǎn)換成一個或多個“微”操作。這些“微”操作是 CPU 實際要處理的指令。它們可以非常地“寬廣”,包含很多額外的有用信息。稱之為“微”似乎有些諷刺,因為它們其實很“廣”。然而事實上“微”指的是它們做的任務(wù)數(shù)量有限。
宏融合將解碼器的工作做了一點改變:不再是將一條指令轉(zhuǎn)換成多個微操作,而是將多個操作轉(zhuǎn)換成一個微操作。
因此,在現(xiàn)代 CPU 中發(fā)生的事情看起來相當奇怪:
-
-
-
其他指令反而可能最終會被分割成多個微操作,而不是融合在一起。為什么有些會融合,有些會分割?這種混亂是成體系的嗎?
-
不能太復雜,否則無法在為每條指令分配的數(shù)量固定的時鐘周期內(nèi)完成。
-
不能太簡單,因為那純粹就是浪費 CPU 資源。執(zhí)行兩個微操作的時間是執(zhí)行一個微操作的時間的兩倍。
這一切都始于 CISC 處理器。英特爾開始把復雜的 CISC 指令分解成微操作,這樣它們就能像 RISC 指令一樣更容易適應(yīng)流水線。然而,在后來的設(shè)計中,他們意識到許多 CISC 指令是如此簡單,它們可以很容易就融合成一條中等復雜的指令。你執(zhí)行的指令越少,完成得自然也就越快。
好了,以上解釋了很多細節(jié),也許你很難一下子弄清楚重點是什么。為什么要進行壓縮和融合?聽起來有很多額外的工作要做。
首先,指令壓縮和 zip 壓縮完全不同。“壓縮”這個詞其實有點用詞不當,因為立即解壓一條已壓縮的指令非常簡單。做這件事并不浪費時間。記住,對于 RISC-V 來說這很簡單。只需 400 個邏輯門,就可以完成解壓。
宏融合也是如此。雖然這看起來很復雜,但這些方法已經(jīng)在現(xiàn)代微處理器中得到了應(yīng)用。因此,這種復雜性的學費早就已經(jīng)交過了。
然而,與 ARM、MIPS 和 x86 設(shè)計者不同的是,RISC-V 設(shè)計者在開始設(shè)計 ISA 時就了解指令壓縮和宏融合?;蛘吒鼫蚀_地說,當他們最初的 ISA 被設(shè)計出來的時候,那些競爭對手們并不知道這一點。當設(shè)計 64 位版本的 x86 和 ARM 指令集時,他們可能已經(jīng)考慮到了這一點。那么 ,為什么他們沒有這樣做呢,我們只能揣測??赡苁沁@些公司制作新的 ISA 時,不喜歡過多地偏離早期版本吧。通常它更著重于消除以往明顯的錯誤,而不是顛覆之前的理論基礎(chǔ)。
通過對第一個最小指令集展開各種測試,RISC-V 的設(shè)計者有了兩個重要的發(fā)現(xiàn):
-
通常 RISC-V 程序占用的內(nèi)存空間接近或少于任何其他 CPU 體系結(jié)構(gòu),包括 x86,鑒于 x86 是 CISC ISA,所以被公認是最節(jié)省空間的。
-
它需要執(zhí)行的微操作數(shù)比其他 ISA 更少。
本質(zhì)上,他們由于在設(shè)計基礎(chǔ)指令集時就考慮了融合,所以能夠融合足夠多的指令,使得針對任何給定程序,CPU 所必須執(zhí)行的微操作比競爭對手更少。
這使得 RISC-V 團隊加倍重視宏融合,將其作為 RISC-V 的核心戰(zhàn)略。你可以在 RISC-V 手冊中看到很多關(guān)于什么操作可以被融合的說明。你將看到對哪些指令進行了修訂,以便更容易地融合那些常見模式中的指令。
使 ISA 保持較小意味著學生更容易學習。也就是說,對于一個學習 CPU 架構(gòu)的學生來說,實際構(gòu)建一個運行 RISC-V 指令的 CPU 會更容易。
RISC-V 有一個每個人都必須實現(xiàn)的小核心指令集。而所有其他指令都作為擴展部分存在。壓縮指令只是一個可選的擴展。因此,如果是簡單的設(shè)計,可以省略它。
宏融合只是一種優(yōu)化。它不會改變整體行為,因此在特定的 RISC-V 處理器中不需要實現(xiàn)它。
相比之下,對于 ARM 和 x86 來說,很多復雜性都不是可選的。必須實現(xiàn)整個指令集和所有復雜的指令,即使你只是想要創(chuàng)建一個最小的最簡單的 CPU 內(nèi)核。
RISC-V 利用了我們當今對現(xiàn)代 CPU 的了解,并用這些知識指導了他們在設(shè)計時的選擇。例如,我們知道:
-
如今,CPU 內(nèi)核會提前做分支預(yù)測。它們的預(yù)測正確率超過 90%。
-
CPU 內(nèi)核是超標量體系結(jié)構(gòu)的,這意味著它們在并行執(zhí)行多條指令。
-
使用無序執(zhí)行做到超標量體系結(jié)構(gòu)。
-
這意味著不再需要像 ARM 所支持的條件執(zhí)行等之類的事情。在 ARM 上支持它會消耗掉指令格式中的一些字節(jié)。RISC-V 可以節(jié)省這些比特。
條件執(zhí)行的最初目的是避免分支,因為它們不利于流水線。CPU 要想快速運行,通常會預(yù)取下一條指令,這樣在前一條指令完成第一階段后,它就可以快速地選取下一條指令。
但是使用條件轉(zhuǎn)移,當你開始填充流水線時,你不知道下一條指令將在哪里。然而,超標量 CPU 可以簡單地并行執(zhí)行兩個分支。
這也是 RISV-C 沒有狀態(tài)寄存器的原因。因為這會導致指令之間的依賴性。每條指令越獨立,就越容易與另一條指令并行運行。
RISC-V 策略基本上是,我們?nèi)绾问?ISA 盡可能簡單,使 RISC-V CPU 的最小實現(xiàn)盡可能簡單,而無需做出影響 CPU 性能的設(shè)計決策。
好吧,從理論上這聽起來可能很好,但在現(xiàn)實世界中也果真如此嗎?科技公司對此有什么看法?他們是否認為 RISC-V ISA 比商業(yè) ISA(如 ARM) 提供了實實在在的好處?
RISC-V 甚至不在備選的采購清單上,但是隨著 Esperanto 的工程師們對它越來越多的研究,他們漸漸意識到它不僅僅是一個玩具或者是一個教學工具?!拔覀冋J為 RISC-V(相對于 Arm 或 MIPS 或 SPARC) 可能會損失 30% 到 40% 的編譯效率,因為它太簡單了。”Ditzel 說。“但我們的編譯器專業(yè)人員對它進行了基準測試,難以置信的是只有 1% 左右?!?/span>
Esperanto Technologies 現(xiàn)在只是一家小公司。像英偉達這樣擁有大量經(jīng)驗豐富的芯片設(shè)計師和資源的大公司呢?英偉達在他們的板卡上使用了一種叫做“獵鷹”的通用處理器。在評估備選方案時,RISC-V 名列前茅。
https://erik-engheim.medium.com/the-genius-of-risc-v-microprocessors-b19d735abaa6
譯者簡介:冬雨,小小技術(shù)宅一枚,從事研發(fā)過程改進及質(zhì)量改進方面的工作,關(guān)注編程、軟件工程、敏捷、DevOps、云計算等領(lǐng)域,非常樂意將國外新鮮的 IT 資訊和深度技術(shù)文章翻譯分享給大家,已翻譯出版《深入敏捷測試》、《持續(xù)交付實戰(zhàn)》。
版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系刪除。
樹莓派Pico:僅4美元的MCU
嵌入式Linux開發(fā)板裸機程序燒寫方法總結(jié)
國產(chǎn)16位MCU的痛點,可以用這款物美價廉產(chǎn)品