當前位置：首頁 > 嵌入式 > 嵌入式硬件

一款32位嵌入式CPU的定點加法器設(shè)計

時間：2014-07-15 21:06:20

關(guān)鍵字： CPU 嵌入式C 加法器 GROUP

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]摘要：根據(jù)一塊32位嵌入式CPU的400MHz主頻的要求，結(jié)合該CPU五級流水線結(jié)構(gòu)，并借鑒各種算法成熟的加法器，提出了一種電路設(shè)計簡單、速度快、功耗低、版圖面積小的32位改進

摘要：根據(jù)一塊32位嵌入式CPU的400MHz主頻的要求，結(jié)合該CPU五級流水線結(jié)構(gòu)，并借鑒各種算法成熟的加法器，提出了一種電路設(shè)計簡單、速度快、功耗低、版圖面積小的32位改進定點加法器的設(shè)計方案，為后續(xù)浮點加法器的設(shè)計提供了很好的鋪墊。關(guān)鍵詞：借鑒改進定點加法器從CPU的指令執(zhí)行頻率上看，算術(shù)邏輯單元、程序計數(shù)器、協(xié)處理器是CPU中使用頻率最多的模塊，而加法器正是這些模塊的核心部件，幾乎所有的關(guān)鍵路徑都與之有關(guān)，因而設(shè)計一種通用于這些模塊的加法器是整個CPU設(shè)計中關(guān)鍵的一步。為此，筆者根據(jù)32位CPU的400MHz主頻的要求，結(jié)合CPU流水線結(jié)構(gòu)，借鑒各種算法成熟的加法器，提出一種電路設(shè)計簡單、速度快、功耗低、版圖面積小的32位改進定點加法器的設(shè)計方案。 1 設(shè)計思想對于高性能CPU中使用的加法器，速度顯然是第一位的，所以考慮采用并行計算的方法，并且在電路的設(shè)計上采用少量的器件來獲得速度上的巨大提升。從面積有度出發(fā)，鏈式進位加法器(Ripple-Carry Adder)的器件最少，面積最小，版圖工作量也最小，可是由于加法器的高位進位要等待低位的運算結(jié)束后才能得到，所以沒有辦法在速度上達到要求。鑒于此，采用類似于鏈式加法器的結(jié)構(gòu)。

省先從進位選擇加法器(Carry-Select Adder)得到提示，將32位加法器一分為二，分為低16位加法器和高16位加法器，再將低16位加法器的進位輸出作為選擇信號，用于選擇高16位加法器的和及第27位的進位輸出(這個進位輸出要在溢出邏輯判斷中使用，而普通的加法器則不用產(chǎn)生進位)。通過這樣的處理，將一個32位的加法器簡化就成了兩上16位的加法器，如圖1所示。另外，從超前進位加法器(Carry-Look-Ahead Adder)獲得提示，在超前進位加法器中引入中間變量G和P用于加速進位鏈的速度。而G和P在邏輯表達式上與前一級的進位無關(guān)，只與每一級的操作數(shù)輸入有關(guān)，而且它們又是構(gòu)成本級進位的必要部分。在微處理器的數(shù)據(jù)通道上，數(shù)據(jù)傳輸是并行進行的，即兩個32位操作數(shù)幾乎同一時間到達時加法器。所以，G和P 不論是加法器的最低位還是加法器的最高位，幾乎都可以在相同的時間內(nèi)得到，因而進位鏈上就可以借鑒這個特點加速進位的傳遞。以一個四位加法器為例，有如下的邏輯推導(dǎo)過程： C4=C3P4+G4=(C2P3+G3)%26;#183;P4=G4=C2P3P4+G3P4+G4=(C1P2+G2) %26;#183;P3%26;#183;P4+G3P4+G4=C1P2P3P4+G2P3P4+G3P4=(C0P1+G1) %26;#183;(P2P3P4)+(G2P3P4+G3P4+G4)=C0%26;#183;(P1P2P3P4)+(G1P2P3P4+G2P3P4+G3P4+G4) 令上式中P1P2P3P4為Pgroup，G1P2P3P4+G2P3P4+G3P4+G4為Ggroup，如果將32位加法器劃分為若干的小塊，則每一個小塊都可以有自己相對應(yīng)的Ggroup和Pgroup。由此可知對于整個加法器的時延來說，關(guān)鍵路徑的時延總值可以由三部分組成：①產(chǎn)生Ggroup和 Pgroup的時延;②進位傳遞邏輯上的器件時延;③加法器進位鏈上的導(dǎo)線時延。對于這三類時延，時延①與時延(②+③)存在重疊的部分，于是使這兩類時延合理銜接，可以使得進位鏈上的邏輯級數(shù)最小，從而使得電路上的傳輸時延達到最小上。圖2 2 具體實現(xiàn) 2.1 4位加法器模塊的實現(xiàn) 在具體的電路設(shè)計中，先將32位數(shù)據(jù)通道劃分成了高低兩部分，然后以4位為單位劃分成更小的模塊。這些模塊在結(jié)構(gòu)上是基本一致的，但在功能上要完成本模塊四組操作數(shù)(A[k:k+3]和B[k:k+3])與進位Ck的加法運算，并要產(chǎn)生模塊的中間變量Ggroup和Pgroup的運算。對于單一的每一位，定義它的G和P分別為：Gi=AiBi,Pi=Ai+Bi,加法器的和SUMi=Ai+Bi+Ci-1=Pi+Ci-1,考慮到器件的實際驅(qū)動能力，結(jié)合加法器的另一個功能——減法運算，設(shè)計出如圖2所示的帶減法功能的一位加法器電路。設(shè)計的4位加法器進位鏈如圖3所示，除C0外，輸入(Pi和Gi)都是由圖2的一位加法器產(chǎn)生的，所有4位進位鏈Ci都按超前進位加法器連接方式直接接入相應(yīng)位置。由此可以看出，進位信號到達各位的邏輯級數(shù)是相當?shù)?，只要在進位信號到達之間使所有的中間信號Gi和Pi都能及時產(chǎn)生，就能及時得到每一位的和(SUM)。圖3 圖4是產(chǎn)生4位加法器塊進位及塊的Ggroup和Pgroup信號的電路。借鑒于超前進位加法器的傳遞邏輯電路，可知并不是所有的4位加法器都需要向它的下一個模塊傳送進位信號，而只要產(chǎn)生傳遞進位所需的Ggroup和Pgroup信號即可。而有些位置，由于進位鏈設(shè)計的實際需要，要需要利用4位加法器模塊產(chǎn)生的進位信號，而不必采用傳遞邏輯產(chǎn)生的進位信號，而不必采用傳遞邏輯產(chǎn)生的進位信號，具體的情況還是有區(qū)別的。為了充分利用圖3中產(chǎn)生的相關(guān)信號的復(fù)位，在進位信號C4的產(chǎn)生電路部分，進位鏈方向上的邏輯級數(shù)只有兩組，可以說還是比較簡單了?？墒牵C合前面所談到的4位加法器的電路，可以發(fā)現(xiàn)有一些中間信號(Pi和Gi)的負載是不均衡的，如P2的負載比P3或P4要重很多。所以在設(shè)計的時候，如果考慮到盡量降低版圖的復(fù)雜程度，就要在面積上做出適當?shù)臓奚?，盡量以最大負載進行考慮，使得器件的設(shè)計符合時延上的要求;同時還要充分考慮到在深亞微米工藝條件下導(dǎo)線的時延問題，即設(shè)計的電路不但要考慮到所承受的器件的負載，而且還要結(jié)合版圖設(shè)計中實現(xiàn)的導(dǎo)線負載，定出上述電路的合理尺寸。 2.2 傳遞邏輯電路實現(xiàn) 完成上述基本4位加法器的電路設(shè)計后，要構(gòu)造一個完整的32位加法器還需借助于傳遞邏輯電路。傳遞邏輯電路要吧對4位加法器模塊的進位進行傳遞，也可以對由兩個4位加法器模塊組成的8位加法器模塊的進位進行傳遞。對于8位加法器模塊，由于低4位的進行可以表示為C4=C0Ggroup+Pgroup，則8 位加法器模塊的進位為： C8=C4Ggroup"+Pgroup"=Pgroup"(C0Ggroup+Pgroup)+Ggroup =Pgroup"PgroupC0+Pgroup"Ggroup+Ggroup" 由此可以設(shè)計如圖5和圖6所示的兩種進位傳遞邏輯電路。圖4 2.3 溢出邏輯電路實現(xiàn) 設(shè)計中還采用了判斷溢出的方法。當兩個有符號數(shù)進行加減法運算時，若最高的數(shù)值位符號位的進位(本設(shè)計中的C30)值與符號位產(chǎn)生的進位(本設(shè)計中的 C31)輸出值不同，則表明加減運算產(chǎn)生了溢出。由上述可知，加法器時延的關(guān)鍵路徑在進位鏈上，而進行溢出判斷所需要的信息C30與C31都在這條路徑上。于是采用類似于進位跳加法器(Carry- Skip Adder)的方法，使得低位的進位快速跳位到高位，使C30與C31快速產(chǎn)生，具體實現(xiàn)如下： ①溢出的邏輯表達式推導(dǎo) 由于Joverflow=(C30+C31)%26;#183;Overflag(Overflag)表示當前ALU加法器進行有符號運算)，需要進行溢出判斷(它是ALU控制模塊在譯碼階段產(chǎn)生的，在指令執(zhí)行階段起始段就輸出到數(shù)據(jù)通道，所以它不在關(guān)鍵路徑上)。圖5、6 對于C31與C30，有C31=C30P31+G31，所以 C30+C31=C30C31+C30C31 =(C27G28G29G30G31+C27P28P29P30P31G31) (1) + (P28G28G29G30G31+G28P29P30P31G31)+P29G29G30G31+P30G30G31+G29P30P31G31+G30P31G31 (2) 顯然，分式(1)是和進位鏈無關(guān)的一部分，可以在每一個流水線的指令執(zhí)行階段起始段很快得到，而分式(2)則是和進位鏈有關(guān)的部分，其具體邏輯值將取決于進位G27的值。分式(1)中高位的Gi和Pi都可以在進位C27到來之間預(yù)先得到，只要C27一到就可以進行邏輯判斷，得到相應(yīng)的邏輯。所以令P1=G28G29G30G31+C27P28P29P30P31G31 P2=P28P29P30P31G31 Gtotal=式(2) 則 Overflow=(C30+C31)%26;#183;Overflag=(C27P1+C27P2+Gtotal) %26;#183;Overflag (3)

②溢出邏輯電路實現(xiàn) 根據(jù)式(3)的邏輯表達式，可設(shè)計出加法器溢出邏輯產(chǎn)生電路，如圖7所示。設(shè)計得到的32位加法器在SMIC流片后，經(jīng)測試，運算速度在400MHz以上，滿足設(shè)計要求，為后續(xù)浮點加法器的設(shè)計提供了很好的鋪墊。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

加快國際賽事名城建設(shè) 服貿(mào)會官宣2025GT世界挑戰(zhàn)賽首次進京

北京2025年9月11日 /美通社/ -- 國際9月11日上午，2025年中國國際服務(wù)貿(mào)易交易會（以下簡稱"服貿(mào)會"）—體育賽事經(jīng)濟高質(zhì)量發(fā)展大會現(xiàn)場，北京經(jīng)濟技術(shù)開發(fā)區(qū)工委委員、管委會副主...

關(guān)鍵字： 5G BSP GROUP MOTOR

[Arm]

Arm 全新 Lumex CSS 平臺實現(xiàn)兩位數(shù)性能提升，驅(qū)動消費電子設(shè)備“更智能、更高效、更個性化”

Arm 控股有限公司(納斯達克股票代碼：ARM，以下簡稱 Arm)今日宣布推出全新 Arm? Lumex? 計算子系統(tǒng) (Compute Subsystem, CSS) 平臺，這是一套專為旗艦級智能手機及下一代個人電腦加...

關(guān)鍵字： CPU AI 消費電子

[Arm]

Arm 全新 Lumex CSS 平臺實現(xiàn)兩位數(shù)性能提升，驅(qū)動消費電子設(shè)備“更智能、更高效、更個性化”

Arm 控股有限公司(納斯達克股票代碼：ARM，以下簡稱 Arm)今日宣布推出全新 Arm? Lumex?計算子系統(tǒng) (Compute Subsystem, CSS) 平臺，這是一套專為旗艦級智能手機及下一代個人電腦加速...

關(guān)鍵字：消費電子 CPU AI

[行業(yè)動態(tài)]

安軟天地攜手海光CPU密碼模塊，構(gòu)筑國產(chǎn)密碼安全新生態(tài)

關(guān)鍵字： CPU

[Microchip]

高能效與靈活性能：8位單片機的持久影響力

8位單片機在嵌入式設(shè)計領(lǐng)域已經(jīng)成為半個多世紀以來的主流選擇。盡管嵌入式系統(tǒng)市場日益復(fù)雜，8位單片機依然不斷發(fā)展，積極應(yīng)對新的挑戰(zhàn)和系統(tǒng)需求。如今，Microchip推出的8位PIC?和AVR?單片機系列，配備了先進的獨立...

關(guān)鍵字：單片機嵌入式 CPU

[美通社全球TMT]