芯片設(shè)計(jì)中的功耗估計(jì)與優(yōu)化技術(shù)

時(shí)間：2016-06-24 00:50:47

關(guān)鍵字： ic設(shè)計(jì) 功耗電路設(shè)計(jì)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]1 引言：功耗在芯片設(shè)計(jì)中的地位長(zhǎng)期以來(lái)，設(shè)計(jì)者面臨的最大挑戰(zhàn)是時(shí)序收斂，而功耗處于一個(gè)次要的地位。近年來(lái)，下面的因素使功耗日益得到設(shè)計(jì)者的關(guān)注：1)移動(dòng)應(yīng)用的興起

1 引言：功耗在芯片設(shè)計(jì)中的地位

長(zhǎng)期以來(lái)，設(shè)計(jì)者面臨的最大挑戰(zhàn)是時(shí)序收斂，而功耗處于一個(gè)次要的地位。近年來(lái)，下面的因素使功耗日益得到設(shè)計(jì)者的關(guān)注：

1)移動(dòng)應(yīng)用的興起，使功耗的重要性逐漸顯現(xiàn)。大的功耗意味著更短的電池壽命。

2)芯片集成度的提高，使供電系統(tǒng)設(shè)計(jì)成為挑戰(zhàn)。

隨著工藝的進(jìn)步，芯片內(nèi)的電路密度成倍提高，并且運(yùn)行在以前數(shù)倍的頻率之上，而片上連線則越來(lái)越細(xì)，片上供電網(wǎng)絡(luò)必須將更多的電力以更少的連線資源送至每個(gè)單元，如果不能做到這一點(diǎn)，芯片的穩(wěn)定性和預(yù)定工作頻率都將成為問(wèn)題。IR壓降和供電網(wǎng)絡(luò)消耗的大量布線資源成為困擾后端設(shè)計(jì)者的重要問(wèn)題，現(xiàn)在這種壓力正在一步步傳導(dǎo)到前端設(shè)計(jì)者的身上，要求在設(shè)計(jì)階段減少需要的電力。

3)功耗對(duì)成本的影響日益顯著

功耗決定了芯片的發(fā)熱量，封裝結(jié)構(gòu)需要及時(shí)把芯片產(chǎn)生的熱量傳遞走，否則溫度上升，造成電路不能穩(wěn)定工作。因此，發(fā)熱量大的芯片需要選擇散熱良好的封裝形式，或者額外的冷卻系統(tǒng)，如風(fēng)扇等，這意味著成本的增加。

基于以上原因，功耗成為產(chǎn)品的重要指標(biāo)與約束。下面的因素在設(shè)計(jì)之初，就應(yīng)當(dāng)列入設(shè)計(jì)者的考慮范圍：

1)功耗目標(biāo)的確定

a) 產(chǎn)品的應(yīng)用領(lǐng)域中功耗指標(biāo)的商業(yè)價(jià)值;

b) 封裝，制程的成本影響;

c) 實(shí)現(xiàn)的可行度，復(fù)雜度，由此帶來(lái)的設(shè)計(jì)風(fēng)險(xiǎn)和時(shí)程影響的評(píng)估;

d) 參考值的選?。焊鶕?jù)同類(lèi)產(chǎn)品，經(jīng)驗(yàn)值，工具分析確定，并隨著設(shè)計(jì)的深入不斷修正。

2)優(yōu)化方案(策略)的設(shè)定

在進(jìn)一步分析之前，我們先看一下功耗的組成。

2 功耗的組成

2.1 core power

功耗的組成包含RAM、ROM、時(shí)鐘樹(shù)(clock tree)和核心邏輯電路(Core logic)等四部分，下面依次來(lái)分析。

1)RAM

RAM功耗的計(jì)算是項(xiàng)復(fù)雜的任務(wù)，幸運(yùn)的是，memory compiler可以為我們進(jìn)行此項(xiàng)工作。關(guān)鍵點(diǎn)在存取每個(gè)端口的速率，這可以通過(guò)考慮存取pattern類(lèi)型得到，或者通過(guò)仿真得到。建議在設(shè)計(jì)初期即生成不同參數(shù)(寬度，深度，速度，port數(shù))的RAM/ROM的功耗數(shù)據(jù)，以利于設(shè)計(jì)探索。

2)時(shí)鐘樹(shù)

時(shí)鐘樹(shù)的功耗占到整個(gè)芯片功耗的40%~60%，因?yàn)樗母呋顒?dòng)率(100%)和正負(fù)邊沿均消耗電力。

其中，電容包含寄存器的電容，驅(qū)動(dòng)單元的電容和連線電容三部分。

3)核心邏輯電路

定義核心邏輯電路功耗為除時(shí)鐘樹(shù)外的組合與時(shí)序單元消耗的電力。由兩部分組成：

leakage current

capacitive loads

4)宏單元(macro cell)

多數(shù)芯片包含PLL等模擬macro，可以從庫(kù)提供商的數(shù)據(jù)手冊(cè)找到其功耗參數(shù)。設(shè)計(jì)者可以通過(guò)切分系統(tǒng)模式關(guān)閉不需工作的模塊，以減小功耗。

2.2 IO power

IO功耗包含IO單元、外部負(fù)載、外部終端等。因?yàn)樾枰?qū)動(dòng)板級(jí)的連線，IO的電容會(huì)是內(nèi)部單元的數(shù)百倍量級(jí)，因此消耗較多的電力。有時(shí)候，IO的功耗可以占到整體功耗的很大比例，系統(tǒng)架構(gòu)可能因之改變，如：重新定義系統(tǒng)的劃分，以減少芯片-芯片的連接;選擇不同的IO接口協(xié)議，以減少能量消耗。IO 功耗通常由系統(tǒng)架構(gòu)，接口帶寬與協(xié)議要求決定。一旦庫(kù)選定，設(shè)計(jì)者可以優(yōu)化的空間很小，但是核心的功耗是設(shè)計(jì)者可以減小的，在后面的篇幅中，我們將以核心功耗的估算與優(yōu)化作為主題。

3 功耗估算

功耗估算的價(jià)值是盡可能早地以定量方式看到優(yōu)化結(jié)果，以助于設(shè)計(jì)者的初期架構(gòu)探索。在每個(gè)階段，如產(chǎn)品規(guī)劃、架構(gòu)制訂、代碼書(shū)寫(xiě)、綜合、P&R等，設(shè)計(jì)者都面臨若干選擇，能馬上看到選擇的結(jié)果，而不是到設(shè)計(jì)流程的末尾，可以有效減少開(kāi)發(fā)時(shí)間。

3.1估算的方法

功耗的估算可以在設(shè)計(jì)流程的各個(gè)階段進(jìn)行，對(duì)應(yīng)設(shè)計(jì)表征的不同形式。

software level ->behavior level -> RT -> gate -> circuit

越早的階段，抽象層次越高，其精確度越差，但可以更早給設(shè)計(jì)者反饋，同時(shí)得到估算結(jié)果消耗的時(shí)間越少。

1. 軟件級(jí)

首先，定義系統(tǒng)將執(zhí)行的典型程序。典型的程序通常會(huì)有上百萬(wàn)的機(jī)器周期，進(jìn)行一次完整的RTL級(jí)的仿真可能需要數(shù)月時(shí)間，這是不可接受的。解決的方法是在更高層次建立基本組成單元的功耗模型。

比較實(shí)用的方法是根據(jù)特定的硬件平臺(tái)，統(tǒng)計(jì)出每條指令對(duì)應(yīng)的功耗數(shù)據(jù)，進(jìn)行指令級(jí)的仿真。

2. 行為級(jí)

在進(jìn)行分析前，我們首先應(yīng)了解電路的功率消耗原理，實(shí)際電路的電力消耗如圖1所示。

圖1

Prms = 1/2 * f * Vdd^2 * sigma(Ci * Ai)

--- f ： clock frequency

--- Vdd ： voltage

--- Ci is capacitance load of node，

--- Ai is the average switching activity of their node

在行為級(jí)設(shè)計(jì)表征中，物理電路單元尚未建立，難點(diǎn)是得到電容與活動(dòng)率的值。存在兩種思路：

1) 理論估計(jì)：

根據(jù)電路復(fù)雜度得到C，復(fù)雜度由算術(shù)，邏輯操作的數(shù)量，狀態(tài)的數(shù)目與轉(zhuǎn)換率衡量。

complex = f (arith ope， boolean ope， state， transition)

可以根據(jù)信息理論估算活動(dòng)率。

2) 實(shí)驗(yàn)估計(jì)：

由快速綜合得到寄存器傳輸級(jí)的原型，進(jìn)而估計(jì)電容與活動(dòng)率。

3. 寄存器傳輸級(jí)

第一步是在庫(kù)中為高層的設(shè)計(jì)組件建立功耗信息算式，得到方式是在不同環(huán)境變量組合下通過(guò)仿真，統(tǒng)計(jì)功耗數(shù)據(jù)，繪制成曲線形式。然后，通過(guò)靜態(tài)分析電路結(jié)構(gòu)或動(dòng)態(tài)仿真，收集電路動(dòng)作幾率數(shù)據(jù)，代入上述算式，得到各個(gè)組件的功耗值。最后，把所有組件的功耗值求和，得到總功耗。

4. 門(mén)級(jí)

與寄存器傳輸級(jí)的區(qū)別在于，基本單元是工藝庫(kù)中的標(biāo)準(zhǔn)單元，功耗方程通過(guò)電路仿真得到，所以更精確。

5. 晶體管與版圖層

所有的連線的電容、單元的負(fù)載，驅(qū)動(dòng)都已得到，根據(jù)晶體管和連線模型的電壓、電流方程，可以算出精確的功耗數(shù)據(jù)。[!--empirenews.page--]

3.2估算的流程

因?yàn)橹噶钆c行為級(jí)估算的精確度太差，電路級(jí)估算的耗時(shí)過(guò)多，所以在業(yè)界的實(shí)踐中采用較少。RTL與gate級(jí)估算是常用的選擇。實(shí)際功耗分析的執(zhí)行必須借助工具的輔助，目前業(yè)界通常的選擇是在RTL級(jí)采用power compiler，在門(mén)級(jí)采用primepower。

圖2

下面以power compiler為例，說(shuō)明門(mén)級(jí)估算的步驟。

在dc compile前，設(shè)置下面的變量：

power_preserve_rtl_hier_names = false/true

編譯

寫(xiě)出ddc文件

仿真生成vcd 文件

vcd2saif轉(zhuǎn)化為.saif文件 (注意vcd2saif由csh調(diào)用，而不是在dc_shell界面調(diào)用)

讀入ddc網(wǎng)表

read_saif

report_power

4 功耗的優(yōu)化

4.1優(yōu)化的原則

圖3是幾個(gè)典型設(shè)計(jì)中功耗分布數(shù)據(jù)：

(數(shù)據(jù)來(lái)自“International Solid-State Circuits Conference”)

圖3

我們的目標(biāo)是減少時(shí)鐘樹(shù)、標(biāo)準(zhǔn)單元和存儲(chǔ)器的功耗。功耗與性能通常是充滿矛盾的：

1)使時(shí)鐘變慢(更少的轉(zhuǎn)換)，但我們想要更快的處理速度。

2)減小Vdd，但Vdd變小會(huì)限制時(shí)鐘速度。

3)更少的電路，但更多的晶體管可以做更多的工作。

簡(jiǎn)言之，我們想用最少的能量完成最大量的任務(wù)。實(shí)現(xiàn)方式是對(duì)電路動(dòng)作的控制精細(xì)化，僅讓恰好需要的電路，在需要的時(shí)間內(nèi)動(dòng)作，而不浪費(fèi)分毫。完成這一任務(wù)，需要設(shè)計(jì)者有效率地管理電路的動(dòng)作。

現(xiàn)代系統(tǒng)是如此復(fù)雜，以致設(shè)計(jì)者必須切分為若干層次，分步前行才能把握：

軟件 -> 架構(gòu) -> 邏輯 -> 電路

每一層次中，設(shè)計(jì)者對(duì)電路動(dòng)作的控制范圍和手段都是不同的。軟件是硬件動(dòng)作的總調(diào)度師，設(shè)計(jì)者可以根據(jù)特定應(yīng)用，關(guān)掉整個(gè)模塊或減少無(wú)效的動(dòng)作。進(jìn)入架構(gòu)層，視角轉(zhuǎn)為怎樣將設(shè)定任務(wù)合理分配到各個(gè)模塊，協(xié)調(diào)動(dòng)作最有效率，如pipeline、分布式計(jì)算、并行計(jì)算等。在邏輯層，則考慮怎樣實(shí)現(xiàn)一步動(dòng)作僅使需要的電路動(dòng)作。電路層的視角更為精細(xì)，通過(guò)調(diào)節(jié)平衡信號(hào)到達(dá)時(shí)間，驅(qū)動(dòng)單元大小等手段，使電路的動(dòng)作耗能最小。這里存在一個(gè)重要規(guī)律，稱作效率遞減率：

在高的抽象層次減少功耗的效率會(huì)比低的層次更高。

所以，降低功耗是一個(gè)系統(tǒng)工程，需要軟件、硬件、電路、工藝等人員的共同努力。這里，我們將采用架構(gòu)與邏輯的視角進(jìn)行下面的討論。

4.2 架構(gòu)考慮

1)切分工作模式，硬件要可以提供一個(gè)接口，以使軟件可以控制電路模塊的動(dòng)作與否。不工作的模塊掛起。

2)分布式計(jì)算：將整個(gè)任務(wù)切分到不同模塊，在內(nèi)部處理高活動(dòng)性信號(hào)。

雖然總計(jì)算量沒(méi)有改變，但對(duì)單個(gè)模塊，時(shí)間要求降低，可以降頻或降壓。

3)并行計(jì)算：相同時(shí)間內(nèi)計(jì)算量相同，但可降頻/壓。

(計(jì)算量=開(kāi)關(guān)的次數(shù)，開(kāi)關(guān)次數(shù)沒(méi)變，但每次開(kāi)關(guān)的功耗成本降了)

4)pipeline

每步的計(jì)算量減少，可以在性能相同的情況下，降低工作頻率。

5)可編程性與hard-wire的權(quán)衡

可編程性越強(qiáng)，完成相同的任務(wù)耗電越多。

(見(jiàn)參考文獻(xiàn)[7])

圖4

4.3 RAM的功耗優(yōu)化

很明顯，大的RAM比小的RAM耗電要多，將整塊的RAM分成小塊可以降低存取功耗。

圖5

值得注意的一點(diǎn)是，多數(shù)設(shè)計(jì)者認(rèn)為片選信號(hào)無(wú)效，RAM即進(jìn)入最小功耗。實(shí)際上，若此時(shí)其數(shù)據(jù)/地址端口信號(hào)有翻轉(zhuǎn)，會(huì)耗費(fèi)相當(dāng)?shù)碾娏?約占激活功耗的20%)。在不存取時(shí)，最佳的方式是，保持片選無(wú)效，地址、數(shù)據(jù)是恒定值。

4.4時(shí)鐘樹(shù)單元/連線

4.4.1 時(shí)鐘門(mén)控的原理

在典型的數(shù)字芯片中，時(shí)鐘網(wǎng)絡(luò)的功耗可以占到總量的50%，這是一個(gè)龐大的數(shù)字。一個(gè)行之有效的方案是使用時(shí)鐘門(mén)控，將當(dāng)前未工作邏輯的時(shí)鐘樹(shù)關(guān)閉。比如下面的邏輯，在EN是0時(shí)，可以將右側(cè)的register bank的時(shí)鐘關(guān)閉。

圖6

時(shí)鐘門(mén)控邏輯加入的方式有兩種：手動(dòng)和自動(dòng)。

a) 手動(dòng)方式

在每個(gè)IP模塊的時(shí)鐘根節(jié)點(diǎn)加入，EN信號(hào)可以由程序設(shè)定產(chǎn)生。

b) 自動(dòng)方式

dc_shell > set_clock_gating_style (options) 選擇時(shí)鐘門(mén)控的方式和條件

dc_shell > analyze -f design.v 讀入設(shè)計(jì)

dc_shell > elaborate MY_DESIGN 構(gòu)造設(shè)計(jì)

dc_shell > insert_clock_gating 將符合條件的邏輯門(mén)控

dc_shell > create_clock -period 10 -name CLK 創(chuàng)建時(shí)鐘

dc_shell > propagate_constraints -gate_clock 加入時(shí)鐘門(mén)控單元的時(shí)序約束

手動(dòng)和自動(dòng)結(jié)合的方式可以達(dá)到最好的效率。

4.4.2 gating 單元的選擇

a)latch-based(圖7)

圖7

b)latch-free(圖8)

[!--empirenews.page--]

(圖8)

通過(guò)set_clock_gating_style的下列選擇，設(shè)計(jì)者可以控制門(mén)控單元的選取，如圖9所示。

圖9

選擇考慮：

1)latch：用還是不用，是個(gè)問(wèn)題。

latch-free的方案中，EN信號(hào)必須在時(shí)鐘負(fù)沿前穩(wěn)定，否則時(shí)鐘會(huì)出現(xiàn)毛刺，造成只留給EN產(chǎn)生邏輯半個(gè)時(shí)鐘周期的時(shí)間。latch-based方案則不存在這個(gè)限制，但引入latch使時(shí)序分析，測(cè)試復(fù)雜性增加。故選擇哪種方案需要設(shè)計(jì)者權(quán)衡決定。

2)正沿/負(fù)沿寄存器需要指定不同的門(mén)控單元

比如latch-based方案：正沿FF用and門(mén)，負(fù)沿FF用or門(mén)

3)integrated clock-gating cell/普通單元

在生成庫(kù)的過(guò)程中，可以創(chuàng)建專(zhuān)門(mén)的集成時(shí)鐘門(mén)控單元，以獲得較好的時(shí)序。

4.4.3 時(shí)序分析

通過(guò)set_clock_gating_style -setup -hold 或 set_clock_gating_check指定。

AND門(mén)(圖10)

圖10

OR 門(mén)(圖11)

圖11

數(shù)值需要考慮到時(shí)鐘歪斜的影響。

4.4.4 與dft流程的配合

1) 加入控制點(diǎn)(圖12)

控制點(diǎn)的位置和控制信號(hào)可通過(guò)下面指令控制：

dc_shell> set_clock_gating_style -control_point before -control_signal scan_enable

圖12

2) 加入觀察點(diǎn)(圖13)

在測(cè)試中，EN信號(hào)和control logic中的信號(hào)是測(cè)不到的，解決方式是加入觀測(cè)邏輯。

dc_shell> set_clock_gating_style -control_signal test_mode

-observation_point true

-observation_logic_depth depth_value

圖13

在測(cè)試模式，觀察邏輯允許觀測(cè)ENL信號(hào)，在正常操作模式，XOR樹(shù)不消耗能量。

3) 測(cè)試信號(hào)與頂層測(cè)試端口連接

時(shí)鐘門(mén)控單元的測(cè)試信號(hào)需要和頂層的測(cè)試端口相連，通過(guò)下指令進(jìn)行，如圖14所示。

圖14

如果頂層有指定端口，將直接相連，否則，會(huì)創(chuàng)建此端口，并連接。

4.4.5 結(jié)果

在插入時(shí)鐘樹(shù)后，可以用report_clock_tree_power來(lái)獲得時(shí)鐘網(wǎng)絡(luò)的功耗信息。

時(shí)鐘門(mén)控經(jīng)設(shè)計(jì)實(shí)踐證明是一個(gè)行之有效的降低功耗手段，下圖是基于一項(xiàng)真實(shí)設(shè)計(jì)的評(píng)估：(見(jiàn)參考文獻(xiàn)[6])

圖15

5 結(jié)語(yǔ)

在現(xiàn)代芯片設(shè)計(jì)中，功耗越來(lái)越引起設(shè)計(jì)者的關(guān)注。在本文中，我們首先分析了功耗的組成部分，然后闡述了功耗估算的方法，通過(guò)功耗估算可以使設(shè)計(jì)者在設(shè)計(jì)初期及時(shí)評(píng)估設(shè)計(jì)方案的效率，以便做出最優(yōu)的選擇。最后，重點(diǎn)分析了功耗優(yōu)化的手段，包括架構(gòu)優(yōu)化，RAM功耗降低，時(shí)鐘門(mén)控三種技術(shù)，并對(duì)引進(jìn)時(shí)鐘門(mén)控技術(shù)時(shí)若干難點(diǎn)逐一提出了解決方案，如門(mén)控單元選擇，時(shí)序分析，測(cè)試支持等。功耗分析與優(yōu)化二者相輔相成，設(shè)計(jì)者善加使用，方可事半功倍。