當前位置：首頁 > 工業(yè)控制 > 電子設(shè)計自動化

Xilinx FPGA的功耗優(yōu)化設(shè)計

時間：2018-06-04 11:10:09

關(guān)鍵字： Xilinx 優(yōu)化設(shè)計功耗

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]對于FPGA來說，設(shè)計人員可以充分利用其可編程能力以及相關(guān)的工具來準確估算功耗，然后再通過優(yōu)化技術(shù)來使FPGA設(shè)計以及相應(yīng)的PCB板在功率方面效率更高。靜態(tài)和動態(tài)功耗及其變化在90nm工藝時，電流泄漏問題對ASIC和F

對于FPGA來說，設(shè)計人員可以充分利用其可編程能力以及相關(guān)的工具來準確估算功耗，然后再通過優(yōu)化技術(shù)來使FPGA設(shè)計以及相應(yīng)的PCB板在功率方面效率更高。

靜態(tài)和動態(tài)功耗及其變化

在90nm工藝時，電流泄漏問題對ASIC和FPGA都變得相當嚴重。在65nm工藝下，這一問題更具挑戰(zhàn)性。為獲得更高的晶體管性能，必須降低閾值電壓，但同時也加大了電流泄漏。Xilinx公司在降低電流泄漏方面做了許多努力，盡管如此，源于泄漏的靜態(tài)功耗在最差和典型工藝條件下的變化仍然有2:1。泄漏功耗受內(nèi)核電壓（VCCINT）的影響很大，大約與其立方成比例，哪怕VCCINT僅上升5%，靜態(tài)功耗就會提高約15%。最后，泄漏電流還與結(jié)（或芯片）溫密切相關(guān)。

FPGA中靜態(tài)功耗的其它來源是工作電路的直流電流，但在很大程度上，這部分電流隨工藝和溫度的變化不大。例如I/O電源（如HSTL、SSTL和LVDS等I/O標準的端接電壓）以及LVDS等電流驅(qū)動型I/O的直流電流。有些FPGA模擬模塊也帶來靜態(tài)功耗，但同樣與工藝和溫度的關(guān)系不大。例如，Xilinx FPGA中用來控制時鐘的數(shù)字時鐘管理器（DCM）；Xilinx Virtex-5 FPGA中的鎖相環(huán)（PLL）；以及Xilinx FPGA中用于輸入和輸出信息可編程延遲的單元IODELAY。

動態(tài)功耗是指FPGA內(nèi)核或I/O的開關(guān)活動引起的功耗。為計算動態(tài)功耗，必須知道開關(guān)晶體管和連線的數(shù)量、電容和開關(guān)頻率。FPGA中，晶體管在金屬連線間實現(xiàn)邏輯和可編程互連。電容則包括晶體管寄生電容和金屬互連線電容。

動態(tài)功率的公式：PDYNAMIC=nCV2f，其中，n=開關(guān)結(jié)點的數(shù)量，C=電容，V=電壓擺幅，f=開關(guān)頻率。

更緊湊的邏輯封裝（通過內(nèi)部FPGA架構(gòu)改變）可以減少開關(guān)晶體管的數(shù)量。采用更小尺寸的晶體管可以縮短晶體管之間的連線長度，從而降低動態(tài)功率。因此，Virtex-5 FPGA中的65nm晶體管柵極電容更小、互連線長度也更短。兩者結(jié)合起來可將結(jié)點的電容減小約15%至20%，這可進一步降低動態(tài)功率。

電壓對于動態(tài)功率也有影響。從90nm轉(zhuǎn)向65nm工藝，僅僅通過將VCCINT從1.2V降至1V，Virtex-5 FPGA設(shè)計的動態(tài)功率就降低了約30%。再加上結(jié)構(gòu)增強帶來的功率降低，總的動態(tài)功耗比90nm技術(shù)時降低達40%至50%。

（注：動態(tài)功率與VCCINT的平方成正比，但對于FPGA內(nèi)核來說基本上與溫度和工藝無關(guān)。）

利用FPGA設(shè)計技術(shù)降低功耗

Xilinx公司提供了兩款功率分析工具。XPower Estimator (XPE)電子數(shù)據(jù)表工具可在設(shè)計人員使用物理實施工具前使用。在設(shè)計物理實施完成后，則可以采用第二款工具XPower Analyzer來檢查所做的改變對功耗的影響。

降低功耗的一種方法就是為設(shè)計選擇最適用的FPGA，然后利用其可編程能力進一步優(yōu)化設(shè)計的功耗。正確的設(shè)計選擇會同時改善靜態(tài)和動態(tài)功耗。

源于泄漏電流的靜態(tài)功率正比于邏輯資源的數(shù)量，也就是說正比于構(gòu)造特定FPGA所使用的晶體管數(shù)量。因此，如果減少所使用的FPGA資源，采用更小的器件實現(xiàn)設(shè)計，那么就可以降低靜態(tài)功耗。

可以采用多種方法來降低設(shè)計的規(guī)模，最基本的一種技巧就是邏輯功能分時。也就是說，如果兩組電路完成一組線性功能，并且彼此完全相同，那么就可以只用一組電路但將速率提高一倍來完成同樣的功能。這樣需要的邏輯資源就減少了一半。

另一種縮小邏輯規(guī)模的方法是利用Xilinx FPGA的部分重配置功能，當兩部分電路不同時工作時，可以在某個時間段將某部分電路重新配置實現(xiàn)另一種電路功能。

同時，還可以將功能移動到不太受限制的資源，例如，將狀態(tài)機轉(zhuǎn)移到BRAM、或者將計數(shù)器轉(zhuǎn)移到DSP48模塊、寄存器轉(zhuǎn)移到移位寄存器邏輯，以及將BRAM轉(zhuǎn)移到查找表RAM（LUTRAM）。同時還可以保證不要讓設(shè)計的時序太緊張，因為那樣會需要更多的邏輯和寄存器。

此外，還應(yīng)當充分發(fā)揮FPGA架構(gòu)中集成的硬IP塊（BRAM、DSP、FIFO、Ethernet MAC、PCI Express）的優(yōu)點。

降低靜態(tài)功率的另一個方法是仔細審查設(shè)計，避免冗余的直流消耗源。設(shè)計中經(jīng)常會使用到具有多余或隱藏DCM或PLL的模塊，這種情況可能在模塊設(shè)計后忘記將多余的資源去除，或者在構(gòu)建下一代產(chǎn)品時使用了一些遺留代碼。將DCM或PLL抽象到設(shè)計的頂層，這樣模塊之間就可以共享資源，從而可進一步減小設(shè)計的規(guī)模并降低直流功率。

更好地使用存儲器模塊也可幫助降低FPGA設(shè)計的動態(tài)功耗，從而進一步降低總體功耗。由于動態(tài)功耗是容抗（面積或長度）和頻率的函數(shù)，因此應(yīng)當檢查設(shè)計中訪問塊存儲器的方式并確定能夠?qū)θ菘购皖l率進行優(yōu)化的區(qū)域。

Xilinx FPGA提供兩種類型的存儲器陣列。18Kbit或36Kbit的BRAM是針對大存儲器模塊而優(yōu)化的。LUTRAM基于FPGA中的查找表，是針對細粒度存儲而優(yōu)化的。Xilinx Virtex-5 FPGA中，LUTRAM的單位是64bit。

在這兩種類型中，BRAM通常功耗要大一些。啟用后的BRAM靜態(tài)功率是其功耗的最大部分，跳變帶來的功耗居于第二位。設(shè)計人員可以采取一些步驟來優(yōu)化BRAM的功耗。例如，可以僅在讀或?qū)懼芷诓艈⒂肂RAM。對于較小的存儲器模塊可以使用LUTRAM來代替BRAM，將BRAM留給較大的存儲器模塊使用。此外，還可以嘗試將BRAM用于多個大型模塊。另一種技術(shù)是合理安排存儲器陣列來減少其占用的延遲面積、使性能最大化并盡量降低其功耗。圖1左側(cè)給出了一個針對速度和面積而優(yōu)化的2K x 36bit存儲陣列。

我們利用四個2K x 9bit模塊并行構(gòu)成這一存儲陣列，并在需要新值時啟用（Enable）所有四個模塊。另一方法是采用四個512 x 36bit模塊來安排2K x 36bit，但利用低兩位地址解碼來選擇訪問哪個512 x 36bit模塊。在后一種情況下，某個時間僅訪問一個存儲器塊，功耗將比第一種方法降低75%。

圖1右側(cè)顯示的是Xilinx公司的塊存儲器生成器（Block Memory Generator），利用它可以生成任意大小的存儲器陣列并可以針對速度或功率對其進行優(yōu)化。圖2則給出了具體應(yīng)用中的Xilinx Power Estimator，比較了在給定的使能速率下N個模塊同時啟動與N/4模塊啟動時的功耗情況。結(jié)果顯示動態(tài)功率降低了75%。

圖1 速度和面積與功率優(yōu)化存儲器陣列(左)

以及Xilinx Block Memory Generator與功率面積選擇(右)

Xilinx工具可幫助選擇適合的存儲器陣列?？紤]某個設(shè)計中需要兩組存儲器區(qū)域。一種情況下需要運行在300MHz的16組64 x 32bit存儲器結(jié)構(gòu)（總位數(shù)為32K），另一種情況下需要16組512 x 36bit 存儲器架構(gòu) (總位數(shù)為294K)。

看一下16組64 x 32bit存儲器結(jié)構(gòu)的功率比較，XPE工具顯示出小存儲器陣列最好用LUTRAM來實現(xiàn)，這樣比用BRAM節(jié)約85%的功耗（如圖3）。這是因為如果采用BRAM的話，只能用16個18K位的模塊來實現(xiàn)16個極?。?4 x 32bit）的存儲器，有很多空間被浪費了。而第二種情況16組18K位陣列的功率比較，XPE顯示情況正好相反，應(yīng)當采用大一些的存儲器陣列來實現(xiàn)（圖4）。這種情況下，采用BRAM比采用LUTRAM可以節(jié)約28%的功耗，這是因為如果采用LUTRAM就需要啟用更多的小粒度對象并增加更多的互連。

Xilinx FPGA的時鐘門控功能

Xilinx FPGA的時鐘門控功能提供了一些非常有意思的用途。例如，可以利用BUFGMUX時鐘緩沖器將FPGA內(nèi)的某個全局時鐘關(guān)閉，或者動態(tài)選擇較慢的時鐘。還可以使用BUFGCE時鐘緩沖器進行按時鐘周期（cycle-by-cycle）的門控，與ASIC設(shè)計中使用的時鐘門控技術(shù)類似。設(shè)計中可以同時使用這兩種功能。

在某些設(shè)計中，一些模塊并非始終使用，但對于功耗影響卻很大，此時這些方法非常有用?？梢詴r鐘周期為基礎(chǔ)或者按多個時鐘周期的組合開啟或關(guān)閉可能有成千上萬個負載的大型時鐘域。

圖2 XPE功率優(yōu)化陣列結(jié)果

圖3 利用塊RAM 或 LUTRAM實現(xiàn)小存儲器陣列的功率估算

圖4 利用LUTRAM和塊RAM實現(xiàn)大存儲器陣列的功率估算

在電路板一級降低功耗

PCB設(shè)計師、機械工程師和系統(tǒng)架構(gòu)師在電路板一級可以考慮通過幾個方面來降低FPGA的功耗，F(xiàn)PGA的內(nèi)核電壓和結(jié)溫對于功耗的不同方面都有很強的影響。

控制VCCINT內(nèi)核電壓是板級降低功耗的一種方法。源于泄漏的靜態(tài)功耗以及動態(tài)功耗都高度依賴于FPGA的內(nèi)核電壓。因此，減少泄漏的一種方法就是將內(nèi)核電壓設(shè)置在接近額定值（1V）的地方，而不是工作在Virtex-5電壓范圍的高端（1.05V = +5%）。

采用現(xiàn)代開關(guān)穩(wěn)壓器，可以獲得±1.5%的電壓穩(wěn)定度，而不是標準的±5%規(guī)格。保持內(nèi)核電壓在1V（而不是最大值1.05V），可將泄漏導(dǎo)致的靜態(tài)功耗降低15%，同時動態(tài)功耗降低10%。

降低FPGA結(jié)溫的一種簡單明顯的方法是利用散熱更好的PCB或散熱器。然后，F(xiàn)PGA設(shè)計人員只要能夠降低功耗的改變都是值得鼓勵的。在結(jié)溫100℃左右時，15℃的溫度降低可以將源于泄漏導(dǎo)致的靜態(tài)功耗降低20%。

通過監(jiān)控FPGA中的溫度和電壓也可以降低功耗。Virtex-5 FPGA中包含了一個稱為System Monitor的模擬模塊，可以監(jiān)控外部和內(nèi)部模擬電壓以及芯片內(nèi)部溫度。System Monitor基于一個10位的A/D變換器，能夠在-40℃至+125℃范圍內(nèi)提供準確可靠的測量結(jié)果。A/D變換器將片上傳感器的輸出數(shù)字化，可以利用它來監(jiān)控多達17路外部模擬輸入，從而監(jiān)控系統(tǒng)性能與外部環(huán)境。模塊內(nèi)包括了可配置的閾值和告警電平，并且可以在可配置的寄存器內(nèi)存儲測量結(jié)果，因此可方便地接口到用戶邏輯或微處理器。

此外，I/O功率成為在功耗和性能平衡過程中需要考慮的另一重要因素，通過更為優(yōu)化的I/O選擇可以進一步降低總體功耗。對于輸出來說，驅(qū)動力量最大的標準所消費的功率也最大，因此功率隨輸出使能速率和跳變速率線性變化。然而，LVDS是個例外，因為它采用了獨立于跳變速率的基于固定電流源。對于輸入來說，參考標準消費功率也較大，因為它們需要實現(xiàn)差分接收器并且需要可選擇的內(nèi)部端接。兩者都需要消費直流功率。

由于端接通常需要消費大量功率，因此使用時需謹慎考慮功率和性能的平衡。采用外部接口或不需要端接的方案會大大降低功耗。

總結(jié)

Xilinx公司一直致力于在ISE套件工具中集成功率優(yōu)化技術(shù)，同時，還可以將ISE配置為功率優(yōu)化綜合引擎來自動定位源代碼中的小陣列并將其綜合進LUTRAM中。

最近，Xilinx公司還推出了一個優(yōu)化布局器，能夠?qū)⒐δ苓M行分組，從而最小化布線距離和容抗。稱為PlanAhead的一組相關(guān)工具能夠?qū)⑦壿嬞Y源分組并從物理上在FPGA內(nèi)進行粗略的面積估算和位置定位，這樣就可以減少電容并加快布線速度。

Xilinx預(yù)期FPGA的動態(tài)和靜態(tài)功率將會繼續(xù)面臨挑戰(zhàn)，所以將繼續(xù)致力于優(yōu)化FPGA的功率管理工具和設(shè)計方法，同時也將不斷努力在芯片層面上解決功耗問題。

來源:維珍0次

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

TI CCS與Xilinx Vitis對比，DSP開發(fā)工具鏈的生態(tài)競爭

在嵌入式開發(fā)領(lǐng)域，工具鏈的生態(tài)競爭直接影響開發(fā)效率與產(chǎn)品競爭力。德州儀器(TI)的Code Composer Studio(CCS)與賽靈思(Xilinx)的Vitis作為兩大主流平臺，分別在DSP與FPGA/SoC開發(fā)...

關(guān)鍵字： TI Xilinx

[汽車電子]

激光雷達功耗與散熱設(shè)計：小型化與長續(xù)航的平衡

激光雷達(LiDAR)作為自動駕駛、機器人導(dǎo)航和三維感知的核心傳感器，其小型化與長續(xù)航能力已成為制約技術(shù)落地與商業(yè)化應(yīng)用的關(guān)鍵瓶頸。在有限的空間內(nèi)實現(xiàn)高性能的同時，需兼顧功耗控制與散熱效率，這一矛盾在車規(guī)級激光雷達中尤為...

關(guān)鍵字：激光雷達功耗

[嵌入式分享]

我們的設(shè)備功耗能到多低？

我們探索了可以在每個Arm Cortex-M處理器上找到的低功率模式的基本原理，以及我們?nèi)绾卫肳FI和WFE說明來使處理器放置。真正存在的問題是，這些低功率模式如何在真實的微控制器上實現(xiàn)，這些模式如何影響我們的嵌入式系...

關(guān)鍵字：功耗 Arm Cortex-M

[《機電信息》]

最優(yōu)回轉(zhuǎn)半徑驅(qū)動輪總成的設(shè)計方法研究

選定特定規(guī)格齒輪傳動驅(qū)動輪總成的應(yīng)用環(huán)境和性能參數(shù) ,研究驅(qū)動輪總成的優(yōu)化設(shè)計方法 , 以實現(xiàn)驅(qū)動輪總成具有最優(yōu)回轉(zhuǎn)半徑的目標。通過具體案例 ,展示了齒輪布局與構(gòu)件整合的設(shè)計策略 , 為驅(qū)動輪總成的優(yōu)化設(shè)計提供了新的視...

關(guān)鍵字：驅(qū)動輪總成回轉(zhuǎn)半徑齒輪傳動優(yōu)化設(shè)計

[消費電子電路]

LoRa能否解決傳統(tǒng)無線通信中功耗與傳輸距離之間的矛盾問題

LoRa(Long Range)是由Semtech公司開發(fā)的一種低功耗局域網(wǎng)無線標準，旨在解決傳統(tǒng)無線通信中功耗與傳輸距離之間的矛盾問題。

關(guān)鍵字： LoRa 功耗

[電子設(shè)計自動化]

SRIO簡介與Xilinx SRIO IP核例程詳解

Serial RapidIO（SRIO）是一種高性能、低引腳數(shù)、基于數(shù)據(jù)包交換的互連技術(shù)，專為滿足未來高性能嵌入式系統(tǒng)的需求而設(shè)計。它由Motorola和Mercury等公司率先倡導(dǎo)，旨在為嵌入式系統(tǒng)提供可靠的、高性能的...

關(guān)鍵字： SRIO Xilinx

[模擬技術(shù)]

在馬達控制系統(tǒng)中，F(xiàn)PGA的應(yīng)用

隨著Altera，Xilinx兩家FPGA巨頭陸續(xù)被收購，F(xiàn)PGA的未來似乎已經(jīng)與數(shù)據(jù)中心、AI等超大規(guī)模應(yīng)用綁定。

關(guān)鍵字： Altera Xilinx

[嵌入式分享]

在ModelSim中添加Xilinx仿真庫：步驟與技巧

在現(xiàn)代電子設(shè)計自動化（EDA）工具鏈中，ModelSim作為一款功能強大的仿真軟件，廣泛應(yīng)用于FPGA（現(xiàn)場可編程門陣列）和數(shù)字IC設(shè)計的驗證階段。特別是在與Xilinx FPGA結(jié)合使用時，ModelSim能夠模擬復(fù)雜...

關(guān)鍵字： ModelSim Xilinx

[電源]