FPGA“獨孤求敗”? 架構(gòu)創(chuàng)新與工藝提升并行
走在工藝領(lǐng)先前列的FPGA有些“獨孤求敗”的感覺:集成度的大幅躍升,功能模塊如DSP、收發(fā)器的更上臺階,通過集成ARM核來拓展未曾染指的嵌入式市場,加快替代ASIC/ASSP之勢不減,似乎已經(jīng)“笑傲江湖”。但此FPGA終究非彼FPGA,仍存在難以逾越的“關(guān)卡”如功耗、器件利用率等。如今,賽靈思宣布在20nm工藝節(jié)點發(fā)布第一個ASIC級可編程架構(gòu)UltraScale,以前FPGA對ASIC的侵襲之勢不減,這次為何“化干戈為玉帛”走向融合?
ASIC級勢在必行
大量總線布置以及系統(tǒng)功耗管理方面的挑戰(zhàn)與日俱增,要從根本上提高通信、時鐘、關(guān)鍵路徑以及互聯(lián)性能。
隨著需要極高數(shù)據(jù)速率的400G OTN、LTE/LTE-A、4K2K和8K視頻處理以及數(shù)字陣列雷達等新生代系統(tǒng)的不斷涌現(xiàn),F(xiàn)PGA中大量總線布置以及系統(tǒng)功耗管理方面的挑戰(zhàn)與日俱增,單靠FPGA的傳統(tǒng)“做法”已然心力不逮。
賽靈思全球高級副總裁湯立人說,解決上述挑戰(zhàn)并非僅是改善單個器件性能或增加模塊數(shù)量這么簡單,而是要從根本上提高通信、時鐘、關(guān)鍵路徑以及互聯(lián)性能,才可滿足高性能應(yīng)用如海量數(shù)據(jù)流和智能數(shù)據(jù)包、DSP和圖像處理等方面的要求,這需要架構(gòu)和工藝的雙重創(chuàng)新來應(yīng)對。而借助ASIC源于“他山之石可以攻玉”的想法,賽靈思最新開發(fā)的UltraScale架構(gòu)實現(xiàn)了在完全可編程架構(gòu)中應(yīng)用尖端的ASIC技術(shù),從而讓產(chǎn)品在功耗等性能方面拉近和ASIC產(chǎn)品的距離,而這是此前FPGA產(chǎn)品進入原有ASIC市場的最大障礙。
借助于臺積電的20nm工藝,也讓賽靈思的FPGA架構(gòu)創(chuàng)新有了“立錐之地”。湯立人提到,最新開發(fā)的UltraScale架構(gòu)能從20nm平面FET結(jié)構(gòu)擴展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時還能從單芯片擴展到3D IC。“當(dāng)客戶采用UltraScale架構(gòu)的FPGA,并通過Vivado設(shè)計套件進行協(xié)同優(yōu)化后,其產(chǎn)品將比對手提前一年實現(xiàn)1.5倍至2倍的系統(tǒng)級性能和可編程集成,將進一步加快替代ASIC/ASSP。” 湯立人指出。
基于UltraScale架構(gòu)的產(chǎn)品首先推出的是Artix和Virtex系列,與之配合的Vivado設(shè)計套件早期試用版也已推出,同時UltraScale架構(gòu)也將用于下一代的Zynq系列并將擴展到16nm工藝的產(chǎn)品。
優(yōu)化方案破解瓶頸
在布線、時鐘歪斜、關(guān)鍵路徑和功耗方面,采用各種優(yōu)化手段,實現(xiàn)ASIC級的FPGA。
將ASIC融合到FPGA中并不是輕而易舉的事,要創(chuàng)建邏輯、運行驗證、設(shè)計分區(qū)等,賽靈思通過各種優(yōu)化手段來“各個擊破”。
在布線方面,湯立人透露,雖然在28nm工藝下FPGA產(chǎn)品可達到數(shù)十萬甚至上百萬的邏輯單元,但因為普遍存在的數(shù)據(jù)擁塞等問題,實際的器件利用率只能達到70%~80%。在最新的UltraScale架構(gòu)中,賽靈思采用了一種更智能的布線方式,引入類似高速公路設(shè)計中的快速通道理念,通過對整體邏輯單元的更合理布局形成一些快速通道,減少了對很多作為中間布線通道的邏輯單元的浪費,從而讓更多的邏輯單元能夠發(fā)揮更重要的系統(tǒng)功能的作用。“經(jīng)這種布線優(yōu)化后,器件利用率可達到90%,且不降低性能或增加系統(tǒng)時延。”湯立人指出。
而時鐘歪斜問題在系統(tǒng)需要512位到2048位寬度的總線時越發(fā)凸顯。而UltraScale架構(gòu)采用類似ASIC時鐘功能,幾乎可將時鐘布置到芯片的任何地方,不但消除了放置方面的眾多限制,還能夠在系統(tǒng)設(shè)計中實現(xiàn)大量獨立的高性能低歪斜時鐘資源,使系統(tǒng)級時鐘歪斜大幅降低達50%,而這正是新一代應(yīng)用的關(guān)鍵要求之一。
在關(guān)鍵路徑方面,賽靈思的UltraScale架構(gòu)更是“大費周章”,在優(yōu)化方面所做的工作包括:大幅增強DSP處理,即增加DSP單元;提供高速存儲器級互聯(lián),從而消除DSP和包處理中的瓶頸問題,即互聯(lián)性,也避免使用更多片上布線或邏輯資源;將高強度I/O功能做硬化IP處理,基于現(xiàn)有I/O功能相對完善不需要占用編程資源,這樣的做法可以降低時延同時釋放邏輯和布線資源。
在業(yè)界廣受關(guān)注的功耗方面,賽靈思也做足功課。湯立人表示,賽靈思采用20nm工藝的產(chǎn)品較上一代的產(chǎn)品靜態(tài)功耗將降低35%,動態(tài)功耗也大大降低。而單純工藝節(jié)點的降低達不到這么顯著的效果,賽靈思通過一系列電源管理功能的優(yōu)化才得以實現(xiàn)。
工藝與架構(gòu)創(chuàng)新并進
FPGA單純靠工藝進步提升性能已是“過去時”,現(xiàn)在是工藝提升和架構(gòu)創(chuàng)新“齊頭并進”的時代。
賽靈思的ASIC級FPGA成為彰顯其20nm工藝創(chuàng)新的“點晴”之筆,F(xiàn)PGA另一巨頭Altera也在這一道路上深耕,最新開發(fā)的基于英特爾14nm三柵極工藝的第10代FPGA Stratix 10就是一集大成之作。
Altera公司產(chǎn)品營銷資深總監(jiān)Patrick Dorsey介紹說,Stratix 10的性能提升歸功于工藝選擇和器件架構(gòu)兩大因素。Stratix 10集成超過400萬個邏輯單元,如此高密度的集成正是因為使用了英特爾的14nm制程技術(shù)。除英特爾14nm三柵極工藝外,Stratix 10和SoC還采用了增強體系結(jié)構(gòu),其內(nèi)核的工作頻率能夠從當(dāng)前28nm FPGA的500MHz提高到1GHz,并且其還集成了第三代硬核處理器,是業(yè)界首款采用硬核處理器的FPGA,此前均為軟核。
不同于Stratix 10的是Altera的中端器件Arria 10,它采用臺積電的20nm工藝,Altera聲稱其將“重塑”中端系列FPGA。而其秘訣就是通過針對TSMC 20 nm工藝優(yōu)化的增強體系結(jié)構(gòu),其性能比上一代高端產(chǎn)品Stratix V快15%,而且比上一代中端器件Arria V的功耗降低40%,I/O帶寬高出4倍。“相比前代產(chǎn)品,Arria 10啟動時客戶的設(shè)計承諾金要高出5倍,Arria 10的早期試用客戶有1000多家,其中200多家來自亞洲。” Patrick Dorsey強調(diào)說,“Altera通過最新的制程以及架構(gòu)的優(yōu)化,在新一代產(chǎn)品上實現(xiàn)了性能大幅提升。”
看來,F(xiàn)PGA單純靠工藝進步提升性能已是“過去時”,現(xiàn)在是工藝提升和架構(gòu)創(chuàng)新“齊頭并進”的時代,對FPGA廠商的考驗也將持續(xù)。