ASIC生態(tài)鏈行將大變!2.5D封裝催生全球最大FPGA
2011年10月26日,Xilinx正式在全球同時宣布其擁有2百萬LE(邏輯單元)的Virtex-7 2000T已經(jīng)可以向全球客戶提供樣片。賽靈思亞太區(qū)銷售及市場總監(jiān)張宇清表示:“我們已經(jīng)向早期客戶提供了數(shù)千片Virtex-7 2000T 28nm FPGA樣片,包括美國的一家無線通信芯片供應(yīng)商和日本一家裸眼3DTV芯片供應(yīng)商,而且我們現(xiàn)在手里還有充足的樣片,可以隨時滿足客戶的需要。”
Virtex-7 2000T是目前行業(yè)內(nèi)第一款采用2.5D封裝技術(shù)做出的可實際交付客戶使用的樣片,Xilinx也由此成為行業(yè)內(nèi)第一個做出2.5D封裝產(chǎn)品的供應(yīng)商。2.5D封裝技術(shù)使得Xilinx可以第一個在行業(yè)內(nèi)做出具有68億個晶體管或2百萬個LE的28nm FPGA。
通過這種技術(shù),賽靈思讓器件的發(fā)展步伐超過了摩爾定律的速度。Virtex-7 2000T FPGA的容量是目前市場同類最大28nm器件的兩倍,而且比賽靈思最大型的Virtex-6 FPGA大2.5倍。
Xilinx全球高級副總裁兼亞太區(qū)執(zhí)行總裁湯立人指出:“此時此刻,我們最大競爭對手還只是宣布,其28nm FPGA的最大容量只能做到98萬個LE或39億個晶體管,而且還不知什么時候這么大容量的28nm FPGA能夠做出樣片?!?br>
這里所提的2.5D封裝技術(shù)指的就是Xilinx一年前宣布的業(yè)界首個堆疊硅片互聯(lián)技術(shù)(SSI,Stack Silicon Interconnect),其核心是Xilinx擁有專利的ASMBL架構(gòu)。湯總驕傲地說,僅經(jīng)過一年的發(fā)展,2.5D封裝的可靠供應(yīng)鏈就已經(jīng)形成并實現(xiàn)了成功樣產(chǎn)。
賽靈思可編程平臺開發(fā)高級副總裁 Victor Peng 也指出:“Virtex-7 2000T FPGA 標志著賽靈思創(chuàng)新和行業(yè)協(xié)作史上的一個重大里程碑。對于客戶而言, 其重大意義在于如果沒有堆疊硅片互聯(lián)(SSI)技術(shù),至少要等演進到下一代工藝技術(shù),才有可能在單個FPGA中實現(xiàn)如此大的晶體管容量?,F(xiàn)在,有了Virtex-7 2000T FPGA, 客戶能立即為現(xiàn)有設(shè)計增添新的功能,不必采用ASIC,單個FPGA 解決方案就能達到3-5個FPGA 解決方案的功能,因而可大幅降低成本。或者現(xiàn)在就可以開始采用我們的最大容量FPGA進行原型設(shè)計和構(gòu)建系統(tǒng)仿真器,和通常的更新?lián)Q代速度相比, 至少可以提前一年時間。”
從歷史上看,F(xiàn)PGA 產(chǎn)品系列中的最大器件通常是最后才向客戶推出的,這是因為半導體工藝的發(fā)展有一個爬斜坡的過程,最大器件的單位晶圓良率達到一定水平才能在經(jīng)濟上做到可行,這是需要時間的。賽靈思的 SSI 技術(shù)突破了這一挑戰(zhàn),通過將四個不同F(xiàn)PGA芯片在無源硅中介層上互聯(lián),構(gòu)建了世界最大容量的可編程邏輯器件,從而解決了無缺陷大型單芯片的制造挑戰(zhàn)。
一個Virtex-7 2000T可以提供1.5TMAC DSP性能和2百萬個LE,但功耗只有19W。如果與Altera尚未樣產(chǎn)的最大容量28nm Stratix-V相比,4個Straix-V FPGA合起來也只能提供1.2TMAC DSP性能,2個Stratix-V合起來也只有190萬個LE。從功耗層面來看,4個Stratix-V合起來功耗就有80W,如果再算上連接這些FPGA的I/O功耗,整體功耗將達到112W。
因此,湯總強調(diào)指出:“Virtex-7 2000T無論在帶寬、容量還是功耗方面都實現(xiàn)了里程碑式性能突破,它可以提供16個28Gbps串行收發(fā)器、72個13Gbps串行收發(fā)器、2.8Tbps串行帶寬(比任何單硅片方案高3倍),而且客戶市場對該產(chǎn)品的反應(yīng)非常正面,目前我們已經(jīng)拿到了很多訂單?!?br>
過去,促使系統(tǒng)制造商采用大型ASIC的商業(yè)意義主要有以下四點:批量制造時降低成本、更低功耗、更高計算性能、以及防止競爭對手復制產(chǎn)品。但今天,Virtex-7 2000T的上市正使得大型ASIC存在的商業(yè)意義越來越低,ASIC設(shè)計生態(tài)鏈面臨衰退甚至消亡的現(xiàn)實風險。
首先,今天高端電子設(shè)備需求市場變化越來越快,標準演化速度也越來越快,如4G通訊標準和局端設(shè)備,這意味著電信運營商不太可能一次下很大的訂單,而今天隨著CMOS工藝進入到40nm和28nm節(jié)點,NRE費用越來越高(如一次28nm NRE費已上升到6千萬人民幣),這意味著如沒有足夠的ASIC訂量,使用ASIC不見得能達到降低成本的效果。如果再考慮到漫長的ASIC設(shè)計開發(fā)期間(一般為兩年)市場對ASIC的設(shè)計規(guī)格要求很可能會改變或增加,原有的ASIC設(shè)計很可能會被完全推翻,這不僅會進一步拖長開發(fā)周期,而且開發(fā)費用也會成倍地增長。但如采用Virtex-7 2000T,不僅開發(fā)周期至少可減少一年,而且其靈活的可編程性可以很低的成本隨時滿足客戶市場不斷變化的需求,也就是說它可有效徹底地消除上述商業(yè)問題或風險。
Virtex-7 2000T FPGA為客戶提供了通常只有大容量 ASIC 才具備的容量、性能和功耗水平,更增加了可重編程的優(yōu)勢。由于越來越多的系統(tǒng)和市場對 ASIC 的開發(fā)成本感到難以承受,Virtex-7 2000T FPGA 為那些面臨ASIC修改風險和超過5,000萬美元的28nm 定制IC NRE成本的設(shè)計, 提供了一個獨特的、可擴展的替代解決方案。
其次,Virtex-7 2000T采用的TSMC已量產(chǎn)的28nm HPL工藝可以提供很低的靜態(tài)和動態(tài)功耗,雖然與完全優(yōu)化的ASIC相比功耗可能還會高一些,但如從系統(tǒng)功耗角度來看,Virtex-7 2000T常常可做的更低。
第三,過去最大型的FPGA也只能提供40萬左右LE,這使得很多復雜系統(tǒng)制造商只能采用ASIC來提供高集成度和很高的計算性能,如采用FPGA,則必須采用多片才能達到系統(tǒng)所需的計算性能,而這樣做會帶來兩大問題:集成度達不到系統(tǒng)要求和開發(fā)周期因復雜的系統(tǒng)分割而拖得很長。幸運的是,今天Xilinx借助業(yè)界領(lǐng)先的2.5D封裝技術(shù)已使得Virtex-7 2000T的容量大幅提升到2百萬個LE,這使得高達2千萬門的ASIC也可以輕松用2000T來實現(xiàn)。
第四,今天的FPGA已支持業(yè)界最復雜的加密算法,客戶已不再需要靠ASIC來保護自己的知識產(chǎn)權(quán)。而且,今天很多芯片供應(yīng)商都可以提供完整的系統(tǒng)解決方案,客戶市場拷貝對手產(chǎn)品的需求已不再那么強烈。
在推測Altera會否也采用2.5D封裝技術(shù)快速推出更大容量的FPGA之前,我們首先研究一下Xilinx的2.5D封裝技術(shù)有何特色。
Xilinx針對Virtex-7 2000T打造的SSI技術(shù)的基本概念是:在65nm無源硅中介層上并排連接著幾個28nm硅FPGA切片(有源切片),該切片再由穿過該中介層的金屬連接,與印制電路板上不同IC通過金屬連線互聯(lián)通信的方式類似。[!--empirenews.page--]
2.5D封裝主要由以下幾個技術(shù)構(gòu)成:TSMC已宣布量產(chǎn)的28nm HPL工藝和硅通孔(TSV)技術(shù)、Amkor的微凸塊/芯片分離/CoC連接和組裝技術(shù)、IBIDEN的封裝基片技術(shù)、以及Xilinx的統(tǒng)一架構(gòu)/中介層和最終測試技術(shù)。
湯總表示,除了Xilinx獨有的ASMBL統(tǒng)一架構(gòu)、中介層和測試技術(shù)以外,其它各供應(yīng)商的2.5D封裝技術(shù)都是開放的,誰都可以用。不過,最關(guān)鍵的技術(shù)是我們的統(tǒng)一架構(gòu)技術(shù)。我們將4個經(jīng)ASMBL架構(gòu)優(yōu)化的FPGA Slice并排排列在硅中介層上,Slice之間擁有超過10,000個過孔走線,時延僅為1納秒。然后再通過微凸塊將硅片連接至硅中介層。這樣方法可避免垂直硅片堆疊方法出現(xiàn)的散熱問題。
因此,湯總認為,從這個意義上來說,我們的競爭對手即便想采用2.5D封裝技術(shù),恐怕也不是那么容易就能輕易做到,除非它們也徹底改變其芯片的架構(gòu)。
此外,為了打消部分人士擔心因為芯片發(fā)熱、造成中介層發(fā)生線路斷裂而影響系統(tǒng)可靠性的顧慮,湯立人表示,“應(yīng)力仿真模型還顯示出SSI堆疊硅片技術(shù)的另一項優(yōu)勢。與單片解決方案相比,硅中介層起到了緩沖作用,降低了低介電電介質(zhì)應(yīng)力,并提升了C4凸塊的可靠性。另外,對堆疊芯片進行的廣泛的熱效應(yīng)仿真顯示,采用堆疊硅片互聯(lián)技術(shù)的器件的熱性能可與單片器件相媲美?!?br>
賽靈思亞太區(qū)銷售及市場總監(jiān)張宇清補充說,采用堆疊硅片互聯(lián)技術(shù)的另一個優(yōu)勢在于,堆疊硅片F(xiàn)PGA能夠當作單片器件來使用,設(shè)計人員僅需創(chuàng)建并管理一個設(shè)計項目,堆疊硅片互聯(lián)技術(shù)的布線對用戶而言是透明的,用戶可以使用標準時序收斂流程來進行設(shè)計構(gòu)建和調(diào)試。而如果同時管理多個FPGA器件,就必然會涉及I/O多路復用及其他設(shè)計技巧,從而使實現(xiàn)貫穿多個設(shè)計的時序收斂變得極富挑戰(zhàn)性。
那么,為什么Xilinx不直接采用目前很熱的3D封裝技術(shù)而首先選擇2.5D封裝技術(shù)呢?到底3D封裝和2.5D封裝之間有什么區(qū)別?
湯總說,真正的3D封裝技術(shù)是有源芯片堆疊在有源芯片之上,但它帶來的一個首要問題就是夾在硅襯底和最上面有源芯片之間的中間有源芯片如何散熱,業(yè)界目前還沒找到有效的方法。其次,兩個堆疊有源芯片之間的互聯(lián)必須靠金屬過孔來實現(xiàn),但開孔會帶來應(yīng)力問題,并影響到周圍電路的性能。最后,在中間有源芯片上很難實現(xiàn)微凸塊和硅通孔。這三大問題導致目前3D封裝只成功應(yīng)用于制造存儲器。
“目前3D封裝技術(shù)還不成熟,還有很多問題有待解決。因此2.5D封裝技術(shù)不是一個過渡技術(shù),它可以發(fā)展很多年,并至少在2015年將得到蓬勃發(fā)展。”湯總指出,“但必須強調(diào),賽靈思也同樣看好不帶中介層的完全 3D IC 堆疊技術(shù)前景,只是該技術(shù)在整個產(chǎn)業(yè)中實現(xiàn)標準化還要花費更長的時間?!?br>
Xilinx的2.5D封裝技術(shù)是在無源金屬中介層上并排放置FPGA切片,由于中介層是無源的,因此除了 FPGA 芯片本身功耗外不會造成其他任何熱問題。此外, 由于芯片在硅中介層上并排放置,SSI 技術(shù)能夠避免多個芯片堆疊造成的功耗和可靠性問題。最后,它也沒有硅通孔帶來的應(yīng)力問題。
SSI技術(shù)非??煽?。湯總表示:“一般說來,SSI 封裝架構(gòu)的內(nèi)應(yīng)力小于同樣大小的單片式倒裝片 BGA 封裝,因為較薄的中介層能有效分解堆積的內(nèi)壓力。因此,我們可以通過減少封裝中的最大塑性應(yīng)變來提升熱機械性能?!?br>
Virtex-7 2000T目前主要有三個目標應(yīng)用市場。第一個全新進入的應(yīng)用市場是替代有線通信和存儲區(qū)域網(wǎng)市場使用的大型ASIC和ASSP,2000T FPGA可為超過2千萬門的大容量ASIC提供替代產(chǎn)品。
湯總透露說,曾有一個客戶計劃開發(fā)一顆約2千萬門的ASIC,要求性能達到Tb級、功耗預算約30瓦、以及2年內(nèi)開發(fā)完成,但立項后的實際情況是,由于在設(shè)計中期必須支持新的功能,因此必須在原有ASIC芯片基礎(chǔ)上再配搭2個Xilinx FPGA才能滿足設(shè)計要求,從而導致項目總功耗上升到70W,開發(fā)時間也延長到3年。
湯總表示,如果該項目一開始就采用Virtex-7 2000T,那么達到設(shè)計要求所需的開發(fā)時間可縮短到一年以內(nèi),上市時間可縮短2年,產(chǎn)品快速上市不僅可贏得訂單批量不斷增加,而且FPGA靈活性可使其市場生存周期更長。
更重要的是,湯總強調(diào),今天開一顆28nm ASIC至少需要6千萬人民幣,還很難保證一次流片成功,而用2000T實現(xiàn)根本就不需要預先投入這么大的NRE費用。
Virtex-7 2000T的第二個應(yīng)用市場是實現(xiàn)大規(guī)模系統(tǒng)集成,2000T的高性能可有效降低系統(tǒng)成本和功耗、以及提高性能,進一步拓展有線通信、無線通信、存儲控制和視頻處理系統(tǒng)市場。
今天大多數(shù)高端集成系統(tǒng)都由以下幾個部分組成:2個CPU、一個算法加速引擎、一個FPGA用作IO單元、一個FPGA用作用戶接口、一個FPGA用作存儲器控制器。這樣的集成系統(tǒng)通常有以下四個局限性:多芯片系統(tǒng)影響下一代產(chǎn)品演進速度、FPGA 之間的信號傳輸時延限制了性能、用標準器件 I/O 創(chuàng)建多個 FPGA 之間的邏輯連接會造成不必要的功耗、多芯片軟件分割的復雜性會延長產(chǎn)品上市時間。
湯總表示:“如果該客戶采用Virtex-7 2000T,那么它可以獲得以下四大獨特好處:實現(xiàn)100%系統(tǒng)集成、功耗降低7倍、提供5倍高且可擴展的性能、設(shè)計時間縮短4倍?!?br>
第三個目標應(yīng)用市場是加速原型和模擬仿真,2000T可用以實現(xiàn)更大容量ASIC原型仿真、提高精度和縮短開發(fā)時間。
今天的ASIC系統(tǒng)原型和模擬仿真客戶都希望盡早用上大容量FPGA和希望FPGA提供類似ASIC的性能,但目前的現(xiàn)實是:大型FPGA由于良率原因通常最遲推出;如用多個FPGA來開發(fā)原型系統(tǒng),則又存在分區(qū)讓設(shè)計復雜化和限制性能的問題。
湯總說:“我們有個客戶曾使用現(xiàn)有的FPGA來開發(fā)ASIC系統(tǒng)原型,需要使用64個FPGA才能仿真10個ASIC,系統(tǒng)開發(fā)復雜度使得該客戶要到2013年Q4才能提供10套原型系統(tǒng)用于系統(tǒng)開發(fā)。但2000T出來后,它只需使用16個FPGA就可仿真13個ASIC,大大加快了系統(tǒng)原型的開發(fā)速度?!?br>
EDA設(shè)計工具分析師兼ASIC方法專家Gary Smith指出,目前高端ASIC或ASSP設(shè)計平均包含4.2億個門?!拔衣犝f過的最大產(chǎn)品包含11億個門?!庇捎陂T的數(shù)量很多,不管是商用仿真系統(tǒng),還是自己動手設(shè)計的 ASIC 原型設(shè)計電路板,90% 以上的 ASIC 設(shè)計團隊都要采用某種形式的硬件輔助驗證系統(tǒng)。
傳統(tǒng)上,創(chuàng)建商用模擬仿真系統(tǒng)的公司或自己進行原型設(shè)計的團隊一直是廠商推出最大型 FPGA 產(chǎn)品的首批使用客戶。商用仿真系統(tǒng)供應(yīng)商希望盡可能提高 FPGA 的容量。湯總指出:“尤其是這個市場的設(shè)計,將因為擁有Virtex-7 2000T超越摩爾定律的容量而獲益匪淺。Virtex-7 2000T可以讓他們現(xiàn)在即可向他們的客戶推出擁有下一代容量的仿真系統(tǒng),并最終使得這些客戶大大縮短開發(fā)時間,并更快向市場推出更多新的、更具創(chuàng)新性的產(chǎn)品。”[!--empirenews.page--]
大多數(shù)商用模擬仿真系統(tǒng)包括兩個或兩個以上電路板,以及數(shù)個FPGA,這具體取決于客戶需要模擬仿真的ASIC、IP甚至系統(tǒng)的大小。同時,模擬仿真系統(tǒng)的客戶可用其加速驗證,確保設(shè)計功能正常,而且能為軟件團隊提供設(shè)計的硬件版本,幫助軟件團隊盡快啟動開發(fā)工作,等代工廠推出實體芯片ASIC后就能基本完成軟件設(shè)計。這當然有助于加快產(chǎn)品上市進程。
就商用模擬仿真系統(tǒng)的典型使用模式而言,用戶首先用傳統(tǒng)的 EDA 驗證軟件來設(shè)計 ASIC 或 IP并驗證其功能,做好這步工作之后,就能在商用仿真器中實現(xiàn)寄存器傳輸級(RTL)版本設(shè)計,以便進一步進行設(shè)計驗證。每個仿真器廠商通常提供自己的軟件,配合賽靈思的設(shè)計軟件工作,以綜合RTL,并將ASIC設(shè)計分區(qū)到不同的模塊,讓這些模塊在仿真器中的各個FPGA上實現(xiàn)優(yōu)化分配。模擬仿真廠商的軟件連接到運行不同 EDA 驗證工具的工作站或PC上,在仿真器上運行的同時進行設(shè)計測試。
模擬仿真廠商也提供了低成本的選擇,有時稱作仿真器的“復制品”或者統(tǒng)稱為“原型系統(tǒng)”。這些低成本選擇只能仿真ASIC功能。公司為軟件團隊提供這些系統(tǒng),旨在幫助他們快速開發(fā)日后將在設(shè)計中運行的驅(qū)動程序、固件和應(yīng)用。
更大型的FPGA能讓模擬仿真廠商推出更高容量的模擬仿真系統(tǒng),也能用較少的FPGA構(gòu)建中低容量的系統(tǒng),從而提升在該系統(tǒng)上運行的設(shè)計的整體時鐘速度的同時,降低功耗和材料清單成本。湯總說:“Virtex-7 2000T容量非常大,廠商甚至能夠在單個FPGA芯片基礎(chǔ)上構(gòu)建仿真器。由于設(shè)計運行的芯片數(shù)量減少,甚至只需要一個芯片,因此系統(tǒng)整體性能也能變得更快?!?br>
如果設(shè)計團隊買不起市場上現(xiàn)成的價值可能超過百萬美元的昂貴模擬仿真系統(tǒng),Virtex-7 2000T也是不錯的選擇。湯總指出:“許多設(shè)計團隊都構(gòu)建自己的定制開發(fā)板來進行 ASIC或整個系統(tǒng)功能的原型和/或模擬仿真,快速啟動軟件開發(fā)。即便用仿真系統(tǒng)來開發(fā)自己 IC 的設(shè)計人員也能為軟件團隊提供自己的不同版本的 FPGA?!?br>
除了有利于 ASIC 和 IP 模擬仿真及原型外,Virtex-7 2000T對希望降低系統(tǒng)功耗、增強性能和系統(tǒng)功能的系統(tǒng)架構(gòu)師也極富吸引力。
湯總指出:“市場上使用多個FPGA的最終產(chǎn)品非常多。有了Virtex-7 2000T,就能在單個FPGA上集成數(shù)個FPGA的功能。系統(tǒng)集成提高了性能,因為所有這些功能都集中在了一個芯片上,系統(tǒng)集成后,避免了開發(fā)板上不同 IC 間的I/O接口,從而降低了功耗。I/O接口數(shù)量越多,功耗就越大,二者成正比關(guān)系。因此,設(shè)計性能越高、系統(tǒng)中IC數(shù)量越多,功耗也就越大?!?br>
此外,系統(tǒng)功能在多個IC間的分區(qū)也是一項復雜工作,可能會延長設(shè)計時間,增加測試成本。多個器件整合到系統(tǒng)中能減小分區(qū)壓力,同時還能降低驗證和測試相關(guān)的成本。湯總表示:“由于容量比競爭對手的FPGA高出一倍還多,Virtex-7 2000T能讓客戶進一步提高集成度,相對于多芯片解決方案而言可將功耗降低四倍左右。此外,由于打破了I/O瓶頸,他們也能提升系統(tǒng)性能,同時因為取消不必要的設(shè)計分區(qū)而降低了系統(tǒng)的復雜性。架構(gòu)師們也可以節(jié)省下大量的板級空間以便添加其他功能,或者能夠縮小產(chǎn)品的尺寸。”
湯總表示,由于Virtex-7 2000T采用HPL工藝制造,因此晶體管的漏電流低于采用28nm高性能(HP)工藝技術(shù)實現(xiàn)的同類競爭器件。這就意味著Virtex-7 2000T的功耗, 僅相當于容量僅為其一半的競爭器件的水平。
最后但同樣重要的是,對于那些無法求證在 28nm工藝節(jié)點開發(fā)ASIC或ASSP的成本和風險是否值當?shù)?、且越來越多不斷增長的設(shè)計團隊來說,Virtex-7 2000T同樣很有吸引力。隨著芯片工藝技術(shù)的不斷發(fā)展,設(shè)計和制造成本也在不斷飆升。28nm的ASIC或ASSP的NRE成本超過5,000萬美元,而且一旦修改ASIC則可能把成本再增加近一半。設(shè)計過程中一旦因為疏忽犯了錯,就會嚴重影響產(chǎn)品贏利,多次犯錯就可能導致項目取消,錯過市場機遇,甚至導致公司的倒閉。
Virtex-7 2000T可取代1,000萬到2,000萬門級的ASIC,避免了ASIC相關(guān)的NRE成本問題。湯總表示:“設(shè)計人員可以集中精力進行設(shè)計, 而無需再擔心什么小錯誤會導致災難性的返工修改。此外,Virtex-7 2000T具有可重編程性,如果設(shè)計人員犯了錯誤,對器件重新編程就可以了?!?br>
雖然Virtex-7 2000T是一種超大容量器件,但對該器件的編程不需要在工作方法上做很大的調(diào)整。
最新版賽靈思設(shè)計工具已可支持Virtex-7 2000T。湯總表示:“用戶現(xiàn)在就能立刻用Virtex-7 2000T進行設(shè)計?!?br>