驍龍芯片設(shè)計人員調(diào)動,高通作何打算?
高通公司曾將來自其旗艦級驍龍芯片(被數(shù)以百萬計智能手機與平板設(shè)備所使用)開發(fā)團隊的工程師們調(diào)往其剛剛起步的數(shù)據(jù)中心處理器Centriq芯片部門。
這種關(guān)注重點的轉(zhuǎn)化意味著高通公司開始將注意力集中在服務(wù)器領(lǐng)域,而就在今天(星期二)晚,相關(guān)成果終將亮相——Centriq內(nèi)部設(shè)計方案將在本屆于硅谷召開的Hot Chips大會上公開。
將眾多原本隸屬驍龍部門的工程師重新調(diào)往Centriq可能恰好解釋了為何高通公司決定將內(nèi)部設(shè)計的移動Kryo核心替換為現(xiàn)成ARM Cortex核心——或者是經(jīng)過輕微調(diào)整的版本。事實上,高通公司已經(jīng)停止了全面定制化Kryo芯片的開發(fā)工作。
當(dāng)然,仍有一部分移動CPU設(shè)計師繼續(xù)留在驍龍研發(fā)團隊當(dāng)中,而且工程師們亦可根據(jù)需求隨時被調(diào)回。根據(jù)我們掌握的情況,目前移動開發(fā)組仍然擁有充足的人手,能夠繼續(xù)推動驍龍芯片家族的順利發(fā)展。這部分消息已經(jīng)得到了高通公司多位高管的證實。
去年年末,高通公司發(fā)布了驍龍835,這款高性能系統(tǒng)級芯片將從今年開始由頂級Android智能手機過渡到Windows 10筆記本當(dāng)中。這款處理器并未采用內(nèi)部開發(fā)的Kryo核心,而是選擇了經(jīng)過輕松調(diào)整的現(xiàn)成CPU計算核心——很可能是四Coretex-A53加四A72或者A73的組合,且由ARM公司提供授權(quán)。高通方面將其稱為“半定制”與“構(gòu)建在ARM Cortex技術(shù)之上”的方案。
今年5月,高通公司面向智能手機發(fā)布了更為高端的驍龍?zhí)幚砥鳎?60與630。然而,其中660采用了來自驍經(jīng)820系列的八個Kryo核心,而630則采用八個ARM Cortex-A53核心。
這并不是說ARM公司的現(xiàn)成核心就不好。只是這種轉(zhuǎn)變意味著高通公司的其它設(shè)計方案——包括其GPU、DSP、機器學(xué)習(xí)功能以及調(diào)制解調(diào)器——必須得想辦法讓其移動系統(tǒng)芯片煥發(fā)出獨特的光彩,從而在與其它同樣采用現(xiàn)成Cortex核心的廠商當(dāng)中脫穎而出。這對于高通公司無疑是重要的一步,特別是考慮到其核心業(yè)務(wù)正是移動處理器與無線調(diào)制解調(diào)器芯片組。
值得一提的是,高通公司管理層表示,他們的想法是在正確的時間在移動端采用正確的計算核心——這意味著現(xiàn)成Cortex CPU在表現(xiàn)上顯然優(yōu)于高通內(nèi)部設(shè)計的驍龍CPU。
轉(zhuǎn)向數(shù)據(jù)中心領(lǐng)域
本周二晚上,Centriq 2400設(shè)計藍圖將由高通公司高層人士在本屆于加利福尼亞州庫比蒂諾召開的Hot Chips大會上向芯片工程師與計算機科學(xué)家們展示。我們此前曾經(jīng)介紹過這款采用10納米制程的ARMv8處理器產(chǎn)品線。高通公司曾在本周強調(diào)稱,盡管設(shè)計人員來自驍龍?zhí)幚砥鲌F隊,但Centriq從設(shè)計之初就專門面向云計算與服務(wù)器工作負載等場景。
Centriq原理圖
在這方面,很多朋友可能會對高通公司食言而肥的作法有所抱怨。在我們于上周看到的Hot Chips演示文稿當(dāng)中,該公司表示Centriq處理器采用“第五代定制化核心設(shè)計”,旨在“從根本上滿足云服務(wù)供應(yīng)商的實際需求”。
Centriq產(chǎn)品管理高級主管Chris Bergen解釋稱,這意味著現(xiàn)有工程師團隊,包括來自驍龍?zhí)幚砥鏖_發(fā)組的成員,正在努力進行其第五代定制化CPU設(shè)計,且將從零開始打造出一款服務(wù)器友好型系統(tǒng)芯片。
然而著眼于藍圖本身,可以肯定的是這絕不是一款加大版的智能手機CPU。
這款代號為Falkor的處理器擁有48個計算核心,且僅能運行64位ARMv8代碼。其并不提供32位模式。這款系統(tǒng)芯片支持ARM的虛擬機管理程序權(quán)限等級(簡稱EL2),可提供一套TrustZone(EL3)環(huán)境,且以可選方式包含AES、SHA1以及SHA2-256等加密算法的硬件加速能力。各計算核心被部署在一條環(huán)狀總線之上,類似于英特爾剛剛停止在其至強處理器上使用的設(shè)計思路。芯片巨頭并不喜歡以環(huán)狀結(jié)構(gòu)提升其芯片內(nèi)的計算核心數(shù)量,轉(zhuǎn)而選擇了網(wǎng)狀柵極——但高通方面則明顯更喜歡這種快速雙向頻段思路。
其共享三級緩存被附加在環(huán)狀結(jié)構(gòu)當(dāng)中,且看起來均勻分布在各計算核心之間。根據(jù)我們得到的消息,該環(huán)狀互連結(jié)構(gòu)的總傳輸帶寬至少可達每秒250 GB。另外,據(jù)稱這一環(huán)狀結(jié)構(gòu)還進行了分段,我們認為這代表著其中可能包含復(fù)數(shù)個環(huán)。因此,總計48個計算核心當(dāng)中可能有24個處于一套環(huán)內(nèi),而另外24個核心則處于另一套環(huán)中,并由各環(huán)狀體系將其對接在一起。
說到高速緩存,高通公司今年之內(nèi)應(yīng)該會實現(xiàn)這款芯片的量產(chǎn),但并不會對緩存大小進行提升。每個計算核心擁有一個24 KB的64字節(jié)行零級指令緩存,一個64 KB 64字節(jié)行一級I-緩存,外加32KB一級數(shù)據(jù)緩存。其余的二級與三級緩存大小目前仍不明確。這款芯片目前僅提供樣品,因此大家只能立足主流服務(wù)器芯片制造商英特爾公司的現(xiàn)有設(shè)計方案進行研究。高通公司顯然不希望過早披露關(guān)鍵信息導(dǎo)致英特爾方面有所防備。
一級與零級緩存
其中零級緩存尤其值得關(guān)注:其作為一級I-緩存的擴展充當(dāng)指令獲取緩沖區(qū)。換句話來說,其很像是那種典型的前端緩沖區(qū),每個周期會消耗四條指令,但具體作用則與緩存完全相同:例如,CPU可對其進行無效化與刷新。二級緩存則負責(zé)容納數(shù)據(jù)與指令,且可實現(xiàn)128字節(jié)行八路運行,一次命中的最低延遲為15個周期。
二級緩存
三級緩存擁有一項服務(wù)質(zhì)量功能,允許各虛擬機管理程序與內(nèi)核對虛擬機以及線程進行組織,以便確保擁有較高優(yōu)先級的虛擬機能夠占用較其它虛擬機更高的緩存容量。該芯片亦可實現(xiàn)實時內(nèi)存壓縮,延遲為2到4個周期,且面向軟件開放。根據(jù)我們得到的消息,128字節(jié)行可被壓縮為64字節(jié)行,并在可能的情況下進行糾錯。
當(dāng)高通公司提到48個計算核心時,最終產(chǎn)品一定就是48個計算核心——不存在任何超線程或者其它類似的縮水作法。Falkor芯片可對共享的二級緩存進行配對以實現(xiàn)雙工傳輸。每個計算核心皆可開啟與關(guān)閉,具體取決于工作負載需求——相當(dāng)于由輕度睡眠(CPU時鐘關(guān)閉)到全速運轉(zhuǎn)。其提供32條PCIe通道,6條DDR4內(nèi)存通道并配合有糾錯功能。每通道擁有1到2個DIMM,外加SATA、USB、串行與通用IO接口。
功耗控制
更進一步挖掘,可以發(fā)現(xiàn)其擁有可變長度管道,意味著可在每周期內(nèi)最多發(fā)出三條指令外加一條直接分支。另外,其還擁有8條調(diào)度通道。其可實現(xiàn)無序執(zhí)行,并對資源進行重命名。每個預(yù)測分支擁有一個0或1懲罰評分,一套16入口分支目標(biāo)指令緩存,外加一套三級分支目標(biāo)地址緩存。
Centriq的管道結(jié)構(gòu)
分支預(yù)測器
管道隊列
管道的負載存儲分段
可變長度整數(shù)處理部分
這款芯片搭載有不可變片上ROM,其中包含一款啟動加載程序,可用于驗證通常被保存在閃存內(nèi)的外部固件,同時確保僅運行合法代碼。處理器內(nèi)的安全控制器可容納來自主通、服務(wù)器制造商以及客戶的軟件驗證用加密公鑰。因此,設(shè)備將僅在未從ROM或者早期啟動加載程序中發(fā)現(xiàn)漏洞的前提下啟動可信代碼并構(gòu)建信息來源。