為H3C、騰訊插翅騰飛!intel這次真的讓人直呼Yes
多次自我突破的摩爾定律,幾番“壓榨”下,雖說(shuō)有望回歸兩年一更新的頻率,但還是有很多人感嘆“廉頗老矣”。不過(guò)事實(shí)上,摩爾定律在提出之時(shí),就在論文的第二頁(yè)指明了摩爾定律失效的前路,這就是電子行業(yè)所追捧的“異構(gòu)計(jì)算”,intel現(xiàn)稱之為XPU(CPU+GPU+FPGA+加速器)。
材料受到了限制,所以才有了電化學(xué)鍍銅和機(jī)械平面化的雙鑲嵌結(jié)構(gòu);物理受到了限制,所以才有了金屬柵極和高K電介質(zhì);制程受到了限制,神說(shuō)“要有光”,所以才有了光刻技術(shù)……回溯1965年,intel的創(chuàng)始人戈登·摩爾提出了改變世界的摩爾定律至今已經(jīng)自我突破了三次瓶頸。
雖然幾經(jīng)放緩,intel已讓其重新回歸兩年一更新。但實(shí)際上,我們?nèi)匀徊恢?nm節(jié)點(diǎn)后的名字,這一迷之領(lǐng)域仍是紙上談兵的階段。反觀登納德縮放比例定律和阿姆達(dá)爾定律也基本進(jìn)入瓶頸期,現(xiàn)在正是異構(gòu)計(jì)算,即加速計(jì)算的時(shí)代。
今年4月,intel提出XPU+oneAPI的超異構(gòu)計(jì)算的概念,即通過(guò)CPU、GPU、FPGA和其他加速器的混合式架構(gòu),配合統(tǒng)一開(kāi)發(fā)平臺(tái)oneAPI進(jìn)行軟硬的有機(jī)結(jié)合方式進(jìn)行超級(jí)加速計(jì)算。同期,全新的計(jì)算架構(gòu)Xe被一并提出,并在今年8月正式宣布Xe圖形架構(gòu)下的幾款獨(dú)立顯卡。
時(shí)至今日,大勢(shì)已至,intel正式“亮刃”,拔劍反復(fù)打磨的“干將和莫邪”,盡數(shù)展示了intel一直遵循戈登·摩爾論文的成果。11月11日,intel召開(kāi)“XPU和軟件發(fā)布會(huì)”,發(fā)布了獨(dú)立服務(wù)器GPU,并宣布將于今年12月正式交付oneAPI Gold版本,21ic中國(guó)電子網(wǎng)記者受邀參加此次發(fā)布會(huì)。
硬件:支持Linux的獨(dú)立服務(wù)器GPU
手游作為可以隨手暢玩的一種極佳消遣方式,逐漸成為現(xiàn)代人放松的好方法。任何技術(shù)參數(shù)都是口說(shuō)無(wú)憑,直接看intel發(fā)布的這款服務(wù)器GPU到底有什么神奇之處。
根據(jù)intel的介紹,新華三(H3C)XG310是一款云服務(wù)GPU,在相比傳統(tǒng)卡3/4的長(zhǎng)度(全高x16 PCle 3.0)下,封裝了4顆intel服務(wù)器GPU。典型雙卡系統(tǒng)之中,可支持120個(gè)Android游戲并發(fā)用戶,而這一數(shù)字最高甚至可以擴(kuò)展到160個(gè)并發(fā)用戶,實(shí)際數(shù)量取決于具體游戲和服務(wù)器配置。
值得一提的是,在使用至強(qiáng)(Xeon)可擴(kuò)展處理器下,即使不擴(kuò)展服務(wù)器數(shù)量,可直接擴(kuò)展顯卡容量,在每個(gè)系統(tǒng)上支持更多流和訂閱用戶,并且同時(shí)實(shí)現(xiàn)較低的總體擁有成本(TCO)。換言之,只需要兩張GPU,無(wú)需再單獨(dú)購(gòu)置服務(wù)器,就多能滿足120個(gè)玩家實(shí)時(shí)連線游戲的任務(wù)。
數(shù)據(jù)顯示,2017至2022年視頻直播將增加15倍、游戲流量將增加9倍,到2022年視頻將占全球IP流量的82%,而Android占據(jù)了全球移動(dòng)設(shè)備的74%,intel正是看重了這一重大轉(zhuǎn)變因此首次發(fā)布了其數(shù)據(jù)中心獨(dú)立圖形顯卡intel Server GPU。
這是一款基于Xe-LP微架構(gòu)的高密度、低延時(shí)獨(dú)立GPU,而本款產(chǎn)品的特殊之處在于除了瞄準(zhǔn)了視頻和游戲渲染應(yīng)用場(chǎng)景下的數(shù)據(jù)中心,更加優(yōu)化了對(duì)Linux操作系統(tǒng)的支持,使得不同操作系統(tǒng)之間代碼復(fù)用成為了可能,也使得這款獨(dú)立GPU注定能夠成為Android游戲云服務(wù)的新寵。
參數(shù)上,intel Server GPU配備128-bit渲染管線(128-bit wide pipeline)和8GB LPDDR4 專用板載低功耗顯存。
開(kāi)發(fā)上,開(kāi)發(fā)人員可利用目前Media SDK中的通用API,這一API也將于明年遷移到oneAPI視頻處理庫(kù)(oneVPL)當(dāng)中。
架構(gòu)上,不僅是本次推出的新品,整個(gè)Xe產(chǎn)線都將全線優(yōu)化Linux上的開(kāi)發(fā)。通過(guò)intel給出的intelServer GPU的Android云游戲架構(gòu)上,這款面向數(shù)據(jù)中心的獨(dú)立GPU在Linux OS(CentOS/Ubuntu)的容器和虛擬化上提供了更好的優(yōu)化,擴(kuò)展代碼庫(kù)在Linux上的支持。從架構(gòu)上來(lái)看,游戲流服務(wù)將輸入到intel Cloud Rendering(ICR)中;利用FFMPEG編譯、3DMesa渲染輸出聲音;利用intel GPU UMD渲染視頻;而Android 游戲的云端主機(jī)和Android容器將利用intel橋接技術(shù)連接。
據(jù)悉,目前intel正與諸多軟件和服務(wù)合作伙伴合作,共同將intel服務(wù)器GPU推向市場(chǎng),其中包括Gamestream、騰訊和Ubitus。
騰訊云游戲副總經(jīng)理方亮表示:“intel是我們安卓云游戲解決方案上非常重要的合作伙伴。intel至強(qiáng)可擴(kuò)展處理器和intel服務(wù)器GPU,打造了一個(gè)高密度、低時(shí)延、低功耗、低TCO(總擁有成本)的解決方案,讓我們能夠在每臺(tái)雙卡服務(wù)器上生成超過(guò)100個(gè)游戲?qū)嵗T如《王者榮耀》、《傳說(shuō)對(duì)決》。”
筆者認(rèn)為,此款云服務(wù)獨(dú)立GPU在功耗上優(yōu)化的非常徹底,不僅使用了獨(dú)立顯卡Xe架構(gòu)中最為低功耗的Xe-LP,還利用LPDDR4作為顯存進(jìn)一步降低功耗。眾所周知數(shù)據(jù)中心是耗電和發(fā)熱大戶,因此只有在提高密度和性能的架構(gòu)下降低器件的功耗才能全面壓低功耗。
另一方面,操作系統(tǒng)和軟件正逐漸靠攏開(kāi)源,開(kāi)源也是造就流量增長(zhǎng)的功臣之一。正因?yàn)槊闇?zhǔn)的主要是Android的游戲和視頻市場(chǎng),因此在爆發(fā)式增長(zhǎng)的流量下,無(wú)需擴(kuò)充服務(wù)器,直接插獨(dú)立GPU卡對(duì)于節(jié)約成本具有非凡的意義。
軟件:oneAPI Gold正式登場(chǎng)
軟件和硬件誰(shuí)更重要?任何時(shí)候的答案都是“我都要”,特別是對(duì)電子工程師來(lái)說(shuō),軟件硬件兩手都要硬,產(chǎn)品亦如此,新發(fā)布的獨(dú)立GPU亦如此。
講起intel,oneAPI就是這家企業(yè)的一切的硬件的載體,也是intel不折不扣的“軍師”。事實(shí)上,oneAPI早在“SuperComputing 2019”時(shí)就已放出測(cè)試版。經(jīng)過(guò)無(wú)數(shù)的測(cè)試和功能完善,直到今天oneAPI Gold正式發(fā)布,并將于今年12月正式交付。
名為Gold的oneAPI實(shí)際上也是oneAPI的1.0的版本,這款軟件正是intel連接CPU、GPU、FPGA和其他加速器的“鑰匙”,是實(shí)現(xiàn)XPU必不可少的一環(huán)。就如intel的戰(zhàn)略“水利萬(wàn)物而不爭(zhēng)”一樣,oneAPI包容著一切的硬件。
軟件千千萬(wàn),oneAPI到底有什么不一樣?如果讓筆者首推,一定是其直接編程的優(yōu)秀開(kāi)發(fā)體驗(yàn),intel稱之為DPC++(Data ParallelC++),用一個(gè)等式簡(jiǎn)單解釋就是DPC++ =ISO C++ and Khronos SYCL。正因?yàn)檎Z(yǔ)法接近CUDA,所以在學(xué)習(xí)曲線上oneAPI是極簡(jiǎn)的,上手難度很低。
另一方面,intel的統(tǒng)一、簡(jiǎn)化架構(gòu)編程模型,開(kāi)發(fā)者可以借助oneAPI針對(duì)要解決的特定問(wèn)題選擇最佳加速器結(jié)構(gòu),且無(wú)需為此重寫代碼。intel對(duì)此的愿景是能夠提供毫不妥協(xié)的性能,不受限于單一廠商專用的代碼構(gòu)建,就能實(shí)現(xiàn)原有代碼的集成。
在深度學(xué)習(xí)加速(intel DL Boost)方面,不僅支持PyTorch、mxnet、sklearn、NumPy、XGBoost,最近也獲得了微軟Azure和TensorFlow的支持;眾多領(lǐng)先的研究機(jī)構(gòu)、公司和大學(xué)也支持oneAPI。
在工具方面,無(wú)論是應(yīng)對(duì)數(shù)據(jù)中心、IoT還是最新發(fā)布的獨(dú)立顯卡的渲染上,oneAPI都得心應(yīng)手。
發(fā)布會(huì)上,intel表示oneAPI Gold工具包將于12月在本地和intelDevCloud上免費(fèi)提供,同時(shí)還將提供包含intel技術(shù)咨詢工程師全球支持的商業(yè)版本。intel還會(huì)將intel Parallel Studio XE和intel System Studio工具套件遷移到oneAPI產(chǎn)品中。
另外,intel隱式SPMD程序編譯器(ISPC)將在oneAPI級(jí)別零之上運(yùn)行。oneAPI級(jí)別零是為XPU提供硬件抽象層的API的集合,由intel創(chuàng)建,提供了底層的直接到硬件的接口,以供客戶跨多種硬件平臺(tái)進(jìn)行編程。ISPC是oneAPI渲染工具包的已安裝基礎(chǔ)語(yǔ)言,該工具包支持大多數(shù)主流的視頻工作室基于至強(qiáng)處理器的渲染場(chǎng),并將支持基于Xe架構(gòu)的GPU。
筆者認(rèn)為,oneAPI Gold相比測(cè)試版已可以勝任XPU的艱巨任務(wù),從工具的遷移和GPU使用的渲染工具箱的加入,使得獨(dú)立GPU加入至強(qiáng)可擴(kuò)展處理器架構(gòu)中無(wú)需使用其他軟件。另一方面,oneAPI也是與硬件是相輔相成的,軟硬件的閉環(huán)系統(tǒng)成為intel堅(jiān)不可摧的生態(tài)。
左手一個(gè)硬件,右手一個(gè)軟件
intel的XPU宏圖
intel早前就已強(qiáng)調(diào),現(xiàn)在intel是忠于數(shù)據(jù),圍繞數(shù)據(jù)業(yè)務(wù)和客戶痛點(diǎn)而前行的一家公司。如果說(shuō)intel的“護(hù)城河”是 “六大技術(shù)支柱”(封裝&制程,架構(gòu)、內(nèi)存&存儲(chǔ)、互連、安全、軟件),那么“城池”便是XPU+oneAPI的超異構(gòu)計(jì)算。晶體管耦合設(shè)計(jì)轉(zhuǎn)向晶體管彈性設(shè)計(jì)、圍繞CPU到圍繞XPU、半導(dǎo)體硬件到半導(dǎo)體軟硬件,我們既是歷史的見(jiàn)證者也是創(chuàng)造者。筆者曾多次強(qiáng)調(diào),一整套的產(chǎn)品都放在同一軟硬件架構(gòu)下,無(wú)論從性能上來(lái)講,還是從穩(wěn)定性、適配性、更替性上來(lái)說(shuō),均具天生優(yōu)勢(shì)。
在數(shù)據(jù)中心的XPU選擇上,intel的不同級(jí)別定位產(chǎn)品,使得搭配更加豐富。從CPU上來(lái)說(shuō),intel的至強(qiáng)(XEON)可擴(kuò)展處理器,命名上也采用了更加符合主流、直觀易懂的“銅牌”、“銀牌”、“金牌”、“鉑金”的分級(jí)。
從FPGA上來(lái)講,擁有最高密度、高性能的Stratix,高性能、低功耗的Agilex,中端主流的Arria,低功耗、成本敏感的Cyclone,低成本、單芯片的MAX。
從獨(dú)立GPU上來(lái)講,intel仍然擁有這樣的定位,更加貼合不同應(yīng)用的需求。
● Xe-LP(低功耗):定位為PC和移動(dòng)平臺(tái)最高效架構(gòu),主要使用LPDDR再次進(jìn)行功耗的壓縮。目前已在8月發(fā)布Xe DG1,近期發(fā)布了第11代intel酷睿移動(dòng)處理器集成的銳炬®Xe顯卡和intel銳炬®Xe MAX獨(dú)立顯卡。
● Xe-HP:定位為數(shù)據(jù)中心級(jí)、機(jī)架級(jí)媒體性能架構(gòu),能夠提供GPU可擴(kuò)展性和AI優(yōu)化,Xe HP將于明年推出。涵蓋了從一個(gè)區(qū)塊(tile)到兩個(gè)和四個(gè)區(qū)塊的動(dòng)態(tài)范圍的計(jì)算,其功能類似于多核GPU。
● Xe-HPG:定位為專用于游戲優(yōu)化的微架構(gòu),技術(shù)參數(shù)上,添加了GDDR6的新內(nèi)存子系統(tǒng)提高性價(jià)比,支持光線追蹤。是利用Xe-HP的擴(kuò)展性,結(jié)合了Xe-LP的微架構(gòu)變體。Xe-HPG預(yù)計(jì)將于2021年開(kāi)始發(fā)貨。
● Xe-HPC:定位為數(shù)據(jù)中心,正在開(kāi)發(fā)之中。
從路線上來(lái)看,intel的獨(dú)立GPU遠(yuǎn)不止Xe-LP這種低功耗產(chǎn)品,將會(huì)從入門級(jí)顯卡擴(kuò)展到高性能計(jì)算,而實(shí)施這種策略的核心是所有系列產(chǎn)品能夠?qū)嵤┩惶状a庫(kù)。
包容這一切的毋庸置疑就是oneAPI,通過(guò)CPU+GPU+加速器+FPGA,便是標(biāo)量+矢量+矩陣+空間的全方位計(jì)算。
在摩爾定律日漸放緩的如今,其實(shí)摩爾所書寫的未來(lái)還沒(méi)有結(jié)束,XPU+oneAPI就將是最好的見(jiàn)證。