英特爾決心全力發(fā)展AI,明年現有的Xeon E5、Xeon Phi處理器平臺都將推出新一代產品,并將以Xeon搭配新開發(fā)的「Lake Crest」芯片,專攻類神經網絡的加速應用
【英特爾AI應用主打4種服務器處理器】若要在數據中心環(huán)境當中建構AI系統(tǒng),英特爾預計將提供4種運算平臺:Xeon、Xeon Phi、Xeon搭配FPGA(Arria 10)、Xeon搭配Nervana(Lake Crest),分別主打基本用途、高效能、低延遲與可程序化、類神經網絡加速等不同需求。圖片來源:iThome
這一年來,除了云端服務、大數據、行動應用持續(xù)走紅以外,人工智能(AI)無疑是下一個即將起飛的熱門IT技術,許多人已經開始積極投入機器學習、深度學習的開發(fā)與應用,繪圖處理器大廠Nvidia今年的營收、獲利、股價持續(xù)上漲,也與此有關,而同樣是處理器大廠的英特爾,現在也對AI的發(fā)展寄予厚望,并正式宣布調整以AI為重的策略,全力發(fā)展軟硬件技術,以支持相關的發(fā)展。
在11月18日舉行的「Intel AI Day」活動當中,英特爾執(zhí)行長Brian Krzanich提出了他們的愿景,并期盼能推動AI普及,將AI變得更平民化,進而引領AI運算時代的來臨,使英特爾能夠成為加速AI發(fā)展的催化劑。
而就更實際的產品而言,英特爾在服務器端處理器平臺上,也針對AI有所布局。在2017年,現有的Xeon E5、Xeon Phi處理器平臺都將推出新一代產品,同時,除了以Xeon搭配FPGA(Field Programmable Gate Array)芯片Altera Arria 10之外,英特爾也將以Xeon搭配新開發(fā)的「Lake Crest」芯片,專攻類神經網絡的加速應用。
值得注意的是,Lake Crest的形式是一張基于硅芯片的獨立加速卡,技術源自于英特爾今年8月并購的新創(chuàng)公司Nervana Systems,該產品將于2017年第一季問世。之后,英特爾還將推出Xeon結合這種新型態(tài)加速AI處理機制的芯片,研發(fā)代號稱為「Knights Crest」,屆時,采用這顆芯片的服務器直接具有系統(tǒng)開機的能力,無需搭配Xeon處理器。
英特爾AI服務器平臺的發(fā)布時程
在2016這一年,英特爾已經推出了FPGA的系統(tǒng)單芯片解決方案Arria 10,以及Xeon Phi x200系列(Knights Landing)。2017年他們將發(fā)表新的Xeon Phi(Knights Mill),以及深度學習專用的運算芯片Lake Crest,而在通用服務器級處理器Xeon系列,基于Skylake微架構的產品也將問世。
強化平行處理與向量處理性能,Xeon與Xeon Phi支持新指令集英特爾在2017年即將推出的服務器產品,還包括采用Skylake微架構的新一代Xeon處理器,以及Xeon Phi(代號為Knights Mill)。
以現行的Xeon E5-2600 v4系列處理器而言,根據英特爾提供的效能測試數據,若執(zhí)行大數據與AI領域經常會運用的Apache Spark軟件環(huán)境,效能提升的幅度,可望達到18倍之高(以今年推出的Xeon E5-2699 v4搭配MKL 2017 Update 1鏈接庫,對上Xeon E5-2697 v2搭配F2jBLAS鏈接庫)。
英特爾表示,在初期出貨給特定云端服務業(yè)者的「Skylake」Xeon處理器版本(preliminary version)當中,將會加入更多整合式加速運算的進階特色。例如,新的進階向量延伸指令集AVX-512,可針對機器學習類型工作負載的執(zhí)行,提升相關的推理論斷能力。至于Xeon新平臺其他增益的功能與組態(tài)支持,預計將會在2017年中正式發(fā)布時,才會揭露。
若單看AVX-512這套指令集,目前只有今年6月推出的Xeon Phi x200系列處理器(Knights Landing)支持,接下來,英特爾的主力通用服務器平臺Xeon處理器,會在下一代采用Skylake微架構的產品當中支持。
因此,就目前而言,英特爾現有處理器所支持的AVX指令集,總共可分為三代:Sandy Bridge和Ivy Bridge微架構處理器,內建的是第一代AVX,Haswell和Broadwell微架構處理器改為AVX2,而Skylake微架構和Knights Landing是采用AVX512?;旧?,前兩代的AVX指令集,都是基于128位SIMD緩存器,可延伸到256位。
至于Xeon Phi的下一代產品 「Knights Mill」,英特爾表示,會把深度學習的應用效能,提升到現有Xeon Phi處理器(7290)的4倍,并同樣具備直接內存訪問(Direct Memory Access)的能力——最高可存取到400GB(Knights Landing是以384GB的DDR4內存,搭配16GB的MCDRAM)。
同時,在橫向擴展到32節(jié)點的系統(tǒng)環(huán)境當中,目前的Xeon Phi也已經能大幅縮短機器學習的訓練時間,成效差距可達到31倍之大。