1492年哥倫布從西班牙巴羅斯港出發(fā),一路西行發(fā)現(xiàn)了美洲。葡萄牙人達伽馬南下非洲,繞過好望角到達了印度。不久之后,麥哲倫用了整整三年時間,完成了人類史上第一次環(huán)球航行,開啟了人類歷史上的大航海時代。大航海時代的到來,拉近了人類社會各文明之間的距離,對人類社會產(chǎn)生了深遠的影響。
人工智能進入“大航海時代”
從深藍到Alpha?Go,人工智能逐漸走進人們的生活。人工智能也從一場技術(shù)革命,逐漸走向了產(chǎn)業(yè)落地。智能手機、智能家居設(shè)備、智能音箱……等設(shè)備,已經(jīng)完全進入到人們的生活中。指紋識別、人臉識別、畫面增強等實用人工智能的技術(shù),也成為了人們?nèi)粘J褂秒娮釉O(shè)備必不可少的技術(shù)。
這些在我們?nèi)粘I钪小耙姽植还帧钡娜斯ぶ悄芗夹g(shù)越來越普遍,代表了人工智能產(chǎn)業(yè)在近年來的爆炸式發(fā)展,2018年更是被稱為人工智能技術(shù)規(guī)模應用的拐點。而作為人工智能技術(shù)的核心,人工智能芯片也備受關(guān)注,引得國內(nèi)外科技巨頭紛紛布局。谷歌、蘋果、微軟、Facebook、英特爾、高通、英偉達、AMD、阿里巴巴等巨頭紛紛開始自主研發(fā)人工智能芯片。
國產(chǎn)寒武紀芯片
并且人工智能芯片的應用場景細分市場越來越多,專門為某些人工智能應用場景定制的芯片適用性明顯高于通用芯片。這樣的形勢,給一些人工智能芯片的初創(chuàng)公司帶來了機會。寒武紀芯片和地平線的人工智能視覺芯片、自動駕駛芯片等,就是初創(chuàng)公司在人工智能芯片領(lǐng)域取得成功的代表。
人工智能芯片大火的同時,已經(jīng)呈現(xiàn)出三分天下的態(tài)勢。FPGA、GPU和TPU芯片,已經(jīng)在人工智能領(lǐng)域大規(guī)模應用。這三種人工智能芯片有何不同?人工智能企業(yè)又是怎樣看待這三種芯片的?下文將為您詳述。
FPGA并不是新鮮的事物,而因為AI的火熱的應用需求不斷增強,F(xiàn)PGA正是作為一種AI芯片呈現(xiàn)在人們的面前。準確的說,不僅僅是芯片,因為它能夠通過軟件的方式定義,所以,更像是AI芯片領(lǐng)域的變形金剛。
FPGA是現(xiàn)場可編程邏輯陣列的首字母縮寫,即Field-Programmable?Gate?Array。過去曾與可編程邏輯器件CPLD進行過較量,如今已經(jīng)在PAL、GAL、CPLD等可程式邏輯裝置的基礎(chǔ)上進一步發(fā)展,成為英特爾進軍AI市場的一個重要法寶。
全球FPGA市場的年均增長率會達到7%(圖片來自:gartner.com)
為了更好地了解FPGA和其對AI芯片的未來看法,ZOL企業(yè)站對英特爾可編程解決方案事業(yè)部亞太區(qū)市場拓展經(jīng)理劉斌(Robin?Liu)進行了書面采訪。面對目前市場上出現(xiàn)的,CPU、GPU、FPGA、TPU等多種技術(shù)處理方式,英特爾又有哪些判斷。
FPGA三大特點
劉斌表示:“實際上今天絕大多數(shù)人工智能系統(tǒng)是部署在通用處理器上的,原因是在很多應用領(lǐng)域中人工智能部分只是完成某個環(huán)節(jié)的系統(tǒng)任務,還有大量其它任務一起構(gòu)成系統(tǒng)處理的完整單元?!痹诖嘶A(chǔ)上,出現(xiàn)了很多種選項,比如FPGA、TPU2或者NNP等專用處理器。這種專用處理器,往往向深度學習和神經(jīng)網(wǎng)絡領(lǐng)域延伸,擁有更高效的存儲器訪問調(diào)度結(jié)構(gòu)。
FPGA具有很強的靈活性(圖片來自:ruggedpcreview.com)
FPGA被稱為大型數(shù)據(jù)中心和計算機群眾的“加速多面手”也有其技術(shù)生態(tài)背景。FPGA的開發(fā)社區(qū)規(guī)模相對較小,也具有一定的門檻,但是,F(xiàn)PGA具備良好的存儲器訪問能力,并且可以非常靈活高效的處理各種不同位寬的數(shù)據(jù)類型,其有效計算力接近專用處理器的水平,F(xiàn)PGA還可以在線重編程成為其它非人工智能任務的硬件加速器,這也是其有別于GPU和TPU的關(guān)鍵因素。
具體而言有三大特點:FPGA器件家族的廣泛覆蓋可以適配從云到端的應用需求;FPGA具有處理時延小并且時延可控的特點,更適合某些實時性要求高的業(yè)務場景;FPGA可以靈活處理不同的數(shù)據(jù)位寬,使得系統(tǒng)可以在計算精度、計算力、成本和功耗上進行折衷和優(yōu)化,更適合某些制約因素非常嚴格的工程化應用。相比于ASIC則FPGA更加靈活,可以適配的市場領(lǐng)域更加廣泛。
自定義功能芯片
以微軟為例,在微軟必應搜索業(yè)務和Azure云計算服務中,均應用了英特爾FPGA技術(shù),在其發(fā)布的“腦波項目”(Project?Brainwave)中特別闡述了英特爾FPGA技術(shù)如何幫助Azure云和必應搜索取得“實時人工智能”(real-time?AI)的效果。
英特爾?FPGA?支持必應快速處理網(wǎng)頁中的數(shù)百萬篇文章,從而為您提供基于上下文的答案。借助機器學習和閱讀理解,必應?現(xiàn)在可提供智能答案,幫助用戶更快速找到所需答案,而非手動點擊各個鏈接結(jié)果。在微軟腦波計劃中,同樣選擇了英特爾現(xiàn)場可編程門陣列的計算芯片,以具有競爭力的成本和業(yè)界最低延遲進行人工智能計算。
如果說在AI芯片領(lǐng)域各家有各家的拿手絕學,那么身為“變形金剛”FPGA的拿手絕學就是自定義功能了。作為特殊應用積體電路領(lǐng)域中的一種半定制電路的FPGA,既解決了全定制電路的不足,又克服了原有可編程邏輯器件門電路數(shù)有限的缺點。也就是說,盡管FPGA不是輻射范圍最廣的,但是一旦匹配后,輸出驚人,所以也是良好的芯片選擇。
不止FPGA
隨著人工智能的發(fā)展,芯片的設(shè)計不僅要能夠滿足人工智能對計算力的需求,還要能夠適應不斷變化的產(chǎn)業(yè)需要。在不同的應用領(lǐng)域和不同的位置,前端還是數(shù)據(jù)中心,甚至邊緣計算等應用場景。劉斌表示:一種芯片是沒辦法解決所有問題的。從移動設(shè)備,到服務器,再到云服務、機器學習和人工智能的加速,需要不同種類的技術(shù)支持,需要能夠支持從毫瓦級到千瓦級的多種架構(gòu)。
在英特爾人工智能領(lǐng)域,除了FPGA之外,還提供了ASIC方案下的NNP神經(jīng)網(wǎng)絡計算加速器、Movidius專注前端智能攝像頭領(lǐng)域和Mobieye加速芯片,在無人車領(lǐng)域做視覺相關(guān)的物體、道路、異常情況的監(jiān)測。
過去30多年,摩爾定律幾乎每年都會推動微處理器的性能提升50%,而半導體的物理學限制卻讓其放慢了腳步。如今,CPU的性能每年只能提升10%左右。事實上,英偉達CEO黃仁勛在每年的GTC上都會提到同一件事——摩爾定律失靈了。也就是說,人們要獲得更強的計算力,需要花費更多的成本。與此同時,GPU的崛起速度令人咂舌,看看英偉達近兩年的股價就知道了。
隨著人工智能、深度學習等技術(shù)的興起與成熟,起初為圖像渲染而生的GPU找到了新的用武之地,以GPU驅(qū)動的計算環(huán)境隨處可見,從HPC到AI訓練。站在數(shù)字世界、高性能計算、人工智能的交叉口,GPU悄然成為了計算機的大腦。將性能從10倍提升至100倍,GPU的加速能力遠超以X86架構(gòu)構(gòu)建的CPU系統(tǒng),將時間壓縮至分鐘級別,功耗也相對較低。
2006年,借助CUDA(Compute?Unified?Device?Architecture,通用計算架構(gòu))和Tesla?GPU平臺,英偉達將通用型計算帶入了GPU并行處理時代,這也為其在HPC領(lǐng)域的應用奠定了基礎(chǔ)。作為并行處理器,GPU擅長處理大量相似的數(shù)據(jù),可以將任務分解為數(shù)百或數(shù)千塊同時處理,而傳統(tǒng)CPU則是為串行任務所設(shè)計,在X86架構(gòu)下進行多核編程是很困難的,并且從單核到四核、再到16核有時會導致邊際性能增益。同時,內(nèi)存帶寬也會成為進一步提高性能的瓶頸。
與以往的通用算法相比,深度學習對計算性能的要求則到了另一個量級上。盡管在GPU中運行并行核心時處理的應用數(shù)量相同,但在系統(tǒng)中單個內(nèi)核的使用效率卻更高。此外,經(jīng)過重寫的并行函數(shù)在應用程序關(guān)鍵部分運行時,在GPU上跑的速度更快。
更重要的是,英偉達在利用GPU構(gòu)建訓練環(huán)境時還考慮到了生態(tài)的重要性,這也是一直以來困擾人工智能發(fā)展的難題。首先,英偉達的NVIDIA?GPU?Cloud上線了AWS、阿里云等云平臺,觸及到了更多云平臺上的開發(fā)者,預集成的高性能AI容器包括TensorFlow、PyTorch、MXNet等主流DL框架,降低了開發(fā)門檻、確保了多平臺的兼容性。
其次,英偉達也與研究機構(gòu)、大學院校,以及向Facebook、YouTube這樣的科技巨頭合作,部署GPU服務器的數(shù)據(jù)中心。同時,還為全球數(shù)千家創(chuàng)業(yè)公司推出了IncepTIon項目,除了提供技術(shù)和營銷的支持,還會幫助這些公司在進入不同國家或地區(qū)的市場時,尋找潛在的投資機會。
可以說,英偉達之于GPU領(lǐng)域的成功除了歸功于Tesla加速器、NVIDIA?DGX、NVIDIA?HGX-2這些專屬的工作站或云服務器平臺,更依托于構(gòu)建了完整的產(chǎn)業(yè)鏈通路,讓新技術(shù)和產(chǎn)品有的放矢,從而形成了自己的生態(tài)圈,這也是英特爾難以去打破的。
在不久前舉行的谷歌I/O?2018開發(fā)者大會上,TPU3.0正式亮相。根據(jù)官方介紹,TPU3.0的計算能力最高可達100PFlops,是TPU2.0的8倍多。TPU的英文全名是Tensor?Processor?Unit,它是谷歌自主研發(fā)的針對深度學習加速的專用人工智能芯片。TPU是專為谷歌深度學習框架TensorFlow設(shè)計的人工智能芯片。著名的AlphaGo使用的就是TPU2.0芯片。