當前位置：首頁 > 嵌入式 > 嵌入式動態(tài)

英特爾和英偉達如何應對AlphaGo來襲、谷歌TPU芯片發(fā)力？

時間：2017-05-24 22:38:46

關鍵字： tpu 英偉達英特爾行業(yè)資訊

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]日前，去年擊敗世界圍棋第一人李世石，由DeepMind(已被谷歌收購)開發(fā)的圍棋AI—AlphaGo，已移師中國，再戰(zhàn)目前等級分排名世界第一的中國棋手柯潔九段，且率先拿下一局

日前，去年擊敗世界圍棋第一人李世石，由DeepMind(已被谷歌收購)開發(fā)的圍棋AI—AlphaGo，已移師中國，再戰(zhàn)目前等級分排名世界第一的中國棋手柯潔九段，且率先拿下一局暫時領先的消息再次引發(fā)了業(yè)內的高度關注。

那么問題來了，AlphaGo緣何如此“聰明”和超乎人類的思考和反應能力?

就在AlphaGo與柯潔“人機大戰(zhàn)”不久前，Google I/O 2017 大會上，谷歌“移動為先”向“AI優(yōu)先”再次升級，其中最典型的表現之一就是更新升級了去年公布的TPU(Tensor Processing Unit)，一款谷歌自己高度定制化的AI(針對AI算法，例如其自己開發(fā)的Tensor Flow深度學習架構)芯片。

這款芯片也是AlphaGo背后的功臣，即AlphaGo能以超人的熟練度下圍棋都要靠訓練神經網絡來完成，而這又需要計算能力(硬件越強大，得到的結果越快)，TPU就充當了這個角色，更重要的是借此顯現出了在AI芯片領域相對于英特爾CPU和英偉達GPU的優(yōu)勢。何以見得?

在去年的“人機大戰(zhàn)”中，起初AlphaGo的硬件平臺采用的是CPU+GPU，即AlphaGo的完整版本使用了40個搜索線程，運行在48塊CPU和8塊GPU上，AlphaGo的分布式版本則利用了更多的芯片，40個搜索線程運行在1202塊CPU和176塊GPU上。

這個配置是和當時樊麾比賽時使用的，所以當時李世石看到AlphaGo與樊麾的對弈過程后，對“人機大戰(zhàn)”很有信心。但是就在短短幾個月時間內，谷歌就把運行AlphaGo的硬件平臺切換到了TPU上，之后對戰(zhàn)的結果是AlphaGo以絕對優(yōu)勢擊敗了李世石。也就是說，采用TPU之后的AlphaGo的運算速度和反應更快。那么究竟TPU與CPU和GPU相比，到底有多大的優(yōu)勢(例如性能和功耗)?

據谷歌披露的相關文件顯示，其TPU與服務器級的英特爾Haswell CPU和英偉達K80 GPU進行比較，這些硬件都在同一時期部署在同個數據中心。測試負載為基于TensorFlow框架的高級描述，應用于實際產品的NN應用程序(MLP，CNN和LSTM)，這些應用代表了數據中心承載的95%的NN推理需求。

盡管在一些應用上利用率很低，但TPU平均比當前的GPU或CPU快15～30倍，性能功耗比(TOPS/Watt)高出約30～80倍。此外，在TPU中采用GPU常用的GDDR5存儲器能使性能TPOS指標再高3倍，并將能效比指標TOPS/Watt提高到GPU的70倍，CPU的200倍。

盡管英偉達對于上述的測試表示了異議，但TPU相對于CPU和GPU存在的性能功耗比的優(yōu)勢(不僅體現在AI，還有數據中心)已經成為業(yè)內的共識。值得一提的是，在剛剛舉辦Google I/O 2017 大會上發(fā)布的新一代TPU已經達到每秒180萬億次的浮點運算性能，超過了英偉達剛剛推出的GPU Tesla2 V100每秒120萬億次浮點運算性能。那么是什么造就TPU的優(yōu)勢?

簡單來說，CPU是基于完全通用的訴求，實現的通用處理架構。GPU則主要基于圖像處理的訴求，降低了一部分通用性，并針對核心邏輯做了一定的優(yōu)化，是一款準通用的處理架構，以犧牲通用性為代價，在特定場合擁有比CPU快得多的處理效率。

而TPU，則針對更明確的目標和處理邏輯，進行更直接的硬件優(yōu)化，以徹底犧牲通用性為代價，獲得在特定場合和應用的極端效率，也就是俗話所言的“萬能工具的效率永遠比不上專用工具”。而這正好迎合了當下諸多炙手可熱的人工智能的訓練和推理等均需要大量、快速的數據運算的需求。

到目前為止，谷歌的TPU已經應用在各種領域的應用中，例如谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)、谷歌云視覺API(Google Cloud Vision API)、谷歌翻譯以及AlphaGo的圍棋系統(tǒng)中。實際上我們上述提到的Google I/O 2017大會推出和更新的諸多AI產品和服務背后均有TPU的硬件支持。

當然，我們在此并非否認CPU和GPU在AI中的作用，例如鑒于CPU的通用性，其靈活性最大，不僅可以運行各種各樣的程序，也包括使用各種軟件庫的深度學習網絡執(zhí)行的學習和推理。GPU雖然不像 CPU那樣通用和靈活，但它在深度學習計算方面更好，因為它能夠執(zhí)行學習和推理，并且不局限于單個的軟件庫。相比之下，TPU則幾乎沒有靈活性，并且只能在自家的TensorFlow中效率最高，這也是為何谷歌對外聲稱TPU不對外銷售，且仍會繼續(xù)采用CPU和GPU。

但谷歌的這一做法印證了一個芯片產業(yè)的發(fā)展趨勢，即在AI負載和應用所占數據中心比重越來越大的今天和未來，像谷歌、微軟、Facebook、亞馬遜、阿里巴巴、騰訊等這些數據中心芯片采購的大戶，其之前對于CPU和GPU的通用性需求可能會越來越少，而針對AI開發(fā)應用的兼顧性能和能效的定制化芯片需求則會越來越多。

而作為通用芯片廠商的英特爾和英偉達，如何順應芯片產業(yè)在AI驅動下的發(fā)展趨勢，則關系著其在AI時代到來之時，其能否繼續(xù)滿足客戶的需求和引領產業(yè)的發(fā)展。或許，應該特爾和英偉達都應該未雨綢繆。