當前位置：首頁 > 消費電子 > 消費電子

給 AI 換個“大動力小心臟”之通用 CNN 加速設計

時間：2017-10-26 19:36:35

關鍵字： FPGA 控制電源技術解析

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]導語基于FPGA的通用CNN加速設計，可以大大縮短FPGA開發(fā)周期，支持業(yè)務深度學習算法快速迭代;提供與GPU相媲美的計算性能，但擁有相較于GPU數(shù)量級的延時優(yōu)勢，為業(yè)務構建最強

導語

基于FPGA的通用CNN加速設計，可以大大縮短FPGA開發(fā)周期，支持業(yè)務深度學習算法快速迭代;提供與GPU相媲美的計算性能，但擁有相較于GPU數(shù)量級的延時優(yōu)勢，為業(yè)務構建最強勁的實時AI服務能力。

WHEN?深度學習異構計算現(xiàn)狀

隨著互聯(lián)網(wǎng)用戶的快速增長，數(shù)據(jù)體量的急劇膨脹，數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時，人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領域的興起，對計算能力的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。

異構計算被認為是現(xiàn)階段解決此計算溝壑的關鍵技術，目前 “CPU+GPU”以及“CPU+FPGA” 是最受業(yè)界關注的異構計算平臺。它們具有比傳統(tǒng)CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場，科技行業(yè)大量企業(yè)投入了大量的資金和人力，異構編程的開發(fā)標準也在逐漸成熟，而主流的云服務商更是在積極布局。

WHY?通用CNN FPGA加速

業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AI inference加速，F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢?

Flexibility：可編程性天然適配正在快速演進的ML算法

DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹等等

任意精度動態(tài)支持

模型壓縮、稀疏網(wǎng)絡、更快更好的網(wǎng)絡

Performance：構建實時性AI服務能力

相較于GPU/CPU數(shù)量級提升的低延時預測能力

相較于GPU/CPU數(shù)量級提升的單瓦特性能能力

Scale

板卡間高速互聯(lián)IO

Intel CPU-FPGA構架

與此同時，F(xiàn)PGA的短板也非常的明顯，F(xiàn)PGA使用HDL硬件描述語言來進行開發(fā)，開發(fā)周期長，入門門檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例，針對一個模型進行定制的加速開發(fā)，往往需要數(shù)月的時間。業(yè)務方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速，十分痛苦。

一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時高性能服務，一方面需要FPGA的開發(fā)周期跟上深度學習算法的迭代周期，基于這兩點我們設計開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設計，以編譯器產生指令的方式來驅動模型加速，可以短時間內支持模型切換;同時，對于新興的深度學習算法，在此通用基礎版本上進行相關算子的快速開發(fā)迭代，模型加速開發(fā)時間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內。

HOW?通用CNN FPGA架構

基于FPGA的通用CNN加速器整體框架如下，通過Caffe/Tensorflow/Mxnet等框架訓練出來的CNN模型，通過編譯器的一系列優(yōu)化生成模型對應的指令;同時，圖片數(shù)據(jù)和模型權重數(shù)據(jù)按照優(yōu)化規(guī)則進行預處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅動工作，加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計算加速工作。每個功能模塊各自相對獨立，只對每一次單獨的模塊計算請求負責。加速器與深度學習模型相抽離，各個layer的數(shù)據(jù)依賴以及前后執(zhí)行關系均在指令集中進行控制。

簡單而言，編譯器的主要工作就是對模型結構進行分析優(yōu)化，然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導思想是：更高的MAC dsp計算效率以及更少的內存訪問需求。

接下來我們以Googlenet V1模型為例，對加速器的設計優(yōu)化思路做簡單的分析。Inception v1的網(wǎng)絡，將1x1、3x3、5x5的conv和3x3的pooling stack在一起，一方面增加了網(wǎng)絡的width，另一方面增加了網(wǎng)絡對尺度的適應性。下圖為模型中Inception的基本結構。

數(shù)據(jù)依賴關系分析

此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設計可以提高加速器中的計算單元利用率，并行化的計算可以在同一時刻利用盡量多的計算單元。

關于流水，分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水，通過此項優(yōu)化將內存訪問的時間overlap;DSP計算整列的計算控制過程，保證DSP利用率的提升。

關于并行，需要重點分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關系，如何確定好數(shù)據(jù)依賴關系以及防止沖突是此處設計關鍵。在Inception中，可以從其網(wǎng)絡結構中看到，branch a/b/c的1x1的卷積計算與branch d中的pooling是可以并行計算的，兩者之間并不存在數(shù)據(jù)依賴關系。通過此處優(yōu)化，3x3 max pooling layer的計算就可以被完全overlap。

模型優(yōu)化

在設計中主要考慮兩個方面：尋找模型結構優(yōu)化以及支持動態(tài)精度調整的定點化。

FPGA是支持大量計算并行的器件，從模型結構上尋找更高維度的并行性，對于計算效率以及減少內存訪問都十分有意義。在Inception V1中，我們可以看到branch a branch b branch c的第一層1x1卷積層，其輸入數(shù)據(jù)完全一致，且卷積layer的stride以及pad均一致。那我們是否可以在output feature map維度上對齊進行疊加?疊加后對input data的訪存需求就降低到了原來的1/3。

另一方面，為了充分發(fā)揮FPGA硬件加速的特性，模型的Inference過程需要對模型進行定點化操作。在fpga中，int8的性能可以做到int16的2倍，但是為了使公司內以及騰訊云上的客戶可以無感知的部署其訓練的浮點模型，而不需要retrain int8模型來控制精度損失，我們采用了支持動態(tài)精度調整的定點化int16方案。通過此種方法，用戶訓練好的模型可以直接通過編譯器進行部署，而幾乎無任何精度損失。

內存架構設計

帶寬問題始終是計算機體系結構中制約性能的瓶頸之一，同時內存訪問直接影響加速器件功耗效率。

為了最大化的減少模型計算過程中的DDR訪存，我們設計了如下的內存架構：

Input buff以及output buffer ping-pong設計，最大化流水以及并行能力

支持Input buff和output buffer自身之間的inner-copy操作

Input buff和output buffer之間的cross-copy操作

通過這種架構，對于大多數(shù)目前主流模型，加速器可以做到將中間數(shù)據(jù)全部hold在FPGA片上，除了模型權重的加載外，中間無需消耗任何額外的內存操作。對于無法將中間層feature map完全存儲在片上的模型，我們在設計上，在Channel維度上引入了slice分片的概念，在feature map維度上引入了part分片的概念。通過編譯器將一次卷積或是poolingNorm操作進行合理的拆分，將DDR訪存操作與FPGA加速計算進行流水化操作，在優(yōu)先保證DSP計算效率的前提下盡量減少了DDR的訪存需求。

計算單元設計

基于FPGA的通用CNN加速器的核心是其計算單元，本加速器當前版本基于Xilinx Ku115芯片設計，PE計算單元由4096個工作在500MHz的MAC dsp核心構成，理論峰值計算能力4Tflops。其基本組織框架如下圖所示。

KU115芯片由兩個DIE對堆疊而成，加速器平行放置了兩組處理單元PE。每個PE由4組32x16=512的MAC計算DSP核心組成的XBAR構成，設計的關鍵在于提升設計中的數(shù)據(jù)復用降低帶寬，實現(xiàn)模型權重復用和各layer feature map的復用，提升計算效率。

應用場景及性能對比

當前深度學習主流使用GPU做深度學習中的Training過程，而線上Inference部署時需綜合考慮實時性、低成本以及低功耗特性選擇加速平臺。按深度學習落地場景分類，廣告推薦、語音識別、圖片/視頻內容實時監(jiān)測等屬于實時性AI服務以及智慧交通、智能音箱以及無人駕駛等終端實時低功耗的場景，F(xiàn)PGA相較于GPU能夠為業(yè)務提供強有力的實時高性能的支撐。

對于使用者而言，平臺性能、開發(fā)周期以及易用性究竟如何呢?

加速性能

以實際googlenet v1模型為例，CPU測試環(huán)境：2個6核CPU(E5-2620v3)，64G內存。

將整機CPU打滿，單張基于KU115的加速器相較于CPU性能提升16倍，單張圖片檢測延時從250ms降低到4ms，TCO成本降低90%。

同時，F(xiàn)PGA預測性能略強于Nvidia的GPU P4，但延時上有一個數(shù)量級的優(yōu)化。

開發(fā)周期

通用的CNN FPGA加速架構，能夠支持業(yè)務快速迭代持續(xù)演進中的深度學習模型，包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。

對于經(jīng)典模型以及基于標準layer自研的算法變種，現(xiàn)有加速架構已經(jīng)可以支持，可以在一天內通過編譯器實現(xiàn)模型對應指令集，實現(xiàn)部署上線。

對于自研的特殊模型，例如不對稱卷積算子和不對稱pooling操作等，需要根據(jù)實際模型結構在本平臺上進行相關算子迭代開發(fā)，開發(fā)周期可縮短在一到兩周之內進行支持。

易用性

FPGA CNN加速器對底層加速過程進行封裝，向上對加速平臺的業(yè)務方提供易用SDK。業(yè)務方調用簡單的API函數(shù)即可完成加速操作，對業(yè)務自身邏輯幾乎無任何改動。

結語

基于FPGA的通用CNN加速設計，可以大大縮短FPGA開發(fā)周期，支持業(yè)務深度學習算法快速迭代;提供與GPU相媲美的計算性能，但擁有相較于GPU數(shù)量級的延時優(yōu)勢。通用的RNN/DNN平臺正在緊張研發(fā)過程中，F(xiàn)PGA加速器為業(yè)務構建最強勁的實時AI服務能力。

在云端，2017年初，我們在騰訊云首發(fā)了國內第一臺FPGA公有云服務器，我們將會逐步把基礎AI加速能力推出到公有云上。

AI異構加速的戰(zhàn)場很大很精彩，為公司內及云上業(yè)務提供最優(yōu)的解決方案是架平FPGA團隊持續(xù)努力的方向。

如果線上模型需要改動，只需調用模型初始化函數(shù)，將對應的模型指令集初始化FPGA即可，加速業(yè)務可以在幾秒內進行切換。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]