“非著名”中國(guó)AI初創(chuàng)公司,獲全球頂級(jí)學(xué)術(shù)大會(huì)唯一最佳論文
世界頂級(jí)FPGA會(huì)議——FPGA2017在落幕之時(shí)傳來(lái)消息:來(lái)自中國(guó)的初創(chuàng)公司深鑒科技的ESE語(yǔ)音識(shí)別引擎的論文獲得了本次會(huì)議唯一的最佳論文(Best Paper Award)。
FPGA2017 最佳論文證書
作為FPGA領(lǐng)域最具影響力、歷史最悠久的學(xué)術(shù)會(huì)議,F(xiàn)PGA國(guó)際大會(huì)始終引領(lǐng)著整個(gè)FPGA工業(yè)界的技術(shù)創(chuàng)新。
在深度學(xué)習(xí)浪潮席卷全球的今天,F(xiàn)PGA 2017特別增設(shè)了一個(gè)環(huán)節(jié):The Role of FPGAs in Machine Learning(FPGA在機(jī)器學(xué)習(xí)領(lǐng)域所扮演的角色),并邀請(qǐng)了兩家公司,英特爾與深鑒科技,共同致會(huì)議Tutorial。成立不足一年,深鑒科技已得到FPGA學(xué)術(shù)界的高度認(rèn)可。
FPGA(現(xiàn)場(chǎng)可編程門陣列,F(xiàn)ield-Programmable Gate Array)。簡(jiǎn)而言之,這是一種程序驅(qū)動(dòng)邏輯器件,就像一個(gè)微處理器,其控制程序存儲(chǔ)在內(nèi)存中,加電后,程序自動(dòng)裝載到芯片執(zhí)行。
相比CPU和GPU,F(xiàn)PGA憑借比特級(jí)細(xì)粒度定制的結(jié)構(gòu)、流水線并行計(jì)算的能力和高效的能耗,在深度學(xué)習(xí)應(yīng)用中展現(xiàn)出獨(dú)特的優(yōu)勢(shì),在大規(guī)模服務(wù)器部署或資源受限的嵌入式應(yīng)用方面有巨大潛力。此外,F(xiàn)PGA架構(gòu)靈活,使得研究者能夠在諸如GPU的固定架構(gòu)之外進(jìn)行模型優(yōu)化探究。
深鑒科技開發(fā)的“雨燕”深度學(xué)習(xí)處理平臺(tái)
去年5月,DT君作為首家媒體,對(duì)剛成立不久的深鑒科技進(jìn)行了專題報(bào)道。創(chuàng)始人兼CEO姚頌表示,現(xiàn)在有很多公司在做各種各樣的算法,包括ADAS(高級(jí)駕駛輔助系統(tǒng))或者機(jī)器人等應(yīng)用,因?yàn)樗惴ㄊ亲羁斓那腥敕绞健?/p>
但算法最終要落地,無(wú)論是在CPU上運(yùn)行,還是在GPU上運(yùn)行,都會(huì)受限于性能、功耗和成本等因素。深鑒科技的產(chǎn)品將以ASIC級(jí)別的功耗,來(lái)達(dá)到優(yōu)于GPU的性能,可把它稱作“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU)。
深鑒科技首席科學(xué)家韓松在大會(huì)做關(guān)于高效深度學(xué)習(xí)的Tutorial
在本次FPGA大會(huì)的演講中,深鑒科技首席科學(xué)家韓松從算法、硬件、訓(xùn)練、推理四個(gè)維度,對(duì)于深度學(xué)習(xí)算法的訓(xùn)練與應(yīng)用兩方面如何變得更加高效進(jìn)行了闡述。韓松提出的“先壓縮、再加速”的深度學(xué)習(xí)推理方案,比“訓(xùn)完即用”的推理方案更快、更節(jié)約功耗。
上圖:傳統(tǒng)的“訓(xùn)完即用”的機(jī)器學(xué)習(xí)推理方案;下圖:韓松提出的“先壓縮、再加速”的機(jī)器學(xué)習(xí)推理方案
在本次會(huì)議上,深鑒科技的論文《ESE: Efficient Speech Recognition Engine withSparse LSTM on FPGA》得到錄用并最終被評(píng)選為本次大會(huì)的唯一最佳論文。該項(xiàng)工作聚焦于使用LSTM進(jìn)行語(yǔ)音識(shí)別的場(chǎng)景,結(jié)合深度壓縮以及專用處理器架構(gòu),使得經(jīng)過壓縮的網(wǎng)絡(luò)和未經(jīng)壓縮的網(wǎng)絡(luò)相比實(shí)現(xiàn)6倍的性能提升。本文所描述的ESE語(yǔ)音識(shí)別引擎也是深鑒科技RNN處理器產(chǎn)品的原型。
最佳論文頒獎(jiǎng)
更為難得的是,此篇論文不僅僅停留在仿真與模擬結(jié)果階段,而是落在了實(shí)實(shí)在在的演示系統(tǒng)上。
會(huì)場(chǎng)外,基于ESE語(yǔ)音識(shí)別引擎的深鑒語(yǔ)音識(shí)別平臺(tái)進(jìn)行了現(xiàn)場(chǎng)展示,得到了參會(huì)教授與工業(yè)界人士的極大關(guān)注——使用Xilinx KU060 FPGA與NVIDIA GTX 1080 GPU運(yùn)行一個(gè)實(shí)際應(yīng)用的LSTM現(xiàn)場(chǎng)對(duì)比,深鑒FPGA方案穩(wěn)定的保持了超過GPU六倍以上的性能。
這就意味著,處理相同的語(yǔ)音識(shí)別任務(wù),處理延遲大大降低,用戶體驗(yàn)?zāi)苡忻黠@的提升。測(cè)試結(jié)果表明,深鑒能夠基于業(yè)界領(lǐng)先的商用的語(yǔ)音識(shí)別算法模型與數(shù)據(jù),實(shí)現(xiàn)模型壓縮,提升硬件性能。
深鑒科技CTO單羿(左圖)與CEO姚頌(右圖)現(xiàn)場(chǎng)向與會(huì)專家展示深鑒語(yǔ)音識(shí)別平臺(tái)
深鑒科技雖成立于2016年3月,但早在2013年,來(lái)自清華大學(xué)和斯坦福大學(xué)的幾位公司創(chuàng)始人就開始了深度學(xué)習(xí)相關(guān)的學(xué)術(shù)研究。
2015年深度學(xué)習(xí)頂級(jí)會(huì)議NIPS上,斯坦福大學(xué)在讀博士、深鑒科技首席科學(xué)家韓松提出利用剪枝和權(quán)重共享的方式對(duì)目前的深度神經(jīng)網(wǎng)絡(luò)在不損失網(wǎng)絡(luò)精度的前提下大幅度降低計(jì)算和存儲(chǔ)資源消耗。
公司技術(shù)團(tuán)隊(duì)聚焦于稀疏化神經(jīng)網(wǎng)絡(luò)處理的技術(shù)路線,提出的“深度壓縮”(Deep Compression)算法可以將模型尺寸壓縮數(shù)十倍大小而不損失預(yù)測(cè)精度,并結(jié)合專用的深度學(xué)習(xí)處理架構(gòu)來(lái)實(shí)現(xiàn)加速。
ICLR 2016和FPGA 2017兩篇最佳論文的獲獎(jiǎng),再次證明了這家中國(guó)技術(shù)型初創(chuàng)公司所聚焦的稀疏化技術(shù)路線,已越來(lái)越得到深度學(xué)習(xí)界的認(rèn)可。