AI的發(fā)展正在從云端走向終端,未來無論是智能手機、汽車、無人機、機器人都將增加更多的AI功能。市場的需求吸引了越來越多AI芯片公司的加入,在終端AI芯片公司不斷推出更高算力芯片的時候,可以發(fā)現他們的硬件各有長處但很相似,這是否意味著軟件才是終端AI芯片獲勝的關鍵?
終端AI芯片的硬件比拼
根據J.P. Morgan的預測,2018年到2022年,全球半導體市場的復合年均增長率(CAGR)將為5-6%,而同期AI半導體市場的復合年均增長率將高達59%。這其中的增長應該很大一部分源于終端設備,包括手機、自動駕駛汽車、無人機、機器人等智能設備對低延遲、低功耗、低成本、高可靠性、高安全性人工智能的需求。因此,來自視覺、語音等應用促使等越來越多的公司開始設計通用的AI芯片,并進一步促使半導體IP提供商推出AI處理器IP。
以CEVA今年推出的用于前端設備深度學習的AI處理器IP NeuPro為例,該處理器由NeuPro引擎和NeuPro VPU組成。NeuPro引擎包括神經網絡層的硬件實現,其中包括卷積、全連通、池化和激活。NeuPro VPU是可編程矢量DSP,用于處理CDNN軟件,同時為AI負載的新進展提供基于軟件的支持。
據悉,NeuPro支持8位和16位神經網絡,MAC單元在運行時的利用率達90%以上,整體處理器的設計大幅降低了DDR帶寬,功耗得以改善。另外,NeuPro還可以與CEVA-XM4或CEVA-XM6視覺平臺相結合,使圖像處理、計算機視覺和神經網絡的處理能有靈活的選擇。
當然,為了滿足不用設備對AI性能的需求,NeuPro系列處理器可以提供2TOPS到12.5TOPS的性能,具體分為四款AI處理器,包含512個MAC單元的NP500面向物聯網、可穿戴設備和相機;包含1024個MAC單元的NP1000面向中檔智能手機、ADAS、工業(yè)應用和AR / VR頭戴設備;包含2048個MAC單元的NP2000瞄準高端智能手機、監(jiān)控、機器人和無人機;包含4096個MAC單元的NP4000用于企業(yè)監(jiān)控和自動駕駛的高性能邊緣處理。
了解到,NeuPro包含了CNN、RNN、DNN、XNN等,多網絡和模型的支持,處理性能提高的同時,不可避免會增大處理器的面積,功耗也會相應的增加。為了降低功耗,CEVA營銷副總裁Moshe Sheier表示:“數據的加載和存儲在AI處理器中能量的消耗會占比較大的比重,因此NeuPro會把對神經網絡的結構進行合并、壓縮和處理,同時將32位浮點量化到16位、8位甚至更低的位數,減少數據的加載和存儲。另外,NeuPro Engine和VPU單元之間的數據交換也可以通過直連通道,不需要通過SoC總線做交換,大大減少中間數據的加載?!?/p>
為了保持硬件的靈活性,Moshe Sheier告訴:“視覺應用在不斷的發(fā)展,但無論是新出現的層還是模型,都可以放到我們的Vision DSP(VPU)上處理,既能保持DSP很強的功耗和性能優(yōu)勢,也能讓NeuPro不斷適應新的變化,這也是我們AI方案的特點。”
Moshe Sheier同時表示,AI還處于一個早期的階段,現在的情況是各家的AI處理器IP在SoC中所占的面積都不小,而人工智能還在不斷演進中,未來算法和設計的改進會持續(xù)帶來AI技術的更新。在AI處理器的設計上,雖然每家的產品會各有特色,但又很相似,因為大家都在堆MAC單元,用更多的MAC單元實現更高的硬件指標,但在同樣的工藝下,面積和功耗都很接近。這時我們還需要思考,MAC單元的成本、利用率以及最終的功耗和面積。因此,如何延長產品的周期更好地適應OEM廠商不斷變化的需求非常關鍵,這時軟件的作用尤為明顯,能夠通過軟硬結合不斷適應技術變化和提高效率的AI方案對產品落地非常重要。。
軟件才是AI處理器成功的關鍵?
據介紹,與NeuPro系列處理器配合的是CDNN神經網絡軟件框架,它的主要作用是把用戶使用不同框架訓練好的神經網絡進行量化、壓縮等處理,然后自動地部署到底層的硬件。Moshe Sheier強調,CDNN所能實現的自動化是基于CEVA對應用和協議的深入了解和分析,加上長期的積累判斷哪些工作適合什么樣的硬件,另外,CEVA不同的硬件平臺軟件使用的都是同一套框架。
可以看到,CEVA也在不斷完善CDNN,最近發(fā)布的最新CDNN版本具有開放式神經網絡交換(ONNX,由Facebook、微軟和AWS創(chuàng)建的開放格式,用于實現AI社群內的互操作性和可移植性,可讓開發(fā)人員針對項目使用合適的工具組合)支持。CEVA副總裁兼視覺業(yè)務部門總經理Ilan Yona 表示:“CEVA為實現開放、可互操作的AI生態(tài)系統,人工智能應用程序開發(fā)人員能夠充分利用生態(tài)系統中各種不同深度學習框架,考慮其功能和易用性,為所需特定應用選擇最合適的深度學習框架。通過為CDNN編譯器技術添加ONNX支持,我們?yōu)镃EVA-XM和NeuPro的客戶及生態(tài)系統合作伙伴提供了更廣泛的功能,用于培訓和豐富其神經網絡應用?!?/p>
Moshe Sheier表示:“如果看語音處理,無論是喚醒還是關鍵字識別都已經從傳統的算法全面轉變到神經網絡處理,這種算法的更新和軟件的更新反過來會對硬件提出更高更新的要求,也就是說算法和平臺會不斷的更新。因此在AI處理器演進過程當中,我們應該適當的多用軟件平臺,不能完全依賴于固定的硬件,從而延長產品生命周期?!?/p>
小結
終端產品的AI需求促使不少公司進入AI領域,而AI芯片公司的需求又推動半導體IP公司推出AI處理器IP??梢钥吹?,在算法和模型還不夠穩(wěn)定的時候,提供通用IP和平臺的公司并沒有著急推出產品,而是等待算法和模型穩(wěn)定之后選擇合適的時機和領域進入市場。
異構架構是AI芯片更好的選擇,終端AI芯片相似的的地方在于增加MAC單元提升性能,同時為降低功耗也為減少數據的加載和存儲使用了專門的技術。更為關鍵的是,為保持對未來算法和模型的適應性,除了集成具有可編程性能的硬件,軟件更高的可配置性成為AI處理器中保持競爭力,延長產品周期非常關鍵的部分。