隨著人工智能(AI)能力從云端轉(zhuǎn)向邊緣,芯片制造商必然會找到可行的方法,在更小、更高效,且成本更低的設(shè)備中實現(xiàn)各種AI功能,比如神經(jīng)網(wǎng)絡(luò)處理和語音識別等。
在數(shù)據(jù)中心執(zhí)行繁重任務(wù)的大型昂貴的AI加速器不大可能適合邊緣設(shè)備。針對特定應(yīng)用的尺寸、價格和功耗等要求,在邊緣設(shè)備中實施AI的爭奪戰(zhàn)已經(jīng)打響,各種芯片方案競相登場,包括CPU、GPU、FPGA、DSP,甚至微控制器(MCU)。
在最近舉行的Linley處理器研討會上,Cadence設(shè)計系統(tǒng)公司和Flex Logix技術(shù)公司分別發(fā)布了專門針對邊緣AI的設(shè)計架構(gòu)。兩種架構(gòu)都專注于將AI功能引入邊緣節(jié)點設(shè)備,而且重點是減少內(nèi)存占用。
Semico Research的高級分析師Rich Wawrzyniak表示,“并非一切都在云端,帶有AI功能的終端設(shè)備將成為主流。”
據(jù)Tirias Research首席分析師Jim McGregor稱,大多數(shù)即將面市的解決方案仍然是“一定程度的混合方案,即大部分處理任務(wù)在邊緣進行,但必要時還是要在云端處理,除非只想聽特定的詞語或聲音。”
“我們確實看到更多語音處理在邊緣完成的發(fā)展趨勢,”Tirias分析師Kevin Krewell說道。 “將所有語音數(shù)據(jù)發(fā)送到云端會有隱私問題。而且邊緣處理還可以減少延遲響應(yīng)。此外,邊緣端的處理能力也越來越強。”
McGregor表示,使用DSP是邊緣處理的最有效方式。 “然而,我看到Alexa智能音箱使用的處理器是ST公司的STM32 MCU。”
Cadence的Tensilica HiFi 5 DSP專注于實現(xiàn)語音識別和基于神經(jīng)網(wǎng)絡(luò)的處理,而Flex Logix的NMAX架構(gòu)則專為更復(fù)雜的神經(jīng)網(wǎng)絡(luò)推理而設(shè)計。兩家都聲稱其架構(gòu)在成本、性能和功耗方面都比現(xiàn)有架構(gòu)具有顯著優(yōu)勢。
根據(jù)Wawrzyniak的說法,新的架構(gòu)代表著IP供應(yīng)商的升級,他們開始提供專門用于AI的IP。他補充道,目前在AI中使用的大部分IP都是針對通用SoC的IP類型。 “隨著應(yīng)用變得更加專精,IP開發(fā)商將會推出更多專為AI而優(yōu)化的產(chǎn)品。”
NMAX神經(jīng)推理引擎
Flex Logix是一家成立僅四年的初創(chuàng)公司,以嵌入式FPGA而聞名,宣稱其NMAX神經(jīng)推理引擎可以在模塊化、可擴展的架構(gòu)中達到100萬億次操作/秒(TOPS)的神經(jīng)推理性能,而所需DRAM帶寬只是競爭技術(shù)的很小一部分。
Flex Logix首席執(zhí)行官Geoff Tate表示,其互連技術(shù)可有效應(yīng)對神經(jīng)網(wǎng)絡(luò)推理中的最大挑戰(zhàn),即最小化數(shù)據(jù)移動和功耗。跟該公司的eFPGA一樣,NMAX采用平鋪方式,可讓用戶根據(jù)需要擴展陣列。他說,NMAX平鋪可以按照所需TOPS的配置來排列,可根據(jù)需要使用不同數(shù)量的SRAM,最高可達100TOPS峰值性能。
NMAX512平鋪架構(gòu)。(資料來源:Flex Logix)
這種架構(gòu)還帶有分布式的片上SRAM,可根據(jù)需要進行重新配置,這是針對不同數(shù)據(jù)大小的優(yōu)勢。它還具有互連功能,可以在SRAM輸入組、MAC群集和每級激活到SRAM輸出組之間重新配置連接。
Tate還表示,NMAX即使在小批量處理中也能迅速執(zhí)行神經(jīng)網(wǎng)絡(luò)推理,這是Nvidia和Habana Labs等推理引擎難以做到的,因為每層加載需要很多時間。他補充說,小批量處理對邊緣應(yīng)用尤為重要,因為需要盡量減少延遲。他還展示了NMAX在28、10和1等不同批量的處理數(shù)據(jù),每秒可處理多達19,000個ResNet-50圖像。
“通常情況下,現(xiàn)有架構(gòu)在大批量處理中具有良好的吞吐量,但在較小的批量處理中卻不太好,因為加載需要很長時間,”Tate向EE Times解釋道。
ResNet-50在低批量處理中的性能比較。(資料來源:Flex Logix)
Tate強調(diào),Nvidia的Tesla T4和Habana的Goya要比NMAX需要更多的DRAM帶寬。 “最根本的是,我們的價格將比其他人便宜10倍,”他說。 “他們需要8個DRAM來獲得這個吞吐量,而我們只用一個DRAM就夠了。”
NMAX仍處于開發(fā)階段,預(yù)計將于2019年下半年開始供貨。Flex Logix計劃在2019年春季Linley處理器研討會上展示該技術(shù)的進展情況。
再看Cadence,其Tensilica HiFi 5是一種用于音頻和語音處理的DSP內(nèi)核,專門針對遠場處理和基于AI的語音識別處理進行了優(yōu)化。這是流行的Tensilica DSP系列的第五代產(chǎn)品,是獲得業(yè)界最廣泛授權(quán)和認可的音頻、視頻和語音DSP,其年出貨量已經(jīng)超過10億。據(jù)Cadence稱,跟其上一代HiFi 4相比,HiFi 5具有兩倍的音頻處理能力和四倍的神經(jīng)網(wǎng)絡(luò)處理性能提升。
Tensilica HiFi 5架構(gòu)。(資料來源:Cadence)
HiFi 5與HiFi系列的其它產(chǎn)品在軟件上具有兼容性,包括300多個HiFi優(yōu)化的音頻和語音編解碼器,以及音頻增強軟件包。Cadence還推出了一個新的庫,它可提供一組優(yōu)化的庫函數(shù),特別適用于神經(jīng)網(wǎng)絡(luò)處理------尤其是語音,可以集成到流行的機器學(xué)習(xí)框架中。
Cadence宣布,位于德州奧斯汀的亞閾值晶體管微控制器開發(fā)商Ambiq Micro是第一家獲得HiFi 5授權(quán)的客戶。