許多公司一直在提供在現(xiàn)有 CPU、GPU 和 DSP 內(nèi)核上運行深度學(xué)習(xí)作業(yè)的軟件。Arm 甚至舉辦了關(guān)于在其低端 Cortex-M 內(nèi)核上運行計算機視覺任務(wù)的網(wǎng)絡(luò)研討會,盡管它還推出了專門用于深度學(xué)習(xí)的加速器內(nèi)核。
4 月,高通推出了其 QCS603 和 QCS605 芯片及相關(guān)軟件,專為將 AI 功能引入物聯(lián)網(wǎng)而量身定制。它們本質(zhì)上是 Snapdragon SoC 的變體,其中一些版本支持工業(yè)用戶延長使用壽命。
就英特爾而言,它一直在積極地收購具有硬件加速器的初創(chuàng)公司,用于推理和訓(xùn)練工作。它在 2016 年對 Movidius 的收購面向客戶端系統(tǒng),其芯片已經(jīng)出現(xiàn)在 DJI 和安全攝像頭的多架無人機中。它已經(jīng)發(fā)布了多代芯片,The Linley Group 的首席分析師 Linley Gwennap 預(yù)計它將在未來幾年內(nèi)縮水到核心并出現(xiàn)在 PC 芯片組中。
Movidius 內(nèi)核只是英特爾收購的幾種架構(gòu)之一。它于 2016 年收購了 Nervana,后者的加速器主要專注于訓(xùn)練神經(jīng)網(wǎng)絡(luò),并于 2017 年收購了 Mobileye,其芯片專注于自動駕駛汽車的人工智能。
汽車領(lǐng)域尤其具有競爭力。英特爾的 MobileEye 正與包括寶馬在內(nèi)的 OEM 密切合作。許多初創(chuàng)公司都專注于該領(lǐng)域,包括 AImotive,該公司目前正在設(shè)計一種測試芯片,以在自己的車隊中運行。
一些世界上最大的嵌入式處理器公司仍在追趕深度學(xué)習(xí)。
The Linley Group 的分析師 Mike Demler 表示,到目前為止,瑞薩在汽車處理器中擁有神經(jīng)網(wǎng)絡(luò)引擎,但在其他市場上沒有。然而,該公司在 6 月的 VLSI 研討會上發(fā)表了一篇關(guān)于嵌入式 AI 動態(tài)可重構(gòu)加速器的論文。
在同一事件中,IBM Research 描述了一種深度學(xué)習(xí)內(nèi)核,能夠每瓦提供多個 tera 運算。就其本身而言,聯(lián)發(fā)科討論了使用深度學(xué)習(xí)技術(shù)的 4K 視頻編碼器。
到目前為止,一些主流微控制器公司尚未就他們的深度學(xué)習(xí)產(chǎn)品計劃發(fā)表公開聲明,但毫無疑問,他們的實驗室已經(jīng)開展了工作。例如,分析師 Demler 指出,他尚未收到 Microchip、意法半導(dǎo)體或德州儀器關(guān)于該主題的消息。
恩智浦在 1 月份演示了在原型智能微波爐和冰箱上運行深度學(xué)習(xí)應(yīng)用程序的 i.MX SoC。FoodNet 演示展示了使用現(xiàn)有 GPU 塊和 ARM Cortex-A 和 -M 內(nèi)核的混合,這些芯片運行多達 20 個分類器并在 8 到 66 毫秒內(nèi)處理推理操作。
也就是說,NXP 與許多嵌入式芯片供應(yīng)商一樣,希望很快與第三方加速器制造商合作。最終,它的目標(biāo)是提供自己的 AI 加速器塊。
QuickLogic 領(lǐng)先一步。它于 5 月 4 日宣布了其 Quick AI 平臺,將其用于智能揚聲器的 EOS S3 芯片與 Nepes Corp 的 AI 加速器芯片配對。來自兩個第三方的軟件有助于定制算法并在現(xiàn)場訓(xùn)練它們以用于工廠視覺系統(tǒng)等用途,預(yù)測性維護和無人機。
谷歌內(nèi)部的 TPU明確表示,深度學(xué)習(xí)需要線性代數(shù)加速器,通常采用具有大量內(nèi)存的大型乘法累加 (MAC) 陣列的形式。Gwennap 說,一些設(shè)備正在為神經(jīng)網(wǎng)絡(luò)的特定方面添加硬件,例如激活和池化。
萊迪思基于在其 FPGA 中使用兩個加速器內(nèi)核組合了一個產(chǎn)品——一個用于廣泛使用的卷積神經(jīng)網(wǎng)絡(luò),另一個用于二值化神經(jīng)網(wǎng)絡(luò)。這些芯片的功耗范圍從 1 毫瓦到 1 瓦,封裝尺寸小至 5.5 mm 2 ,批量價格從 1 美元到 10 美元不等。
就其本身而言,F(xiàn)lex Logix 在 6 月下旬宣布了其第一個 AI 加速器內(nèi)核——EFLX4K。它可用于創(chuàng)建針對適合深度學(xué)習(xí)的 16 位和 8 位操作優(yōu)化的多累加單元數(shù)組。這些陣列可以配置為提供從 441 GigaMACs/秒到 22 TeraMACs/秒的吞吐量。