大數(shù)據(jù)(big data)應用持續(xù)推動內存更密切結合運算資源的架構需求,但人工智能(AI)和機器學習更進一步展現(xiàn)了硬件和硬件架構如何在成功部署中發(fā)揮關鍵作用。然而,關鍵的問題在于內存應該要設計在哪里?
根據(jù)美光科技(Micron Technology)最近委托Forrester Research進行的研究發(fā)現(xiàn),有89%的受訪者認為運算和內存在架構上密切整合至關重要。Forrester Research的這項調查還發(fā)現(xiàn),針對硬件限制使得AI與機器學習能力受限的討論中,最常被提及的就是內存和存儲技術。超過75%的受訪者認為目前的內存與存儲技術有必要進行升級或重新架構,才能突破應用上的限制。
特別是AI讓大數(shù)據(jù)和分析原已面對的挑戰(zhàn)更形復雜,因為機器學習經由神經網絡在龐大的數(shù)據(jù)矩陣上執(zhí)行乘積累加運算。這些運算不斷地重復執(zhí)行,伴隨更多的結果出現(xiàn),同時從數(shù)據(jù)處理中學習,最終產生一種每次都能達到最佳路徑和最佳選擇的算法。
美光科技企業(yè)策略副總裁Colm Lysaght說,由于數(shù)據(jù)越來越龐大,取得足夠可用內存的常見解決方案就是增加更多的DRAM。這使得性能的瓶頸開始從原始運算轉移到數(shù)據(jù)的所在位置。他說:“內存和存儲正是數(shù)據(jù)所在之處。由于這些龐大的數(shù)據(jù)組合必須處理,我們只得一再地將其傳送至CPU進行處理后返回。”
只要找到讓運算和內存更緊密結合的方法,就意味著能夠更加省電,因為數(shù)據(jù)不必再密集地來回傳送了。Lysaght說,“它還提高了性能,因為更多的處理任務都可以在需要之處才發(fā)生。”
美光科技認為,諸如DRAM和3D NAND SSD等現(xiàn)有的內存和存儲技術,為AI架構提供了可用硬件。該公司同時還研究其他更新的技術,例如許多新創(chuàng)公司也支持的內存處理器(PIM)架構(來源:Micron Technology)
Lysaght指出,“有許多不同的方法可以創(chuàng)建更好的架構。例如神經形態(tài)處理器,可在內部使用神經網絡,并將內部核心數(shù)分解為更多的較小核心。他說:由于必須處理大量的資料矩陣,因此,更理想的解決方案是讓更多核心周而復始地執(zhí)行相對簡單的運算。”
例如一家對開發(fā)新架構感興趣的內存公司Crossbar最近與Gyrfalcon Technology、mtes Neural Networks (mtesNN)和RoboSensing等公司合作,共同成立了一個名為‘SCAiLE’(SCalable AI for Learning at the Edge)的AI聯(lián)盟,致力于開發(fā)一款加速、節(jié)能的AI平臺。
Crossbar策略營銷和業(yè)務開發(fā)副總裁Sylvain Dubois表示,該聯(lián)盟將結合先進的加速硬件、可變電阻式內存(ReRAM)以及優(yōu)化的神經網絡,共同打造具有免監(jiān)督學習和事件辨識功能的節(jié)能解決方案。
Dubois表示,無論是智能音箱、智能相機還是智能電視,許多公司面臨的挑戰(zhàn)在于希望直接將AI導入裝置上,但又不知道如何著手。該聯(lián)盟的目標就在于提供一個將所有必要部份整合在一起的平臺。
Crossbar的貢獻在于內存——特別是ReRAM,它將透過文本、關鍵詞、GPS坐標以及來自傳感器的可視數(shù)據(jù)(非結構化)等各種輸入,以處理在機器學習系統(tǒng)中產生的數(shù)據(jù)。
Dubois還設計了一種內存數(shù)組架構,讓特定處理程序代碼可在邊緣裝置中,以高度平行的方式針對每一個案例進行讀取。他說:“如果彼此匹配,就會知道在邊緣裝置進行哪些處理。但如果無法順利匹配,那么就成了我們所說的學習曲線。”
在云端執(zhí)行更多分析
以相機傳感器為例,他指出這種系統(tǒng)將會在ReRAM數(shù)組的備用位置存儲新事件或一組功能。Dubois說:“等到下一次在這臺相機面前出現(xiàn)類似的事件時,相機本身就能檢測到,而無需在云端進行任何訓練。”。
因此,Dubois表示,如果出現(xiàn)了需要快速決策的意外事件,例如具有安全顧慮的交通現(xiàn)場時,這提供了一種全然不同的AI處理途徑,因為它并不必依賴于云端中的大量訓練能力。
Forrester Research的研究預期,更多的公司將在公共云和邊緣進行分析,從而在邊緣實現(xiàn)更多的機器學習。51%的受訪者表示目前在公共云執(zhí)行分析,這一數(shù)字預計將在未來3年增加到61%。此外,盡管目前約44%的人開始在邊緣進行分析,但Forrester預測,這一比重將在2021年增加到53%。
在為美光科技進行這項調查期間,F(xiàn)orrester基礎設施和營運產業(yè)資深分析師Chris Gardner一開始對于硬件產品大量“涌現(xiàn)”的程度備感驚訝,特別是存儲和內存。
Gardner說:“我本來預期會看到更多與硬件有關的軟件可編程問題,以及管理等問題。當然,這些問題確實也出現(xiàn)了,但并不至于像其他事情的程度。”
Gardner表示,在該研究中衍生而出的是內存本身如何完成大量的工作,同時又盡可能避免進行存儲。但值得注意的是,對于內存和存儲的需求取決于實際的應用類型。據(jù)Gardner解釋,訓練模型需要相當龐大的內存和存儲能力,除此之外,你幾乎不需要其他任何東西。
Crossbar最近成立了一個打造AI平臺的聯(lián)盟,提供針對AI應用的內存產品,例如其內建嵌入式ReRAM的P-Series MCU(來源:Crossbar Inc.)
Gardner說,理想上,企業(yè)希望擁有一個容量高達數(shù)百GB或TB級RAM的存儲環(huán)境。但現(xiàn)實上,他們必須自行打造或付費給供貨商協(xié)助打造,他并補充說,目前業(yè)界亟需的是整個硬件典范的轉型。
Gardner說:“我們需要更多以內存為中心(memory-centric)的架構。”他進一步解釋,運算需要以內存為中心,并盡量減少存儲的必要性,而不再是以運算為中心。
Gardner說:“但這并不表示當今的運算架構及其存取方式很糟糕,而只是強調在執(zhí)行AI和機器學習方面,它可能不是最有效率的方式。”
Forrester的研究內容還涵蓋了邊緣運算。應用場景之一是內部架設攝影機的主要運動場館,這些攝影機將產生大量需要快速處理的資料,以確定場是否存在危險情況。Gardner說:“目前雖然可以來回云端傳送資料,但并沒時間進行分析。他們需要的是盡可能迅速地進行處理。”
當然還有一些機器學習任務得在云端中完成,再將其發(fā)送回物聯(lián)網(IoT)裝置,但其中的一些裝置將會變得越來越智能并自行執(zhí)行機器學習,接著傳回云端共享后再傳送到其他裝置。Gardner表示,對于內存制造商來說,這意味著商品組件制造商正持續(xù)轉型以及重新編譯應用程序,以善加利用AI和機器學習工作負載所需的新式內存架構。
但我們如今仍處于實驗階段,因為還沒有任何真正的張量(tensor flow)——使用以內存為中心的架構可以整合在一起;這種以內存為中心的架構要走出實驗室之前還得克服很大的延遲挑戰(zhàn)。
Gardner說:“幾十年來,我們一直抱持著以CPU執(zhí)行的心態(tài)。如今這種極具革命性的想法,將有助于我們擺脫這種心態(tài)。”
去年秋天,美光科技宣布投資1億美元于AI新創(chuàng)領域。該公司如今已在實驗室中開發(fā)了一款類似DRAM的產品,目標是在2021年出樣,同時,該公司的研究人員也正致力于研究業(yè)界新創(chuàng)公司積極探索中的內存處理器(PIM)架構。