www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]機器學(xué)習和深度學(xué)習已經(jīng)是我們生活的組成部分.人工智能(AI)的應(yīng)用,通過自然語言處理(NLP),圖像分類和目標檢測深入嵌入我們使用的許多設(shè)備。大多數(shù)人工智能應(yīng)用程序都是通過云基引擎提供的,這些引擎可以很好地處理它們所使用的內(nèi)容,比如在gmail中輸入電子郵件響應(yīng)時獲取單詞預(yù)測。

機器學(xué)習和深度學(xué)習已經(jīng)是我們生活的組成部分.人工智能(AI)的應(yīng)用,通過自然語言處理(NLP),圖像分類和目標檢測深入嵌入我們使用的許多設(shè)備。大多數(shù)人工智能應(yīng)用程序都是通過云基引擎提供的,這些引擎可以很好地處理它們所使用的內(nèi)容,比如在gmail中輸入電子郵件響應(yīng)時獲取單詞預(yù)測。

雖然我們很享受這些AI應(yīng)用的好處,這種方法引入了隱私、耗電、延遲和成本挑戰(zhàn)。如果有一個本地處理引擎能夠在數(shù)據(jù)本身的來源處進行部分或全部的計算(推理),這些挑戰(zhàn)是可以解決的。這對于傳統(tǒng)的數(shù)字神經(jīng)網(wǎng)絡(luò)實現(xiàn)來說是很困難的,在這種實現(xiàn)中,內(nèi)存成為了耗電的瓶頸。這個問題可以通過多層存儲器和使用模擬內(nèi)存計算方法來解決,這種方法結(jié)合在一起,使處理引擎能夠滿足更低的毫瓦到微瓦(UW)的功率需求,以便在網(wǎng)絡(luò)邊緣進行AI推理。

云計算的挑戰(zhàn)

當AI應(yīng)用程序通過云基引擎提供服務(wù)時,用戶必須上傳一些數(shù)據(jù)(自愿或不情愿)到云計算引擎處理數(shù)據(jù)、提供預(yù)測并將預(yù)測發(fā)送到下游用戶使用。

與這一進程相關(guān)的挑戰(zhàn)概述如下:

1. 隱私和安全問題: 對于一直使用的、始終意識到的設(shè)備,人們擔心個人數(shù)據(jù)(和/或機密信息)在上傳期間或在數(shù)據(jù)中心的保存期內(nèi)被濫用。

2. 不必要的耗電: 如果每一個數(shù)據(jù)位都要云計算,那么它就會消耗硬件、無線電、傳輸和云中不必要的計算的能量。

3. 小型推理的延遲: 有時,如果數(shù)據(jù)來自邊緣,從云基系統(tǒng)得到響應(yīng)可能需要一秒鐘或更多時間。對于人類的感官來說,任何超過100毫秒的潛伏期都是顯而易見的,而且可能很煩人。

4. 數(shù)據(jù)經(jīng)濟需要有意義: 傳感器無處不在,而且非常便宜;然而,它們產(chǎn)生了許多數(shù)據(jù)。將每一個數(shù)據(jù)上傳到云端并進行處理是不經(jīng)濟的。

為了使用本地處理引擎來解決這些挑戰(zhàn),首先必須對執(zhí)行推理操作的神經(jīng)網(wǎng)絡(luò)模型進行針對所需用例的給定數(shù)據(jù)集的培訓(xùn)。一般來說,這需要高計算(和內(nèi)存)資源和浮點算術(shù)運算。因此,機器學(xué)習解決方案的培訓(xùn)部分仍需要在公共或私人云(或本地GPU、CPU、FPGA農(nóng)場)上進行,并使用數(shù)據(jù)集生成最佳神經(jīng)網(wǎng)絡(luò)模型。一旦神經(jīng)網(wǎng)絡(luò)模型準備就緒,該模型就可以進一步優(yōu)化為具有小型計算引擎的本地硬件,因為神經(jīng)網(wǎng)絡(luò)模型不需要為推理操作進行反向傳播。一個推理引擎通常需要大量的多重累積引擎,接下來是激活層,如校正線性單元(RELU),乙狀結(jié)腸體或TAUH取決于神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性和層之間的池層。

大多數(shù)的神經(jīng)網(wǎng)絡(luò)模型需要大量的Mac操作。例如,即使是相對較小的"1.0移動-224"模型,也有420萬個參數(shù)(權(quán)重),需要5.69億個Mac操作才能進行推斷。由于大多數(shù)模型都是由Mac操作控制的,這里的重點將放在機器學(xué)習計算的這一部分--并探索創(chuàng)建更好解決方案的機會。

輸入神經(jīng)元(數(shù)據(jù))用第一層權(quán)重進行處理。來自第一層的輸出神經(jīng)元然后用第二層權(quán)重進行處理,并提供預(yù)測(假設(shè)模型能夠在給定的圖像中找到貓的臉)。這些神經(jīng)網(wǎng)絡(luò)模型使用"點產(chǎn)品"來計算每個層中的每個神經(jīng)元,用以下公式說明(在簡化公式中略去"偏倚"一詞):

記憶力 數(shù)字計算中的瓶頸

在數(shù)字神經(jīng)網(wǎng)絡(luò)實現(xiàn)中,權(quán)重和輸入數(shù)據(jù)存儲在DRAM/SRAM中。權(quán)重和輸入數(shù)據(jù)需要移動到Mac引擎進行推斷。這一方法導(dǎo)致大多數(shù)功率在獲取模型參數(shù)和輸入數(shù)據(jù)到實際的Mac操作發(fā)生的ALU時被耗散。

從能量的角度看問題--一個典型的使用數(shù)字邏輯門的Mac操作消耗大約250焦耳(FJ,或10焦耳)的能量。但在數(shù)據(jù)傳輸過程中耗散的能量比計算本身要多兩個數(shù)量級,并且在50微焦耳的范圍內(nèi)(PJ,或10)。公平地說,有許多設(shè)計技術(shù)可以最大限度地減少從內(nèi)存到ALU的數(shù)據(jù)傳輸;然而,整個數(shù)字方案仍然受到馮諾依曼架構(gòu)的限制--因此這是一個減少浪費電力的巨大機會。如果執(zhí)行Mac操作的能量可以從~100pj減少到pj的一小部分呢?

通過模擬內(nèi)存計算消除內(nèi)存瓶頸

當內(nèi)存本身可以用來減少計算所需的功率時,在邊緣執(zhí)行推理操作就會提高功率效率。使用內(nèi)存計算方法可以最大限度地減少必須移動的數(shù)據(jù)量。這反過來又消除了數(shù)據(jù)傳輸過程中浪費的能量。使用可操作超低有源功率耗散的閃存電池,能量耗散進一步最小化,在備用模式下幾乎沒有能量耗散。

這種方法的一個例子是硅存儲技術(shù)(SST),一個微芯片技術(shù)公司。以SST的超級閃光燈為基礎(chǔ)內(nèi)存技術(shù),該解決方案包括一個內(nèi)存中的計算體系結(jié)構(gòu),該體系結(jié)構(gòu)允許在推理模型的權(quán)重存儲的地方進行計算。這就消除了Mac計算中的內(nèi)存瓶頸,因為沒有為權(quán)重進行數(shù)據(jù)移動--只有輸入數(shù)據(jù)才能從相機或麥克風等輸入傳感器移動到存儲器陣列。

這個存儲器概念基于兩個基本原理:(a)晶體管的模擬電流響應(yīng)基于其閾值電壓(VT)和輸入數(shù)據(jù);(b)基爾霍夫電流定律,其中規(guī)定導(dǎo)體網(wǎng)絡(luò)中在某一點上的電流的代數(shù)和是零。

理解基本的非易失性內(nèi)存(NVM)比特單元也很重要,它在這個多層內(nèi)存體系結(jié)構(gòu)中使用。是兩個ESF3(嵌入式超閃存3)的橫截面帶有共享擦除門(EG)和源線(SL)的比特單元。每個比特單元有五個端子:控制門(Cg)、工作線(WL)、擦除門(EG)、源線(SL)和比特線(LB)。在比特電池上的擦除操作是通過對EG施加高壓來完成的.通過在WL、CG、BL和SL上應(yīng)用高壓/低壓偏置信號進行編程操作。通過將低壓偏置信號應(yīng)用到WL、CG、BL和SL上來完成讀取操作。

使用這個內(nèi)存體系結(jié)構(gòu),用戶可以通過細粒度編程操作,在不同的VT級別上編程內(nèi)存比特單元。該存儲技術(shù)利用一個智能的算法來調(diào)整存儲單元的浮動門(FG)VT,以從輸入電壓中獲得一定的電流響應(yīng)。根據(jù)終端應(yīng)用程序的需求,單元格可以在線性或次閾值操作區(qū)域編程。

展示了存儲和讀取存儲單元格上多個層次的能力。假設(shè)我們試圖在內(nèi)存單元格中存儲一個2位整數(shù)值。對于這個場景,我們需要在內(nèi)存數(shù)組中對每個單元格進行編程,其中包含2位整數(shù)值(00,01,10,11)的四個可能值之一。下面的四條曲線是四個可能狀態(tài)中的每一條的IV曲線,而電池的電流響應(yīng)將取決于加在cg上的電壓。

具有內(nèi)存計算的多重累積運算

每個ESF3電池可以模擬為可變電導(dǎo)(G M )。ESF3電池的電導(dǎo)取決于程序化電池的浮門VT。從訓(xùn)練過的模型中得到的重量被設(shè)定為存儲單元的浮動門VT,因此, M 代表訓(xùn)練過的模型的重量。當一個輸入電壓(VIN)被施加到ESF3電池上時,輸出電流(UT)將由方程IUT=G給出。 M *VIN,這是輸入電壓與存儲在ESF3電池上的重量之間的乘以操作。

說明了小陣列配置(2x2陣列)中的多重累積概念,在該小陣列中,通過增加輸出電流(從連接到同一列的單元格(從倍增操作))來執(zhí)行累積操作(例如I1=I11+I21)。根據(jù)應(yīng)用程序的不同,激活功能可以在ADC塊中執(zhí)行,也可以在內(nèi)存塊外使用數(shù)字實現(xiàn)完成。

為了在更高層次上進一步說明這個概念,一個訓(xùn)練過的模型的個體權(quán)重被編程為存儲單元的浮動門VT,因此,從訓(xùn)練過的模型的每個層的所有權(quán)重(假設(shè)是完全連接的層)都可以編程到一個內(nèi)存陣列上,就像一個權(quán)重矩陣。

對于推理操作,一個數(shù)字輸入,比如說圖像像素,首先使用數(shù)字轉(zhuǎn)換器轉(zhuǎn)換成模擬信號,然后應(yīng)用于存儲器陣列。然后,該陣列為給定的輸入向量并行執(zhí)行數(shù)以千計的Mac操作,并產(chǎn)生輸出,這些輸出可以進入各自神經(jīng)元的激活階段,然后通過一個類似數(shù)字轉(zhuǎn)換器(ADC)將其轉(zhuǎn)換為數(shù)字信號。然后,在進入下一層之前,對數(shù)字信號進行共享處理。

這種類型的內(nèi)存體系結(jié)構(gòu)非常模塊化和靈活。許多膜瓦可以拼接在一起,以構(gòu)建各種具有重量矩陣和神經(jīng)元的大型模型。在這個例子中,一個3×4瓦的配置與一個模擬和數(shù)字的織物在瓦之間縫在一起,數(shù)據(jù)可以從一個瓦到另一個瓦通過共享總線。

到目前為止,我們已經(jīng)初步討論了這種架構(gòu)的硅實現(xiàn)。軟件開發(fā)包(SDK)的可用性有助于解決方案的部署。除了硅之外,SDK還促進了推理引擎的部署。

SDK流是培訓(xùn)框架的不可知論。用戶可以在任何一個可用的框架中創(chuàng)建神經(jīng)網(wǎng)絡(luò)模型,如張力流、噴燈或其他,根據(jù)需要使用浮點計算。一旦創(chuàng)建了一個模型,SDK將幫助量化訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,并將其映射到存儲器陣列,在那里可以使用來自傳感器或計算機的輸入向量來執(zhí)行向量-矩陣乘法。

結(jié)論

這種多層存儲器方法及其內(nèi)存計算功能的優(yōu)點包括:

1. 極低功率: 這項技術(shù)是為低功率應(yīng)用而設(shè)計的。第一級功率優(yōu)勢來自于這樣一個事實,即解決方案是內(nèi)存計算,因此在計算過程中不會在SRAM/DRAM的數(shù)據(jù)和權(quán)重傳輸中浪費能量。第二個能量優(yōu)勢來自于閃光電池是以極低電流值的亞閾值模式運行的,所以有源功率耗散很低。第三個優(yōu)點是在備用模式下幾乎沒有能量耗散,因為非易失性存儲器電池不需要任何功率來保持數(shù)據(jù)的連續(xù)性。該方法也非常適合利用重量和輸入數(shù)據(jù)的稀疏性。如果輸入數(shù)據(jù)或權(quán)重為零,則內(nèi)存比特單元不會被激活。

2. 包足跡較低: 該技術(shù)使用一個分叉門(1.5T)單元結(jié)構(gòu),而數(shù)字實現(xiàn)中的SRAM單元則基于6T架構(gòu)。此外,與6TSRAM電池相比,該電池是一個小得多的比特細胞。另外,一個單元格可以存儲整個4位整數(shù)值,這與需要4*6=24晶體管的SRAM單元格不同。這提供了一個小得多的芯片足跡。

3. 較低的開發(fā)成本: 由于內(nèi)存性能瓶頸和馮諾依曼架構(gòu)的局限性,許多專用設(shè)備(如恩維迪亞的Jetsen或谷歌的TPU)傾向于使用較小的幾何形狀來獲得每瓦特的性能,這是解決邊緣人工智能計算挑戰(zhàn)的昂貴方法。利用多層存儲器方法,使用模擬內(nèi)存計算方法,在閃存單元中進行芯片計算,從而可以使用更大的幾何形狀,降低掩模成本和準備時間。

邊緣計算應(yīng)用顯示出巨大的前景。然而,在邊緣計算能夠起飛之前,還需要解決電力和成本方面的挑戰(zhàn)。一個主要障礙可以通過在閃存單元中執(zhí)行計算的內(nèi)存方法來消除。這種方法利用了生產(chǎn)證明,事實上標準類型的多層次存儲技術(shù)解決方案,是優(yōu)化的機器學(xué)習應(yīng)用。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

在物聯(lián)網(wǎng)設(shè)備數(shù)量突破千億級的今天,開發(fā)者對核心芯片的訴求已從單一功能轉(zhuǎn)向“全棧集成+生態(tài)協(xié)同”。樂鑫科技推出的ESP32憑借其獨特的“雙核架構(gòu)+無線雙模+開源生態(tài)”組合,成為智能家居、工業(yè)監(jiān)控、可穿戴設(shè)備等領(lǐng)域的首選方案...

關(guān)鍵字: ESP32 物聯(lián)網(wǎng)

在當今數(shù)字化時代,人工智能(AI)和高性能計算(HPC)的迅猛發(fā)展對 GPU 芯片的性能提出了極高要求。隨著 GPU 計算密度和功耗的不斷攀升,散熱問題成為了制約其性能發(fā)揮的關(guān)鍵因素。傳統(tǒng)的風冷方案已難以滿足日益增長的散...

關(guān)鍵字: 人工智能 高性能計算 芯片

在人工智能飛速發(fā)展的當下,大模型展現(xiàn)出了強大的語言理解與生成能力。然而,要讓這些模型真正在實際場景中發(fā)揮作用,與外部豐富的工具及數(shù)據(jù)源順暢交互至關(guān)重要。在此背景下,Model Context Protocol(MCP),...

關(guān)鍵字: 人工智能 大模型 協(xié)議

LED智能調(diào)光系統(tǒng)是一種基于LED光源的電氣控制系統(tǒng),主要應(yīng)用于酒店、展廳、劇場及商業(yè)建筑等場景,可實現(xiàn)動態(tài)調(diào)節(jié)光通量和照度。

關(guān)鍵字: LED智能調(diào)光系統(tǒng)

在DAB中,兩個橋的占空比通常保持在50%,功率流動是通過改變兩個電橋之間的相位即相移(phase shift)而實現(xiàn)的。

關(guān)鍵字: 雙有源橋

電容觸摸技術(shù)作為一種實用、時尚的人機交互方式,已經(jīng)被廣泛的應(yīng)用到各種電子產(chǎn)品,小到電燈開關(guān),大到平板電腦、觸摸桌等。

關(guān)鍵字: 電容觸摸

在平安城市建設(shè)中,視頻監(jiān)控系統(tǒng)正從標清向4K/8K超高清方向發(fā)展。超高清視頻雖能提供更豐富的細節(jié)(如人臉特征、車牌號碼),但也帶來數(shù)據(jù)量激增(8K視頻碼流達100Mbps)、傳輸延遲升高、存儲成本攀升等問題。端-邊-云協(xié)...

關(guān)鍵字: 平安城市 視頻監(jiān)控

在智慧城市建設(shè)中,井蓋位移監(jiān)測是保障市政設(shè)施安全運行的關(guān)鍵環(huán)節(jié)。傳統(tǒng)人工巡檢方式存在效率低、響應(yīng)慢等問題,而基于低功耗藍牙(BLE)與邊緣計算的實時預(yù)警系統(tǒng),通過物聯(lián)網(wǎng)技術(shù)實現(xiàn)了對井蓋狀態(tài)的實時感知與智能分析。本文從系統(tǒng)...

關(guān)鍵字: 井蓋位移 BLE

在萬物互聯(lián)的M2M(機器對機器)通信場景中,邊緣AI正通過將計算能力下沉至終端設(shè)備,重構(gòu)傳統(tǒng)物聯(lián)網(wǎng)架構(gòu)。以TensorFlow Lite Micro(TFLite Micro)為核心的輕量化模型部署方案,憑借其低功耗、低...

關(guān)鍵字: 邊緣AI M2M

在智慧城市與工業(yè)4.0的雙重驅(qū)動下,視頻分析技術(shù)正經(jīng)歷從看得見到看得懂的范式躍遷?;赮OLOv8的實時人臉識別與行為異常檢測算法,通過深度學(xué)習與計算機視覺的深度融合,構(gòu)建起覆蓋"感知-理解-決策"的...

關(guān)鍵字: AI 視頻分析
關(guān)閉