一體AI芯片是怎么一回事
智能生活,智能城市,慢慢的我們會進(jìn)入物聯(lián)網(wǎng)時代,海量的數(shù)據(jù)蜂擁而至。特別是各種應(yīng)用終端和邊緣側(cè)需要處理的數(shù)據(jù)越來越多,而且對處理器的穩(wěn)定性,以及功耗提出了越來越高的要求,這樣,傳統(tǒng)的計算體系和架構(gòu)的短板就顯得愈加突出,這些使得計算+存儲+AI的融合發(fā)展成為了一大方向。
目前來看,不論是PC還是超算,處理器和存儲芯片都是分離的,這就是馮諾依曼50多年前確立的計算架構(gòu)。隨著技術(shù)的發(fā)展,存儲計算分離的架構(gòu)瓶頸越來越明顯。
一般芯片的設(shè)計思路是增加大量的并行計算單元,在傳統(tǒng)的計算架構(gòu)當(dāng)中,存儲一直是有限且稀缺的資源,隨著運(yùn)算單元的增加,每個單元能夠使用的存儲器的帶寬和大小將逐漸減小,而隨著人工智能時代的到來,這種矛盾顯得愈加突出。在很多AI推理運(yùn)算中,90%以上的運(yùn)算資源都消耗在數(shù)據(jù)搬運(yùn)的過程中。芯片內(nèi)部到外部的帶寬,以及片上緩存空間限制了運(yùn)算的效率。因此,在業(yè)界和學(xué)術(shù)界,越來越多的人認(rèn)為存算一體化是未來的趨勢,可以很好地解決“存儲墻”問題。
基于NOR閃存架構(gòu)的存算一體AI芯片,利用NOR Flash的模擬特性,可直接在存儲單元內(nèi)進(jìn)行全精度矩陣卷積運(yùn)算(乘加運(yùn)算)。規(guī)避了數(shù)據(jù)在ALU和存儲器之間來回傳輸?shù)钠款i,從而使功耗大幅降低、提高了運(yùn)算效率。其Flash存儲單元可以存儲神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),同時還可以完成和此權(quán)重相關(guān)的乘加法運(yùn)算,從而將乘加法運(yùn)算和存儲融合到了一個Flash單元里面。例如,100萬個Flash單元可以存儲100萬個權(quán)重參數(shù),同時還可以并行完成100萬次乘加法運(yùn)算。相比于傳統(tǒng)的馮諾依曼架構(gòu)深度學(xué)習(xí)芯片,這種的運(yùn)算效率非常高,而且成本低廉,因為省去了DRAM、SRAM以及片上并行計算單元,從而簡化了系統(tǒng)設(shè)計。
目前來看,這種基于NOR閃存架構(gòu)的存算一體AI芯片,其主要應(yīng)用領(lǐng)域就是對成本和運(yùn)算效率(特別是功耗)敏感的應(yīng)用,如邊緣側(cè)的低功耗、低成本語音識別等。而隨著人工智能和物聯(lián)網(wǎng)的發(fā)展,它還可以拓展更多的應(yīng)用場景。
致芯解密專家認(rèn)為,在發(fā)展存算一體AI芯片方面,除了存儲和計算技術(shù)本身之外,行業(yè)相關(guān)的接口標(biāo)準(zhǔn)跟進(jìn)特別重要,特別是對于以存儲為基礎(chǔ)的新型應(yīng)用來說。還需要不斷完善生態(tài)系統(tǒng)建設(shè),才能使整個產(chǎn)業(yè)發(fā)展起來。