數(shù)字信號(hào)處理器(DSP)架構(gòu)演進(jìn):從馮·諾依曼到哈佛結(jié)構(gòu)的優(yōu)化之路
數(shù)字信號(hào)處理器(DSP)作為實(shí)時(shí)信號(hào)處理的核心器件,其架構(gòu)設(shè)計(jì)直接決定了運(yùn)算效率與功耗表現(xiàn)。自20世紀(jì)70年代DSP理論誕生以來(lái),其硬件架構(gòu)經(jīng)歷了從馮·諾依曼結(jié)構(gòu)到哈佛結(jié)構(gòu)的演進(jìn),這一過(guò)程體現(xiàn)了對(duì)實(shí)時(shí)性、并行性與存儲(chǔ)帶寬的持續(xù)追求。
馮·諾依曼結(jié)構(gòu)的早期局限
馮·諾依曼結(jié)構(gòu)(又稱(chēng)普林斯頓結(jié)構(gòu))誕生于1945年,其核心特征是程序指令與數(shù)據(jù)共享同一存儲(chǔ)空間及總線。這種設(shè)計(jì)在通用計(jì)算領(lǐng)域具有成本低、實(shí)現(xiàn)簡(jiǎn)單的優(yōu)勢(shì),但在DSP場(chǎng)景下暴露出顯著瓶頸。
在數(shù)字信號(hào)處理中,算法通常涉及大量重復(fù)的乘累加操作(如FFT、卷積),且對(duì)實(shí)時(shí)性要求極高。馮·諾依曼結(jié)構(gòu)的單總線架構(gòu)導(dǎo)致指令讀取與數(shù)據(jù)訪問(wèn)必須串行進(jìn)行,例如,執(zhí)行一條指令需經(jīng)歷“取指-譯碼-取數(shù)-執(zhí)行”四個(gè)階段,而取指與取數(shù)階段若需訪問(wèn)同一存儲(chǔ)器,則必然產(chǎn)生總線沖突。以語(yǔ)音編碼為例,若采用馮·諾依曼結(jié)構(gòu)的DSP處理每秒8000個(gè)采樣點(diǎn),僅存儲(chǔ)器訪問(wèn)延遲就可能使系統(tǒng)無(wú)法滿足實(shí)時(shí)性需求。
此外,馮·諾依曼結(jié)構(gòu)的指令與數(shù)據(jù)寬度一致,限制了數(shù)據(jù)吞吐量。例如,早期8位微處理器中,指令與數(shù)據(jù)均為8位寬度,而DSP算法常需處理16位甚至32位數(shù)據(jù),導(dǎo)致單次總線傳輸效率低下。這種局限性促使工程師探索更高效的架構(gòu)。
哈佛結(jié)構(gòu)的突破:指令與數(shù)據(jù)的物理隔離
哈佛結(jié)構(gòu)的核心創(chuàng)新在于將程序存儲(chǔ)器與數(shù)據(jù)存儲(chǔ)器分離,并配備獨(dú)立的指令總線和數(shù)據(jù)總線。這一設(shè)計(jì)使CPU能夠同時(shí)執(zhí)行取指與取數(shù)操作,理論上可將指令執(zhí)行效率提升一倍。
在DSP中,哈佛結(jié)構(gòu)的優(yōu)勢(shì)體現(xiàn)在多個(gè)層面:
并行處理能力:例如,TI TMS320C54x系列DSP采用改進(jìn)型哈佛結(jié)構(gòu),其內(nèi)部包含三條獨(dú)立總線(程序總線、數(shù)據(jù)總線、DMA總線),允許指令預(yù)取、數(shù)據(jù)讀寫(xiě)與DMA傳輸并行進(jìn)行。在執(zhí)行FFT算法時(shí),CPU可同時(shí)從指令存儲(chǔ)器讀取下一階段指令,并從數(shù)據(jù)存儲(chǔ)器獲取輸入樣本,避免總線爭(zhēng)用。
存儲(chǔ)帶寬優(yōu)化:哈佛結(jié)構(gòu)允許指令與數(shù)據(jù)采用不同位寬。例如,Microchip PIC16芯片的指令寬度為14位,數(shù)據(jù)寬度為8位,這種非對(duì)稱(chēng)設(shè)計(jì)可減少存儲(chǔ)器開(kāi)銷(xiāo)。在圖像處理中,若需同時(shí)加載16位像素?cái)?shù)據(jù)與32位濾波系數(shù),哈佛結(jié)構(gòu)可通過(guò)獨(dú)立總線實(shí)現(xiàn)高效傳輸。
流水線效率提升:哈佛結(jié)構(gòu)為流水線技術(shù)提供了硬件基礎(chǔ)。例如,C54x DSP的六級(jí)流水線(預(yù)取指-取指-譯碼-尋址-讀數(shù)-執(zhí)行)依賴獨(dú)立總線實(shí)現(xiàn)各階段重疊執(zhí)行。在執(zhí)行1024點(diǎn)FFT時(shí),流水線可將單次運(yùn)算時(shí)間壓縮至1微秒以內(nèi),而馮·諾依曼結(jié)構(gòu)因總線沖突可能需數(shù)倍時(shí)間。
然而,哈佛結(jié)構(gòu)也面臨挑戰(zhàn):其雙存儲(chǔ)器與雙總線設(shè)計(jì)增加了硬件復(fù)雜度與成本,且指令與數(shù)據(jù)存儲(chǔ)器的物理隔離可能導(dǎo)致代碼空間受限。為此,改進(jìn)型哈佛結(jié)構(gòu)應(yīng)運(yùn)而生。
改進(jìn)型哈佛結(jié)構(gòu):靈活性與性能的平衡
改進(jìn)型哈佛結(jié)構(gòu)在保留指令與數(shù)據(jù)存儲(chǔ)器分離的基礎(chǔ)上,引入了更靈活的訪問(wèn)機(jī)制。典型特征包括:
存儲(chǔ)器部分重疊:例如,TI C6000系列DSP允許程序存儲(chǔ)器與數(shù)據(jù)存儲(chǔ)器共享部分地址空間,通過(guò)緩存機(jī)制實(shí)現(xiàn)數(shù)據(jù)復(fù)用。在雷達(dá)信號(hào)處理中,若需頻繁訪問(wèn)同一組濾波系數(shù),改進(jìn)型哈佛結(jié)構(gòu)可通過(guò)緩存減少存儲(chǔ)器訪問(wèn)次數(shù)。
總線分時(shí)復(fù)用:51單片機(jī)采用改進(jìn)型哈佛結(jié)構(gòu),其程序存儲(chǔ)器與數(shù)據(jù)存儲(chǔ)器雖物理分離,但通過(guò)分時(shí)復(fù)用總線降低硬件成本。在低功耗物聯(lián)網(wǎng)設(shè)備中,這種設(shè)計(jì)可在滿足實(shí)時(shí)性需求的同時(shí),將芯片面積縮小30%以上。
多級(jí)緩存集成:現(xiàn)代DSP芯片(如ADI SHARC系列)在哈佛結(jié)構(gòu)基礎(chǔ)上集成L1指令緩存與L1數(shù)據(jù)緩存,并通過(guò)交叉開(kāi)關(guān)(Crossbar)實(shí)現(xiàn)多核間的高速數(shù)據(jù)共享。在多通道音頻處理中,各核可獨(dú)立訪問(wèn)緩存,減少全局總線壓力。
改進(jìn)型哈佛結(jié)構(gòu)的代表案例是ARM Cortex-M系列微控制器。其內(nèi)核采用哈佛結(jié)構(gòu),但通過(guò)AXI總線協(xié)議實(shí)現(xiàn)指令與數(shù)據(jù)總線的動(dòng)態(tài)配置,既保持了并行處理能力,又支持與馮·諾依曼結(jié)構(gòu)外設(shè)的兼容。
架構(gòu)演進(jìn)對(duì)DSP性能的影響
架構(gòu)優(yōu)化直接推動(dòng)了DSP性能的飛躍。以FFT算法為例:
馮·諾依曼結(jié)構(gòu):在8086處理器上,1024點(diǎn)FFT需約10毫秒,無(wú)法滿足語(yǔ)音通信需求。
經(jīng)典哈佛結(jié)構(gòu):TI TMS320C25 DSP將時(shí)間縮短至100微秒,但受限于單數(shù)據(jù)總線,仍無(wú)法處理多通道信號(hào)。
改進(jìn)型哈佛結(jié)構(gòu):ADI TigerSHARC DSP通過(guò)多核并行與分布式存儲(chǔ),將1024點(diǎn)FFT時(shí)間壓縮至0.5微秒,支持16通道實(shí)時(shí)處理。
此外,架構(gòu)演進(jìn)還促進(jìn)了低功耗設(shè)計(jì)。例如,改進(jìn)型哈佛結(jié)構(gòu)通過(guò)減少存儲(chǔ)器訪問(wèn)次數(shù),降低了動(dòng)態(tài)功耗。在可穿戴設(shè)備中,基于該架構(gòu)的DSP芯片在0.5V電壓下仍可實(shí)現(xiàn)1GHz主頻,而功耗僅相當(dāng)于馮·諾依曼結(jié)構(gòu)芯片的1/5。
未來(lái)展望:異構(gòu)計(jì)算與架構(gòu)融合
隨著AIoT(人工智能物聯(lián)網(wǎng))的興起,DSP架構(gòu)正朝異構(gòu)計(jì)算方向發(fā)展。例如,TI C7x系列DSP集成ARM Cortex-M55核與C7x DSP核,通過(guò)改進(jìn)型哈佛結(jié)構(gòu)實(shí)現(xiàn)控制邏輯與信號(hào)處理的分離。在智能攝像頭中,M55核負(fù)責(zé)目標(biāo)檢測(cè),C7x核執(zhí)行圖像增強(qiáng),二者通過(guò)AXI-Stream接口實(shí)現(xiàn)零拷貝數(shù)據(jù)傳輸。
同時(shí),近存儲(chǔ)計(jì)算(Near-Memory Computing)與存算一體(Computing-in-Memory)技術(shù)開(kāi)始融入DSP架構(gòu)。例如,三星的HBM2-PIM技術(shù)將乘法器集成至DRAM芯片,結(jié)合改進(jìn)型哈佛結(jié)構(gòu)的DMA控制器,使矩陣運(yùn)算能效比提升10倍以上。
DSP架構(gòu)的演進(jìn)史是一部為突破存儲(chǔ)墻與功耗墻而持續(xù)創(chuàng)新的歷史。從馮·諾依曼結(jié)構(gòu)到哈佛結(jié)構(gòu),再到改進(jìn)型哈佛結(jié)構(gòu)與異構(gòu)計(jì)算,每一次架構(gòu)變革都深刻影響了數(shù)字信號(hào)處理的邊界。未來(lái),隨著3D封裝、光互連等技術(shù)的成熟,DSP架構(gòu)或?qū)⑦M(jìn)一步融合馮·諾依曼與哈佛結(jié)構(gòu)的優(yōu)勢(shì),在通用性與專(zhuān)用性之間找到新的平衡點(diǎn)。