嵌入式多媒體系統(tǒng)的優(yōu)化權衡
隨著嵌入式多媒體應用的不斷發(fā)展,系統(tǒng)控制和信號處理之間的交互性不斷增強。最新的嵌入式多媒體處理器已能夠同時處理mcu和dsp的任務,從而將那些熟悉用mcu方式進行應用開發(fā)的c程序員帶入了一個新的領域。其中對代碼和數(shù)據(jù)流的智能管理會顯著提高系統(tǒng)的性能。然而,對多媒體處理器的高性能直接內(nèi)存訪問(dma)能力應認真地考慮,懂得在這些應用中對使用高速緩存和dma進行權衡將有助于更好地理解為優(yōu)化系統(tǒng)如何編程。存儲器結(jié)構
——對存儲器管理的要求
媒體處理器通過分級的存儲器結(jié)構,來平衡幾種不同容量和性能等級的存儲器。離核心處理器最近的存儲器(l1存儲器)通常支持單時鐘周期指令的運行,以全時鐘速率工作。為了高效地利用存儲器總線的帶寬,l1存儲器一般分為指令段和數(shù)據(jù)段,被配置成sram或高速緩存。對于那些權限最高的應用,在一個單時鐘周期內(nèi)就能夠訪問片內(nèi)sram。對于要求較長代碼的系統(tǒng),則可以提供附加的片內(nèi)和片外存儲器——這會增加等待時間。
這種層次結(jié)構本身作用有限,為了適應僅配合低速外部存儲器的大部分應用,高速處理器通常不得不以很低的速度降級使用。這時為了提高性能,程序員可以人工地選擇將關鍵代碼移入或移出內(nèi)部sram。另外,還可以通過將數(shù)據(jù)高速緩存和指令高速緩存加入進這種結(jié)構,從而使程序員能夠更方便地人工管理外部存儲器。由于高速緩存減少了將指令和數(shù)據(jù)流送入處理器內(nèi)核的人工管理,從而極大地簡化了編程模式。指令存儲器管理
——高速緩存還是dma
對嵌入式媒體處理器市場的調(diào)查表明,核心處理器的速度不低于600 mhz。盡管這種性能可以開辟許多新應用,但只有在從內(nèi)部l1存儲器中讀取代碼時才能達到這種最高速度。當然,理想嵌入式處理器可以具有無限容量的l1存儲器,但這不切實際。因此,程序員在為其實際系統(tǒng)優(yōu)化存儲器和數(shù)據(jù)流時,必須考慮幾種可選方案以充分利用置于處理器內(nèi)的l1存儲器。
第一種方案是目標應用代碼可以完全放入l1指令存儲器。對于這種情況,程序員只需將應用代碼直接映射到該存儲器空間,而無需特殊操作。這就是為什么包含mcu和dsp兩種功能的媒體處理器必然在這種體系架構支持的代碼密度方面具有獨特優(yōu)勢的原因。
第二種方案是采用一種高速緩存機構允許程序員訪問更大容量、較低成本的外部存儲器。這種方法的主要優(yōu)點是程序員無需管理代碼移入和移出高速緩存。當執(zhí)行線性代碼時,能達到最好的效果;但當執(zhí)行非線性代碼時,高速緩存線可能會因替換頻繁,而導致實時性能變差。
指令高速緩存實際上具有兩個作用。第一,它以更有效率的方式從外部存儲器中預取指令。第二,由于高速緩存一般使用某種“最近使用的指令”的算法,所以那些使用最頻繁的指令往往被保持在高速緩存中。這樣做很有好處,因為存在l1高速緩存中的指令能夠在一個單時鐘周期內(nèi)完成。
大多數(shù)嚴格的實時程序員一般不相信這種高速緩存能帶來最佳的系統(tǒng)性能。理由是如果一系列指令在需要執(zhí)行時卻沒有在高速緩存內(nèi),將導致性能下降。采用高速緩存鎖定機制能彌補這一問題,一旦將關鍵的指令裝入高速緩存,高速緩存線就被鎖住,因此指令不會被覆蓋。這樣,程序員就能夠在高速緩存中保持他們所需的指令,而使該高速緩存機制來管理次要指令。
最后一種方案是通過使用一個獨立于處理器內(nèi)核的dma通道將代碼移入或移出l1存儲器。當處理器內(nèi)核在存儲器的一個存儲塊運行時,該dma將代碼送入下一個存儲塊去執(zhí)行。這種方案通常被稱為一種覆蓋技術。
雖然通過dma將覆蓋代碼送入l1指令存儲器可以比高速緩存方式提供更多的關鍵指令,但程序員需要預先安排一種覆蓋代碼的方法和恰當?shù)嘏渲胐ma通道,這會顯著增加程序員的工作量。數(shù)據(jù)存儲器管理
嵌入式媒體處理器的數(shù)據(jù)存儲器結(jié)構對于整個系統(tǒng)性能的重要性等同于指令時鐘速度的重要性。因為在多媒體應用中經(jīng)常會有多個數(shù)據(jù)傳送任務同時進行,所以其總線結(jié)構必須支持內(nèi)核和dma對所有外部和內(nèi)部存儲器塊的訪問。對dma控制器和內(nèi)核之間的沖突進行自動處理時,首先要求在內(nèi)核與dma之間建立dma控制器,然后當要進行處理的數(shù)據(jù)已經(jīng)準備好時,響應中斷。
處理器的一項基本功能是執(zhí)行數(shù)據(jù)讀取操作。雖然這通常是傳送數(shù)據(jù)效率最低的機制,但卻是最簡單的編程方式。小容量、快速方便的存儲器有時可以用來作為l1數(shù)據(jù)存儲器的一部分,但對于較大容量的片外緩沖器,如果內(nèi)核要從外部存儲器讀取所有數(shù)據(jù),那么訪問時間就會太長。所以在多媒體和其它存在大量數(shù)據(jù)操作的應用中,要不斷地將大量數(shù)據(jù)存儲移入或移出sdram,雖然內(nèi)核的讀取數(shù)據(jù)操作總是需要的,但為了維持性能,必須要使用dma或高速緩存來傳送大量的數(shù)據(jù)。使用dma管理數(shù)據(jù)
為了在多媒體系統(tǒng)中有效地利用dma,應該有足夠多的dma通道以充分支持處理器的外圍電路,從而達到在存儲器與dma之間可以同時傳送一對以上的數(shù)據(jù)流,這一點非常重要。同時,隨著數(shù)據(jù)傳輸速率和性能要求的提高,設計工程師