當前位置：首頁 > 嵌入式 > 嵌入式硬件

基于Xtensa可配置處理器技術的視頻加速引擎技術

時間：2018-11-07 16:00:01

關鍵字：處理器嵌入式處理器引擎技術視頻

手機看文章

掃描二維碼
隨時隨地手機看文章

掌上多媒體設備的增長極大地改變了終端多媒體芯片供應商對產(chǎn)品的定位需求。這些芯片提供商的IC設計目標不再僅僅針對一兩種多媒體編解碼器。消費者希望他們的移動設備能夠利用不同的設備來播放媒體，能夠采用不同的標準進行編碼，并能夠從不同的設備來下載或者接收媒體數(shù)據(jù)。視頻譯碼器和編碼器引擎必須滿足多種需求，并具有面積和功耗優(yōu)勢。
　　
　　1、設計視頻加速引擎的傳統(tǒng)RTL方法
　　
　　上一代視頻ASIC的設計主要對MPEG-2進行編碼和譯碼，因為這是DVD標準。有些視頻ASIC還支持MPEG-1，用于VCD（視頻CD）播放。在多數(shù)情況下，MPEG-2編碼器和譯碼器都采用RTL設計方法。一個典型MPEG-2視頻ASIC體系結構如圖1所示，其中包括由各個RTL模塊構成的視頻子系統(tǒng)、主控制器和片上存儲器。
　　
　　采用硬線RTL體系結構支持多種視頻標準，然而，這也意味著每個視頻標準都需要一個專用的RTL模塊來實現(xiàn)。采用硬線RTL模塊實現(xiàn)一個多種標準的視頻加速引擎具有一定的局限性。無論是實現(xiàn)一個新的視頻標準、更新已有的標準還是消除其中的故障都需要重新進行芯片加工。
　　
　　2、采用處理器作為視頻加速引擎的優(yōu)勢
　　
　　可編程處理器能夠滿足多種視頻標準的靈活性要求。與RTL模塊設計方法相比，可編程處理器具有如下幾個優(yōu)勢：一是易于將編解碼器與處理器接口；二是滿足新的視頻標準要求、更新現(xiàn)有編解碼器或者采用軟件方法在芯片投片后也可以修改故障；三是可以采用軟件更新的方法很容易地提高視頻編解碼器的性能。

　　然而，傳統(tǒng)的32位處理器存在性能瓶頸，因為它們是面向通用代碼設計的，而不是面向視頻加速引擎設計的。嵌入式DSP也并非專門為視頻量身定做的，而是包括硬件功能部件、指令和接口，專門應用于通用DSP領域。因此，為了在傳統(tǒng)RISC和DSP處理器上實現(xiàn)視頻編解碼器，就必須使這些處理器運行在很高的速度(Mhz)上，需要大量的存儲器空間，因此需要很大的功耗，不適合便攜式應用。

　　通過研究一個視頻內核程序所需要的計算量，即可一目了然。比如，一個絕對差值累加運算SAD，該運算是大部分視頻編碼算法中運動估計一步常采用的方法。SAD算法將會在相鄰兩個連續(xù)視頻幀中找出宏塊的運動情況，為此，需要計算兩個宏塊中每一組對應的像素值之間絕對差值的累加和。
　　下面C代碼給出了SAD核心算法的簡單實現(xiàn)：
　　 for (row = 0; row < numrows; row++) {
　　 for (col = 0; col < numcols; col++) {
　　 accum += abs(macroblk1[row][col] - macroblk2[row][col]);
　　} /* column loop */
　　} /* row loop */
　　 SAD核心算法的基本計算方法如圖2所示。正像圖中所示的那樣，SAD核心算法首先執(zhí)行減法操作，然后取絕對值，最后對前面的結果進行累加。
　　
　　在一個RISC處理器上計算一個由兩個16x16宏塊組成的SAD運算需要256次減法運算、256次絕對值運算和256次累加運算，共需要768次算術運算，這還不包括因數(shù)據(jù)轉移需要的取數(shù)和存數(shù)操作。由于這需要對每一幀的所有宏塊進行操作，因此，隨著分辨率的提高引起視頻幀增加，使得計算成本極度昂貴。
　　事實上，對于一個一般的通用RISC處理器而言（包括一些DSP指令，如乘法指令和乘累加指令），執(zhí)行一個H.264基準譯碼算法需要250 MHz的性能（CIF分辨率），而執(zhí)行一個H.264基準編碼算法則需要超過1 GHz的性能（CIF分辨率）。完成上述運算，僅處理器內核就需要500mW的功耗，更不要說由訪存和視頻SOC的其它部件所用的功耗。