www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

<menu id="brdul"></menu>

<strike id="brdul"></strike>

當前位置：首頁 > 嵌入式 > 嵌入式硬件

嵌入式ARM多核處理器并行化方法

時間：2018-06-12 11:30:01

關鍵字： ARM 多核處理器嵌入式嵌入式處理器負載均衡 dsp核

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]在嵌入式多核處理器上進行并行化優(yōu)化，一方面要充分發(fā)掘嵌人式多核處理器的并行性能，提高程序的并行性；另一方面也要考慮程序算法的負載均衡性，確保在不同應用環(huán)境中程序性能一致。

目前，嵌入式多核處理器已經(jīng)在嵌入式設備領域得到廣泛運用，但嵌人式系統(tǒng)軟件開發(fā)技術還停留在傳統(tǒng)單核模式，并沒有充分發(fā)揮多核處理器的性能。程序并行化優(yōu)化目前在PC平臺上有一定運用，但在嵌入式平臺上還很少，另外，嵌入式多核處理器與PC平臺多核處理器有很大不同，因此不能直接將PC平臺的并行化優(yōu)化方法應用到嵌人式平臺。本文分別從任務并行和緩存優(yōu)化兩方面進行并行化優(yōu)化的研究，探索在嵌人式多核處理器上對程序進行并行化優(yōu)化的方法。

1嵌入式多核處理器結構

嵌人式多核處理器的結構包括同構（Symmetric）和異構（Asymmetric）兩種。同構是指內(nèi)部核的結構是相同的，這種結構目前廣泛應用在PC多核處理器；而異構是指內(nèi)部核的結構是不同的，這種結構常常在嵌入式領域使用，常見的是通用嵌入式處理器+DSP核。本文探究的嵌入式多核處理器采用同構結構，實現(xiàn)同一段代碼在不同處理器上的并行執(zhí)行。

圖1 ARM SMP處理器結構

在目前嵌入式領域中，使用最為廣泛的為ARM處理器，因此以ARM雙核處理器OMAP4430作為研究對象。ARM對稱多處理（Symmetric Multi-Processing，SMP）結構如圖1所示，根據(jù)程序的局部性原理，每一個處理器都具有私有的內(nèi)存（Local Memory），常見的是一級緩存（L1Cache）。然而，多個處理器之間又涉及到相互通信問題，因此在常見的ARM處理器中使用二級緩存（L2 Cache）來解決這一問題?；趯ΨQ多處理器結構，所有的處理器（通常為2的倍數(shù)）在硬件結構上都是相同的，在使用系統(tǒng)資源上也是平等的。更重要的是，由于所有的處理器都有權利去訪問相同的內(nèi)存空間，在共享內(nèi)存區(qū)域中，任何一個進程或者線程都可以運行在任意一個處理器之上，這樣就使得程序的并行化成為可能。2在嵌入式多核平臺上進行并行化優(yōu)化，需要考慮以下問題：

①并行化程序的性能取決于程序中串行化部分，程序性能不會隨著并行線程數(shù)目的提升而不斷提升；

②嵌入式多核處理器相對于PC處理器而言，其總線速度較慢，并且緩存（Cache）更小，會造成大量數(shù)據(jù)在內(nèi)存（Memory）和緩存（Cache）問不斷拷貝，因此在進行并行化優(yōu)化的過程中，應考慮緩存友好性（Cache friendly）；

③程序并行化執(zhí)行線程數(shù)目應當小于或等于物理處理器的數(shù)目，線程過多會造成線程間搶占處理器資源，致使并行化性能下降。

2 OpenMP并行化優(yōu)化

2.1 0penMP工作原理簡介

OpenMP是一個基于共享內(nèi)存模式的跨平臺多線程并行的編程接口。主線程生成一系列的子線程，并將任務映射到子線程進行執(zhí)行，這些子線程并行執(zhí)行，由運行時環(huán)境將線程分配給不同的物理處理器。默認情況下，各個線程獨立執(zhí)行并行區(qū)域的代碼?？梢允褂脀ork-sharingconstructs來劃分任務，使每個線程執(zhí)行其分配部分的代碼。通過這種方式，使用OpenMP可以實現(xiàn)任務并行和數(shù)據(jù)并行。

圖2任務并行模型

任務并行模式創(chuàng)建一系列獨立的線程，每一個線程運行一個任務，線程之間相互獨立，如圖2所示。OpenMP使用編譯原語session directive和task directive來實現(xiàn)任務分配，每個線程可以獨立運行不同的代碼區(qū)域，同時支持任務的嵌套和遞歸。一旦創(chuàng)建任務，該任務就可能會在線程池（其大小等于物理線程數(shù)目）中空閑的線程上執(zhí)行。

數(shù)據(jù)并行也就是數(shù)據(jù)級并行，對任務中處理的數(shù)據(jù)進行分塊并行執(zhí)行，如圖3所示。C語言中的for循環(huán)最適合使用數(shù)據(jù)并行。

圖3數(shù)據(jù)并行模型

2.2快速排序算法原理

快速排序算法是一種遞歸分治算法，算法中最為關鍵的就是確定哨兵元素（pivot data）。數(shù)據(jù)序列中小于哨兵的數(shù)據(jù)將會放在哨兵元素的左側，序列中大于哨兵的數(shù)據(jù)將會被放在哨兵元素的右側。當完成數(shù)據(jù)掃描后，哨兵元素分成的左右兩個部分就會調用快速排序算法遞歸進行。

快速排序算法中涉及算法的遞歸調用，會產(chǎn)生大量任務，并且這些任務相互獨立，非常適合OpenMP的任務并行模式；另外，就一次快速排序搜索算法而言，哨兵元素對于左右子區(qū)間數(shù)據(jù)容量大小具有決定性作用，考慮到嵌入式平臺的緩存（Cache）空間較小，需要對哨兵元素篩選算法進行優(yōu)化，盡量使得劃分出來的左右子區(qū)間更均衡，滿足負載均衡的要求。

2.3任務并行化優(yōu)化

通過對快速排序算法的分析，快速排序是一個遞歸調用算法，算法的執(zhí)行過程中會產(chǎn)生大量重復函數(shù)調用，并且函數(shù)的執(zhí)行相互獨立。對于快速排序的一次掃描運算而言，算法首先確定哨兵元素（pivot），并對數(shù)據(jù)序列進行一次調整，然后對哨兵元素的左右區(qū)間再次進行遞歸調用算法。

如下所示，對任務并行化優(yōu)化針對每次掃描調整后的左右子區(qū)間，將每個子區(qū)間的運算抽象為一個任務，并通過OpenMP中的任務并行化原語#pragma omp task實現(xiàn)任務的并行化執(zhí)行，從而實現(xiàn)了快速排序的任務并行化優(yōu)化。

任務空間中的數(shù)據(jù)大小取決于哨兵元素，因此，算法選取的劃分算法（Partition Algorithm）應盡量將數(shù)據(jù)序列的劃分均衡化，本文使用簡單劃分算法和三元中值法（Median-of-Three Method）進行測試。

2.4緩存優(yōu)化

緩存優(yōu)化（Cache friendly）的目標是減少數(shù)據(jù)在內(nèi)存和緩存之間的拷貝。對于220個整型數(shù)據(jù)而言，數(shù)據(jù)大小為4 MB，本文的測試平臺（）MAP4430的二級緩存為1 MB，需要將數(shù)據(jù)劃分為4個部分。

如下所示，算法將4部分數(shù)據(jù)分為4個快速排序任務，4部分任務并行執(zhí)行，完成后每部分數(shù)據(jù)序列排序完成，需要將4部分數(shù)據(jù)進行合并形成完成數(shù)據(jù)序列，因此在并行任務結束后，需要對數(shù)據(jù)進行歸并排序。

3并行化性能分析

3.1實驗環(huán)境介紹

本文采用德州儀器（Texas Instruments）的OMAP4430嵌入式開發(fā)平臺。OMAP443O為嵌入式多核處理器，擁有對稱多處理雙核ARM處理器（Dual-core ARM Cortex-A、一級緩存32 KB、二級緩存1 MB，嵌入式操作系統(tǒng)采用Ubuntul2.O4內(nèi)核，編譯器為arm-linux-gnueabihf-gcc，使用GNU gprof獲取算法執(zhí)行時間。

3.2性能測試

如下式所示，采用計算加速比的方式來分析并行優(yōu)化的性能，加速比數(shù)值越大表示算法的并行程度越高，最低為1.性能測試采用4個算法版本，包括串行版本、并行2線程、并行4線程和緩存優(yōu)化版，從不同角度來分析性能。

如圖4所示，從折線圖可以看出，3種并行化優(yōu)化算法相對于串行版本，算法的并行性能都有較大提升，如表1所列，其并行加速比分別為1.30、1.29和1.21.對任務并行優(yōu)化方案而言，分別使用2線程和4線程版本進行測試，從加速比的分析結果看來，2線程版本較4線程版本略好。理論上并行線程的數(shù)目越多性能越好，但本文采用OMAP443O只有兩個對稱多處理核心，即使算法擁有4個并行線程，但實際執(zhí)行的線程只有2個，同時4個線程在獲取2個物理處理器時存在競爭關系，因而造成性能較之2線程版本有所下降。

圖4算法執(zhí)行時間

評價并行算法優(yōu)劣還需考慮算法的負載均衡性，如表1、表2所列，緩存優(yōu)化方案標準差遠遠小于任務并行化方案。究其原因，對于任務并行化方案而言，不同的測試數(shù)據(jù)以及劃分算法（partition）對區(qū)間的劃分有重要影響，從而造成任務執(zhí)行時間變化范圍很大；對于緩存優(yōu)化方案而言，其實質是數(shù)據(jù)并行，其每一個任務都是根據(jù)緩存大小進行劃分，因此每一個任務處理的數(shù)據(jù)規(guī)?；疽恢拢恳粋€任務執(zhí)行的時間更確定，但由于并行任務執(zhí)行完成后，需要對數(shù)據(jù)進行歸并，造成一定的性能下降。

結語

本文通過對嵌入式多核處理器硬件結構的分析，從對稱多處理角度對串行快速排序算法進行并行化優(yōu)化，取得了很好的效果。

以ARM雙核處理器（OMAP4430）作為測試平臺，從任務并行和緩存優(yōu)化實現(xiàn)并行優(yōu)化，從性能測試的結果看，任務并行具有良好的加速比，但負載均衡性差，并行線程數(shù)目不應超過物理處理器核的數(shù)目，過多的并行線程競爭處理器資源，造成性能下降。緩存優(yōu)化具有良好的負載均衡性，但需要后續(xù)進行歸并操作，造成性能有所下降。

總之，在嵌入式多核處理器上進行并行化優(yōu)化，一方面要充分發(fā)掘嵌人式多核處理器的并行性能，提高程序的并行性；另一方面也要考慮程序算法的負載均衡性，確保在不同應用環(huán)境中程序性能一致。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

延伸閱讀

[康佳特]

德國康佳特將在2025上海工博會展示aReady.COM應用就緒解決方案

德國康佳特亮相上海工博會,展示多款應用就緒的嵌入式解決方案平臺

關鍵字：嵌入式傳感器處理器

[Microchip]

Deca與冠捷半導體(SST)達成戰(zhàn)略合作共同推進非易失性存儲(NVM)芯粒解決方案

雙方攜手為客戶打造以存儲為核心的模塊化基礎架構，支持先進的多裸片架構設計

關鍵字：非易失性存儲半導體嵌入式

[Microchip]

Microchip第22屆中國技術精英年會(MASTERs)現(xiàn)已開放注冊報名

本屆年會將在上海(11月13-14日)、北京(11月19-20日)和深圳(11月27-28日)舉行，面向嵌入式設計工程師推出25門技術課程

關鍵字：嵌入式 MCU 模擬

[美通社全球TMT]

上海國際嵌入式會議 ewCN Conference 將于10 月舉辦

上海2025年9月5日 /美通社/ -- 由紐倫堡會展（上海）有限公司舉辦的上海國際嵌入式會議將于 2025 年 10 月 16-17 日在上海世博展覽館舉辦。此次會議將由三個版塊組成：嵌入式技術會議、汽...

關鍵字：嵌入式 CE CHINA EMBEDDED

[廠商動態(tài)]

嵌入式電子的復雜世界：獨立生態(tài)系統(tǒng)的分層迷宮

從外部看，電子系統(tǒng)仿佛一個統(tǒng)一的學科或設備，各組成部分協(xié)同工作，渾然一體。然而揭開表象，其內(nèi)在卻是另一番景象：一個碎片化、多層次的世界——其中每一層都獨立且復雜，衍生出各自特有的工具、專家、工作流程，甚至哲學體系。

關鍵字：嵌入式電子系統(tǒng) 半導體

[Microchip]

高能效與靈活性能：8位單片機的持久影響力

8位單片機在嵌入式設計領域已經(jīng)成為半個多世紀以來的主流選擇。盡管嵌入式系統(tǒng)市場日益復雜，8位單片機依然不斷發(fā)展，積極應對新的挑戰(zhàn)和系統(tǒng)需求。如今，Microchip推出的8位PIC?和AVR?單片機系列，配備了先進的獨立...

關鍵字：單片機嵌入式 CPU

[美通社全球TMT]

德明利亮相ELEXCON 2025，榮獲"年度AI市場領軍企業(yè)獎"

深圳2025年8月28日 /美通社/ -- 8月26日，2025 ELEXCON深圳國際電子展盛大啟幕。本屆大會以"All for AI"為主題，深圳市德...

關鍵字： AI 工業(yè)級 SSD 嵌入式

[美通社全球TMT]

深圳國際電子展暨嵌入式展elexcon開幕，高通、瑞薩等企業(yè)嘉賓帶來精彩分享

深圳2025年8月26日 /美通社/ -- 8月26日，由博聞創(chuàng)意會展主辦的第22屆深圳國際電子展暨嵌入式展（elexcon2025）在深圳（福田）會展中心隆重開幕。作為中國電子與嵌入式技術領域的專業(yè)大展，本屆展會...

關鍵字：嵌入式電子高通 AI

[技術前線]

一文搞懂嵌入式開發(fā)中模塊化設計的原理

模塊化設計作為一種將系統(tǒng)拆分為獨立、可復用組件的方法，能夠在低代碼平臺中實現(xiàn)功能的靈活組合，并最大限度地提升系統(tǒng)性能。本文將探討如何通過模塊化設計，使得低代碼平臺既能快速適應變化，又能保持高效穩(wěn)定的運行。

關鍵字：模塊化設計嵌入式

[嵌入式分享]

ARM架構的SVC模式：特權執(zhí)行的安全基石(三)

關鍵字： ARM SVC

關閉

<td id="tgjvw"><button id="tgjvw"><thead id="tgjvw"></thead></button></td>

<td id="tgjvw"><rp id="tgjvw"><thead id="tgjvw"></thead></rp></td>