基于PSO-DDPG算法的光儲充電站實(shí)時(shí)控制策略研究

時(shí)間：2023-12-05 09:57:02

關(guān)鍵字：光儲充電站 PSO-DDPG算法

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]“雙碳”背景下 ,光儲充電站逐漸成為未來充電站的一種主流形式。為提高光儲充電站的經(jīng)濟(jì)效益并降低二氧化碳排放 ,提出了一種基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的光儲充電站實(shí)時(shí)控制策略。首先 ,建立以碳排放最小與運(yùn)行成本最低為目標(biāo)的優(yōu)化模型并將其轉(zhuǎn)換為馬爾可夫決策過程；其次 ,提出了一種基于經(jīng)驗(yàn)繼承機(jī)制的粒子群優(yōu)化-深度確定性策略梯度算法（Particle swarm optimization-Deep Determini公tic Policy Gradient ,Pso-DDPG）；最后 , 考慮動態(tài)碳排放因子開展算例分析 ,驗(yàn)證了所提Pso-DDPG策略的有效性。

隨著電動汽車(Electric vehicle，EV)保有量的快速增長，公共充電設(shè)施得到了越來越多的關(guān)注[1]。常規(guī)的電動汽車充電站(Charging Station，CS)僅通過向電網(wǎng)購電、向電動汽車用戶售電來實(shí)現(xiàn)盈利，但其充電負(fù)荷可調(diào)節(jié)性差，晚間充電負(fù)荷與居民負(fù)荷疊加易形成“峰上加峰”現(xiàn)象[2-3]。在此背景下，一種在站內(nèi)配置了光伏(Photovoltaic，Pv)與儲能系統(tǒng)(Energy Storage System，ESS)的光儲充電站得到了發(fā)展。光伏系統(tǒng)的加入提高了充電站的能源自給率與碳減排效益，而儲能系統(tǒng)的調(diào)節(jié)作用起到了平滑配網(wǎng)(DistriBution Network，DN)供電功率和削峰填谷的作用。然而，光伏出力受多重因素影響，具有實(shí)時(shí)波動的特點(diǎn)，而電動汽車的隨機(jī)充電行為更加大了對光儲充電站實(shí)時(shí)調(diào)度的難度[4-5]。因此，本文提出了一種融合啟發(fā)式算法與深度強(qiáng)化學(xué)習(xí)算法的光儲充電站實(shí)時(shí)控制策略，通過粒子群算法(ParticleSwarmoptimization，PSo)拓展深度確定性策略梯度函數(shù)(Deep Deterministic Policy Gradient，DDPG)的探索性能，提高控制策略的求解質(zhì)量與實(shí)時(shí)性能。

1光儲充電站能量實(shí)時(shí)控制策略

為充分發(fā)揮光儲充電站的節(jié)能減排效益，選取充電站碳排放量最小與運(yùn)行成本最低為優(yōu)化目標(biāo)，建立光儲充電站能量調(diào)度模型。此外，為提高所建立優(yōu)化模型對復(fù)雜工況的實(shí)時(shí)應(yīng)對性能，本文進(jìn)一步將該優(yōu)化模型建立為馬爾可夫決策過程(Markov Decision Process，MDP)[6]。

1.1光儲充電站能量調(diào)度模型

1.1.1目標(biāo)函數(shù)

1)碳排放最小。為充分消納光伏，提高充電站的能源自給率與碳減排效益，本文考慮電網(wǎng)動態(tài)二氧化碳排放因子，將充電站碳排放最小作為優(yōu)化目標(biāo)之一。

運(yùn)行成本最低。光儲充電站通過能量管理系統(tǒng)對站內(nèi)能量流動進(jìn)行控制，從而降低整站的運(yùn)行成本，其中運(yùn)行成本可以分為向電網(wǎng)購電成本以及儲能損耗成本兩部分：

1.1.2約束條件

1）充電站功率平衡：

上式中等號左側(cè)代表受電端，右側(cè)代表送電端。

2）儲能運(yùn)行約束：

3）電網(wǎng)供電功率約束：

4）電動汽車充電約束：

1.2基于MDP的能量實(shí)時(shí)控制策略

為提高所提策略的實(shí)時(shí)性能，本文將所建立的優(yōu)化模型轉(zhuǎn)換為馬爾可夫決策過程，其核心思想如圖1所示。在訓(xùn)練過程中，智能體從環(huán)境中捕捉實(shí)時(shí)狀態(tài)st，依據(jù)當(dāng)前策略做出控制動作at從而改變當(dāng)前環(huán)境，而后通過獎勵rt給予智能體實(shí)時(shí)反績，引導(dǎo)智能體獲得更高的獎勵值以及更優(yōu)越的控制策略。

1）狀態(tài)st代表MDP模型中環(huán)境的實(shí)時(shí)信息。本文從電網(wǎng)、光伏、儲能、用戶四個(gè)角度構(gòu)建智能體的狀態(tài)空間，狀態(tài)st為：

動作at是針對環(huán)境狀態(tài)st所做出的控制決策。本文將儲能充放電功率以及用戶充電樁功率作為控制動作，即：

3）獎勵rt是環(huán)境對智能體動作at的及時(shí)反績。依據(jù)上文建立的優(yōu)化模型，本文設(shè)計(jì)獎勵rt包含二氧化碳排放成本CCO2以及運(yùn)行成本兩項(xiàng)，其中運(yùn)行成本包含購電成本C1與儲能損耗成本C2：

2基于PSO-DDPG的求解算法

DDPG是一種基于Actor-Critic架構(gòu)的深度強(qiáng)化學(xué)習(xí)算法，其在連續(xù)動作空間問題上具有良好的學(xué)習(xí)性能。然而，DDPG算法訓(xùn)練過程中的梯度方向固定，僅與所抽取的mini-batch中的樣本有關(guān)，這導(dǎo)致算法缺乏探索性，最終訓(xùn)練的智能體容易陷入局部最優(yōu)。為此，本文提出了一種基于樣本繼承機(jī)制的PSO-DDPG算法，通過引入粒子群算法提高DDPG算法的探索性能。

2.1 PSO算法基本原理

作為一種經(jīng)典的群體智能算法，PSO算法通過模擬自然界的鳥群捕食來實(shí)現(xiàn)優(yōu)化問題的求解。具體而言，粒子群中的所有粒子都被分配了速度與位置，通過粒子個(gè)體在解空間單獨(dú)尋優(yōu)pt，進(jìn)而求得全局最優(yōu)解Gest。在選代過程中，粒子的位置xi，k與速度vi，k可由下式更新：

2.2 DDPG算法基本原理

DDPG算法通過Actor網(wǎng)絡(luò)μ（s|θμ)、目標(biāo)Actor網(wǎng)絡(luò)μ/（s|θμ/）、critic網(wǎng)絡(luò)Q（s，a|θQ）與目標(biāo)critic網(wǎng)絡(luò)Q/（s，a|θQ/）實(shí)現(xiàn)智能體的訓(xùn)練。在訓(xùn)練過程中，critic網(wǎng)絡(luò)通過損失函數(shù)LQ更新網(wǎng)絡(luò)參數(shù)：

2.3 PSO-DDPG算法訓(xùn)練流程

為解決DDPG算法探索性能不足的局限，本文提出了一種PSO-DDPG算法，其訓(xùn)練流程如圖2所示。首先，基于PSO算法對光儲充電站隨機(jī)場景進(jìn)行求解，將滿足精度要求的全局最優(yōu)解Gest對應(yīng)的樣本存入經(jīng)驗(yàn)池中，直至達(dá)到PSO模塊的最大回合NP。其次，運(yùn)行DDPG算法模塊，智能體觀測充電站狀態(tài)st，做出對儲能系統(tǒng)與充電樁的控制動作at，在得到獎勵后將樣本存入經(jīng)驗(yàn)池。然后，從PSO與DDPG的混合經(jīng)驗(yàn)池中隨機(jī)抽取mini-batch樣本（sj，aj，rj，sj+1）更新Critic與Actor，并進(jìn)一步軟更新兩個(gè)目標(biāo)網(wǎng)絡(luò)。最后，重復(fù)DDPG的訓(xùn)練流程直至達(dá)到最大回合ND。這樣，探索性能優(yōu)越的PSO算法通過經(jīng)驗(yàn)池將樣本繼承給DDPG智能體，增強(qiáng)了DDPG的探索性能與全局尋優(yōu)能力。

3算例分析

3.1參數(shù)設(shè)置

為了便于算例的量化分析，對光儲充電站設(shè)定如下條件：1）儲能容量取300 kw.h，額定充放電功率120 kw，光伏容量200 kw，站內(nèi)配置了12個(gè)60 kw快充樁；2）儲能損耗系數(shù)取0.06元/（kw.h），電網(wǎng)不同時(shí)段碳排放系數(shù)如圖3所示[7]，二氧化碳排放成本系數(shù)為0.04元/kg[8]。

3.2訓(xùn)練過程分析

設(shè)PSO算法的種群規(guī)模為100，最大選代次數(shù)為200，慣性因子取0.8，個(gè)體與群體加速因子均取1.8。此外，設(shè)DDPG算法折扣率為0.99，學(xué)習(xí)率為0.000 5，mini-batch容量為100，經(jīng)驗(yàn)池容量為12 000，最大訓(xùn)練次數(shù)為1 000，可得所提PSO-DDPG算法的訓(xùn)練曲線如圖4所示。從圖中可見，智能體訓(xùn)練獎勵曲線快速上升，并在300回合左右進(jìn)入穩(wěn)定范圍，獎勵曲線最終在-6.96左右小幅振蕩，證明了所提算法能夠通過PSO經(jīng)驗(yàn)繼承機(jī)制快速幫助智能體探索訓(xùn)練環(huán)境。

3.3策略有效性分析

光儲充電站在無序與有序場景下的功率曲線如圖5所示，無序與有序場景的成本對比如表1所示。

由圖5（a）可見，無序場景的功率控制邏輯是當(dāng)有充電負(fù)荷時(shí)先由光伏供電，光伏不足時(shí)由儲能系統(tǒng)供電，而站內(nèi)光儲無法滿足充電需求則由電網(wǎng)供電，這導(dǎo)致充電站未完全發(fā)揮光儲的協(xié)調(diào)互補(bǔ)功能，全天向電網(wǎng)購電918.30 kw.h，花費(fèi)662.78元。而所提策略充分發(fā)揮了儲能與充電樁的靈活調(diào)節(jié)能力，不僅削減了最大充電負(fù)荷，同時(shí)購電費(fèi)用僅為499.04元，相較于前者降低了24.71%。值得注意的是，所提策略的儲能損耗成本要高于無序場景，這主要是由于對儲能更頻繁的調(diào)度，盡管如此，相較于購電成本的降低，儲能損耗增加21.94元仍是可以接受的。以上結(jié)果驗(yàn)證了所提PSO—DDPG策略能夠更好地發(fā)揮儲能的靈活調(diào)整作用，利用峰谷電價(jià)降低光儲充電站的整體運(yùn)行成本。

4結(jié)束語

在“雙碳”背景下，光伏等分布式可再生能源與電動汽車的協(xié)調(diào)發(fā)展無疑是大勢所趨。針對光儲充電站，本文提出了一種基于PSO改進(jìn)深度強(qiáng)化學(xué)習(xí)的算法，基于經(jīng)驗(yàn)繼承機(jī)制提高DDPG智能體的探索性能與求解能力。通過算例結(jié)果發(fā)現(xiàn)，本文所提PSO-DDPG策略能夠有效完成光儲充電站的實(shí)時(shí)能量控制，相較于無序場景降低了24.71%的購電成本，并能夠降低二氧化碳排放。下一步將考慮電動汽車集群的V2G能力，進(jìn)一步優(yōu)化所提策略。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計(jì)：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]