基于安全强化学习的主动配电网有功-无功协调优化调度

2024-04-04分类： / 电力科技来源：中国电力

【】

编者按

光伏（photovoltaic，PV）在主动配电网（active distribution network，ADN）中比重的提升可能引发严重的电压越限问题。此外，由于配电线路阻抗大，有功、无功功率之间存在较强的耦合关系。因此考虑经济性和安全性，需要同时优化ADN中的有功及无功资源。

《中国电力》2024年第3期刊发了焦昊等人撰写的《基于安全强化学习的主动配电网有功-无功协调优化调度》一文。文章提出一种基于离线策略的安全强化学习方法来解决ADN有功-无功协调优化问题。首先，基于ADN拓扑结构、线路和设备参数等信息构建约束马尔可夫决策过程（constrained markov decision process，CMDP）。在马尔可夫决策过程（markov decision process，MDP）的基础上添加了成本函数，规避了MDP模型难以处理约束的弊端；其次，以深度确定性策略梯度算法（deep deterministic policy gradient，DDPG）为基础提出基于原始对偶的安全强化学习方法（primal dual DDPG，PD-DDPG）；最后，结合ADN海量历史样本数据进行离线训练，获得ADN最优有功无功优化调度策略。所提方法能够满足配电网络运行约束，具有更高的安全性。

摘要

提出一种基于离线策略的安全强化学习方法，通过离线训练大量配电网历史运行数据，摆脱了传统优化方法对完备且准确模型的依赖。首先，结合配电网络参数信息，建立了基于约束马尔可夫决策过程的有功无功优化模型；其次，基于原始对偶优化法设计了新型安全强化学习方法，该方法在最大化未来折扣奖励的同时最小化成本函数；最后，在配电系统上进行仿真。仿真结果表明：所提方法能够根据配电网实时观测信息，在线生成满足复杂约束条件且具有经济效益的调度策略。

01 强化学习模型

1.1 ADN有功-无功协调调度模型

1.1.1 目标函数

本文从经济性出发，协调控制可投切电容器组（switchable capacitor banks，SCB）、有载调压变压器（on-load tap-changers，OLTC）、微型燃气轮机（micro-gas turbines，MT）、分布式储能系统（distributed energy storage system，DESS），使得ADN在总调度时段T内的运行成本最小。目标函数f为

1.1.2 约束条件

本文所构建优化调度模型的约束条件为潮流约束、节点电压幅值约束、线路传输功率约束、ADN与上级输电网的交互功率约束及各可调设备的运行约束。

1.2 基于CMDP的调度模型

02 基于原始对偶优化的安全强化学习

为求解CMDP的目标函数，本文通过引入拉格朗日乘子λ，将目标函数的不等式约束问题转化为无约束问题。基于原始对偶优化方法，在迭代中依次更新网络参数θ及对偶变量λk。

为求解CMDP模型，本文将原始对偶优化方法与DDPG算法相结合，提出一种基于PD-DDPG的ADN优化方法。

2）更新对偶变量及各项参数，具体可参考文献[20]。

2.1 离线训练流程

03 算例分析

3.1 算例设置

为验证所提安全强化学习方法在ADN有功-无功协调调度上的有效性，本文在修改的IEEE 123节点配电算例上进行验证。其中，节点23、121、42、40、116处接有光伏，装机容量均为100 kW。节点5、60、47、84、76处接有风电机组，装机容量均为100 kW。节点25、95、115处分别接入MT，节点21、57处接有DESS，DESS和MT的设备参数如表1所示。节点77、109处接入SCB，共有4个调节挡位，每档为300 kV·A，动作次数上限为5次。节点0、1之间接入OLTC，共有5个调节挡位；节点68、108之间，节点26、27之间，节点10、15之间分别接入OLTC，各有33个调节挡位；OLTC分接头每天动作上限均为6次，调节范围为–10%~10%。变电站容量上限为5000 kV·A。节点电压幅值约束范围为0.95~1.05 p.u.。总调度周期为24 h，以1 h为一个调度时段。本文算例基于CAISO2018—2020年的数据进行分析，前两年作为训练集，后一年作为测试集。本文工作基于pytorch框架实现，所提方法参数设置如表2所示。算例仿真在Intel(R) Core(TM) i7-11800H处理器2.30 GHz的工作站进行。

表1 DESS和MT设备参数

Table 1 DESS and MT equipment parameters

表2 所提方法参数设置

Table 2Parameter settings of the proposed method

3.2 离线训练表现

不同方法的离线训练和在线测试的平均耗时对比如表3所示。由表3可知，不同方法的在线测试时间均在1 s以内。PD-DDPG的离线训练时间更长，这可能是由于其算法结构复杂造成的。不同方法奖励和成本情况如图1~2所示，其中实线是平均值，阴影部分是波动范围。由图1~2可知，PD-DDPG的成本值接近于0，奖励值仅次于DDPG(ρ=1)，但是DDPG(ρ=1)的成本值明显不能满足ADN安全运行。DDPG(ρ=10)、DDPG(ρ=20)的奖励成本值均劣于PD-DDPG方法。上述结果说明，ρ越小，DDPG越注重优化奖励项，而忽视成本项。PD-DDPG的性能最佳，能够在保证ADN安全的同时，最小化ADN日运行成本，避免了对惩罚系数的盲目选定，实现了拉格朗日乘子的自动学习。

表3 不同算法的训练和测试时间

Table 3Training and testing time of different algorithms

图1不同算法奖励值曲线

Fig.1Different algorithm reward value curves

图2不同算法成本值曲线

Fig.2Cost value curves of different algorithms

3.3 在线测试表现

在线决策阶段测试结果如图3~4所示。由图3可知，由于数据驱动方法随机性的存在，不能保证在测试过程中各智能体100%满足约束。PD-DDPG方法在大多测试集下成本值均接近0，能够满足配电系统的安全性。由图4可知，PD-DDPG方法和ρ=1、ρ=10、ρ=20的DDPG方法累计年运行成本分别为357.00万元、358.12万元、485.08万元、500.31万元。总体而言，PD-DDPG方法以最少的违反约束情况和最低的运营成本优于基于惩罚系数的DDPG方法。

图3在线测试成本值分布情况

Fig.3Online test cost value distribution

图4在线测试阶段运行成本

Fig.4Running costs during online testing phase

取测试集中某天数据进行测试，各类可调度资源有功调度结果如图5所示。由图5可知，00:00—04:00和11:00—14:00时段电价处于低谷且总负荷需求较小，MT有功功率减小，并随着可再生能源出力的增加进一步减小出力比例。同时，向上级电网的购电功率增加，DESS进行充电以备后续高峰时段，并就地消纳可再生能源，避免功率倒送。06:00—09:00和17:00—23:00时段电价处于高峰且负荷需求较大，可再生能源出力相对较低，ADN几乎不购电，MT有功出力上升。其中，节点95处的MT由于发电成本低而成为有功出力主力，DESS此时段放电，从而减小ADN运营成本。

图5有功调度结果

Fig.5Active power dispatch results

各类可调度资源的无功调度结果如图6~8所示。由图6可知，在负荷无功需求增多的05:00—10:00时段，MT增大无功补偿；在负荷无功需求减弱的16:00—17:00及23:00时段，节点109处的SCB减小挡位，避免过多的无功补偿造成节点电压升高；结合有功无功出力情况得到各个MT功率因数均在0.8以上。

图6无功调度结果

Fig.6Reactive power scheduling results

图7OLTC和SCB档位变化

Fig.7OLTC and SCB gear change

由图7OLTC和SCB档位变化可知，SCB和OLTC通过调节档位响应无功负荷需求，避免节点电压越限；调度周期内OLTC累积动作次数分别为0、3、4、4次，SCB的累计动作次数分别为0、4次，均在约束范围以内。由图8节点电压分布可知，节点电压在负荷减少时降低，在负荷增大时升高。在无功调压设备的协同动作下，各节点电压大都为0.975~1.000 p.u.，满足本文所建模型中的电压范围约束。

图8 不同节点的电压分布

Fig.8 Voltage distribution at different nodes

综上，经训练过的智能体生成的调度策略，能够根据电价和负荷需求，动态地调整DESS和MT出力，降低运行成本。此外，经无功调节设备的共同作用，改善了ADN电压质量。上述调度方式起到了削峰填谷的作用，减小了可再生能源波动性对ADN的干扰。

04 结语

本文针对ADN有功无功协调调度问题，基于原始对偶优化方法设计了新型DDPG方法，结合算例分析，本文所采用的离线策略算法，通过离线训练大量历史数据，能够在线生成调度结果，提升了电力系统决策效率。与此同时，避免了传统DRL方法对惩罚因子的敏感性，提升了ADN运行安全性。

分享到：

上一篇：国家发改委：鼓励以满足可再生能源就近消纳为主要目标的增量配电网业务！

下一篇：欣旺达15MW光储项目一期并网发电

编辑推荐

合作伙伴