发明名称 基于相关均衡强化学的孤岛微电网智能发电控制方法
摘要 本发明公开了基于相关均衡强化学的孤岛微电网智能发电控制方法,步骤为:1、确定微电网状态离散集和联合控制动作集;2、针对各机组状态动作值函数和均衡策略进行初始化;3、采集微电网实时频率偏差和各机组功率偏差值;4、确定当前控制周期各机组立即奖励值;5、更新当前控制周期下各机组的状态动作值函数;6、求解相关均衡强化学的线性规划,获取当前控制周期下相关均衡联合动作的最优均衡策略;7、选择各机组协作动作,控制各机组在下一个控制周期时按照该协作动作进行工作,进入下一控制周期,返回3。本发明在相关均衡强化学的线性规划下获得最优均衡策略,能更好的适应孤岛运行模式下微电网系统的复杂工况,具有收敛快的优点。
申请公布号 CN103904641B 申请公布日期 2016.05.04
申请号 CN201410097457.9 申请日期 2014.03.14
申请人 华南理工大学;云南电网公司电网规划研究中心 发明人 余涛;张孝顺;王兴刚;张泽宇
分类号 H02J3/00(2006.01)I;H02J3/46(2006.01)I 主分类号 H02J3/00(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 基于相关均衡强化学习的孤岛微电网智能发电控制方法,其特征在于,包括以下步骤:(1)根据微电网频率偏差范围确定状态离散集;根据微电网中各机组的动作离散集确定联合控制动作集;(2)针对各机组状态动作对的状态动作值函数以及均衡策略进行初始化;(3)采集当前控制周期微电网的实时运行数据,包括微电网实时频率偏差以及各台机组的实时输出有功功率;根据各机组的实时输出有功功率计算出各机组的功率偏差值;所述步骤(3)中各机组当前控制周期下的功率偏差值ΔP<sub>error‑i</sub>(T)为:ΔP<sub>error‑i</sub>(T)=ΔP<sub>Gi</sub>(T)‑ΔP<sub>order‑i</sub>(T‑1),i=1,2,...,n;其中ΔP<sub>Gi</sub>(T)为当前控制周期T下的实时输出有功功率值,ΔP<sub>order‑i</sub>(T‑1)为上一控制周期下机组i的有功指令值,n为机组的总数;(4)通过微电网实时频率偏差和各机组的功率偏差值的线性组合确定当前控制周期各机组的立即奖励值;所述步骤(4)中当前控制周期下机组i的立即奖励值R<sub>i</sub>(T)为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>R</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mo>-</mo><mrow><mo>(</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>0.1</mn><mo>&times;</mo><mo>|</mo><msub><mi>&Delta;P</mi><mrow><mi>e</mi><mi>r</mi><mi>r</mi><mi>o</mi><mi>r</mi><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>)</mo><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>&le;</mo><mn>0.05</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mn>2</mn><mo>&times;</mo><mrow><mo>(</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>0.1</mn><mo>&times;</mo><mo>|</mo><msub><mi>&Delta;P</mi><mrow><mi>e</mi><mi>r</mi><mi>r</mi><mi>o</mi><mi>r</mi><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>)</mo><mo>,</mo></mrow></mtd><mtd><mrow><mn>0.05</mn><mo>&lt;</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>&le;</mo><mn>0.15</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mn>4</mn><mo>&times;</mo><mrow><mo>(</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>0.1</mn><mo>&times;</mo><mo>|</mo><msub><mi>&Delta;P</mi><mrow><mi>e</mi><mi>r</mi><mi>r</mi><mi>o</mi><mi>r</mi><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>)</mo><mo>,</mo></mrow></mtd><mtd><mrow><mn>0.15</mn><mo>&lt;</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>&le;</mo><mn>0.2</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mn>8</mn><mo>&times;</mo><mrow><mo>(</mo><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mn>0.1</mn><mo>&times;</mo><mo>|</mo><msub><mi>&Delta;P</mi><mrow><mi>e</mi><mi>r</mi><mi>r</mi><mi>o</mi><mi>r</mi><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>)</mo><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mi>&Delta;</mi><mi>f</mi><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>|</mo><mo>&gt;</mo><mn>0.2</mn></mrow></mtd></mtr></mtable></mfenced><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>n</mi><mo>;</mo></mrow>]]></math><img file="FDA0000881355510000011.GIF" wi="1605" he="340" /></maths>其中Δf(T)为当前控制周期的频率偏差值;(5)根据当前控制周期各机组的立即奖励值更新当前控制周期下各机组状态动作对的状态动作值函数;(6)根据步骤(5)中更新后的状态动作函数,求解相关均衡强化学习的线性规划,获取当前控制周期下相关均衡联合动作的最优均衡策略;(7)根据步骤(6)获取的最优均衡策略,从联合控制动作集中选择出各机组的协作动作,控制各机组在下一个控制周期时按照该协作动作进行工作,并且在下一个控制周期到来时,返回步骤(3)。
地址 510640 广东省广州市天河区五山路381号