利用深度强化学习算法，实现光伏抽水蓄能互补系统的智能调度 - 电气技术杂志社

头条利用深度强化学习算法，实现光伏抽水蓄能互补系统的智能调度
2021-08-27 作者：李涛胡维昊等 | 来源：《电工技术学报》 | 点击率：
分享到：
导语作者以光伏-抽水蓄能互补发电系统为研究对象，考虑光伏发电与实时电价的不确定性，以100%消纳光伏为前提，构建考虑并网点功率波动和抽水蓄能经济效益的模型。针对抽水蓄能出力连续可调的特点，将智能调度问题转换为马尔可夫决策过程；利用深度强化学习算法，以光伏并网后联络线功率波动最小化和抽水蓄能电站在实时电价模式下收益最大化为目标，得出抽水蓄能的最佳运行工况。
团队介绍

李涛，电子科技大学，硕士研究生，研究方向为可再生能源智能调度和电力系统分析、运行与控制，作为学生核心成员参与国家重点研发计划项目“分布式光伏与梯级小水电互补联合发电技术研究及应用示范”。

胡维昊，电子科技大学教授、博士生导师、“智慧电力与能源研究所”所长，国家海外高层次人才青年项目。主要从事人工智能在现代电力系统中的应用和可再生能源发电等研究。主持由国家重点研发计划和国家自然科学基金等资助的纵向课题5项，作为课题负责人和核心成员参与由国家重点研发计划、丹麦国家战略研究基金、欧盟地平线2020战略规划基金和中丹可再生能源合作基金等资助的国家级纵向课题15项，发表论文170余篇。

担任IET Renewable Power Generation副编辑、Journal of Modern Power System and Clean Energy专刊和《电工技术学报》专刊特约主编、IEEE Transactions on Power Systems专刊客座编辑等，并担任亚洲能源与电气工程研讨会IEEE AEEES 2020大会主席、亚洲智能电网国际会议IEEE ISGT Asia 2019程序委员会主席、IEEE电力电子学会成都分会主席、中国电工技术学会人工智能与电气应用专委会副秘书长等学术职务。获中国仪器仪表学会科学技术一等奖1项，教育部科技进步二等奖1项。

李坚，电子科技大学副教授、博士生导师，主要从事电力系统广域测量与控制、智能控制与信息化技术、电力大数据等方面的研究。承担国家级项目5项、省部级项目6项、申请发明专利40余项，国际专利2项；发表论文50余篇，其中SCI论文20余篇，获中国仪器仪表学会科技一等奖1项，教育部科技进步二等奖1项，四川省科技进步二等奖1项。

导语

作者以光伏-抽水蓄能互补发电系统为研究对象，考虑光伏发电与实时电价的不确定性，以100%消纳光伏为前提，构建考虑并网点功率波动和抽水蓄能经济效益的模型。

针对抽水蓄能出力连续可调的特点，将智能调度问题转换为马尔可夫决策过程；利用深度强化学习算法，以光伏并网后联络线功率波动最小化和抽水蓄能电站在实时电价模式下收益最大化为目标，得出抽水蓄能的最佳运行工况。

项目研究背景

由于光伏发电受气象因素影响，具有较强的间歇性和随机性，这些特性使得高渗透率并网光伏发电给电力系统的稳定性与经济性带来了巨大的挑战，并且严重制约了光伏的100%消纳。

采用新能源互补发电技术是全额消纳新能源的有效途径，即在最大功率跟踪模式下，利用储能设备及时有效地提供功率支撑来抑制并网点功率波动；然而针对非凸、非线性的光-蓄优化模型，基于随机优化和鲁棒优化策略的性能与源/荷预测精度强相关，且难以准确表征光-蓄系统的不确定性和难以在线应用。

本文基于深度强化学习算法的光伏-抽蓄互补系统智能调度，在离线训练过程中实现了深度神经网络对光伏随机出力以及电价变化特征的提取；在线应用时，不需要预测光伏出力与电价趋势，减少光-蓄电站的运行成本。

论文方法及创新点

为实现光伏-抽蓄互补发电系统的最优在线经济调度，论文研究了多重不确定性下基于马尔可夫决策过程的光伏-抽蓄在线智能调度，探讨了多约束优化问题向无约束强化学习任务转换的方法，验证了人工智能技术实现大规模新能源互补发电在线调度的可行性。光伏-抽蓄互补发电运行示意图如图1所示。

图 1 光伏-抽蓄互补发电运行示意图

本文首先建立了考虑抽蓄经济收益和并网功率波动的优化运行模型；然后，将含约束的非线性优化问题转化为适用于深度强化学习的无约束马尔科夫决策模型；最后，采用深度确定性梯度策略算法(Deep Deterministic Policy Gradient, DDPG)求解并得到光伏-抽蓄在线智能调度策略。DDPG优化算法结构如图2所示。每回合平均奖励曲线如图3所示。

图 2 优化算法结构

图 3 每回合平均奖励曲线

为验证所得策略的性能，在测试集上进行连续7天实时运行测试，其抑制功率波动、跟随实时电价和应对约束的能力如图4所示。

图 4 测试的性能

为分析本文所提方法的优势，考虑光伏的不同预测精度，采用了序列二次规划(Sequential Quadratic Programming, SQP)和基于拉丁超立方的场景分析法(Scenario Analysis, SA)与之对比，见表1。

表1 不同预测精度下算法对比结果

结论

针对对光伏-抽蓄互补发电系统，从并网点功率波动和抽水蓄能的经济收益等角度出发，采用DDPG算法，研究了多重不确定性条件下光-蓄互补发电的实时经济调度问题。

研究表明：1）DDPG算法在控制抽蓄缓解功率波动和跟随电价方面能取得较佳的效果；2）当光伏的预测误差大于10%时， DDPG智能体在实现光-蓄互补系统调度策略时，无论是在抑制并网波动率还是提升抽蓄的经济收益方面均具有绝对优势。

引用本文

李涛, 胡维昊, 李坚, 韩晓言, 陈哲. 基于深度强化学习算法的光伏-抽蓄互补系统智能调度[J]. 电工技术学报, 2020, 35(13): 2757-2768. Li Tao, Hu Weihao, Li Jian, Han Xiaoyan, Chen Zhe. Intelligent Economic Dispatch for PV-PHS Integrated System: a Deep Reinforcement Learning-Based Approach. Transactions of China Electrotechnical Society, 2020, 35(13): 2757-2768.

快捷入口

作者登录区

审稿登录区

合作单位

友情链接