# 点击蓝字 关注我们 #
近日,北京科技大学郝旭副教授团队与北京航空航天大学同凡副教授团队联合提出一种基于强化学习方法的出行感知电动汽车充放电控制策略,优化V2B-PV系统能量协同管理,为交通电动化、建筑用能屋顶光伏可再生能源融合提供新方案。
文章亮点
1.针对电动汽车出行行为的异质性与可再生能源发电的不确定性等挑战,提出“面向出行特征的强化学习充放电控制框架”。
2.通过深度Q网络(DQN)算法实现电动汽车、建筑与光伏系统(V2B-PV)的联合用能调度,实现接近离线优化算法的系统表现。
3.所提出的强化学习控制策略在真实数据测试中相对传统控制算法降低充电成本55%、减少碳排放11.6%、提高光伏利用率至95%。
4.系统量化电动汽车出行时间与建筑负荷信息对充放电管理策略的信息价值(Value of Information, VOI)。
5.所提出的强化学习控制策略具有较快计算效率(毫秒级),可适配近实时控制场景,为智能交通-建筑-电网协同提供新范式。
内容简介
交通部门约占终端能源二氧化碳排放的三分之一,其中公路交通贡献达75%。电动汽车被视为脱碳转型的关键技术,但如果充电行为不受控制,可能加剧电网高峰负荷压力。电动汽车有序充放电可以降低成本、增强电网韧性,并提升可再生能源的利用率。然而,消费者出行模式的异质性以及可再生能源发电的波动性对现有控制策略提出了重大挑战,现有控制策略求解面临“维度灾难”等问题。本研究提出一种考虑出行特征的深度强化学习充电控制策略,基于北京市高层办公楼一年光伏发电和用电负荷的真实数据,采用深度Q网络算法,综合考虑最小化充电成本和最小化光伏发电弃电率等目标。
研究结果表明,该框架实现了低充电成本、低弃电率和较低碳排放——其表现接近具备完美信息的离线优化算法,并显著优于随机充电、尽快充电和贪心充电等传统算法。具体而言,强化学习算法相较于随机充电算法,可降低充电成本55%,减少碳排放11.6%,实现95%的光伏利用率。进一步分析表明,关于电动汽车出行时间与建筑用电需求的信息价值分别为2.4元/车/天和0.7元/车/天。研究结果表明,在“车辆—电网—建筑—光伏”集成系统中,强化学习在优化电动汽车充放电行为方面具有可行性与有效性。
研究方法
在“双碳”目标与高比例可再生能源并网背景下,电动汽车以其灵活的储能属性成为分布式能源系统的重要节点。然而,出行模式的随机性与光伏发电的不确定性,使传统充电控制策略易陷入“维度灾难”与高成本运行。针对这一难题,北京科技大学与北京航空航天大学团队提出基于深度强化学习的考虑出行异质性的车-建筑-光伏系统充放电调度框架,以实现充电成本最小化与光伏消纳最大化。研究构建了含楼宇负荷、屋顶光伏及多辆电动汽车的车-建筑-光伏系统模型,并采用DQN算法学习最优充放电策略。系统状态包括过去24小时电价、电动汽车电量状态、建筑净负荷与出行时段信息;动作为空间离散的充、放电决策;奖励函数综合了充电成本、光伏利用率、充电不足与过放惩罚等因素。相比传统控制策略,强化学习控制策略能够在电价波动、光照变化及多用户行为异质性条件下实现自适应决策。研究基于北京高层办公楼的实测数据(含8760小时光伏出力和用电负荷)开展仿真。结果表明,强化学习算法在无未来信息的情况下,其运行性能接近理论最优的离线优化算法。
图1. 本文建模框架
图文导读
随着全球电动化与分布式可再生能源的快速发展,电动汽车正逐渐演变为分布式储能与能量调节的关键节点。然而,电动汽车的出行行为具有明显的随机性,而光伏发电又受天气与时段强烈影响,两者的叠加不确定性使传统充放电控制策略在多目标优化中面临“维度灾难”。这类系统若缺乏有效协调,不仅难以充分利用可再生能源,而且在用电高峰可能形成新的负荷冲击,削弱电网的灵活性与稳定性。
为此,北京科技大学与北京航空航天大学合作团队提出了一种“面向出行特征的强化学习”充放电调控框架,聚焦于建筑—车辆—光伏系统(V2B-PV)的动态能量优化。研究创新性地将电动汽车的出行规律与建筑用能特征引入RL决策过程,以最小化充电成本、最大化光伏利用率、并降低碳排放为核心目标,构建了一个能够在不确定环境中自适应学习、自适应优化的能量调度系统。
01
数据特征
研究采用北京某高层办公楼的实测数据作为实验基础。图2中展示了六类关键输入特征:光伏发电的日变化与季节性波动、电动汽车出行距离、到达与离开时间分布、建筑负荷曲线以及实时电价信号。全年8760小时的数据揭示了典型的“白天光伏高、傍晚用电高”的反向特征,也反映了电动汽车早进晚出的办公出行规律。这些多源数据共同定义了强化学习环境的状态空间,使算法能同时感知能源供给、需求与价格变化的动态关系。
图2. 光伏发电、出行模式与负荷电价数据特征
02
强化学习控制策略训练过程
在训练阶段,研究团队使用DQN算法,智能体与环境交互不断更新决策。模型采用经验回放与ε贪婪策略平衡探索与利用,约2万次迭代后即可收敛。图3中左侧展示了奖励函数随训练轮次逐步提升的过程;右侧为三天典型运行结果,电动汽车在光伏出力高或电价低时主动充电,在高负荷或高电价时段放电。强化学习控制算法在无未来信息的前提下实现了实时自适应决策,表现出优异的经济性与稳定性。
图3. 强化学习模型训练与运行表现
03
强化学习控制策略能较好保障电动车主的出行需求
为了评估可靠性,研究比较了五种充电控制策略下电动汽车的出发荷电状态。随机充电与贪心策略的荷电状态波动大,难以保证出行需求;传统CASAP策略(尽早充满)虽然避免充电不足,但造成系统性过充与高成本。相比之下,强化学习策略将荷电状态稳定控制在60%–80%之间,与实际出行所需能量高度匹配,既保障续航,又减少过充,体现出精细化调控能力。
图4. 不同策略下电动汽车荷电状态分布对比
04
强化学习控制策略能实现接近理论最优解的充电成本
图5给出了60天测试期内各策略的累计充电成本与日成本分布。结果表明,强化学习策略的累计成本仅为1438 CNY,较随机充电降低55%,并接近拥有未来信息的理想离线优化算法。其平均日成本为18.99 CNY,波动范围较小,体现出对电价与负荷变化的自适应能力。相比之下,CASAP策略为追求“充满电”而付出高成本,随机与贪心策略则出现大幅波动与充电不足惩罚。
图5. 强化学习显著降低系统充电成本
05
强化学习控制策略能显著提升光伏发电消纳
光伏发电的高效利用是实现低碳运行的关键。图6显示,在光照充足期,强化学习策略能精确匹配充放电时序,使系统内部的光伏发电消纳率达95.3%,显著优于CASAP(92.0%)与随机充电(90.9%)。强化学习控制策略无需未来信息即可学习到与光照周期同步的充放电规律,表现出接近理想优化的能效水平,为建筑—交通融合系统的可再生能源利用提供了新思路。
图6. 光伏能量利用率显著提升
06
强化学习控制策略有效降低排放水平
在同等出行需求下,强化学习策略有效降低了系统碳排放。60天周期内,其累计排放量为14,681 kg CO₂,比随机充电减少11.6%;单位行驶里程排放强度仅110 g CO₂/km,接近理论最优的106 g CO₂/km。图7中箱线分布显示,强化学习策略的排放波动区间明显更窄,说明其在应对可再生能源波动与电价变化时更具运行稳定性与环境韧性。
图7. 强化学习实现碳排放最小化
07
强化学习控制策略在不同情景中体现出良好的适应性与鲁棒性
在考虑光伏计费(PV Billing)情景下,电动汽车用户需为光伏电力付费。研究重新训练模型以同时优化电动汽车与建筑的经济性。结果显示,强化学习策略在新的计费机制下仍保持明显优势,累计成本约2034 CNY,仅增加77.1%。图中可见,尽管成本上升,强化学习算法仍能维持合理的充放电节奏,避免了高峰时段购电与过度放电带来的额外费用,展现出跨场景的适应性与鲁棒性。
图8. 光伏计费机制下的经济性分析
08
出行时间和建筑负荷的信息价值
研究首次量化了不同环境信息在充电管理中的经济价值(Value of Information,VOI)。当不提供电动汽车出行时间信息时,强化学习策略的平均成本上升146.9%,对应的信息价值约为5.74 CNY/车/天;若移除建筑负荷信息,成本增加19.5%,对应信息价值为1.36 CNY/车/天。图9展示了两类信息价值在60天周期内的波动情况。结果表明,出行时间数据对智能调度尤为关键,其获取可显著提高系统经济性。
图9. 信息价值:出行与负荷数据的经济意义
09
强化学习控制策略算法效率和部署可行性
在保证最优性能的同时,强化学习模型具备极高的实时性。图10对比了五种策略的平均计算时间:DQN每步推理仅需约10 ms,比离线优化算法快30倍以上。即使在多车辆、复杂负荷场景下,也能满足实时决策要求。这意味着强化学习框架不仅在仿真中表现优异,更具备工程部署的可行性,可直接嵌入楼宇能源管理或园区级充电控制系统,实现低碳智能运行。
图10. 毫秒级决策的计算效率
总结展望
通过出行特征感知与强化学习算法的结合,本研究实现了V2B-PV系统的低成本、高可再生能源消纳与低碳运行。在不能完美得知未来系统信息的情况下,DQN模型能实现接近理想最优解,展现出强化学习算法在复杂能源系统调控中的巨大潜力。这一框架为未来“车—楼—光—网一体化”能源系统提供了可落地的智能决策方案。
原文信息
Mobility-aware EV charging and discharging management in V2B-PV systems: a reinforcement learning framework
作者:
Xu Hao, Pengju Liu, Hongyu Pu, Fuda Gong, Fan Tong*, Qi Chen, Lishuo Liu & Xiaoru Chen
https://link.springer.com/article/10.1007/s43979-025-00142-x
DOI:
https://doi.org/10.1007/s43979-025-00142-x
Cite this article:
Hao, X., Liu, P., Pu, H. et al. Mobility-aware EV charging and discharging management in V2B-PV systems: a reinforcement learning framework. Carb Neutrality 4, 26 (2025). https://doi.org/10.1007/s43979-025-00142-x
扫码获取原文
通讯作者信息
同凡,北京航空航天大学,副教授
研究领域
能源系统可持续性转型系统评估,低碳能源技术综合评价。
个人简介
同凡,北京航空航天大学经济管理学院副教授,教育部首批哲学社会科学实验室(培育)北航低碳治理与政策智能实验室主任助理。从事低碳技术评估、电力-交通系统耦合转型研究。主持国自科青年项目、北京市发改委政策研究课题、北航青年拔尖人才项目、北航航空航天专项启动经费等科研课题。作为骨干,参与教育部基础学科与交叉学科突破计划、国自科国际合作重点项目、国家重点研发计划、国家高端智库重点研究课题、中国工程院战略研究与咨询项目、工信部指导性软课题。在Nature Sustainability, Nature Communications, Joule, Environmental Science & Technology (ES&T), Applied Energy, Carbon Neutrality, iScience等高水平期刊发表学术论文二十余篇,ESI高被引论文1篇。第一作者论文获ES&T 2021年最佳论文。作为骨干,获工信部优秀研究成果一等奖(2024年)、美国产业界奖项R&D 100 Award(2023年)、北航优秀教学成果特等奖(2024年)。担任学术期刊Engineering, Carbon Neutrality青年编委,Nature Cities、PNAS等国际学术期刊匿名审稿人。
联系方式
E-mail: fantong@buaa.edu.cn
图文来源:原文作者
编辑:Carbon Neutrality编辑部
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
Carbon Neutrality 是由上海交通大学与Springer Nature合作出版的低碳科学与技术、碳金融与碳管理领域的国际跨学科综合期刊。本刊旨在打造碳中和领域旗舰期刊和国际一流期刊,主要刊载低碳相关领域具有高度原创性、能够反映学科水平的高质量研究论文和评论性综述文章,为国内外从事低碳研究的专家学者提供一个专业的国际学术交流平台。
期刊创刊主编由上海交通大学讲席教授赵长颖担任,12名中国两院院士担任顾问编委,国际编委26名(占比50%),第四届国家气候变化专家委员会成员4名,全球高被引科学家7名,中国高被引学者25名。
目前已被ESCI、EI、Scopus、CAS、DOAJ数据库收录,成功入选2023中国科技期刊卓越行动计划高起点新刊项目。创刊三年即获首个影响因子 12.5,位列 JCRQ1区。
Carbon Neutrality文章处理费(Article Processing Charge)全免,竭诚欢迎国内外低碳领域专家、学者积极投稿,携手共建碳中和领域全球科学社群!
转载、合作、咨询欢迎后台留言或联系编辑部邮箱
CN_Editorial@sjtu.edu.cn
期刊网站:
www.springer.com/journal/43979
投稿系统:
www.editorialmanager.com/lowc/default.aspx
微信公众号 | Carbon Neutrality碳中和
LinkedIn | @Carbon Neutrality
Facebook | @CarbonNeutralityCN
Twitter | @CN_Editorial
欢迎“分享”、“点赞”
热门跟贴