本文速览

在清洁能源材料研发中,实验—建模—验证的循环往往耗时长、成本高。复旦大学高分子科学系汪莹课题组自主研发的 Clean Energy Materials Platform(CEMP),首次将高通量在线计算、多源数据库与多尺度AI预测模型深度融合,支持小分子、聚合物、离子液体和晶体材料的全流程设计与验证。平台不仅能“一键提交”量子化学与分子动力学模拟,还能快速调用AI模型预测关键性质,实现从分子结构到器件性能的闭环工作流,为加速新能源材料发现提供数字化基础设施。

图 1:CEMP界面。包含自动计算工作流(Autocompute),离子液体(Ionic Liquid),聚合物(Polymers),晶体(Crystals)以及电池管理系统(Battery Manage System )五大模块。

摘要

现有材料设计平台多局限于无机晶体,缺乏对聚合物、有机小分子和离子液体的系统支持,且在线计算能力有限。CEMP 打破这一局限,构建了覆盖四大类材料、12类关键性能、约37.6万条结构–性能数据的多源异构数据库,并部署了 12 个经验证的AI预测模型(R²可达0.64-0.94)。核心亮点包括:

1.高通量自动计算支持ORCA量子化学计算与GROMACS分子动力学模拟,全流程自动化并具备错误修正与后处理分析。

2.多源数据库:构建了有机小分子、离子液体、聚合物以及无机晶体数据库,融合实验数据、理论计算和AI预测结果,遵循FAIR原则,可直接导出结构化数据。

3.多尺度AI模型:涵盖XGBoost、MLP、GNN、Transformer等架构,支持从分子性质到电池循环曲线的跨尺度预测。

4.块化架构:提供Autocompute、Ionic Liquid、Polymer、Crystal和Battery Management System五大核心模块,支持针对不同材料的数据搜集以及性质预测 。

内容

(1)高通量在线计算工作流

CEMP同时集成了量子化学(ORCA)与分子动力学(GROMACS)双引擎计算,支持用户通过上传包含SMILES与参数的结构化表格,便可自动完成从三维结构构建、作业调度、并行执行,到结果后处理与可视化的全流程计算。其显著优势在于全自动化与容错机制相结合,不仅能实现大规模批量任务的高并发运行,还能自动检测并修复计算收敛失败、虚频等常见错误,确保结果的稳定性与可追溯性。该工作流支持多尺度物理量计算,如量子化学中的单点能、结合能、氧化还原电位、静电势等,分子动力学模拟中的扩散系数、黏度、径向分布函数、配位环境、模拟快照等 ,满足从分子层面到体系动力学性质的多维需求,极大降低了非计算化学背景用户的使用门槛。

图 2:CEMP 高通量自动化计算流程示意图。该流程由五个垂直集成层组成,实现量子化学(蓝色)与分子动力学(紫色)任务的端到端执行。

(2)多 源异构材料数据库

CEMP构建了遵循FAIR原则的清洁能源材料数据库,覆盖小分子、聚合物、离子液体和晶体四大材料体系,融合了来自实验测量(约6,000条)、高通量量化计算(约50,000条)以及AI预测(约320,000条)的多源数据,总规模约37.6万条记录。其核心优势在于数据来源多样、覆盖面广,并提供详细的元信息(实验来源、计算水平、预测不确定性等),支持结果可追溯和交叉验证。数据库中包含12类关键性能数据,如玻璃化转变温度、介电常数、电化学窗口、导电率、比容量等,且所有数据均可结构化导出(.csv/.xlsx) ,便于下游分析与机器学习建模。

图 3: CEMP数据库的整体结构与数据构成。(a)给出了数据库类别及其数据来源与总量概览;(b)呈现了三类数据库中不同来源(QC、ML、实验)数据的比例与数量;(c)显示了各数据库涵盖的性质类型及数据量分布;(d)为碱金属阳离子与电解质组分或阴离子的结合能分布箱线图;(e)展示了不同溶剂中单体溶剂化自由能的热图,并以数字标注各溶剂类别下单体数量;(f)比较了单体电化学窗口(ECW)与对应电解质HOMO–LUMO能隙的直方图;(g)给出了基于QC计算与ML预测得到的ECW分布;(h)为包含实验与ML预测的离子电导率分布;(i)展示了基于实验与ML预测的熔点分布;(j)统计了关键聚合物性质的数据量(含实验与QC ),括号内为各性质或类别的数据总数。

(3)多尺度AI预测模型

平台部署了12个经独立测试验证的预测模型,涵盖XGBoost、MLP、图神经网络(GAT、GCN、MOCO)以及Transformer等多种架构,对应不同材料体系与预测任务。例如,XGBoost与MLP模型用于小分子、聚合物与离子液体的热力学、力学与电化学性质预测;GNN类模型则针对晶体结构预测平均电压、比容量与能量密度等关键指标;Transformer模型能够基于材料与工况条件生成电池C-rate倍率循环曲线,其性能在测试集中可达R²=0.94。整体预测模型的R²范围在0.64–0.94 之间,兼顾高精度与高泛化性,大幅提升了材料性能评估的速度与规模化筛选能力。

图 4: CEMP集成的性质预测任务与模型架构。(a) 平台在四大模块中支持多类预测任务,涵盖熔点(Tm)、离子电导率(σ)、电化学窗口(ECW)、玻璃化转变温度(Tg)、拉伸强度、杨氏模量(E)、介电常数(εᵣ)、平均电压(Vavg)、比容量(Cₛₚ)、比能量(Eₛₚ)及C-rate放电曲线;(b) XGBoost与MLP模型架构;(c) MOCO、GCN与GAT模型架构;(d) Transformer模型架构;(e) 各预测任务的模型性能(独立测试集评估),不同颜色代表不同模块;(f) 典型预测结果示例;(g) 基于Transformer模型预测的电池C-rate 性能曲线。

核心功能模块一览

未来展望

未来 CEMP将在现有高通量计算、数据库与AI预测模型的基础上,进一步向智能化、云原生化与多模态融合方向发展。短期内,平台将引入机器学习加速的结构优化器、机器学习力场以及快速性能预测器,以在保持精度的同时显著降低量子化学与分子动力学计算的资源消耗与时间成本;中期目标是引入智能Agent与Python接口,实现从任务配置、计算调度到结果分析的全自动闭环工作流,并支持自然语言指令触发复杂的多步计算任务;长期规划则着眼于构建基于弹性CPU/GPU调度的云原生架构,实现大规模并发任务、动态资源分配和跨地域计算节点协同,形成可扩展至数千并发作业的分布式材料计算网络。同时,CEMP将持续扩展实验数据规模与种类,建立涵盖多源异构数据的高置信度知识图谱,并探索将材料表征、合成路线、器件性能等多模态信息整合到统一的预测与优化框架中,最终打造一个集数据—模型—计算— 验证于一体的开放性数字化基础设施,加速清洁能源材料的发现与产业转化。

图 5:CEMP在功能与用户规模上的演进过程。早期阶段:部署核心功能,包括在线高通量计算、数据库与性质预测模型;中期阶段:引入智能Agent与Python工具包(CEMP-Py),实现任务自动化、数据检索及LLM辅助性质预测;后期阶段:在混合CPU/GPU 集群与弹性云架构上全面部署,支持大规模并发计算与多用户调度。

✉️写在最后

CEMP 致力于打造一个“开放、自动、可验证” 的数字化平台,为电池、电催化、储能等领域的材料发现插上算法与数据的翅膀。欢迎访问、试用、提出宝贵建议,一起建设新一代材料设计基础设施!

官方平台地址 :

https://cleanenergymaterials.cn

CEMP 使用 教程 :

https://cleanenergymaterials.cn/tutorial_vedios

注册后可试用数据库以及性质预测功能, 在线计算请联系 cemp5510@gmail.com 开放试用权限。

论文原文 :

CEMP: a platform unifying high-throughput online calculation, databases and predictive models for clean energy materials

引用 :

Wang, J., Ju, J., Wang, Y.* CEMP: a platform unifying high-throughput online calculation, databases and predictive models for clean energy materials. arXiv preprint arXiv:2507.04423, 2025.

来源:高分子科学前沿

声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!