打开网易新闻 查看精彩图片

作者丨北大团队

编辑丨ScienceAI

近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准SUPERChem。该基准针对当前化学评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型 (LLM) 化学推理能力的新体系,旨在推动化学智能评测的深入发展。

——背景——

2025年,随着开源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。

从基础教育、化学奥林匹克竞赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。

研究团队依托北京大学化学学院水平顶尖的本科生和研究生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了 SUPERChem 基准,填补了化学深度推理评估的空白。

打开网易新闻 查看精彩图片

图 1:SUPERChem 总览与例题。

打开网易新闻 查看精彩图片

图 2:SUPERChem 题库的三阶段审核流程。

SUPERChem 题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格的三阶段审核。题目源自非公开试题与专业文献改编,并采用防泄漏设计,避免 LLM 依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。

目前,SUPERChem 先期发布 500 道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析四大化学核心领域。为细粒度评估 LLM 思考过程,SUPERChem 引入推理路径一致性(Reasoning Path Fidelity, RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正“理解”化学。

——评测结果——

  1. 前沿模型接近低年级本科生水平,不同模型推理一致性存在差异

表 1:前沿模型在 SUPERChem 上的表现。

打开网易新闻 查看精彩图片

评测显示,SUPERChem 具有较高难度与区分度。在北京大学化学专业低年级本科生闭卷测试中,人类准确率为 40.3%。参与评测的前沿模型中,表现最佳的 GPT-5 (High) 准确率为 38.5%,表明其化学推理能力仅与化学专业低年级本科生水平相当,尚未超越人类基础专业认知。

打开网易新闻 查看精彩图片

图 3:前沿模型的正确率与 RPF 关系。

分析 RPF 指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro 和 GPT-5 (High) 在取得较高准确率的同时,其推理逻辑也更符合专家路径;而 DeepSeek-V3.1-Think 虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。

  1. 多模态信息的“双刃剑”效应

打开网易新闻 查看精彩图片

图 4:输入模态对不同模型的影响。

在依赖多模态输入的题目中,视觉信息对不同模型影响各异:对 Gemini-2.5-Pro 等强推理模型,图像输入可提升准确率;对 GPT-4o 等推理能力较弱的模型,图像信息反而造成干扰。这提示在科学任务中需根据模型能力匹配合适的输入模态。

  1. 推理断点分析:模型倒在了哪一步?

为进一步探究 LLM 推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节。这反映出当前 LLM 在涉及反应性与分子结构理解的核心任务上仍存在短板。

打开网易新闻 查看精彩图片

图 5:推理断点所属化学能力分布。

——总结——

综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。

——团队介绍——

SUPERChem项目由北京大学化学与分子工程学院与元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。77 位北京大学化学专业的博士生与高年级本科生参与了 SUPERChem 题库的构建与审核,其中包括 3 位国际化学奥林匹克(IChO)获奖选手与 64 位中国化学奥林匹克(CChO)决赛获奖选手。174 位北京大学化学专业低年级本科生参与了人类基线测试。

SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师,计算机学院杨仝老师的指导下开展。项目获得北京大学计算中心与高性能计算平台资源支持,来自 Chemy、好未来、质心教育等机构和化学与分子工程学院邹鹏、郑捷等多位教授的题目素材支持,以及高杨、龙汀汀老师的专业协助。