作者 | 燧人物质大模型团队
编辑丨ScienceAI
在药物研发与新材料设计领域,相对微观的 3D 构象动力学与相对宏观的物化性质之间,长期存在着难以贯通的尺度断层。一个候选药物能否成药,不仅取决于其静态的二维拓扑结构,更取决于其在溶液中千变万化的三维构象系综;根据玻尔兹曼分布,分子在室温下可能同时存在数十种乃至上百种低能构象,而宏观的溶解度、熔点、毒性等关键性质,正是这些构象的系综平均结果。
然而,传统的 AI 分子模型陷入了尴尬的二元割裂:3D 分子模型虽然具备量子精度的微观表征能力,却困于几何空间的「信息孤岛」,缺乏跨化学空间的泛化性,从而无法有效预测宏观性质;2D 分子模型虽能通过自监督等方法学习二维拓扑信息,却无法有效感知构象分布,成为「构象盲人」,在预测与立体化学紧密相关的性质时频频失效。这种微观与宏观的割裂,迫使研发人员必须在「昂贵的量子计算」与「粗粒度的统计近似」之间做出痛苦抉择。
为此,上海科学智能研究院(下称上智院)于近日发布并开源18 亿参数的燧人分子基础大模型 ——Suiren-1.0,首次在算法层面架起了从微观三维构型到宏观统计性质之间的桥梁。由此,燧人物质科学系列模型的基座层、功能层、应用层整体建成并打通,并将由上智院孵化企业「格物智研」负责产业化落地。
Suiren-1.0 的技术报告已发布,模型权重及评估基准全面开放。这不仅意味着化学家、材料科学家与药物研发人员可免费获得这一横跨微观量子力学与宏观实验性质的统一基座模型,也使分子科学中从微观量子态到宏观性质的建模任务,首次得以在同一框架下进行统一处理与比较分析,从而为多尺度分子建模(如原子尺度的电子云分布、反应釜尺度的物质性质)提供了新的基础工具。
- Suiren 1.0 技术报告:https://arxiv.org/abs/2603.21942
- 3D 构象模型开源地址:https://github.com/golab-ai/Suiren-Foundation-Model
- 2D 构象平均模型开源地址:https://github.com/golab-ai/Suiren-Property-Prediction
作为燧人物质大模型的基座层,Suiren-1.0 并非单一的预测工具,而是一个「多位一体的分子智能系统」,由三个专精模型组成:Suiren-Base(18 亿参数 3D 等变基础模型,专攻有机小分子微观量子表征)、Suiren-Dimer(专攻分子间相互作用与溶剂化效应)以及 Suiren-ConfAvg(通过扩散蒸馏获得的轻量化宏观性质预测专家)。通过创新的「构象压缩蒸馏」技术,Suiren-1.0 在业界首次实现了从 3D 量子力学空间到 2D 分子拓扑空间的知识迁移,在涵盖药物、材料、能源、化工等 8 大科学领域的 40 余项分子性质预测任务中均达到 SOTA(State-of-the-Art)水平,并在其中 20 余项任务上实现超过 20% 的性能提升,部分热力学性质预测误差降低高达 67%。
Suiren-1.0 技术路线:三阶段建模框架,桥接三维构象与综合表征
第一阶段:微观基础预训练(Suiren-Base & Suiren-Dimer)
Suiren-Base是一个拥有 18 亿参数的大型 SO (3)/SE (3) 等变图神经网络,采用稠密混合专家架构(MoE),集成 20 个 S2Activation 专家与 20 个 EST(Equivariant Spherical Transformer)专家。该模型在 7000 万组 DFT(密度泛函理论)第一性原理数据(Qo2mol 数据集)上进行有监督和 EMPP(Equivariant Masked Position Prediction)自监督混合预训练,精准捕捉单分子 3D 构象的量子力学特征。模型在原子级能量预测上达到 0.258 meV 的 MAE,力场预测达到 0.510 meV/Å,较传统模型大幅降低了误差。
针对药物设计中的分子间相互作用难题,团队进一步推出Suiren-Dimer,在 1350 万组分子二聚体数据上继续预训练(Continue Pre-Training),专门攻克长程相互作用、溶剂化效应与蛋白 - 配体结合等复杂场景,填补了单体模型在描述真实生理环境时的空白。
第二阶段:从 3D 到 2D 的构象压缩蒸馏(Suiren-ConfAvg)
这是 Suiren-1.0 最具革命性的技术创新。团队提出了构象压缩蒸馏(Conformation Compression Distillation, CCD) 的全新方法,并构建了一个基于扩散模型的特征蒸馏框架。该框架巧妙地解决了「一对多」的分子 - 构象映射难题:通过将 Suiren-Base 作为教师模型,冻结其权重,训练一个轻量化的 2D 图神经网络(GAT)作为学生模型。在扩散过程中,首先通过接受二维拓扑的图神经网络提取分子宏观嵌入,再将这种嵌入与构象能量作为条件输入给扩散模型,逐步去噪重构出 Suiren-Base 的 3D 构象表征与原子坐标。
这一过程如同将复杂的 3D 构象系综「蒸馏」为一瓶浓缩的精华,Suiren-ConfAvg也由此诞生。它不仅继承了 Suiren-Base 的量子力学直觉,更具备从 SMILES 或分子图直接生成构象平均表征的能力,实现了从「分子图纸」到「真实物性」的直接映射,而无需耗时的 3D 构象采样。
第三阶段:双图神经网络微调(DGNN)
在下游任务微调中,Suiren-1.0 采用了双图神经网络(Dual Graph Neural Network, DGNN)架构。该架构包含两个并行子网:冻结的 Suiren-ConfAvg 提供预训练的宏观结构先验,随机初始化的任务特定 GNN 负责学习领域特异性特征。这种「冻结 + 微调」的双塔结构既防止了灾难性遗忘,又保证了足够的任务适配容量,使得模型可以被应用到仅有少量标注数据的场景。
实战能力:跨尺度分子性质预测与外推泛化表现
为系统验证 Suiren 1.0 的整体能力,研究团队构建了 MoleHB(Molecular Handbook Benchmark)综合基准测试集,涵盖40 余项分子性质预测任务,覆盖安全性质、表面性质、热性质、溶解性质等八大领域。该基准在任务设计与评测指标上充分对齐当前分子机器学习领域的通行设置与主流评价体系。
在MoleHB 基准测试中,Suiren-ConfAvg 在39/42 项性质上取得最佳 MAE(平均绝对误差),展现出了「跨尺度」实战能力,子任务示例:
- 临界与饱和性质:临界体积预测误差降低 48.88%,临界温度降低 28.47%;
- 热力学与能量性质:生成焓预测误差降低 46.04%,吉布斯自由能降低 44.21%;
- 安全与物性:闪点预测提升 17.33%,液体热容降低 28.43%,固体热容更是实现 67.40% 的大幅提升;
在TDC 基准的药物 ADMET测试上:Suiren-ConfAvg 在8/18 项达到 SOTA,包括人体肠道吸收率(HIA)、P - 糖蛋白抑制等成药性关键指标。其它任务也表现出与 SOTA 非常接近的水准。
在所有任务上,研究团队使用完全一致的训练超参和架构,没有经过任何超参搜索。这种结果更强调了 Suiren-ConfAvg 的稳定性。研究团队也将所有微调训练脚本开源,在单张 RTX 4090 显卡就可以完成微调,供社区在自己的数据集上使用。
MoleHB 评测结果对比,涵盖了常见化学领域的性质
为了验证模型的真实泛化能力,团队在 MoleHB 尺寸拆分 (Size-Stratified Split) 设置下进行了测试 —— 该设置将训练集与测试集按分子尺寸大小分离,使得验证集包含大量 OOD 的数据。结果显示,Suiren-ConfAvg 展现出分布外泛化能力:在生成焓预测上,相比最佳基线提升 90.98%;在亥姆霍兹自由能上提升 91.20%;在临界温度上提升 69.07%。这组外推实验证明了 Suiren-ConfAvg 预训练模型学到的并非表面的几何特征,而是深层的原子间相互作用规律。
结语:面向分子科学的科研智能基础设施
作为燧人物质科学系列模型的重要成员,Suiren-1.0 并非孤立存在。作为模型家族的基座层,它为分子生成、多尺度性质预测等功能模型提供了对原子结构、分子行为及电子轨道等物理特征的统一表征能力,从而支撑从分子设计到性质预测的完整建模流程,并与其他功能模型一起成为支撑化学、材料等不同领域创新应用的关键引擎。
在微观与宏观相互交织的分子世界中,燧人团队尝试将科学机理与人工智能系统相结合,深入理解化学世界,拓展研究者的探索空间。随着 Suiren-1.0 的开源,这一体系也正进入更广泛的科研社区,在生物医药与合成生物学等方向中提供可直接使用的多尺度建模工具。
热门跟贴