打开网易新闻 查看精彩图片

作者 | 论文团队

编辑丨ScienceAI

从 AlphaFold2 到 AlphaFold3,结构预测模型解决了「算得准」的问题,Alphafold3 不仅能预测蛋白结构,还能准确建模蛋白质和药物配体相互作用。然而,在药物发现与计算化学的真实工作流里,科学家还要回答第二个同样关键的问题:分子如何运动 —— 配体在结合口袋中如何涨落、蛋白主链与侧链如何协同形变,乃至配体沿何路径解离至溶剂。传统分子动力学(MD)通过数值积分给出原子轨迹,但极小时间步(飞秒量级)与长程生物学过程(微秒 — 毫秒)之间的鸿沟,使「算得长」长期是一道硬门槛。

近年来,机器学习开始作为 MD 的替代或加速器出现;但在蛋白 — 小分子配体这一场景下,现有方法或将蛋白视为刚体只考虑配体运动,或专为蛋白设计而无法处理小分子配体。能不能有一套方法,把蛋白和配体一起建模、全原子、连续轨迹、还能跑得出来?

在这一背景下,粤港澳大湾区数字经济研究院(IDEA)与瑞士洛桑联邦理工学院(EPFL)的研究者提出 BioMD,一个面向蛋白 — 配体全原子系统的长时程轨迹生成模型。研究论文被 ICLR 2026 录用。

打开网易新闻 查看精彩图片

论文链接:https://openreview.net/forum?id=LQDeJk6NOr

项目主页:https://github.com/IDEA-XL/BioKinema

打开网易新闻 查看精彩图片

图 1 | 配体 RMSD 随帧间隔的变化(左)与配体解离轨迹示例(右)。短时尺度内构象变化温和、长时程可出现显著位移,为分层生成框架提供了直觉动机。

技术痛点:「会画静态结构」与「会跑动力学」之间有多远?

现有路线大致可分为两类,两类都有各自的天花板:

  • 构象生成类模型(如 AlphaFold 3、ConfDiff):擅长预测结构快照,但无法给出时序连续的轨迹,更无法描述配体解离这类稀有事件。
  • 轨迹生成类模型(如 NeuralMD、MDGen):尝试对动力学建模,但前者将蛋白视为静止只考虑配体运动,后者专为蛋白设计,均不支持蛋白 — 小分子全原子联合建模。

更底层的难点在于误差累积:「长轨迹」意味着在高维构象空间里走出连贯路径,如果逐帧生成,误差会随时间滚雪球式放大。

打开网易新闻 查看精彩图片

图 2 | BioMD 方法总览。(a) 两阶段分层:粗粒度预测(Forecasting)与细粒度插值(Interpolation);(b) 时间调度:已知帧无噪声(τ=1),待生成帧从纯噪声出发(τ=0)经迭代恢复,「噪声即掩码」让两任务共享同一套网络。

核心洞察:把「长轨迹」拆成「先粗后细」两段问题

BioMD 的出发点来自 MD 数据中一条经验规律:在短时间隔内,配体构象变化往往相对温和;而在长间隔上,可能出现显著位移乃至解离(图 1)。团队据此把长时程生成拆成两个协同阶段:

  • 粗粒度预测(Forecasting):先对轨迹做稀疏采样(每隔 k=10 步取一帧),在「关键帧」序列上学习大跨度演化 —— 先搭出轨迹骨架。
  • 细粒度插值(Interpolation):在相邻关键帧之间补全中间帧,以两端锚点为条件在局部把运动补连贯。

两阶段并非两套独立模型,而是被统一进同一个条件流匹配框架中,仅通过不同的输入掩码模式切换任务。这一设计让有效序列长度大幅缩短,从而抑制误差累积的根本来源。

「噪声即掩码」:两任务一套网络的统一训练框架

团队采用条件流匹配(Conditional Flow Matching)训练速度场模型。对轨迹序列的每一帧施加独立噪声调度:已知的条件帧保持「干净」(τ=1),待生成帧从纯噪声出发(τ=0)迭代恢复。通过「噪声即掩码」策略 —— 将噪声水平视为帧是否已知的指示器 —— 预测与插值只需用不同的掩码模式控制,复用同一速度场网络 u_θ。

直观理解:模型「一次看整条轨迹」,通过掩码告知哪些时刻是锚点、哪些需要生成,从而把长程建模难点拆解为可训练的子问题。这一思路借鉴了 Diffusion Forcing 中逐帧独立噪声的设计哲学,并将其扩展到蛋白 — 配体联合轨迹生成场景。

在网络架构上,BioMD 直接在全原子笛卡尔坐标上工作,由 SE (3) 等变图 Transformer 编码初始构象的空间几何约束,再由 FlowTrajectoryTransformer 在整条轨迹上同时建模帧内原子交互(AttentionPairBias)与跨帧时序依赖(TemporalAttention)。训练目标中还引入键长约束、碰撞惩罚与几何中心损失三类辅助项,将基本物理合理性直接写入优化过程。

打开网易新闻 查看精彩图片

图 3 | BioMD 详细架构。预测 / 插值两种模式共用同一速度场网络,由 SE (3) 图编码器提取条件表征,FlowTrajectoryTransformer 同时处理帧内空间交互(AttentionPairBias)与跨帧时序依赖(TemporalAttention)。

实验结果:动力学生成性能验证

MISATO:配体口袋内动力学

MISATO 聚焦配体在结合口袋内的短时程动力学,每条轨迹含 100 帧(8ns MD 采样)。BioMD 在物理稳定性指标(键长 / 键角误差、位阻碰撞率)上大幅优于所有对比方法,碰撞率比 NeuralMD 低约两个数量级。配体 RMSF 皮尔逊相关系数达到 0.486,比 NeuralMD 高出 42.8%;蛋白 RMSF 相关系数 0.685,而对比方法均无法模拟蛋白构象变化。

打开网易新闻 查看精彩图片

图 4 | MISATO 测试集构象集合对比(6DGE、3FCF)。BioMD 生成的构象分布与配体扭转角分布与传统 MD 参考高度吻合。

DD-13M:配体解离路径

DD-13M 关注更具挑战性的配体解离场景。采用自回归(AR,块大小 j=5)生成策略的 BioMD-rel,在解离成功率上表现突出:单次尝试成功率 70.9%(@1),10 次尝试内成功率高达 97.1%(@10)。效率上,metadynamics 找到首条路径约需 1 小时(2654 步),BioMD 仅需 10 秒以内(50 步粗粒度帧)。

打开网易新闻 查看精彩图片

图 5 | 6EY8 配体解离路径。BioMD 不仅复现了 metadynamics 发现的两条已知路径,还独立发现了第三条新路径(绿色标注),路径 RMSD 仅 0.24 Å(metadynamics = 0.12 Å)。

ATLAS:蛋白单链动力学

在蛋白单链 100ns 动力学基准 ATLAS 上,BioMD 在 13 项指标中 9 项达到 SOTA,全局 RMSF 相关系数 0.76,比 MDGen 提升 52%,在多项分布准确性指标上也超越领先的序列方法 EBA。生成 100ns 轨迹约需 56 秒,比传统 MD 快数个数量级。

意义与展望

BioMD 想传递的信号很明确:当生成模型不只追求「一张漂亮的静态结构」,而是尝试在全原子层面给出可检验的动力学轨迹时,计算化学与药物发现或许能多一条「算得长、跑得快」的路。分层生成策略有效缓解了长轨迹中误差逐帧放大的老难题;而全原子级别的建模方式,让蛋白和配体可以被放在同一个框架里一起模拟,无需为了降低计算成本而牺牲原子级精度。

BioMD 能否真正融入工业药物发现流程,还需要在更大体系、更长时间尺度(微秒 — 毫秒)以及更多物理可观测量上接受严格检验。我们期待与开源社区共同探索更多可能。