作者丨上智院女娲生命大模型团队
编辑丨ScienceAI
在 RNA 疗法、基因调控和合成生物学等领域,RNA 逆折叠(RNA Inverse Folding)是至关重要的核心任务,其目标是设计出能够折叠成特定 3D 结构的 RNA 序列。如同设计一把能开启特定「基因锁」的钥匙,这要求生成的序列不仅在理论上符合要求,更需在物理上精准折叠成目标构象。
然而,面对复杂的 RNA 序列 - 结构相互作用,现有的深度学习方法尽管在序列恢复率上取得了一定进展,其局限仍非常明显:它们往往难以直接优化次级结构一致性(SS)、最小自由能(MFE)和局部距离差测试(LDDT)等关键的结构与功能指标,导致生成的序列在物理真实性和结构准确性上经常「次优」。此外,现有的基于强化学习的扩散模型优化方法,通常需要采样完整的扩散轨迹,计算成本极高,难以在 RNA 设计这种复杂任务中高效应用。
为此,上海科学智能研究院(下称上智院)与复旦大学、上海交通大学等联合提出了首个集成强化学习与潜扩散模型的 RNA 逆折叠框架(SOLD)。该框架从 RNA 的共进化模式出发,在预训练阶段引入 RNA-FM 嵌入,并在优化阶段通过创新的「分步式」(Step-wise)强化学习策略,实现了对非导向性结构目标的直接、高效优化。实验表明,该方法在多个权威指标上全面超越了现有的 SOTA 方法,为开发高精度、功能导向的 RNA 设计工具开辟了新路径。
论文题目:Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model
论文地址:https://arxiv.org/abs/2601.19232
代码地址:
https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/01301556
https://github.com/SAIS-LifeScience/SOLD
该研究成果已被 AAAI 2026 接收。上智院生命科学方向研究员斯奇、刘旭阳,上海交通大学生命科学系博士生王鹏磊,是共同第一作者。上智院首席科学家、复旦大学特聘教授漆远,是论文共同作者。上智院生命科学方向主任研究员郭昕,上智院生命科学方向负责人、复旦大学人工智能创新与产业研究院研究员程远,是共同通讯作者。
研究项目由星河启智科学智能开放平台(https://aistudio.ai4s.com.cn/)和复旦大学 CFFF 智算平台提供技术和算力支持。
现有方法的两大局限
既往的 RNA 逆折叠方法虽取得一定进展,但存在两个面向实际设计的关键短板:
一是难以处理非可微的结构目标。现有的深度学习方法(如 GrnaDe、RDesign)虽然提升了生成序列的质量,但它们大多无法直接优化如最小自由能(MFE)或 3D 结构相似度(LDDT)等「硬指标」。这些指标对于 RNA 是否能在真实生物环境中稳定发挥功能至关重要,但由于它们通常是不可微的,传统的梯度下降方法难以直接对其进行优化。这导致模型生成的序列往往「形似」而「神不似」,难以满足严格的物理约束。
二是传统强化学习优化效率低下。为了解决上述问题,强化学习(RL)被引入以优化这些离散目标。然而,现有的结合扩散模型与 RL 的方法(如 DDPO、DPOK),通常需要对扩散过程的完整轨迹进行采样才能更新策略 。在 RNA 设计的高维空间中,这种「全轨迹」采样的计算开销巨大,收敛速度极慢,且容易陷入局部最优,严重限制了其在大规模 RNA 设计任务中的应用潜力。
为解决这些问题,研究团队提出了SOLD (Step-wise Optimization of Latent Diffusion Model)框架,通过引入预训练 RNA 语言模型嵌入和创新的分步优化策略,实现了从序列生成到底层物理属性优化的全流程突破。
SOLD 的双阶段创新设计
SOLD 框架包含潜扩散模型(LDM)预训练和强化学习微调两个阶段,分别对应基础表征构建与结构目标精修,形成完整的技术闭环。
1、LDM 预训练:融合共进化信息。SOLD 首先构建了一个强大的潜扩散模型(LDM)底座。不同于以往直接在序列空间操作的方法,SOLD 利用预训练的 RNA-FM 提取包含丰富共进化信息的嵌入表示。
- 潜空间建模:通过编码器将 RNA-FM 的高维嵌入压缩至高效的潜空间,结合 GVP-GNN 提取骨架几何特征,使模型在生成之初就具备了对 RNA 序列 - 结构复杂依赖关系的深刻理解。
- 序列恢复提升:仅依靠这一阶段,LDM 在序列恢复率和核苷酸恢复率上即已超越了包括 RiboDiffusion 在内的多种现有方法,为后续优化打下坚实基础。
2、Step-wise RL 微调:分步式高效优化。微调阶段是 SOLD 的核心创新。团队提出了一种单步式(Step-wise)强化学习算法,直接针对复杂的结构指标进行优化。
- 单步采样策略:受 DDIM 启发,SOLD 无需采样完整轨迹,而是从任意噪声时间步直接预测去噪后的潜变量。这意味着模型可以在极短的时间内获得反馈,大幅提升了训练效率。
- 长短期奖励融合:为了平衡训练的稳定性与准确性,SOLD 设计了分段奖励函数。在噪声较大的早期阶段,使用短期奖励引导方向;在噪声较小的后期阶段,使用长期奖励精确对齐目标。
- 直接指标优化: SOLD 直接集成了 ViennaRNA 和 RhoFold 作为奖励函数,直接优化 SS、MFE 和 LDDT 等物理指标,无需额外训练可能引入误差的代理奖励模型。
在现有 RNA 结构测试集上超越现有最优方法
本研究在现有 RNA 结构数据集上进行了系统评估,结果全面超越了现有最优方法。具体而言,在多目标联合优化实验中,SOLD 不仅保持了极高的序列自然度(Sequence Recovery),更在结构指标上实现了质的飞跃。例如,在 CASP15 测试集上,SOLD 生成的序列在SS(次级结构一致性)上达到 0.6957,远超 RiboDiffusion 的 0.4699;在MFE(最小自由能)上达到 - 64.0375,显著优于基线模型,证明了其设计出的 RNA 具有更高的热力学稳定性。此外,在训练效率方面,得益于单步优化策略,SOLD 完成一轮 MFE 优化仅需 256 秒,而同类方法 DDPO 和 DPOK 分别需要 5953 秒和 7677 秒,训练速度提升了20 倍以上。
实际案例验证与模块有效性
为了验证 SOLD 在真实生物场景中的应用潜力,研究团队对TPP 核糖开关进行了案例研究。结果显示,SOLD 成功设计出了能精准折叠成目标构象的序列(RMSD 仅为 2.8157Å,LDDT 高达 0.6171),而其他对比方法(如 RhoDesign、RiboDiffusion)生成的序列折叠结构严重偏离目标,甚至完全解体。这一结果有力证明了 SOLD 在处理复杂生物学约束时的卓越能力。
总结与展望
SOLD 的成功,在于其巧妙地结合了预训练大模型的表征能力与强化学习的策略优化能力。首先,模型利用 RNA-FM 捕捉深层的共进化模式,解决了传统方法「只见树木不见森林」的问题。其次,创新的单步式 RL 策略攻克了非可微目标优化的效率瓶颈,使得直接针对物理属性(如自由能、结构偏差)进行设计成为可能。这种模块化、工具无关的框架设计,使得未来可以无缝集成更先进的奖励评估工具。
该研究不仅为 RNA 逆折叠任务确立了新的 SOTA 基准,也印证了 AI 驱动生物设计的发展方向 — 通过高效的算法创新,跨越从「生成序列」到「设计功能」的鸿沟。展望未来,研究团队计划进一步扩展高质量 RNA 结构数据集,并探索多尺度指标的协同优化,从而为 RNA 疗法及合成生物学的落地持续注入新动力。
热门跟贴