撰文丨王聪

编辑丨王多鱼

排版丨水成文

在生命科学领域,RNA的三维(3D)结构解析一直是块“硬骨头”。与相对稳定的蛋白质不同,RNA 分子天生灵活多变,能在不同构象间切换,这对其功能至关重要,但也让实验测定其精确三维结构变得异常困难。此外,传统的计算方法也常常束手无策。

然而,这一困局正被来自中国团队的一项研究成果所打破。

2026 年 4 月 21 日,山东大学杨建益教授团队(王文恺博士为论文第一作者)在 Nature 子刊Nature Machine Intelligence上发表了题为:Predicting RNA 3D structure and conformers using a pre-trained secondary structure model and structure-aware attention 的研究论文。

该研究开发了一个名为trRosettaRNA2的 AI 新算法,它不仅能够高精度预测 RNA 的静态三维结构,更能捕捉其动态构象变化,在国际权威结构预测竞赛 CASP16 中,力压包括AlphaFold3在内的所有对手,取得 RNA 结构预测自动算法组冠军。此外,研究团队还将其应用于核糖核酸酶 P RNA 的结构预测,结果显示,即使没有实验数据,trRosettaRNA2 也能成功捕捉到其结构异质性,显示出预测 RNA 多种构象的潜力。

打开网易新闻 查看精彩图片

核心创新:用“二维蓝图”指导“三维施工”

相较于蛋白质结构的解析和预测,确定RNA的三维(3D)结构和构象体,仍然是结构生物学中的一个重大挑战,这主要是由于实验数据的稀缺、RNA 分子固有的灵活性以及当前实验和计算方法的局限性。

在这项新研究中,研究团队的核心思路非常巧妙:既然 RNA 三维结构数据稀缺是主要瓶颈,那就另辟蹊径,从海量且易得的 RNA 二级结构数据中寻找突破口。

我们可以把 RNA 想象成一栋复杂的建筑:一级结构(序列):就像建筑材料的排列顺序;二级结构:是这些材料局部折叠形成的稳定“模块”或“骨架蓝图”,例如哪些部分会配对形成双螺旋,哪些部分会形成环;三级结构:最终建成的、具有完整功能的立体建筑。

trRosettaRNA2的创新在于,它内部集成了一个预训练的二级结构(Secondary Structure,SS)先验模块。这个模块在包含海量 RNA 二级结构信息的数据库上进行了训练,能像一位经验丰富的建筑师,仅凭 RNA 序列就快速、准确地绘制出“二维结构蓝图”。这个模块本身就是一个独立的、性能顶尖的 RNA 二级结构预测工具——trRNA2-SS

更重要的是,trRosettaRNA2并非简单地将这份“蓝图”作为固定约束,而是通过一种名为 “二级结构感知注意力”(SS-aware attention)机制,让神经网络在预测三维坐标时,能动态地、有侧重地参考这份蓝图信息,从而更精准地搭建出最终的“三维建筑”,甚至模拟出建筑在不同状态下的几种可能形态(即构象异构体)。

打开网易新闻 查看精彩图片

性能卓越:以小博大,超越巨头

在严格的基准测试中,trRosettaRNA2展现出了令人瞩目的性能:

精度领先:在标准测试集 TS28 上,trRosettaRNA2 的预测精度(以 RMSD 衡量)比其前代模型提升了 24%,并且在多项关键指标上优于AlphaFold3,同时产生的结构冲突更少,物理合理性更高。

效率惊人:trRosettaRNA2 的模型参数量仅为约 3000 万,是 AlphaFold3 的约 1/12,RoseTTAFoldNA 的 1/2。其训练成本也大幅降低,仅用单个 A100/A800 GPU 训练了约 33天,远低于其他主流方法。这真正实现了“小而精”的高效预测。

盲测夺冠:在最具挑战性的 CASP16 RNA 结构盲测中(参赛者不知道所预测的 RNA 的实验结构,纯粹比拼预测能力),基于 trRosettaRNA2 的“Yang-Server”在全部 36 个 RNA 单体靶标上,位列所有自动化服务器第一名,总排名在 64 个参赛组中高居第四,仅次于三个人工干预团队,超过了 AlphaFold3 服务器(排名第九)。

打开网易新闻 查看精彩图片

应用潜力:从静态到动态

这项研究的另一大亮点是成功预测了 RNA 的构象异构体。研究团队以核糖核酸酶 P(RNase P)RNA 为例,成功复现了其在原子力显微镜实验中观察到的多种构象,而这一切无需依赖任何实验数据作为输入。这意味着,trRosettaRNA2 不仅能给出 RNA 的“标准证件照”,还能推演出它的“动态生活影像”,为理解 RNA 如何通过形变来行使功能(例如基因调控、催化反应)提供了强大的计算工具。

trRosettaRNA2 的成功,标志着 RNA 三维结构预测领域迈出了坚实的一步。它通过巧妙地利用更丰富的二级结构数据作为先验知识,以更高效、更精准的方式解决了三维结构预测的难题,并在国际顶级竞赛中证明了其领先地位。这一成果不仅将极大推动非编码 RNA 功能机制、RNA 药物靶点发现等基础研究,也为整个计算结构生物学提供了新的思路——在面对数据稀缺的挑战时,融合多维度、多层次的信息可能是通往成功的关键路径。

论文链接

https://www.nature.com/articles/s42256-026-01223-x