打开网易新闻 查看精彩图片

编辑丨coisini

RNA 序列设计与蛋白质 - DNA 结合特异性预测均可被视为核酸逆折叠问题,即在给定核酸或核酸 - 蛋白质复合物固定三维结构的前提下,寻找最可能的核酸序列

虽然已有研究针对特定任务开发工具,但目前尚未出现统一的深度学习模型来解决核酸逆折叠问题。单一模型将能利用规模更大、更多样化的训练数据集,并具备更广泛的应用范围。

最近,华盛顿大学大卫・贝克(David Baker)团队等提出假设:基于深度学习的统一核酸逆折叠模型可协同解决上述两类问题,通过联合训练两类任务中的异构数据集获得潜在优势,并显著拓展应用边界。

研究团队据此假设提出核酸消息传递神经网络(Nucleic Acid MPNN,NA-MPNN),采用统一生物聚合物图表示方法处理蛋白质、DNA 和 RNA。

打开网易新闻 查看精彩图片

论文地址:https://www.biorxiv.org/content/10.1101/2025.10.03.679414v2

NA-MPNN 在 RNA 序列设计和固定对接蛋白质 - DNA 特异性预测任务上优于现有方法,预计将在从头 RNA 结构设计与 DNA 结合特异性预测领域发挥广泛作用。

NA-MPNN

大卫・贝克(David Baker)团队此前开发的蛋白质序列设计方法 ProteinMPNN,解决了蛋白质逆折叠问题。团队推断可通过扩展 ProteinMPNN 使其能计算核酸骨架,从而开发通用生物聚合物序列设计(逆折叠)网络。

ProteinMPNN 采用以残基为节点的图神经网络架构,但其节点仅支持蛋白质残基。而在新模型 NA-MPNN 中,节点可包含蛋白质残基、DNA 或 RNA 碱基,节点间连接支持蛋白质 - 蛋白质、核酸 - 核酸及蛋白质 - 核酸三类。

NA-MPNN 沿用 ProteinMPNN 的策略,采用残基标签平滑技术降低模型过自信,编码器与解码器架构与 ProteinMPNN 和 LigandMPNN 保持一致。

打开网易新闻 查看精彩图片

在架构层面,NA-MPNN 与 ProteinMPNN 存在两点主要差异。

首先,每个残基节点采用显式聚合物类型 one-hot 编码(蛋白质 / DNA/RNA)作为初始特征,取代了零值初始化方案。

其次,token 表经扩展后统一表征核酸:每种典型碱基的脱氧核糖与核糖形式共享单一 token(DA/A、DC/C、DG/G、DT/U),并增设未知核酸 token(DX/RX)。这促进了 DNA 与 RNA 语境间的交叉学习,在 NA-MPNN 不涉及侧链化学信息的前提下显得尤为珍贵,实验表明该设计提升了验证集的序列恢复率。

打开网易新闻 查看精彩图片

尽管 NA-MPNN 采用统一图架构处理所有聚合物(蛋白质 / DNA/RNA),但研究团队训练了两种任务专用模型:面向骨架约束序列设计的设计模型,以及用于固定对接蛋白质 - DNA 结合偏好的特异性模型。两类模型均采用逐位置交叉熵优化,但监督目标不同。设计模型以晶体学序列为监督目标,特异性模型则以经验位置概率矩阵为监督目标。

模型效果

NA-MPNN 为骨架条件化 RNA 序列设计领域树立了新标准。在给定 RNA 结构的情况下,NA-MPNN 能稳定恢复 60.5% 的天然碱基身份,且通过 RibonanzaNet 和 AlphaFold 3 对 NA-MPNN 生成的序列进行结构预测,预测出的二三级结构,比 gRNAde 与 RhoDesign 的结果更接近输入结构。

打开网易新闻 查看精彩图片

NA-MPNN 还与基于扩散过程的蛋白质核酸骨架生成器 RFDpoly 相结合,成功从头设计了经电子显微镜验证具有预期二三级折叠的 RNA 及蛋白质 - DNA 复合物,彰显了该模型在正向大分子工程工作流中的实用价值。

在蛋白质 - DNA 结合特异性预测方面,NA-MPNN 在固定对接蛋白质 - DNA 特异性预测中达到顶尖精度。在 RFNA/RFAA 蒸馏复合物实验 PPM 数据集上,尽管仅依据骨架坐标且忽略蛋白质侧链原子,NA-MPNN 仍较 DeepPBS 显著降低了平均绝对误差与交叉熵的中位数。这种侧链无关的建模方式避免了目标 DNA 序列信息泄露,从而为 DNA 结合蛋白设计提供了严格的早期筛选方案。

打开网易新闻 查看精彩图片

研究团队预计 NA-MPNN 将成为转录因子研发流程中的重要组成部分,实现快速、结构感知的特异性谱筛选,而无需承担侧链采样的计算开销。

总的来说,NA-MPNN 为 RNA 序列设计与蛋白质 - DNA 结合特异性预测提供了稳健高效的工具,预计该模型将在下一代人工 RNA 分子、转录因子及基因组工程工具的创制中发挥广泛作用。