显著拓展应用边界，大卫·贝克团队提出核酸逆折叠统一模型NA-MPNN|dna|rna|复合物|大卫·贝克|序列|核酸逆折叠|特异性

编辑丨coisini

RNA 序列设计与蛋白质 - DNA 结合特异性预测均可被视为核酸逆折叠问题，即在给定核酸或核酸 - 蛋白质复合物固定三维结构的前提下，寻找最可能的核酸序列。

虽然已有研究针对特定任务开发工具，但目前尚未出现统一的深度学习模型来解决核酸逆折叠问题。单一模型将能利用规模更大、更多样化的训练数据集，并具备更广泛的应用范围。

最近，华盛顿大学大卫・贝克（David Baker）团队等提出假设：基于深度学习的统一核酸逆折叠模型可协同解决上述两类问题，通过联合训练两类任务中的异构数据集获得潜在优势，并显著拓展应用边界。

研究团队据此假设提出核酸消息传递神经网络（Nucleic Acid MPNN，NA-MPNN），采用统一生物聚合物图表示方法处理蛋白质、DNA 和 RNA。

论文地址：https://www.biorxiv.org/content/10.1101/2025.10.03.679414v2

NA-MPNN 在 RNA 序列设计和固定对接蛋白质 - DNA 特异性预测任务上优于现有方法，预计将在从头 RNA 结构设计与 DNA 结合特异性预测领域发挥广泛作用。

NA-MPNN

大卫・贝克（David Baker）团队此前开发的蛋白质序列设计方法 ProteinMPNN，解决了蛋白质逆折叠问题。团队推断可通过扩展 ProteinMPNN 使其能计算核酸骨架，从而开发通用生物聚合物序列设计（逆折叠）网络。

ProteinMPNN 采用以残基为节点的图神经网络架构，但其节点仅支持蛋白质残基。而在新模型 NA-MPNN 中，节点可包含蛋白质残基、DNA 或 RNA 碱基，节点间连接支持蛋白质 - 蛋白质、核酸 - 核酸及蛋白质 - 核酸三类。

NA-MPNN 沿用 ProteinMPNN 的策略，采用残基标签平滑技术降低模型过自信，编码器与解码器架构与 ProteinMPNN 和 LigandMPNN 保持一致。

在架构层面，NA-MPNN 与 ProteinMPNN 存在两点主要差异。

首先，每个残基节点采用显式聚合物类型 one-hot 编码（蛋白质 / DNA/RNA）作为初始特征，取代了零值初始化方案。

其次，token 表经扩展后统一表征核酸：每种典型碱基的脱氧核糖与核糖形式共享单一 token（DA/A、DC/C、DG/G、DT/U），并增设未知核酸 token（DX/RX）。这促进了 DNA 与 RNA 语境间的交叉学习，在 NA-MPNN 不涉及侧链化学信息的前提下显得尤为珍贵，实验表明该设计提升了验证集的序列恢复率。

尽管 NA-MPNN 采用统一图架构处理所有聚合物（蛋白质 / DNA/RNA），但研究团队训练了两种任务专用模型：面向骨架约束序列设计的设计模型，以及用于固定对接蛋白质 - DNA 结合偏好的特异性模型。两类模型均采用逐位置交叉熵优化，但监督目标不同。设计模型以晶体学序列为监督目标，特异性模型则以经验位置概率矩阵为监督目标。

模型效果

NA-MPNN 为骨架条件化 RNA 序列设计领域树立了新标准。在给定 RNA 结构的情况下，NA-MPNN 能稳定恢复 60.5% 的天然碱基身份，且通过 RibonanzaNet 和 AlphaFold 3 对 NA-MPNN 生成的序列进行结构预测，预测出的二三级结构，比 gRNAde 与 RhoDesign 的结果更接近输入结构。

NA-MPNN 还与基于扩散过程的蛋白质核酸骨架生成器 RFDpoly 相结合，成功从头设计了经电子显微镜验证具有预期二三级折叠的 RNA 及蛋白质 - DNA 复合物，彰显了该模型在正向大分子工程工作流中的实用价值。

在蛋白质 - DNA 结合特异性预测方面，NA-MPNN 在固定对接蛋白质 - DNA 特异性预测中达到顶尖精度。在 RFNA/RFAA 蒸馏复合物实验 PPM 数据集上，尽管仅依据骨架坐标且忽略蛋白质侧链原子，NA-MPNN 仍较 DeepPBS 显著降低了平均绝对误差与交叉熵的中位数。这种侧链无关的建模方式避免了目标 DNA 序列信息泄露，从而为 DNA 结合蛋白设计提供了严格的早期筛选方案。