本文提出"蛋白质动态词表"机制,融合深度生成模型与天然蛋白片段结构先验,在功能导向设计中同步提升结构可折叠性与功能对齐度。相比SOTA模型,ProDVa仅使用0.04%训练数据即可生成更多可稳定折叠的序列,且性能几乎无损。当前评估基于计算模拟,尚未经湿实验验证,未来需跨领域合作推进。

打开网易新闻 查看精彩图片

论文标题: Protein Design with Dynamic Protein Vocabulary 论文链接: https://arxiv.org/pdf/2505.18966 代码链接: https://github.com/sornkL/ProDVa

基于功能的蛋白质设计任务(function-guided protein design)旨在根据功能描述或关键词,生成符合的蛋白质序列。其核心挑战在于,如何确保从蛋白质序列庞大空间中设计的序列既满足给定功能,也能正确折叠成稳定的 3D 结构(即可折叠性好)。

近年来,蛋白质语言模型(PLMs)在该任务上展现了巨大潜力,可以根据上下文描述以氨基酸为词元生成符合功能的全新蛋白质序列。但是,PLMs 面临两个核心挑战:

  1. 20 种标准氨基酸(以及分词器自动切分的连续片段)构成的词元缺乏明确的生物学意义;

  2. 解码生成的蛋白质序列虽然符合给定功能,但可折叠性差。

现代生物信息学既存在 SwissProt [1] 等经过大规模专家标注且湿实验实证的蛋白质数据库,也存在 InterPro [2][3] 等工具能够提取完整序列中包含的功能片段。例如,LLDELLQKGYGLGSGISL 天然蛋白质片段(IPR30659)已被实证为一个 SecY 保守位点(conserved site)。

受传统蛋白质设计借鉴已知天然结构的启发,来自华东师范大学、复旦大学、中国电信人工智能研究院(TeleAI)的研究团队提出了一个新问题:PLMs 能否在设计过程中充分利用天然蛋白质功能片段来得到功能易满足、结构更合理的新蛋白质?

LLMs 动态词表生成技术 [4] 首先将任意短语表征嵌入静态词表的语义空间,然后在每个解码时刻自由选择生成词元(对应氨基酸 Token)或一整个短语(对应天然功能片段)。

结合该技术,本文提出了新型 PLM 架构 ProDVa,根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。

一、思路验证:天然片段是提升结构稳定性的关键

作者首先通过一个简单实验验证核心直觉:蛋白质由 20 种标准氨基酸组成,其中连续的功能子序列(如结构域、活性位点等)被称为片段(fragment),它们往往决定结构与功能。

实验发现,即便将天然蛋白质片段随机插入到随机生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布与可折叠性上均显著优于完全随机生成(Random)。

打开网易新闻 查看精彩图片

(a) 不同方法生成的蛋白质在ESM C embedding空间中的UMAP可视化,灰色表示天然蛋白质的分布。(b) pLDDT (predicted Local Distance Difference Test)性能对比,该指标衡量单个残基局部结构的预测准确度。 (c) PAE (Predicted Aligned Error)性能对比,该指标评估不同残基之间相对位置的预测准确度。黄色散点(Random+)比红色散点(Random)分布更广,更接近天然蛋白质,且在结构评估指标上表现显著更好。

这有力证明了:采用天然片段协助设计极具潜力。进一步,在实际应用中,如何按照用户需要,有目的地选择和拼接这些天然片段,是 ProDVa 关注的核心问题。

二、蛋白质动态词表实现智能组装

为了实现对蛋白质片段的智能组装,ProDVa 包含三个核心组件:

  1. 文本语言模型 (Text Language Model):理解用户输入的自然语言功能描述。

  2. 蛋白质语言模型 (Protein Language Model):根据输入功能描述,自回归地设计氨基酸序列。

  3. 片段编码器 (Fragment Encoder):理解天然蛋白质片段的表示。

打开网易新闻 查看精彩图片

核心创新在于蛋白质动态词表(Dynamic Protein Vocabulary)。传统 PLMs 的词表仅含 20 种标准氨基酸或分词器自动切分的连续片段,而 ProDVa 在生成时可动态引入由天然片段组成的临时词表。推理流程如下:

  1. 根据功能描述,从支持文档库检索最相似的 K 个蛋白质;

  2. 提取其中的功能片段形成任务相关的候选集;

  3. 生成时,模型可在每一步选择生成单个氨基酸 Token,或直接生成一个完整片段。

为让模型正确使用片段,训练中引入三个目标:

  1. 下一个 Token/片段预测:保证序列生成连贯;

  2. 片段类型预测:区分结构域、活性位点等类型,让编码器理解片段的生物学意义;

  3. 片段描述匹配:通过对比学习,使片段表示与功能描述在向量空间中对齐。

三、实验结果

在基于功能关键词和复杂文本描述的两类蛋白质设计任务中,ProDVa 均表现优异:

  1. 结构可折叠性显著提升:与SOTA 模型 Pinal 相比,pLDDT > 70 的比例提升 7.38%,PAE < 10 的比例提升 9.62%,意味着生成的蛋白质更可能折叠成稳定的 3D 结构。

  2. 高效的数据利用能力:在功能对齐性能几乎不损失(ProTrek Score 差0.1%)的情况下,训练数据量仅为 Pinal 的 0.04%(约 71.2 万对),显著降低训练成本。

打开网易新闻 查看精彩图片
  1. 通用性强:在无条件生成任务中,同样优于所有基线,相比 SOTA 模型 Pinal,pLDDT > 70 的比例提升 22.76%,PAE < 10 的比例提升 11.81%。

打开网易新闻 查看精彩图片
四、总结与展望

本文提出了“蛋白质动态词表”这一新机制,将深度生成模型与天然蛋白质片段的结构先验相结合,在基于功能的蛋白质设计任务中显著提升了结构可折叠性,同时保持高功能对齐度。

相比现有 SOTA 模型,ProDVa 在仅使用 0.04% 训练数据的情况下,几乎不降低功能对齐性能,却能生成更多可稳定折叠的蛋白质序列。

当然,当前所有评估方法都是使用计算机模拟的指标进行衡量,尚未通过湿实验验证其是否真的能在生物体内发挥预想的功能。我们期待未来更多跨领域合作推动其落地与验证。

参考文献

[1] Amos Bairoch and Rolf Apweiler. The swiss-prot protein sequence database and its supplement trembl in 2000. Nucleic acids research, 28(1):45–48, 2000.

[2] Matthias Blum, Antonina Andreeva, Laise Cavalcanti Florentino, Sara Rocio Chuguransky, Tiago Grego, Emma Hobbs, Beatriz Lazaro Pinto, Ailsa Orr, Typhaine Paysan-Lafosse, Irina Ponamareva, et al. Interpro: the protein sequence classification resource in 2025. Nucleic Acids Research, 53(D1):D444–D456, 2025.

[3] Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, et al. Interproscan 5: genome-scale protein function classification. Bioinformatics, 30(9):1236–1240, 2014.

[4] Yanting Liu, Tao Ji, Changzhi Sun, Yuanbin Wu, and Xiaoling Wang. Generation with dynamic vocabulary. arXiv preprint arXiv:2410.08481, 2024.

来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈