Genome Biol | 推动大语言模型迈向蛋白质理解新阶段|genome|大语言模型|序列|细胞|蛋白质

近日，马剑鹏教授团队在期刊Genome Biology上发表题为Advancing generative large language models toward discriminative performance in protein function prediction的研究文章。团队成功开发出面向蛋白质功能预测的多任务生成式大语言模型OPUS-PLLM，该模型以“序列到功能”的自然语言生成范式为核心，将蛋白质序列理解、功能注释和生物学问答统一到同一生成框架中，不仅显著缩小了生成式大语言模型与传统判别式专用模型之间的性能差距，还在多项蛋白质功能预测任务中展现出优异的准确性、泛化性和可扩展性。

蛋白质是生命活动的主要执行者，其功能解析对于理解生命机制、发现疾病标志物、开展酶工程和药物研发具有重要意义。然而，随着测序技术快速发展，蛋白质序列数据呈指数级增长，功能注释却远远滞后：大量已知蛋白仍缺乏完整、可靠的功能描述。传统序列比对方法依赖可检测的同源关系，面对低同源或新型蛋白时常常力不从心；近年来兴起的蛋白质语言模型虽然显著提升了预测精度，但通常需要为不同任务分别训练判别式模型，难以灵活适应多样化、开放式的生物学问题。

面对这一挑战，OPUS-PLLM创新性地提出了面向蛋白质功能预测的生成式统一建模策略。模型由三项关键技术组成：首先，通过模态编码将蛋白质序列与功能文本映射到统一的跨模态表示空间；随后，利用模态对齐模块将蛋白质序列表示进一步对齐到大语言模型的词嵌入空间；最后，通过指令微调，使模型能够根据自然语言任务指令直接生成功能注释结果。与传统方法相比，OPUS-PLLM不再依赖为每个下游任务单独训练分类头，而是以统一的问答和生成方式完成亚细胞定位、GO术语、UniProt关键词、EC编号和功能描述等多类任务，为蛋白质功能预测提供了更加通用的技术路径。

实验结果表明，OPUS-PLLM在五类核心蛋白质功能预测任务、18个评测基准上表现突出。与InstructProtein、Prot2Text、BioMedGPT、OPI-Llama和OPI-Galactica等已有生物知识增强型生成式大语言模型相比，OPUS-PLLM在所有评测任务中均取得更优表现；在更具挑战性的GO术语预测和EC编号预测任务上，其相对第二优生成式模型的F1-score提升分别达到16.56%至25.13%和38.90%至254.61%。同时，OPUS-PLLM在多数任务中达到或超过基于ESM2、ProtT5和Ankh等蛋白质语言模型表示的专用判别式方法，证明生成式大语言模型不仅可以“会描述”，也可以在高精度功能预测中具备极强竞争力。

从技术路线看，OPUS-PLLM为生物大语言模型的发展提供了一个清晰范式：通过跨模态对齐、蛋白质序列表示精炼和高质量生物指令微调，将通用大语言模型的自然语言理解与蛋白质语言模型的序列建模能力有效结合。这一结果为后续构建更强的生物医学基础模型、拓展更多蛋白质任务和开放式生物学问答奠定了方法基础。

未来，随着模型能力、训练数据和生物知识体系的持续完善，OPUS-PLLM有望为未知蛋白功能注释、酶功能发现、疾病机制研究和药物靶点挖掘提供更加高效、可靠的智能工具。尤其在疾病研究领域，该模型能够系统解析与癌症、神经退行性疾病、代谢紊乱等重大疾病相关的蛋白功能异常与突变效应，揭示致病分子机制，加速疾病驱动靶点的识别与验证。通过实现对“致病蛋白-分子通路-干预位点”的高通量智能推理，OPUS-PLLM将为精准医学中的靶向治疗和早期诊断提供关键支撑，显著提升从机制研究到临床转化的效率。同时，该工作也将为生成式AI在生命科学与临床医学中的深度应用开辟更广阔的空间。

本文第一作者为上海人工智能实验室吕颖研究员，共同第一作者为复旦大学大数据学院博士生徐艺帆；复旦大学复杂体系多尺度研究院副研究员徐罡为本文的共同通讯作者。

原文链接：https://link.springer.com/article/10.1186/s13059-026-04109-8

制版人：十一

BioArt

Med

Plants

人才招聘

学术合作组织

（*排名不分先后）