Nat Biotechnol | 从基因突变到蛋白序列：诸承昊等用 moPepGen 解码复杂蛋白组|变异|蛋白序列|诸承昊|转录组

蛋白基因组学（proteogenomics）是一种将高通量测序与质谱蛋白组学结合的实验方法，连接了中心法则的上下游。通过它，科学家得以研究基因组与转录组的变异如何影响蛋白质的数量与结构特征。蛋白组数据的分析高度依赖数据库搜索（database search），而传统蛋白序列数据库 (canonical database) 并不包含受基因突变或转录变异影响的蛋白序列。因此，这些非规范肽（non-canonical peptides）往往无法直接从质谱数据中鉴定出来。

为了解决这一问题，研究人员发展了基于病人或样品自身基因组和转录组数据生成的定制数据库（custom database）。然而，由于单个基因常常同时携带多种基因突变和转录组变异，其潜在的蛋白质变异组合呈指数级增长。这种组合复杂性使得现有多数方法仅支持单突变肽或特定类型的变异组合，从而大幅低估了蛋白基因组学的复杂度。

2025年6月16日，来自加州大学洛杉矶分校诸承昊博士，Paul Boutros教授和多伦多大学Thomas Kislinger教授合作在Nature Biotechnology上发表了文章Identification of non-canonical peptides with moPepGen。moPepGen 使用图算法解决变异组合问题。在计算机科学中，图（graph）是一种由节点（node）和边（edge）构成的数据结构，广泛应用于基因组组装和序列比对等领域。moPepGen 将一个基因的所有变异整合进一个图结构中，参考和变异序列均以节点表示，极大地减少了信息冗余。图结构随后在核酸层面进行翻译，从而显著降低了计算复杂度。

图算法也使 moPepGen 具备强大的拓展性。它不仅支持单核苷酸突变（SNV）和插入/删除变异（indel），还支持包括可变剪接、基因融合、RNA 编辑以及环化在内的多种转录组变异类型。在 375 个肿瘤细胞系中，moPepGen 成功检测到大量由驱动性体细胞突变产生的非规范肽段，包括潜在的新抗原（neoantigen）序列。在肾透明细胞癌和前列腺癌的蛋白基因组数据中，moPepGen 也识别出大量由转录组变异所导致的非典型肽段。

moPepGen 支持多物种、不同水解酶（protease），并兼容多种质谱实验模式（包括 DDA 和 DIA）。其模块化设计亦支持与不同上游算法和多类变异数据的灵活对接。moPepGen 是目前最为高效且全面的定制蛋白质序列数据库生成工具，也是鉴定非规范肽的有力手段。

moPepGen 的推出，为蛋白基因组学带来了关键性进展。通过整合个体的基因组和蛋白组数据，moPepGen 能够系统性地识别变异驱动的蛋白质序列，助力发现生物标志物与潜在治疗靶点。这对于推动精准医学研究具有重要意义。更进一步，moPepGen 可广泛应用于新抗原（neoantigen）鉴定，为癌症免疫治疗的开发提供全新方向。

加州大学洛杉矶分校的诸承昊博士，Paul Boutros 教授，以及多伦多大学的 Thomas Kislinger 教授为本文通讯作者。诸承昊博士与多伦多大学的Lydia Y. Liu 博士共同第一作者。

https://www.nature.com/articles/s41587-025-02701-0

制版人：十一

学术合作组织

（*排名不分先后）

战略合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

BioArt

Med

Plants