Nature Commun | 西湖大学团队新模型DDA-BERT：蛋白质鉴定数量可提升超200%|dda|序列|样本|肽段|蛋白质|西湖大学

在蛋白质组学研究中，科学家常用“数据依赖性采集（DDA）”质谱技术来鉴定样本中的蛋白质。传统方法通过数据库搜索，将实验获得的质谱与理论肽段谱进行匹配。然而，这一过程产生的候选匹配结果往往不够精确，需要借助后续的“重新打分”步骤来分辨真假。过去二十年，主流的打分工具多依赖人工设计的特征与浅层机器学习模型，并且通常只针对单个实验项目单独训练，难以利用跨项目数据中的共性信息，限制了鉴定灵敏度的进一步提升。

近日，《自然·通讯》（Nature Communications）杂志发表了一项由西湖大学郭天南团队和陈怡团队合作完成的研究，论文题目为《DDA-BERT：基于端到端训练的数据依赖性获取质谱蛋白质组学分析方法》。研究团队开发了一种名为DDA-BERT的深度学习模型，该模型不再依赖人工特征和浅层分类器，而是采用端到端的transformer架构，直接从原始质谱图和肽段序列中学习匹配关系，实现对肽段-谱图匹配（PSM）的统一重新打分。

研究团队首先构建了一个庞大的训练数据集，涵盖11个物种、110个独立项目和超过2.7亿个PSM。DDA-BERT模型内部包含两个相互连接的编码器：一个处理质谱峰信息，另一个处理肽段序列及前体电荷等特征。为了提升模型的鲁棒性和泛化能力，训练过程中研究人员引入了双重正则化策略：一方面随机“丢弃”谱图中的部分信号峰，另一方面采用连续片段掩码技术遮盖肽段序列的部分区域，迫使模型学习真实的肽段-谱图对应关系而非简单的局部模式。

在性能评测中，DDA-BERT在人类、酵母、果蝇和拟南芥等多个物种的数据集上均显著优于现有工具。以人类结直肠癌组织样本为例，在1%假发现率（FDR）阈值下，DDA-BERT鉴定出超过6.3万个PSM，比表现次优的工具高出18%以上；在肽段层面，DDA-BERT鉴定出4万余条独特性肽段，较AlphaPept、Sage等方法提升幅度达24%至269%。在单细胞级别痕量样本和HLA免疫肽组学数据中，该模型同样保持了较高的灵敏度，肽段鉴定数量提升最高超过87%。进一步的分析表明，DDA-BERT能够有效控制假发现率，其评分分布在不同长度肽段上均保持稳定的靶标-诱饵分离效果。

READING

BioPeers

欢迎关注本公众号，所有内容欢迎点赞，推荐❤️，评论，转发~

如有错误、遗漏、侵权或商务合作请私信小编~~

欢迎大家投稿课题组研究进展、招聘及招生宣传~

所有文章只为科普、科研服务，无商业目的~