在蛋白质组学研究中,科学家常用“数据依赖性采集(DDA)”质谱技术来鉴定样本中的蛋白质。传统方法通过数据库搜索,将实验获得的质谱与理论肽段谱进行匹配。然而,这一过程产生的候选匹配结果往往不够精确,需要借助后续的“重新打分”步骤来分辨真假。过去二十年,主流的打分工具多依赖人工设计的特征与浅层机器学习模型,并且通常只针对单个实验项目单独训练,难以利用跨项目数据中的共性信息,限制了鉴定灵敏度的进一步提升。
近日,《自然·通讯》(Nature Communications)杂志发表了一项由西湖大学郭天南团队和陈怡团队合作完成的研究,论文题目为《DDA-BERT:基于端到端训练的数据依赖性获取质谱蛋白质组学分析方法》。研究团队开发了一种名为DDA-BERT的深度学习模型,该模型不再依赖人工特征和浅层分类器,而是采用端到端的transformer架构,直接从原始质谱图和肽段序列中学习匹配关系,实现对肽段-谱图匹配(PSM)的统一重新打分。
研究团队首先构建了一个庞大的训练数据集,涵盖11个物种、110个独立项目和超过2.7亿个PSM。DDA-BERT模型内部包含两个相互连接的编码器:一个处理质谱峰信息,另一个处理肽段序列及前体电荷等特征。为了提升模型的鲁棒性和泛化能力,训练过程中研究人员引入了双重正则化策略:一方面随机“丢弃”谱图中的部分信号峰,另一方面采用连续片段掩码技术遮盖肽段序列的部分区域,迫使模型学习真实的肽段-谱图对应关系而非简单的局部模式。
在性能评测中,DDA-BERT在人类、酵母、果蝇和拟南芥等多个物种的数据集上均显著优于现有工具。以人类结直肠癌组织样本为例,在1%假发现率(FDR)阈值下,DDA-BERT鉴定出超过6.3万个PSM,比表现次优的工具高出18%以上;在肽段层面,DDA-BERT鉴定出4万余条独特性肽段,较AlphaPept、Sage等方法提升幅度达24%至269%。在单细胞级别痕量样本和HLA免疫肽组学数据中,该模型同样保持了较高的灵敏度,肽段鉴定数量提升最高超过87%。进一步的分析表明,DDA-BERT能够有效控制假发现率,其评分分布在不同长度肽段上均保持稳定的靶标-诱饵分离效果。
READING
BioPeers
欢迎关注本公众号,所有内容欢迎点赞,推荐❤️,评论,转发~
如有错误、遗漏、侵权或商务合作请私信小编~~
欢迎大家投稿课题组 研究进展 、招聘及招生宣传~
所有文章只为科普、科研服务,无商业目的~
热门跟贴