撰文丨王聪
编辑丨王多鱼
排版丨水成文
细菌编码了种类繁多的抗病毒(噬菌体)免疫防御系统,已有超过 250 种系统经过实验验证,涵盖了广泛的分子机制。正在进行的计算和实验筛选仍在不断揭示新系统,这表明细菌的抗病毒免疫防御系统的多样性可能远超我们的认知,之前的发现或许只是冰山一角。但这种多样性到底有多大,目前仍不得而知。
2026 年 4 月 2 日,法国巴斯德研究所的研究人员在国际顶尖学术期刊Science上发表了题为 : Protein and genomic language models uncover the unexplored diversity of bacterial immunity 的研究论文。
该研究开发并优化了三个互补的蛋白质语言模型和基因组语言模型,以大规模预测细菌的抗病毒功能,这些模型预测了 239 万个抗病毒蛋白,其中相当一部分以单基因防御形式存在,而共同预测的基因定义了约 23000 个操纵子家族,其中大多数此前与抗病毒防御毫无关联。这些预测共同勾勒出了一幅细菌抗病毒免疫图谱,揭示出的细菌免疫的多样性比此前所知的要大得多,也丰富得多,这些发现也为有针对性的功能探索奠定了基础。
细菌免疫的“暗物质”问题
就像宇宙中大部分物质是看不见的暗物质一样,细菌的抗病毒防御系统也存在大量“暗物质”,也就是那些我们尚未发现、功能未知的防御机制。传统方法主要依赖“有罪关联”原则:如果一个蛋白质家族经常出现在已知防御系统附近,就被推测具有防御功能。但这种方法存在明显局限:它只能识别与已知系统相关的蛋白质,而无法发现那些独立存在或位于非典型基因组位置的防御系统。
三大 AI 模型的协同作战
在这项最新研究中,研究团队开发了三种互补的深度学习模型,从不同角度“透视”细菌基因组:
ALBERTDF:专注于基因组上下文信息,将蛋白质家族视为“单词”,将相邻基因序列视为“句子”,学习细菌基因组的“语法规则”。
ESMDF:基于蛋白质语言模型,直接分析氨基酸序列,这个模型能够捕捉蛋白质序列中的复杂模式,即使与已知防御系统没有明显同源性,也能识别出防御功能。实验验证显示,它发现的系统中包含 DUF7946 等此前与抗病毒免疫无关的结构域。
GeneCLRDF:整合了序列和基因组上下文信息的“全能选手”,达到了 99% 的精确度和 92% 的召回率,成为性能最强的预测工具。这个模型通过对比学习,让同一基因的序列表示和上下文表示相互对齐,实现了对防御蛋白的精准识别。
惊人的发现:细菌免疫比想象中丰富得多
应用这些模型,研究团队对超过 32000 个细菌基因组进行分析后,研究得出了令人震惊的结论——
1、规模庞大:预测出 239 万个抗噬菌体蛋白,其中 85% 此前被认为与免疫无关;
2、普遍存在:典型细菌基因组中约 1.5% 的基因专门用于抗病毒防御;
3、系统多样:定义了约 23000 个预测的操纵子家族,大多数此前未知;
4、单基因防御:大量预测的防御蛋白以单基因形式存在,挑战了传统认知。
实验验证:从预测到实证
该研究不仅停留在计算预测,还进行了严格的实验验证。研究团队在大肠杆菌和白色链霉菌中测试了模型预测的系统,成功验证了 12 个全新的抗噬菌体防御系统。这些系统包含脱氧核糖核酸酶、肽酶等多样结构域,甚至包括一些此前与抗噬菌体免疫完全无关的蛋白质结构域。
开放资源:细菌抗病毒免疫图谱
为了让科学界能够探索这些发现,研究团队创建了一个交互式可视化资源(https://defensefinder.mdmlab.fr/wiki/refseq_predicted)。这个“细菌抗病毒免疫图谱”包含了超过 19000 个候选操纵子家族,为后续实验研究提供了宝贵线索。
总的来说,这项研究表明了细菌免疫系统的多样性远超此前的认知,提供了一种大规模发现细菌免疫系统的深度学习框架,并构建了细菌抗病毒免疫的系统图谱。随着更多实验验证的进行,这些新发现细菌免疫系统可能为开发新型抗菌策略、理解微生物群落动态、以及设计合成生物学工具提供全新思路。
论文链接:
https://www.science.org/doi/10.1126/science.adv8275
热门跟贴