Science：AI解锁细菌免疫宇宙“暗物质”，一次性预测239万种抗病毒蛋白|免疫宇宙|噬菌体|基因改造细菌|抗病毒蛋白

撰文丨王聪

编辑丨王多鱼

排版丨水成文

细菌编码了种类繁多的抗病毒（噬菌体）免疫防御系统，已有超过 250 种系统经过实验验证，涵盖了广泛的分子机制。正在进行的计算和实验筛选仍在不断揭示新系统，这表明细菌的抗病毒免疫防御系统的多样性可能远超我们的认知，之前的发现或许只是冰山一角。但这种多样性到底有多大，目前仍不得而知。

2026 年 4 月 2 日，法国巴斯德研究所的研究人员在国际顶尖学术期刊Science上发表了题为： Protein and genomic language models uncover the unexplored diversity of bacterial immunity 的研究论文。

该研究开发并优化了三个互补的蛋白质语言模型和基因组语言模型，以大规模预测细菌的抗病毒功能，这些模型预测了 239 万个抗病毒蛋白，其中相当一部分以单基因防御形式存在，而共同预测的基因定义了约 23000 个操纵子家族，其中大多数此前与抗病毒防御毫无关联。这些预测共同勾勒出了一幅细菌抗病毒免疫图谱，揭示出的细菌免疫的多样性比此前所知的要大得多，也丰富得多，这些发现也为有针对性的功能探索奠定了基础。

细菌免疫的“暗物质”问题

就像宇宙中大部分物质是看不见的暗物质一样，细菌的抗病毒防御系统也存在大量“暗物质”，也就是那些我们尚未发现、功能未知的防御机制。传统方法主要依赖“有罪关联”原则：如果一个蛋白质家族经常出现在已知防御系统附近，就被推测具有防御功能。但这种方法存在明显局限：它只能识别与已知系统相关的蛋白质，而无法发现那些独立存在或位于非典型基因组位置的防御系统。

三大 AI 模型的协同作战

在这项最新研究中，研究团队开发了三种互补的深度学习模型，从不同角度“透视”细菌基因组：

ALBERTDF：专注于基因组上下文信息，将蛋白质家族视为“单词”，将相邻基因序列视为“句子”，学习细菌基因组的“语法规则”。

ESMDF：基于蛋白质语言模型，直接分析氨基酸序列，这个模型能够捕捉蛋白质序列中的复杂模式，即使与已知防御系统没有明显同源性，也能识别出防御功能。实验验证显示，它发现的系统中包含 DUF7946 等此前与抗病毒免疫无关的结构域。

GeneCLRDF：整合了序列和基因组上下文信息的“全能选手”，达到了 99% 的精确度和 92% 的召回率，成为性能最强的预测工具。这个模型通过对比学习，让同一基因的序列表示和上下文表示相互对齐，实现了对防御蛋白的精准识别。

惊人的发现：细菌免疫比想象中丰富得多

应用这些模型，研究团队对超过 32000 个细菌基因组进行分析后，研究得出了令人震惊的结论——

1、规模庞大：预测出 239 万个抗噬菌体蛋白，其中 85% 此前被认为与免疫无关；

2、普遍存在：典型细菌基因组中约 1.5% 的基因专门用于抗病毒防御；

3、系统多样：定义了约 23000 个预测的操纵子家族，大多数此前未知；

4、单基因防御：大量预测的防御蛋白以单基因形式存在，挑战了传统认知。