*仅供医学专业人士阅读参考

打开网易新闻 查看精彩图片

熟悉CRISPR基因编辑诞生历史的朋友们一定知道,CRISPR其实脱胎于细菌的免疫系统,关键的基因序列识别能力和切割能力都来自于与噬菌体的对抗。那么从原理上来说,其他细菌防御系统也同样具有被开发成基因编辑工具的潜力。

,研究者们依照这个思路,对超过45000种已知的细菌和古细菌基因组进行了筛选,并对有潜力的基因序列逐个进行了功能测试,最终发现了10种全新的细菌免疫防御系统。

8年后的今天,在机器学习的加持下,科学家们已经能够大批量筛选细菌基因组,一口气找到海量的防御相关蛋白了。

今日,《科学》杂志同期发表了两篇论文,一篇来自麻省理工学院科研团队,研究者们开发了一个名为DefensePredictor的机器学习模型,在1000多种原核基因组中鉴定到了5000多个防御相关蛋白,且与当前已知防御蛋白并非同源物。

打开网易新闻 查看精彩图片

另一篇论文则来自巴斯德研究所科研团队,研究者们开发了三个互补的机器学习模型,构建了迄今为止最全面的细菌免疫图谱,模型预测了239万个抗噬菌体蛋白。

打开网易新闻 查看精彩图片

在细菌中,抗噬菌体免疫基因普遍倾向于彼此紧密聚集,形成名为防御岛的基因簇。在2018年的《科学》论文中,科学家们采用的就是筛选已知防御基因附近功能未知基因的策略。

但是,也并非所有免疫基因都会位于防御岛上,也可能存在于质粒、前噬菌体、转座子等可移动元件上,或零散分布在基因组其他位置。

为了识别这些潜在的防御系统,麻省理工的研究者们基于17000个原核基因组数据,标记其中已知的防御系统基因和大量非防御基因,并利用蛋白质语言模型ESM2生成防御基因及其周围四个基因,用于训练DefensePredictor模型。在模拟中,DefensePredictor能识别到100个已知防御系统中的82个,可见模型能够捕捉到广泛的防御系统特征。

接下来,研究者在69种大肠杆菌菌株中应用DefensePredictor,模拟得到624种防御相关蛋白簇,其中超过100个与已知防御相关蛋白簇无可检测同源性,50%散布于没有明显免疫特征的位置。

研究者将94个预测到的防御系统克隆到易感大肠杆菌内进行测试,发现其中42个对至少一种噬菌体提供了保护作用。研究者在这42个防御系统中发现了15个此前从未鉴定到的防御性蛋白质结构域,看来细菌的免疫机制我们还远远没摸透呢。

最后,研究者将DefensePredictor应用范围扩大到1000余种原核基因组中,更是一口气预测了5000多个防御蛋白簇,而且并非已知防御蛋白的明确同源物。

打开网易新闻 查看精彩图片

巴斯德研究所的研究者们采用的也是类似的思路。他们构建的其中一个模型ESMDF基于氨基酸序列,使用蛋白质语言模型来捕捉防御蛋白的序列特征;另一个模型ALBERTDF则不依赖具体的序列信息,而是基于局部基因邻域来推断防御功能;最后一个模型GeneCLRDF综合了氨基酸序列和基因组上下文信息。

对超过32000个细菌基因组的模拟结果显示,所有编码基因中约1.5%用于免疫防御,超过85%防御相关蛋白此前从未与免疫关联。模型预测了239万个抗噬菌体蛋白,其中相当一部分单独存在,并鉴定到了约23000个操纵子家族。

可见细菌的防御系统结构极其多样,我们了解的只不过是冰山一角。

奇点小伙伴们的播客栏目开播啦!在这个栏目里,我们会分享近期热门的药物研发资讯和行业新鲜动态,附赠奇点糕们(可能犀利)的锐评,欢迎大家点击订阅和奇点糕一起唠嗑~

参考资料:

[1]DeWeirdt P C, Mahoney E M, Laub M T. DefensePredictor: A machine-learning model for discovering prokaryotic immune systems. Science. 2026;392(6793):eadv7924. doi:10.1126/science.adv7924

[2]Mordret E, Elwess A, Tesson F, et al. Protein and genomic language models reveal unexplored diversity of bacterial immunity. Science. 2026;392(6793):eadv8275. doi:10.1126/science.adv8275

打开网易新闻 查看精彩图片

本文作者丨代丝雨