打开网易新闻 查看精彩图片

编辑 | 萝卜皮

人工智能(AI)已被用来揭示地球各个角落的多种基本生命体。

阿里云、中山大学、悉尼大学等机构的合作团队开发了一种深度学习算法,称为 LucaProt,用于发现来自全球不同生态系统的 10,487 个宏转录组中高度分化的 RNA 依赖性 RNA 聚合酶 (RdRP) 序列。LucaProt 整合了序列和预测结构信息,从而能够准确检测 RdRP 序列。

借助 LucaProt,研究人员发现了总共 161,979 种新的 RNA 病毒,认为这将极大地改善地球生命的绘制,并有助于识别数百万种尚未鉴定的病毒

新发现的 RNA 病毒存在于各种环境中,包括空气、温泉和热液喷口,病毒多样性和丰度在不同的生态系统中存在很大差异。这项研究推动了病毒的发现,突出了病毒圈的规模,并提供了更好地记录全球 RNA 病毒组的计算工具。

该研究以「Using artificial intelligence to document the hidden RNA virosphere」为题,于 2024 年 10 月 9 日发布在《Cell》。

打开网易新闻 查看精彩图片

论文链接:https://www.cell.com/cell/fulltext/S0092-8674(24)01085-7

「这项研究为我们揭示了地球生命中不为人知的一部分,揭示了惊人的生物多样性。」文章的通讯作者之一、悉尼大学的 Edwards Holmes 教授说,「这是单项研究中发现的新病毒种类数量最多的一次,极大地扩展了我们对人类自身病毒的认识。」

「一下子发现这么多新病毒真是令人难以置信,这只是冰山一角,开启了一个探索的世界。还有数百万种病毒有待发现,我们可以用同样的方法来识别细菌和寄生虫。」

Holmes 教授说:「极端环境携带如此多类型的病毒,只是它们惊人的多样性和在最恶劣环境中生存的韧性的另一个例子,可能为我们提供有关病毒和其他基本生命形式如何产生的线索。」

LucaProt 是一种基于 Transformer 的 RNA 病毒发现工具,该工具利用蛋白质序列和病毒 RdRP 序列的结构特征。该工具应用于包含来自不同生态系统的 10,487 个宏转录组的数据集。

为了验证和进行比较分析,使用其他可用的生物信息学工具处理了同一数据集,并使用 DNA 和 RNA 测序分析了 50 个样本。

通过将该工具与大量序列数据结合使用,研究人员展示了人工智能如何准确有效地检测表现出超出传统基于相似性的方法能力的遗传差异的 RNA 病毒。

如果不实施结构模型,LucaProt 在测试数据集上的特异性和准确性分别只有 41.8% 和 94.9%,并且只能检测到 44.5% 的预测 RdRP 蛋白。

因此,在识别高度分化的 RNA 病毒时,RdRP 结构的保守性比 RdRP 序列的重要性更重要。

打开网易新闻 查看精彩图片

图示:整体概述。(来源:论文)

研究人员鉴定出 161,979 种潜在 RNA 病毒种类和 180 个 RNA 病毒超群,其中包括许多之前研究不足的群体,以及基因组长度极长(长达 47,250 个核苷酸)且基因组复杂的 RNA 病毒。

这些新型 RNA 病毒的一个子集通过 RT-PCR 和 RNA/DNA 测序得到确认。

总之,研究人员建立了一个用于大规模 RNA 病毒发现的 AI 框架范式,一旦准备好训练数据集,就可以很容易地扩展到对任何生物「暗物质」的准确描述。

「这些病毒中的绝大多数都已经测序并存储在公共数据库中,但它们的差异太大,以至于没人知道它们是什么,」Holmes 教授说,「它们构成了通常被称为序列‘暗物质’的东西。我们的人工智能方法能够组织和分类所有这些不同的信息,首次揭示了这种暗物质的含义。」

论文的通讯作者之一、中山大学的施莽教授表示:「我们过去依靠繁琐的生物信息学流程来发现病毒,这限制了我们可以探索的多样性。现在,我们有了一个更有效的基于人工智能的模型,它提供了卓越的灵敏度和特异性,同时让我们能够更深入地研究病毒多样性。我们计划将此模型应用于各种应用。」

打开网易新闻 查看精彩图片

图示:RNA 病毒圈。(来源:论文)

研究人员将鉴定的所有 RNA 病毒序列分为簇和超组,然后将超组与 ICTV 定义的病毒纲和门进行比较。在这里鉴定的超组中,只有 21 个包含 ICTV 目前分类的病毒门/纲,因此与最新的 ICTV 报告相比,超组水平的 RNA 病毒多样性扩大了 8.6 倍,迄今为止描述的所有 RNA 病毒的多样性扩大了 1.5 倍。

这次扩展既包括现有的病毒超群,也包括之前的 RNA 病毒发现项目中很大程度上被忽视的 60 个高度分化的超群。

这里鉴定的病毒超群与现有的门(例如,Narna-Levi 超群的 Lenarviricota 门)或类(例如,Astro-Poty、Hepe-Virga 和 Flavi 超群的 Stelpaviricetes、Alsuviricetes 和 Flasuviricetes 类)分类系统大致相当,非常具有多样性。

虽然这里记录了 RNA 病毒多样性的大幅增加,但我们对新发现病毒的进化和生态学的了解仍然存在重大差距。特别是,大多数已发现病毒的宿主仍然未知。

由于目前已知的大多数 RNA 病毒都感染真核生物,并且微生物真核生物在自然环境中具有极高的丰富度和多样性,因此这里鉴定的病毒进化枝和超群可能与多样化的微生物真核宿主有很大联系。然而,也有可能发现相当一部分新发现的病毒与细菌(或许还有古细菌)宿主有关。

事实上,越来越多的证据有力地支持了这样一种观点:与细菌有关的 RNA 病毒种类比目前记录的要多。

RNA 噬菌体在多个 RNA 病毒超群中的存在强调了细菌和真核宿主 RNA 病毒之间的进化联系。如果从病毒-宿主共同分化的角度来看,这种联系表明 RNA 病毒的进化史至少与细胞生物的进化史一样长,甚至更长。

尽管如此,该研究依然是一项十分重大进步。论文共同作者、阿里云智能飞天实验室李兆融博士表示:「LucaProt代表了前沿AI技术与病毒学的重要结合,证明了AI能够有效完成生物探索任务。这种整合为进一步解码生物序列、从新视角解构生物系统提供了宝贵的见解和鼓励。我们还将继续在病毒学人工智能领域的研究。」

Holmes 教授表示:「显然,下一步就是训练我们的方法来发现更多令人惊叹的多样性,谁知道还会有什么额外的惊喜呢。」

相关内容:https://phys.org/news/2024-10-hidden-virosphere-ai-virus-species.html