DeepMind AI用人工智能预测基因表达序列|deepmind|dna|人工智能|变异|序列

基于 Transformer，DeepMind新的 Enformer 架构通过提高预测 DNA 序列如何影响基因表达的能力来推进基因研究。

当人类基因组计划成功绘制了人类基因组的 DNA 序列后，国际研究界对更好地了解影响人类健康和发展的遗传指令的机会感到兴奋。DNA 携带决定一切的遗传信息，从眼睛颜色到对某些疾病的易感性。人体中大约 20,000 个称为基因的 DNA 部分包含有关蛋白质氨基酸序列的说明，这些蛋白质在DeepMind的细胞中执行许多基本功能。然而，这些基因只占基因组得不到2%。其余的碱基对——占基因组 30 亿个“字母”中的 98%——被称为“非编码”，包含关于基因应该在人体中何时何地产生或表达得不太容易理解的说明。

今天 Nature Methods 发表了“通过整合长程相互作用从序列中进行有效的基因表达预测”（首次在bioRxiv上作为预印本分享），其中DeepMind与Calico的 Alphabet 同事合作，引入了一种名为 Enformer 的神经网络架构，该架构导致大大提高了从 DNA 序列预测基因表达的准确性。为了进一步研究疾病中的基因调控和因果因素，DeepMind还在此处公开提供了DeepMind的模型及其对常见遗传变异的初步预测。

以前关于基因表达的工作通常使用卷积神经网络作为基本构建块，但它们在模拟远端增强子对基因表达的影响方面的局限性阻碍了它们的准确性和应用。DeepMind最初的探索依赖于Basenji2，它可以从 40,000 个碱基对得相对较长的 DNA 序列中预测调节活性。受这项工作的启发，以及调控 DNA 元素可以影响更远距离表达的知识，DeepMide看到需要进行基本的架构改变来捕获长序列。

DeepMind开发了一种基于Transformers的新模型，在自然语言处理中很常见，以利用可以整合更多 DNA 上下文的自我注意机制。由于 Transformers 是查看长文本段落的理想选择，因此DeepMiand 对它们进行了改造，以“读取”大量扩展的 DNA 序列。通过有效地处理序列以考虑比以前方法的长度超过 5 倍（即 200,000 个碱基对）的距离的相互作用，DeepMind的架构可以模拟称为增强子的重要调控元件对 DNA 序列中更远距离的基因表达的影响.

Enformer 被训练来预测功能基因组数据，包括来自输入 DNA 的 200,000 个碱基对的基因表达。上面的示例包含 5,000 多个可能的基因组轨迹中的三个。通过使用使用注意力收集整个序列的信息的转换器模块，与以前的模型相比，DeepMind能够有效地考虑更长的输入序列。

为了更好地理解 Enformer 如何解释 DNA 序列以得出更准确的预测，DeepMind使用贡献分数来突出输入序列的哪些部分对预测影响最大。与生物学直觉相匹配，DeepMind观察到，即使位于距离基因超过 50,000 个碱基对的位置，该模型也会关注增强子。预测哪些增强子调节哪些基因仍然是基因组学中尚未解决的主要问题，因此DeepMind很高兴看到 Enformer 的贡献分数与专门为此任务开发的现有方法（使用实验数据作为输入）相当。Enformer 还了解了绝缘体元件，它将 DNA 的两个独立调节区域分开。

由于更广阔的感受野，即使在距离基因超过 20,000 个碱基对的距离处，Enformer 也会关注称为增强子（灰色框）的相关调控 DNA 区域（以蓝色显示）。

尽管现在可以完整地研究生物体的 DNA，但需要复杂的实验来了解基因组。尽管进行了巨大的实验努力，但绝大多数 DNA 对基因表达的控制仍然是个谜。借助人工智能，DeepMind可以探索在基因组中寻找模式的新可能性，并提供有关序列变化的机械假设。与拼写检查器类似，Enformer 部分理解 DNA 序列的词汇，因此可以突出显示可能导致基因表达改变的编辑。

这种新模型的主要应用是预测 DNA 字母的哪些变化（也称为遗传变异）会改变基因的表达。与之前的模型相比，Enformer 在预测变异对基因表达的影响方面要准确得多，无论是在自然遗传变异的情况下，还是在改变重要调控序列的合成变异的情况下。这一特性对于解释通过全基因组关联研究获得的越来越多的疾病相关变异非常有用。与复杂遗传疾病相关的变异主要位于基因组的非编码区域，可能通过改变基因表达导致疾病发生。但由于变异之间的内在相关性，许多这些与疾病相关的变异只是假相关而不是因果关系。

位于免疫反应基因 NLRC5 中的变体 rs11644125 与较低水平的单核细胞和淋巴细胞白细胞有关。通过系统的突变围绕变体的每个位置并预测 NLRC5 基因表达的结果变化（显示为字母高度），DeepMind观察到该变体导致 NLRC5 的整体较低表达并调节称为 SP1 的转录因子的已知结合基序。因此，Enformer 的预测表明，由于 SP1 结合受到干扰，该变体对白细胞计数的影响背后的生物学机制是降低 NLRC5 基因表达。

DeepMind还远未解决人类基因组中存在的无法解释的谜团，但 Enformer 在理解基因组序列的复杂性方面向前迈进了一步。如果您有兴趣使用 AI 来探索基本细胞过程的工作原理、它们如何在 DNA 序列中编码，以及如何构建新系统来推进基因组学和DeepMiand 对疾病的理解，DeepMind正在招聘. DeepMind还期待扩大与其他渴望探索计算模型的研究人员和组织的合作，以帮助解决基因组学核心的开放性问题。