单GPU 15分钟完成微调，人类基因组基础模型NT登Nature子刊|dna|变异|序列|微调

编辑 | 萝卜皮

从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战，通常是由于注释数据有限以及无法在任务之间转移学习所致。

在这里，英国伦敦InstaDeep的研究人员提出了在 DNA 序列上进行预训练的基础模型，称为 Nucleotide Transformer；其参数范围从 5000 万到 25 亿，并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。

这些 Transformer 模型可生成特定上下文的核苷酸序列表示，即使在低数据环境下也能实现准确预测。该模型可以以低成本进行微调，来解决各种基因组学应用问题，为从 DNA 序列进行准确的分子表型预测提供了一种广泛适用的方法。

该研究以「Nucleotide Transformer: building and evaluating robust foundation models for human genomics」为题，于 2024 年 11 月 28 日发布在《Nature Methods》。

基础人工智能（AI）模型通过大规模训练，能够处理各种预测任务，显著推动了科技领域的发展。自然语言处理（NLP）中的掩码语言建模，是实现语言理解的一种方法，通过预测句子中的缺失单词，训练模型深入理解语言。

生物学中的早期基础模型通过训练蛋白质序列，利用掩码氨基酸预测任务，展示了在蛋白质结构和功能预测等任务中的优越表现。迁移学习使得这些蛋白质语言模型在数据稀缺情况下超越了传统方法。

除了蛋白质序列，DNA 序列中的编码模式在理解基因组过程中的重要性日益突出，特别是在评估变异影响等方面。现代基因组学面临着数据量庞大、数据模式异常复杂的挑战。

在这里，英国伦敦 InstaDeep 构建了强大的基础模型来编码基因组序列，称为 Nucleotide Transformer（NT），并提出了系统的研究和基准来评估它们的性能。

图示：Nucleotide Transformer 概述。（来源：论文）

该团队通过构建四个大小各异的不同 LM 来进行他们的研究，这些 LM 的参数数量从 5 亿到 25 亿不等，比 DNABERT-2 大 20 倍，比 Enformer 主干模型大 10 倍。这些模型在三个不同的数据集上进行了预训练，包括人类参考基因组、3,202 个不同人类基因组的集合以及来自不同物种的 850 个基因组。

为了评估 NT 在适应各种任务时的性能稳定性，团队在 18 个不同的基因组策划预测任务上训练了每个模型，并使用系统的十倍交叉验证程序将它们与三个替代 DNA 基础模型以及一个最先进的非基础模型进行了比较。