阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种|dna|rna|序列|核酸|蛋白质|阿里云|阿里巴巴集团

编辑 | 萝卜皮

不久之前，GoogleDeepMind发布了AlphaFold3，再次引发了人们对「AI + 生命科学」的讨论。

在学界，科学家的目标往往是先认识世界，然后在认识的基础上改造世界。但是在生命科学领域，人类对整个生命的理解与认识还如九牛一毛、冰山一角；建立对生命系统的多维度深刻认识是当前人类研究的重要一步，AI 是达成这一步的重要工具。

近期，阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型，旨在综合学习遗传和蛋白质组语言，涵盖 169,861 个物种的数据。

该模型不仅可以对核酸、蛋白质的内部特征进行挖掘，还可识别核酸与蛋白质之间的联系，可以帮助研究人员探索更多生物系统的内在逻辑与规则。

该研究的预印版本「LucaOne: Generalized Biological Foundation Model with Unified Nucleic Acid and Protein Language」，已于 2024 年 5 月 14 日发布在bioRxiv预印平台。

开源地址：https://github.com/LucaOne

论文链接：https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1

LucaOne 为何能快速跨模态处理数据

LucaOne 的核心亮点在于其独特的自监督加半监督学习架构，该架构基于生物语言的本质属性设计，使得模型能够在 10 亿量级的序列与注释信息上进行学习，参数规模约 1.8 B。

这一设计不仅允许模型处理核酸和蛋白质数据，而且能够识别两者之间的内在联系，即生物学中心法则中「DNA 到 RNA 再到蛋白质」的转化过程。

图示：LucaOne 的架构图，从数据到模型构建再到下游任务应用。

通过学习「中心法则」，LucaOne 能够很好得识别 DNA 序列与对应蛋白质之间的内在联系，这对于理解生命活动的基本规律十分重要。模型提供的基础能力，可以帮助研究人员破译更多中心法则相关的细节，让人们更加深入地理解生物世界的底层逻辑。

「这个模型目标是希望学习生物系统的底层编码，目前这个版本以基因组、转录组、蛋白质组为核心。其中的核苷酸及氨基酸序列是生物系统里的两种模态，放在一起统一学习能帮助模型更快学习到生物系统的编码体系。」该项目的负责人、阿里云飞天实验室生物计算研究总监李兆融解释道。

图示：LucaOne的训练数据、训练任务与在基因与蛋白质上的表征能力。

为了使预训练大模型模型学习更彻底、更好地与下游任务模式的契合、更广泛的应用，LucaOne 除了利用核酸与蛋白质本身的序列数据进行自监督学习之外，也加入了核酸与蛋白质的一些基础的重要的注释信息来进行半监督学习。

这种设计了加速模型的训练效率，使模型在学习的数据维度、量级、及参数量上达到一个很好的平衡——既覆盖足够多的物种，又保证模型的规模在一个可以被大规模高效使用的范围内。

图示：LucaOne对不同类型输入的下游任务的适用能力。

「这里我们考虑的是生物序列的信息密度，虽然不能这样武断的说，但是大致上基因组的信息密度是低于文本信息的，并且可能分布不均。比如，生物序列里可能会存在一些无意义片段，且片段非常长；应对这类问题，我们需要一些取巧的方式。」李兆融解释道，「因此，在我们设置了 8 个有监督的任务，这使得模型更有效的进行学习。」

「模型的参数有 1.8 B，什么概念呢？我们希望模型即足够「大」，能理解复杂生物系统，又不至于太大影响下游的使用效率。在整理高质量数据后，我们将模型参数设置在这个级别。」

LucaOne 在下游任务中的稳健性能

为了验证 LucaOne 对各类生物计算任务的价值，研究人员设置了一系列测试验证：首先是一个「异想天开」的任务，假设一群火星人来到地球，仅基于测序和建模能力，能否学习到分子生物学的一个核心规则：中心法则。

他们选取 13 个物种的核酸序列和其对应蛋白的正负样本数据集，关系对总数量为 24000，其中正负样本比例 1：2。其中基因序列数据是其在基因组的原始数据，包括了大量的非编码区（内含子，调控元件，及可能的「垃圾片段」等）。

为了验证模型的学习能力，研究人员采用训练：验证：测试比例为：4：3：25；即仅 3200 组数据作为训练，18750 组数据作为测试集来预测其核酸序列是否可以翻译成数据组里的蛋白序列。

图示：LucaOne对中心法则的学习能力。

实验结果显示，LucaOne 在中心法则学习任务上取得了显著成效，预测准确率达到 0.85，远优于其他计算方法。

当分析细分表现时发现，LucaOne 在处理具有特殊进化适应性的生物如海鞘时，预测表现特别差。海鞘利用中心法则的具体规则-密码子偏好性，与其他生物明显不同。研究人员表示，这种情况可以认为海鞘用的是一种中心法则语法「方言」。而这种「方言」在训练数据集里仅有 100 条，因此模型没有很好的学习到这种规则。这表明了生物世界的多样性与复杂性，也为模型未来的数据扩充和优化指明方向。

在另外广泛选取的 7 个任务里，LucaOne 也都表现优异，尤其是在流感 H3N2 病毒的免疫逃逸风险预测任务中，LucaOne 结合简单感知机模型实现了 100% 的准确率，可以为这一类公共卫生的重要问题提供了有力的支持。