撰文丨王聪

编辑丨王多鱼

排版丨水成文

在生命科学领域,同源搜索(Homology Search)是一项基础且至关重要的任务。简单来说,它就是通过比较 DNA 或蛋白质的序列,来寻找那些源自共同祖先、可能具有相似功能的“亲戚”。这就像是在庞大的“生命字母表”中,快速找到拼写相似的段落。

无论是鉴定一个新发现的基因功能,追溯病毒的进化路径,还是在宏基因组数据中挖掘有用的酶,都离不开高效的序列比对工具。几十年来,BLAST 及其衍生工具一直是该领域的金标准。然而,随着测序技术的飞速发展,生物数据库的规模已呈指数级增长,传统方法在处理海量数据时的速度和精度遇到了巨大瓶颈。在浩如烟海的生物序列数据库中,精准找到一个蛋白质的“远亲,传统方法可能需要数小时甚至数天。

2026 年 4 月 1 日,腾讯生命科学实验室(AI for Life Sciences Laboratory)姚建华研究员、何冰研究员及浙江大学陈华钧教授、张强助理教授作为共同通讯作者(姜一诺何冰为共同第一作者),在Nature Biotechnology期刊发表了题为:Scalable homology detection with ERAST 的研究论文。

该研究开发了融合大语言模型与向量数据库技术的同源检测工具——ERAST(Efficient Retrieval-Augmented Search Tool)。该研究构建了目前全球规模最大的生物向量数据库(涵盖超 10 亿条蛋白质序列与 3000 万条核酸序列),在十亿级数据规模下实现了毫秒级的精准检索,相比传统工具 TM-align 计算效率提升约 5 万倍。此外,ERAST 通过全局聚类分析成功揭示了海量“暗功能”蛋白质的潜在进化联系,为蛋白质功能注释提供了全新的技术范式。

打开网易新闻 查看精彩图片

ERAST:当 AI 大模型遇见向量数据库

该研究开发的高效检索增强搜索工具——ERAST(efficient retrieval-augmented search tool),是一种旨在处理迄今为止最大的向量数据库中约 10 亿个生物序列的解决方案。ERAST的核心创新在于巧妙地将前沿的大语言模型与高效的向量数据库相结合,为同源生物序列提供高效且精确的搜索。它通过整合预检索、检索和后检索优化阶段来提高搜索质量,并支持核苷酸和蛋白质序列。

1、构建“生命序列的地图”:ERAST 首先使用经过预训练的大语言模型(例如蛋白质语言模型 ESM-2,DNA 语言模型 MAMBA),将抽象的生物序列转化为高维空间中的“向量”坐标。这相当于为每一条序列赋予了独一无二的“数学指纹”。超过 10 亿个这样的指纹被存入一个特制的向量数据库中,并建立了高效的索引。

2、三步走,实现精准狙击:ERAST 的搜索流程被精心设计为三个阶段,层层过滤,确保结果又快又准:

  • 预检索过滤:就像用“筛子”先过滤掉明显不相关的数据。系统会根据查询序列的元数据(例如长度、家族标签)缩小搜索范围。

  • 向量检索:将查询序列也转化为向量,并在数据库中快速计算其与候选向量之间的“余弦距离”(一种相似度度量)。借助并行计算技术,这个过程能在毫秒内完成。

  • 后检索重排序:这是提升精度的关键一步。ERAST 自带一个名为 EHSM 的评分模型,会对初步检索出的候选序列进行二次打分和排序,尤其擅长识别那些进化关系遥远、序列相似度低的“远亲”。

打开网易新闻 查看精彩图片

ERAST 概述

性能碾压:速度更快,准度更高

论文中的 benchmark(性能测试)结果令人印象深刻:

速度:在标准的 SCOPe40 测试集上,ERAST 的搜索速度比目前广泛使用的、基于结构的快速搜索工具 Foldseek 快约 50 倍,比高精度结构比对工具 TM-align 快约 5 万倍。对于长达 10 万碱基对的 DNA 序列,ERAST 比经典工具 BLASTn 快 60 倍。

精度:在识别蛋白质同源关系时,ERAST 的 Top-1 命中精度(P@1)显著优于包括 TM-Vec、DHR、PLMSearch 在内的所有主流深度学习方法。即使在处理“分布外”的新奇序列时,其稳健性也远超传统方法。

这种性能使得 ERAST 能够在几毫秒内从包括数十亿个生物序列的数据库中进行准确搜索,精准定位目标同源序列。

不止于搜索:照亮“功能未知”的蛋白质暗物质

除了快速搜索,ERAST 还能做一件更有意义的事:大规模全局聚类分析

在现有的蛋白质数据库中,有大量被标记为“功能未知”、“假设蛋白”的序列,它们被称为“蛋白质暗物质”。ERAST 能够基于全局序列相似性,将整个 UniRef90 数据库中的蛋白质进行聚类,构建出一个超大规模的功能聚类网络。

研究发现,94% 的功能未知蛋白质簇,都能通过这个网络与功能已知的蛋白质簇连接起来。这为科学家们推断这些“暗物质”蛋白的可能功能、揭示其进化关系,提供了前所未有的强大线索和全局视角。

工具开源,推动生命科学探索

ERAST 不仅是一项学术成果,更是一个即将惠及全球科研人员的实用工具。该系统支持对蛋白质和核苷酸序列的双重搜索,其集成向量数据库的网站已公开可用。

这项研究标志着AI for Science(科学智能)在生物信息学核心领域的一次重要突破。它将使研究人员从耗时的计算等待中解放出来,更专注于科学发现本身,有望加速新药靶点发现、病原体追踪、酶工程设计等众多领域的研究进程。

数据库与在线工具访问入口:https://ai4s.tencent.com/erast

ERAST 源代码仓库:https://github.com/TencentAILabHealthcare/ERAST

论文链接

https://www.nature.com/articles/s41587-026-03051-1