现代分子生物学中,同源搜索(Homology search)是识别具有共同祖先和相似功能的序列的基础,对于表征新生物序列至关重要。
2026年4月1 日, 腾讯生命科学实验室(AI for Life Sciences Lab)姚建华研究员、何冰研究员 与 浙江大学陈华钧教授、张强助理教授 联合研究团队 [共同一作为 姜一诺(浙江大学/腾讯)、何冰(腾讯) ]在Nature Biotechnology上发表了文章Scalable homology detection with ERAST,开发了融合大语言模型与向量数据库技术的同源检测工具ERAST(Efficient Retrieval-Augmented Search Tool)。该研究构建了目前全球规模最大的生物向量数据库(涵盖超10亿条蛋白质序列与3000万条核酸序列),在十亿级数据规模下实现了毫秒级的精准检索,相比传统工具TM-align计算效率提升约五万倍。此外,ERAST通过全局聚类分析成功揭示了海量“暗功能”蛋白质的潜在进化联系,为蛋白质功能注释提供了全新的技术范式。
研究背景
同源搜索是分子生物学和计算生物学领域的核心基石。随着宏基因组学测序技术的飞速发展,生物数据库的规模呈现指数级爆炸增长,目前已达数十亿量级。然而,面对如此庞大的数据规模,传统的序列比对工具如 BLAST、Foldseek 和 MMseqs2 等暴露出了明显的局限性:它们在处理海量数据时,往往面临计算效率低下或高精度计算成本不可接受的权衡困境。
为了突破这一瓶颈,构建能够同时满足海量吞吐、极速响应与高精度匹配的超大规模向量数据库,成为了生物信息学的前沿探索方向。基于此,腾讯与浙江大学联合研究团队提出了一种融合大语言模型(LLM)与向量检索技术的新型系统方案。
ERAST:模块化检索增强架构
ERAST 是一款专为超大规模生物序列检索与远程同源发现(Remote homology detection)设计的创新工具。其核心突破在于采用了模块化的检索增强架构(Retrieval-Augmented Architecture),将复杂的搜索流程解耦为三个高效协同的阶段:
1. 检索前过滤(Pre-retrieval Filtering): 系统首先基于多维元数据对候选序列进行快速的初步筛选,大幅削减底层计算空间的冗余度。
2. 向量检索(Vector Retrieval): 底层依托预训练的大语言模型(针对蛋白质序列采用 ESM-2 架构,针对核酸序列采用 MAMBA 架构)提取序列的高维稠密表征,随后结合 IVFPQ 与 HNSW 索引算法,基于余弦距离在向量空间内完成毫秒级的候选序列召回。
3. 检索后重排序(Post-retrieval Re-ranking): 这是 ERAST 保证极高精度的核心模块。系统通过自主研发的 EHSM 模型对召回的 Top-K 结果进行二次精细评分,有效捕捉低序列一致性下的深层同源进化特征。
此外,通过创新的分段存储与多线程并行策略,ERAST 实现了对超大规模向量数据的高效管理。值得关注的是,该系统不仅支持蛋白质序列,还能无缝处理长度超过 10,000 bp 的长核苷酸序列,极大地拓展了其在基因组学层面的应用潜力。
突破性能与“暗功能”蛋白质解析
在实证表现方面,研究团队基于 ERAST 构建了目前全球公开规模最大的生物向量数据库,涵盖了超过 10 亿条蛋白质序列和 3,000 万条核酸序列。
在严苛的 SCOPe40 基准测试集上,ERAST 的检索精度超越了现有的最先进方法(SOTA)。在计算效率方面,ERAST 展现出了压倒性优势:其搜索速度相比于 Foldseek 提升了约 50 倍,相比于经典的 TM-align 提升了约 50,000 倍。 这一性能飞跃意味着系统能够在毫秒级时间内,从十亿级数据库中精准定位目标同源序列。
基于这一强大的计算引擎,研究团队对 UniRef90 数据集进行了全局聚类分析。结果揭示,数据库中约 94% 原本缺乏功能注释的“暗功能”(Dark functional)蛋白质,实际上与已知功能蛋白质存在潜在的进化联系。这一发现为系统性破解蛋白质“暗物质”的生物学功能提供了强有力的数据与工具支撑。
研究总结与展望
ERAST 极大地增强了探测远程同源蛋白质的技术上限,显著提高了大规模生物序列分析的可扩展性与准确性。其模块化架构设计使得系统在面对数据分布偏移时展现出极高的鲁棒性,研究人员可以在不重新编码整个庞大向量数据库的前提下,快速更新重排序模块以适应新数据。
未来,ERAST 及其配套的十亿级向量数据库,将作为重要的计算生物学基础设施,为药物靶点发现、罕见疾病诊断及合成生物学元件挖掘等领域提供坚实的技术支撑。
图1:ERAST 系统架构及同源检索流程示意图。A. 编码与索引构建:利用预训练语言模型将序列转化为向量,通过 IVFPQ/HNSW 算法构建超大规模索引。B. 检索流程:涵盖预过滤、向量空间召回以及 EHSM 模型重排序三大阶段。
访问地址与开源代码:
数据库与在线工具访问入口: https://ai4s.tencent.com/erast
腾讯 AI for Life Sciences 实验室 : https://ai4s.tencent.com
ERAST 源代码仓库: https://github.com/TencentAILabHealthcare/ERAST
原文链接:https://www.nature.com/articles/s41587-026-03051-1
制版人: 十一
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐
点击主页推荐活动
关注更多最新活动!
热门跟贴