编辑丨王多鱼
排版丨水成文
生物分子的定向进化是一个迭代的过程。尽管语言模型(language model,LM)的进步加快了蛋白质的进化,但高效的 RNA 进化仍是一项挑战。由于结合特性而被筛选出来的RNA 适配体(RNA aptamer)为解决这一挑战提供了一个理想的系统,然而传统的适配体发现仍然依赖于劳动密集型的多轮筛选。
2026 年 2 月 6 日,中国科学院深圳先进技术研究院合成生物学研究所王宇团队等在Nature Biotechnology期刊发表了题为:Single-round evolution of RNA aptamers with GRAPE-LM 的研究论文。
该研究开发了一个用于RNA 适配体一轮式高效进化的生成式人工智能框架——GRAPE-LM(Generator of RNA Aptamers Powered by activity-guided Evolution and Language Model),GRAPE-LM 将基于Transfomer的条件自编码器与核酸语言模型(Nucleic Acid Language Model)相结合,并由源自细胞内环境的基于 CRISPR-Cas 的适配体筛选数据引导。
核酸适配体(aptamer)由诺奖得主Jack Szostak命名,是一类短的单链 DNA(ssDNA)或 RNA 寡核苷酸,能够折叠形成特定三维结构,并以“结构分子”的方式高亲和力结合蛋白或小分子,从而具备开发成为核酸药物和诊断探针的潜力。
然而,核酸适配体的发现,长期依赖指数富集的配体系统进化技术(SELEX),通常需要多轮、强人工参与的筛选与优化;更关键的是,在体外简化条件下获得的核酸适配体,亲和力和特异性常常不高,限制了其开发成核酸药物和探针的潜力。
王宇课题组在既往工作中提出了CRISmers(CRISPR/Cas-based aptamers screening system),将核酸适配体筛选从溶液和细胞表面体系推进到细胞内环境,使筛选过程天然包含内源生物学机制,体现了内源折叠构象、相互作用特异性、充分的分子竞争等关键变量,从源头提升生物学相关性。在 CRISmers 筛选体系中,每个细胞作为一个独立的物理微单元,其作用类似于微流控液滴,能够有效隔离不同分子间的交叉反应,从而显著降低背景噪音。与此同时,该系统以细胞存活等表型变化作为功能性的筛选输出方式,相较于传统的体外亲和力筛选,其功能相关性也同时得到了显著提升。
不过,胞内筛选不可避免面临“递送与细胞数量”带来的通量上限:以 CRISmers 为代表的胞内筛选体系,文库规模受转染/递送效率与细胞摄入能力限制,可能错过大量潜在有效序列。也正是在这一瓶颈处,AI 驱动的“数字进化”开始展现决定性价值。
在这项最新研究中,研究团队进一步提出了GRAPE-LM(Generator of RNA Aptamers Powered by activity-guided Evolution and Language Model),将“胞内筛选数据”与“核酸语言模型”耦合为一条端到端的一轮式高效进化路径:模型以 Transformer 条件自编码器为骨架,融合核酸语言模型,并由 CRISmers 在胞内环境产生的筛选数据提供“活性引导”,实现RNA适配体的一轮进化与生成。
在 GRAPE-LM 中,活性引导机制将模型推向更高活性的方向,预训练核酸语言模型用于提出合理的高质量候选序列。该框架在三类跨度显著的靶标上完成验证——人 T 细胞受体 CD3ε、SARS-CoV-2 刺突蛋白的 RBD,以及人源致癌转录因子 c-Myc(一种胞内无序蛋白)。
更重要的是,GRAPE-LM 将“实验进化”从传统的多轮循环,重构为“物理进化+数字优化”的两阶段:第一阶段由 CRISmers 在细胞内完成一轮筛选,第二阶段由语言模型在更大序列空间中进行数字化优化与外推;在三类靶标上,仅用 “ 一轮 ” 即可获得优于既往 SELEX 6–16 轮所得到的适配体的先导序列。这种效率跃迁也体现在起始文库需求上: CRISmers+GRAPE-LM 路线可在约 108 规模的起始文库上工作,而经典 SELEX 常需要 1014–1016 量级;换言之,前者仅需后者约百万分之一到亿分之一的初始文库规模。
在 CRISmers+GRAPE-LM 的新范式中,CRISPR 脱离了基因编辑的框架,在这里扮演的是“高保真胞内 RNA 数据发动机”,捕获 SELEX 等体外方法难以复现的胞内内源生物学机制 ;而 GRAPE-LM 则通过外推有限起始文库,补足 CRISmers 通量受限的短板,并且引导生成更高活性 RNA 适配体。
加速 RNA 适配体进化的强大新范式
这一工作仅仅将 CRISmers 和 GRAPE-LM 两个工具使用一次。面向未来,多轮迭代有望进一步提升分子质量和成药性。此外,GRAPE-LM 仅仅应用了语言模型,物理模型的加入有望实现生成能力的进一步加强。该技术路线也已成功用于多肽分子的高效发现,并与某知名药企合作开展药物开发(未发表结果)。
在与王宇的通讯中,核酸适配体领域开创者Jack Szostak评价 CRISmers 和 GRAPE-LM 的工作 “ 非常有创造性,令人印象深刻 ” ( very creative and impressive )。在论文审稿过程中,审稿人评价该工作 “ 超级创新 ” ( super innovative ),并被编辑团队选为亮点论文,邀请作者发表Research Briefing介绍论文成果和研究历程。同时,Nature Biotechnology编辑团队发表评论,表达了对这项工作的 “ 兴奋 ”(exciting) 。
深圳大学人工智能学院助理教授张军和中国科学院深圳先进技术研究院合成生物学研究所助理研究员张菊为论文共同第一作者。中国科学院深圳先进技术研究院合成生物学研究所王宇研究员为论文通讯作者,天津大学药学院张阳教授和深圳大学人工智能学院张军助理教授为论文共同通讯作者。唐少轩、刘传承、蔡雨珊、曾浩、孟翔杰、柳贝作为参与作者,对该工作做出了重要贡献。
论文链接:
https://www.nature.com/articles/s41587-026-03007-5
热门跟贴