今天看

Cell
报道的一篇 利用大型语言模型生成抗原特异性抗体的文章:

传统抗体发现方法效率低、成本高、耗时长。人工智能尤其是大语言模型(LLMs),为抗体设计提供了新路径。研究者开发了一种无需初始抗体模板,仅基于抗原序列即可生成全人源重链和轻链抗体的AI模型。

MAGE(单克隆抗体生成器),这是一种基于序列的蛋白质语言模型(PLM),用于从零生成针对目标靶点的人源重链和轻链可变区抗体序列。

图形摘要

打开网易新闻 查看精彩图片

  • 一种蛋白质语言模型被用于生成针对抗原的特异性抗体;

  • 利用公共数据库和 LIBRA-seq 构建了抗体-抗原序列数据库;

  • 通过实验验证了所生成的抗体对 RSV-A、SARS-CoV-2 和 H5N1 的反应;

  • 生成的抗体表现出多样化的结合特异性、中和作用和表位特性;

主要结果

1、Progen2 经过了专门的优化,旨在促进针对特定抗原的抗体生成

打开网易新闻 查看精彩图片

预训练模型 Progen2 ,在一个由文献和现有数据库中整理出的 18507 对抗体-抗原序列组成的训练数据库上(CoV-AbDab、SAbDab、PLAbDab + LIBRA-seq)进行了fine-tuned。

多种序列特征,使用了 37 个独特的重链基因和 30 个独特的轻链基因(未考虑不同等位基因)。在生成的序列中,总共包含了 322 对不同的重链和轻链可变基因,其中使用最频繁的组合(IGHV3-53/66:IGKV1-33)仅占序列的 13.9%(135/969)(上图D)。生成的序列还显示出多样化的 CDR(互补决定区),重链 CDR3(CDRH3)长度从 5 个氨基酸到 28 个氨基酸不等(平均值为 16),轻链 CDR3(CDRL3)长度从 7 个氨基酸到 12 个氨基酸不等(平均值为 10)。轻链更倾向于基因库,其中 50.1%(486/969)不含突变,而重链这一比例为 18.1%(175/969)。这些结果表明,MAGE 并非简单地使用单一的主导重链-轻链组合,而是能够生成多样化的抗体序列群体。

2、 共选取了 20 种抗体用于对与 RBD(receptor binding domain)结合情况的实验验证

打开网易新闻 查看精彩图片

  • ELISA:9/20 结合 RBD(45 % 命中率),其中 RBD-839 信号与阳性对照 S309 相当。

  • BLI:8/9 条可测亲和力,5 条达到nM–sub-nM 级(RBD-159、238、409、839、951)。

3、 生成的 RBD 结合抗体具有多种不同的序列特征

打开网易新闻 查看精彩图片

4、 针对呼吸道合胞病毒(RSV)以及 H5/TX/24 prompts所生成序列的特征

打开网易新闻 查看精彩图片

5、 MAGE 产生了新型的 A/Texas/37/2024 H5 结合抗体

打开网易新闻 查看精彩图片

6、 MAGE 生成了新型的 RSV-A 结合抗体

打开网易新闻 查看精彩图片

7、 与呼吸道合胞病毒 A 型结合的 Fabs RSV-2245 和 RSV-3301 的冷冻电子显微镜结构

打开网易新闻 查看精彩图片

  • 复合物整体:3.4Å分辨率,RSV F三聚体结合3个RSV-2245 Fab 与 3个 RSV-3301 Fab,共 6 个 Fab。

  • RSV-2245表位
    – 位于 prefusion 特有抗原位点 V(β3-β4 发夹),埋面积850Ų;
    – 重链三条 CDR 与轻链 CDR1-2 均参与;CDRH2 Tyr53与F蛋白Tyr53 形成氢键;CDRL1 Asp30与Lys192成盐桥,该突变在训练集中罕见。

  • RSV-3301表位:
    – 位于膜近端抗原位点 I(α8-β 片层裂隙),埋面积715Ų;
    – 主要由 CDRH3 主导,Arg100与Asn380/Asp344成氢键;另含两对盐桥(Arg32–Glu378、Asp58–Lys390);轻链 Tyr32/Tyr92提供疏水接触。

  • 两条MAGE设计抗体靶向不同位点、结合模式迥异,关键界面残基多数为模型新生成,非简单复制训练抗体。

小结

MAGE是首个能够 从零开始生成全人源、抗原特异性抗体 的蛋白质语言模型,展示了AI在抗体发现领域的巨大潜力。它不仅能生成结构新颖、功能验证的抗体,还具备 应对新发病毒威胁的快速响应能力 ,为未来的抗体药物开发提供了全新工具。

但目前模型仅基于序列信息,未整合结构或功能数据;对于训练集中代表性低的抗原,抗体生成成功率较低;生成的抗体仍需通过实验筛选以获得高亲和力或中和活性。

MAGE生成的抗体在多个病毒靶点上进行了实验验证,表现出良好的结合能力和中和活性:

1. SARS-CoV-2 RBD,生成1,000个抗体,969个通过质量筛选。实验验证20个抗体, 9个表现出结合活性(45%阳性率)。其中多个抗体具有 亚纳摩尔级别的高亲和力。4个抗体可中和SARS-CoV-2假病毒,包括多个变异株(如Delta、Gamma、Omicron BA.2等)。 2. RSV-A F蛋白,生成10,000个抗体,23个用于实验验证。7个抗体表现出结合活性(30%阳性率)。3个抗体具有强效中和活性(IC50 < 0.1 μg/mL)。通过冷冻电镜解析了其中2个抗体与RSV F蛋白的复合物结构,显示其结合表位新颖、结构多样。 3. H5N1 流感病毒HA蛋白(零样本学习),使用2024年新出现的H5N1毒株(未在训练集中出现)作为抗原提示。生成1,000个抗体,18个用于实验验证。5个抗体表现出结合活性(28%阳性率)。全部5个抗体可中和H5N1病毒,包括多个H5和H1亚型。

范德比尔特大学、德克萨斯大学

参考文献:

Wasdin PT, Johnson NV, Janke AK, et al. Generation of antigen-specific paired-chain antibodies using large language models. Cell . Published online November 4, 2025. doi:10.1016/j.cell.2025.10.006.

打开网易新闻 查看精彩图片