单克隆抗体的发现和表征是理解人体免疫反应以及疫苗和治疗药物设计的核心。例如,在过去几年中针对严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)的研究中,抗体的发现因单细胞高通量筛选和B细胞受体测序技术的进步而显著加速。然而,抗原表位表征(epitope mapping)仍然是抗体表征的主要瓶颈,通常需要利用X射线晶体学或低温电子显微镜(cryo-EM)解析单个抗原-抗体复合物的结构。因此,开发抗体特异性预测方法成为了研究的热点之一。

AI语言模型在生物领域的应用极大地推动了蛋白质结构与功能预测,以及蛋白质设计领域的发展。尽管目前已有多个针对抗体的语言模型,但是目前尚无模型能够实现抗体特异性预测。抗体特异性预测语言模型开发的主要障碍之一在于缺乏系统化的训练数据集,该数据集需包含个体抗体的序列信息和表位信息。

2024年8月19日,伊利诺伊大学香槟分校Nicholas Wu课题组在Immunity在线发表了题为An explainable language model for antibody specificity prediction using curated influenza hemagglutinin antibodies的研究成果。该研究中从发表文献和专利中挖掘整理了5,561种针对流感Hemagglutinin(HA)蛋白的人抗体。通过分析这些HA抗体,该团队识别出了常见的序列特征, 并在此基础上,进一步开发了一种基于七个特异性类别(包括HA头部(head)和茎部(stem)) 结构的记忆B细胞语言模型(mBLM)用于抗体特异性预测。通过对mBLM的解释性分析表明,在特异性预测过程中,有趣的发现语言模型能够识别关键的结合位点以及体细胞突变(somatic hypermutation)。此外,其团队应用mBLM在HA抗体库中进一步确认可识别HA stem的抗体,并通过实验验证了这些抗体的有效功能性。Hemagglutinin(HA)作为流感病毒的主要抗原,其茎部域具有高度保守的特性。AI 模型的应用能够极大促进新流感病毒抗体的发现和表征,对开发通用的流感治疗方法和疫苗具有重要意义。

研究团队开发了记忆B细胞语言模型(mBLM),使其学习功能性抗体的内在“语法”,并进一步区分血凝素(HA)头部和茎部抗体以及针对其他抗原的抗体。简而言之,mBLM利用来自GenBank和Observed Antibody Space数据库中的共计253,808条独特的抗体配对序列,从而使用屏蔽氨基酸残基方法进行预训练,从而预测抗体重链和轻链配对序列。随后,对预训练的mBLM进行了微调以预测抗体特异性,预测涵盖了七个特异性类别,分别是:流感HA头部,流感HA茎部,HIV,SARS-CoV-2 S NTD,SARS-CoV-2 S RBD,SARS-CoV-2 S S2,以及其他(图1)

图1 mBLM模型结构及表现

为了理解记忆B细胞语言模型(mBLM)在抗体特异性预测中所学到的内容,该团队利用梯度加权类激活映射(Grad-CAM),识别了抗体特异性中各个氨基酸的重要性,把已知的HA茎部抗体分为6类,这些不同类别捕捉到了不同的序列特征。例如,由抗体D基因IGHD3-9编码,并在抗体重链互补决定区CDR H3区域具有特征性“FxWL“氨基酸序列的抗体。mBLM还识别了其他已知的特征,包括具有QxxV氨基酸序列的IGHV1-18重链家族抗体,以及Y98氨基酸表位的IGHV1-69重链家族抗体。同时,作者将显著性得分投射到抗体结构上表明,与表位更接近的残基往往具有更高的得分。对18个HA茎部抗体结构的分析证实了残基与表位距离和显著性得分之间的中等负相关性,反映了更靠近结合界面并且序列多样的CDR区域残基的重要性。

前面所述mBLM被应用于在有已知抗体-抗原结构的抗体中捕捉重要的表位识别位点。接下来,作者将mBLM应用于未知抗原识别位点的抗体分析中。例如其中一个模型识别的HA 茎部结合抗体,C1-3.7F02,有趣的是,mBLM模型可以识别出多个重要的抗体识别抗原氨基酸,例如在CDR H2中的N58和CDR H3中的W100a。已知抗体重链和轻链的互补决定区CDR是抗原与抗体主要结合的重要位点,让作者意想不到的是mBLM模型还识别到在CDR区域外的氨基酸结合位点,例如在抗体重链骨架区域(FR2)中的G76、L78和D85也对抗体结合产生了重要影响 。

更重要的是,该团队利用mBLM发现并验证了许多新HA stem抗体。酶联免疫吸附测定(ELISA)结果显示,57%(17/30)的抗体能够结合到H1 茎部蛋白、H3 茎部蛋白或两者。这一验证率与模型的置信度评分呈正相关关系。在16个置信度评分大于0.6的抗体中,有13个(81%)被验证为HA茎部抗体。

综上,这项工作通过开发可解释的记忆B细胞语言模型(mBLM)用于抗体特异性预测。总体而言,该工作对抗体分子理解以及加速新抗体发现具有重要意义。

伊利诺伊大学香槟分校博士研究生王毅全及博士后吕惠彬为论文的共同第一作者。伊利诺伊大学香槟分校Nicholas Wu教授为该论文通讯作者。

https://doi.org/10.1016/j.immuni.2024.07.022

制版人:十一

BioART战略合作伙伴

(*排名不分先后)

BioART友情合作伙伴

(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

会议资讯

近期直播推荐