2020年底,DeepMind的AlphaFold2系统在CASP14大赛中的惊人表现(对三分之二的目标蛋白给出的预测结构与实验手段获得的结构相差无几)为蛋白质结构预测领域带来了前所未有的突破,同时也推动了基于人工智能(AI)的蛋白及核酸等分子的结构预测的飞速发展。

近日,CASP15大赛结果公布,国内多个团队拿下“第一”。常规target(单体蛋白)预测类别中,山东大学杨建益(Jianyi Yang)等组成的团队排名第一;RNA结构预测类别中,智峪生科熊鹏(Peng Xiong)等组成的团队居榜首;蛋白质-配体复合物预测类别中,普美瑞生物常珊(Shan Chang)博士团队位列第一;蛋白质复合物界面接触残基精度评估类别中,浙江工业大学张贵军(Guijun Zhang)团队排名第一。

在蛋白质单体单结构域、蛋白质单体多结构域以及蛋白质复合体结构预测类别,密西根大学郑伟等组成的团队均排名第一。

表1:常规target预测前10名

表2:多聚target预测前10名

图1 RNA结构及复合物组排名

图2:蛋白质-配体组排名

蛋白质是生命的基石,几乎支持生命的所有功能。蛋白质的作用很大程度上取决于其独特的三维结构。弄清蛋白质折叠的形状在过去的50年里一直是生物学领域的一个重大挑战。几十年来,解析蛋白质结构主要依靠各种实验手段,包括早期的X 射线晶体学、核磁共振,近期的冷冻电子显微镜等。然而,这些技术依赖于大量的试错,解析一个蛋白的结构可能需要花费数年,且需要使用数百万美元的专门设备。

氨基酸是组成蛋白质的基本单位。1972年,诺贝尔化学奖得主Christian Anfinsen提出了一个著名的假设,即,理论上,蛋白质的氨基酸序列应该完全决定了其结构。这一假设引发了长达50年的探索,科学家们希望仅基于蛋白质的一维氨基酸序列,就能通过计算成功预测蛋白质的三维结构。

为了评估和鉴定蛋白质结构预测的最佳手段,1994年,马里兰大学的John Moult教授与合作伙伴Krzysztof Fidelis教授正式创建了CASP竞赛。CASP全称为Critical Assessment of Structure Prediction,即“结构预测的关键评估”,旨在确定和推进从氨基酸序列建模蛋白质结构的最新技术水平。CASP竞赛两年一次,现已成为国际上著名的蛋白质结构计算机预测比赛。

最新的CASP15在CASP14的基础上做了一些调整。一些旧的比赛类别已被删除,并添加了新的类别。具体来说,CASP15包括以下6大类:

  • 单体蛋白和结构域建模:与之前的CASP一样,将使用已建立的指标评估为单体蛋白质和单个蛋白质结构域建模的准确性。

  • 蛋白质装配:将评估当前方法正确建模域-域,亚基-亚基和蛋白质-蛋白质相互作用的能力。

  • 准确性评估:参赛者被邀请提交多聚体复合体和亚基间界面的精度估计。

  • RNA结构和复合物:将有一个预实验来评估RNA模型和蛋白质-RNA复合物建模的准确性。

  • 蛋白质-配体复合物:深度学习已经在蛋白质-配体复合物预测方面产生了影响,这类预测与药物设计密切相关。

  • 蛋白质构象集群( ensembles):随着深度学习方法在单一结构预测方面的成功,评估预测整体结构的方法变得越来越重要。

CASP15从今年4月开始注册,来自世界各地的近100个小组提交了5个预测类别127个建模目标的53,000多个模型。

最新公布的比赛结果显示,此次多个国内团队均取得了骄人的成绩。医药魔方Pro也第一时间采访到了蛋白质-配体复合物预测类别中的“冠军组”——普美瑞生物常珊(Shan Chang)博士团队。

普美瑞生物首席科学顾问 常珊 博士

据常珊博士介绍,在蛋白-蛋白结构预测中,其团队就采用了template-based docking的算法,取得了蛋白质多聚体结构预测较好的准确性。在本届蛋白质/RNA-配体复合物结构预测中,团队也充分考虑了模板搜寻的重要性。相似性计算方法可以更加准确的计算受体、配体以及相互作用的相似性,从而挑选出最接近的模板,在结合模式构象搜寻和打分时,加入与模板相似性的评价。在最后打分排序时,采用了一个基于CNN的打分函数,进行复合物构象挑选。优势在于充分利用已知结构信息,并联合高效的深度学习打分函数,提高蛋白质/RNA-配体复合物结构预测的准确性。

目前药物分子主要分为几大类:小分子类药物;生物大分子类药物,比如抗体等;多肽类药物;以及近年来大热的PROTAC类药物等。绝大部分药物分子药效的发挥,离不开与其靶点蛋白的结合。广泛意义上,所有药物都可以称为配体,需要与其药效靶点蛋白发生结合,并影响其生物学功能。因此阐明蛋白质与配体的复合物结合模式,给出相互作用细节,对于药物研发具有十分重要的意义。在小分子药物研发中,蛋白质-配体的预测可以应用于多个环节。如在Hit发现阶段,可以采用算法预测靶点蛋白与千万个以上的小分子化合物的结合,发现潜在的活性分子;在lead优化阶段,如能获知蛋白质与小分子配体的结合模式图,则可以按图索骥地进行高效的化合物结构优化。在PROTAC药物发现中,通过预测靶蛋白(POI)-PROTAC-E3酶三元体复合物结构,可以在进行复杂度较高的化学合成以及生物实验之前,在计算机上快速对PROTAC分子进行评估,预测其细胞内降解能力。多肽和抗体类药物研发中,通过蛋白质-配体的复合物结构预测可以了解靶点蛋白与多肽或抗体的结合界面,接下来可以通过分子动力学模拟或结合自由能预测分析界面残基贡献,为多肽或抗体的优化提供线索。蛋白质-配体复合物结构的精准预测,相当于拥有了一个正确的起点,为药物发现指明了方向。

对于未来3-5年,结构预测领域会有怎样的发展趋势,常珊博士表示,AlphaFold2和RoseTTAFold的出现,是深度学习算法在结构预测领域应用的代表,使得蛋白质单体或结构域的结构预测问题已基本被解决。将来需要进一步解决的是更加复杂的包括蛋白质在内的生物大分子装配的问题。打个比方,细胞相当于一个工厂,目前我们已经知道了很多零件的结构,那零件如何装配成具有特定功能的机器,如何形成生成流水线,这些还需要进一步的探索,也是结构预测领域将来的方向。其次,蛋白质的柔性问题也是非常重要的方向,目前我们预测得到的很多是静态的结构,如何预测蛋白质的柔性,对于解释其结构功能关系具有重要意义。此外,蛋白质-配体复合物结构预测在药物研发中十分重要,因此开发更加准确的复合物结构预测方法,是真正能推进药物研发领域进步的直接方向。

最后,祝贺在CASP15大赛中取得突出成绩的团队,期待结构预测领域的巨大飞跃,能够为药物研发带来全新的变革。

参考资料:

[1]https://predictioncenter.org/index.cgi

[2]华人团队大丰收!CASP 15参赛队伍迎来历史之最,「后AlphaFold2时代」RNA结构预测率先出圈(来源:雷锋网)

[3]密西根大学张阳实验室郑伟博士在CASP15蛋白质结构预测大赛中斩获多项冠军(来源:iTASSER)

[4] 张贵军课题组在蛋白质结构预测大赛CASP15复合物界面接触残基精度评估赛道中斩获冠军(来源:iTASSER)



填写调研问卷 赢好礼

感谢陪伴 期待反馈

扫描二维码,提出宝贵建议