谷歌公司深度学习方面的核心团队DeepMind(一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技——DeepMind Technologies Limited,在2014年被谷歌收购) 一直致力于用人工智能和神经网络技术解决不同场景下的学习问题。继围棋博弈算法AlphaGo之后,DeepMind转向了基于氨基酸序列的蛋白质结构预测,提出了名为AlphaFold的深度学习算法,并在国际蛋白质结构预测比赛CASP13 (Critical Assessment of ProteinStructure Prediction) 中取得了优异的成绩。2020年1月,该团队在Nature发表文章Improvedprotein structure prediction using potentials from deep learning,展示了AlphaFold算法的细节和表现。之后,关于AlpaFold助力结构生物学家解析蛋白质结构的文章层出不穷 (详见BioArt报道: ) 。2020年底,AlphaFold也被Science杂志评选为本年度十个重大科学突破之一(详见BioArt报道: ) 。
2020年5-7月的CASP14比赛中,DeepMind团队携带AlphaFold2再次亮相,在该次比赛中,AlphaFold2预测的大部分结构达到了空前的准确度,不仅与实验方法不相上下,还远超解析新蛋白质结构的其他方法。将实验方法得到的蛋白质结构叠加在AlphaFold2的结构上,组成蛋白质主链骨架的叠加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米)。成绩排第二的方法只能达到2.8埃的准确度。AlphaFold2的神经网络能在几分钟内预测出一个典型蛋白质的结构,还能预测较大蛋白质(比如一个含有2180个氨基酸、无同源结构的蛋白质)的结构。之后2021年7月15日,该团队在Nature杂志上发表了文章Highly accurate protein structure prediction with AlphaFold,描述了AlphaFold2(作者强调AlphaFold2与CASP13中的AlphaFold是完全不一样的模型。“a completely different model from our CASP13 AlphaFold system”)(详见BioArt报道: ) 。一周之后的7月22日,Deepmind团队又带来了巨大的惊喜,他们再次在Nature发表了文章Highly accurate protein structure prediction for the human proteome,描述了AlphaFold对人类蛋白质组(人类基因组编码的所有蛋白质的集合)的准确结构预测。由此得到的数据集涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度(详见BioArt报道: ) 预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。年底,AlphaFold团队John Jumper被Nature杂志选为【2021年度人物】 (详见BioArt报道: ) 。
在三年之后的今天,2024年5月8日,DeepMindJohn Jumper团队和Isomorphic LabsDemis Hassabis团队 、合作发表Nature文章Accurate structure prediction of biomolecularinteractions with AlphaFold 3,再次给我们带来了震撼的结果,该工作报道了升级后的版本AlphaFold3,其能以较高准确率预测蛋白质与其他生物分子相互作用的结构。该模型能预测含有蛋白质数据银行(Protein Data Bank)内几乎所有分子类型的复合物的结构。这种用计算机解析蛋白质与其他分子复杂相互作用的能力,将拓展我们对生物过程的理解,并有望推动药物研发。
AlphaFold和迭代版AlphaFold2能根据蛋白质的氨基酸序列预测其3D结构。之后的AlphaFold-Multimer推动了对蛋白质-蛋白质复合物的预测。不过,扩大单一深度学习模型能预测的复合物范围一直很难,因为不同类型的特异性相互作用差异太大。
在该项工作中,John Jumper和同事报道,在AlphaFold2模型的深度学习架构和训练系统的大幅提升下,如今可以对一个统一框架内大量生物分子系统的结构进行更准确的预测。AlphaFold3能预测蛋白质与其他蛋白质、核酸、小分子、离子、修饰蛋白质残基的复合物,以及抗体-抗原相互作用。预测准确性显著超过当前预测工具,包括AlphaFold-Multimer。
作者也指出了一些局限性,比如约4.4%的结构会出现不正确的手性 (chirality violation) ,或是出现原子重叠 ( overlapping “clashing” atoms ) 的现象;另外,进一步提升预测准确性需要生成一个很大的预测集并对预测结构进行排序,而这则会产生额外的成本。
https://doi.org/10.1038/s41586-024-07487-w
热门跟贴