虽然许多企业仍在寻找人工智能的杀手级应用,但生物化学家们已经找到了。这个应用就是蛋白质折叠技术。本周标志着Alpha Fold 2首次亮相五周年,这个由谷歌DeepMind创建的人工智能系统能够以高精度预测蛋白质的结构。
在这五年里,AlphaFold 2及其后续的人工智能模型已成为生物化学研究中几乎与显微镜、培养皿和移液器一样基本和普遍的工具。这些人工智能模型开始改变科学家寻找新药的方式,承诺能更快、更成功地开发药物。它们也开始帮助科学家解决从海洋污染到创造更能抵御气候变化的作物等各种问题。
“影响真的是超出了我们的预期,”谷歌DeepMind的高级科学家、负责公司蛋白质结构预测团队的约翰·贾姆珀对财富表示。在2024年,贾姆珀和谷歌DeepMind的联合创始人兼首席执行官德米斯·哈萨比斯因其创建AlphaFold 2的工作共同获得了诺贝尔化学奖。
学习如何使用AlphaFold进行蛋白质结构预测现在已成为全球许多研究生生物学学生的标准工具。“这只是成为分子生物学家培训的一部分,”贾姆珀说。
财富在2020年的一篇特写报道中详细讲述了谷歌DeepMind如何破解‘蛋白质折叠问题’的过程。蛋白质具有复杂的物理形状,而在AlphaFold出现之前,描述这些形状需要耗时且昂贵的实验室实验。
该公司最终通过使用Transformer模型解决了这个问题,这种人工智能与流行聊天机器人如ChatGPT的引擎相同。但与其在文本上训练Transformer以输出下一个最可能的单词不同,该人工智能模型是在蛋白质DNA序列和已知蛋白质结构的数据库上进行训练的,以及关于哪些DNA序列似乎共同进化的信息,因为这些信息提供了蛋白质结构的线索。然后,它被要求预测蛋白质结构。
“有时候我不得不掐自己一下,以确认,哦,这真的成功了。我们可能有很多很多原因会失败,”谷歌DeepMind的研究副总裁Pushmeet Kohli说,他领导着将人工智能应用于科学的努力。
Kohli还表示,AlphaFold证明了人工智能不仅可以为科技公司带来丰厚的利润,还可以为科学做出贡献,最终促进人类的福祉。“AlphaFold真正确认了一个基本原则和愿景,那就是如果我们正在开发这项技术,这种人工智能,人类可以用它做什么是最有意义的?我认为科学是人工智能的完美应用案例。我不能说这是唯一的应用,但绝对是最吸引人的一个。”
从18万个蛋白质结构到2.4亿个
蛋白质是由氨基酸组成的长链,作为生命的动力,控制着大多数生物过程。蛋白质的功能反过来又依赖于其形状。当细胞产生蛋白质时,氨基酸自发地折叠成缠结和扭曲的结构,带有口袋和突起,有时还有长长的尾巴。
化学和物理的法则决定了这种折叠。这就是诺贝尔奖得主克里斯蒂安·安芬森在1972年提出的假设:DNA本身应该完全决定蛋白质的最终结构。这是一个了不起的猜想。当时,尚未有任何基因组被测序。但安芬森的理论启动了一个计算生物学的整个子领域,目标是利用复杂的数学,而不是经验实验,来建模蛋白质。问题是,可能的蛋白质结构比宇宙中的原子还要多,因此,即使使用高性能计算机,建模它们依然非常困难。
在AlphaFold 2之前,科学家要想以任何信心确定蛋白质的结构,唯一的方法是通过几种昂贵且耗时的实验过程。因此,在AlphaFold 2之前,科学家们仅能确定大约18万个蛋白质的结构。其他基于计算的方法预测蛋白质结构的准确率仅约为50%,这对生物化学家几乎没有帮助,尤其是他们无法提前判断预测的可信度。
得益于 AlphaFold 2,目前已有超过 2.4 亿种蛋白质的结构预测。这些蛋白质包括人体产生的所有蛋白质,以及与关键人类疾病相关的蛋白质,如新冠病毒、疟疾和查加斯病。
到目前为止,已有超过 330 万人使用了 AlphaFold 2。最初的 AlphaFold 研究已在超过 4 万篇学术论文中被直接引用,其中 30% 的论文集中于各种疾病的研究。一项研究发现,该 AI 模型直接或间接地为大约 20 万篇研究出版物做出了贡献。根据谷歌 DeepMind 的数据,该工具还在超过 400 项成功的专利申请中被提及。
Jumper 告诉 财富,他对科学家们能够利用 AlphaFold 找到生命过程的关键“在他们甚至不知道该找什么的情况下”感到非常满意。例如,科学家们最近使用 AlphaFold 帮助发现了一种先前未知的蛋白质复合物,该复合物对于使精子能够使卵子受精至关重要。
奥地利维也纳分子病理研究所的生物化学家 Andrea Paulli 发现了精子表面的蛋白质,她告诉科学期刊 自然,她的团队在每个项目中都使用 AlphaFold 2,因为它能加快发现的速度。
揭开生命的奥秘:从心脏病到蜜蜂
AlphaFold参与的一个重要发现是确定低密度脂蛋白(LDL)的核心蛋白结构,LDL通常被称为“坏胆固醇”,是导致心脏病的主要因素。这个名为apoB100的蛋白质由于体积较大且与其他蛋白质的相互作用复杂,之前无法被映射。但密苏里大学的两位科学家将一种成像方法——低温电子显微镜——与AlphaFold的预测结合,成功找到了apoB100的结构。这反过来可能帮助科学家找到更好的高胆固醇治疗方法。
其他科学家利用AlphaFold发现了卵黄蛋白的结构,这种蛋白在蜜蜂的免疫系统中起着关键作用。希望了解这种蛋白的结构能帮助科学家更好地理解全球蜜蜂种群的崩溃,并可能提出基因改造方案,培育出更具抗病能力的蜜蜂品种。
AlphaFold的预测准确性因蛋白质类型而异。但AlphaFold还提供了置信度评分,帮助科学家判断是否应该信任AI对特定蛋白质部分结构的预测。对于人类蛋白质,大约36%的预测是高置信度的,而对于细菌大肠杆菌,AlphaFold在约73%的情况下对其结构有高置信度评分。
一些蛋白质有被称为“固有无序”的区域,因为它们的形状会根据周围的物质和蛋白质显著变化。无论是经验成像方法还是基于AI的模型都无法提供关于这些无序区域将会是什么样的信息。(AlphaFold 3,谷歌DeepMind在2024年推出的更强大的AI模型,有时——但并不总是——能够预测这些无序区域如何与其他蛋白质或分子结合。)
AlphaFold对药物发现的影响尚待证明
AlphaFold最终可能会对药物发现产生重大影响,但目前很难评估该AI模型带来的具体变化。在一个案例中,科学家确实使用AlphaFold找到两种现有的FDA批准药物,这些药物可以重新用于治疗查加斯病,这是一种热带寄生虫病,每年感染多达700万人,导致超过1万人死亡。
贾姆珀表示,在某种程度上,后续的 AI 模型在药物发现中可能比原始的结构预测工具发挥更直接的作用。例如,AlphaFold 3 不仅预测蛋白质结构,还预测蛋白质之间以及与小分子之间结合的几个关键方面。这一点至关重要,因为大多数药物要么是与蛋白质的靶位点结合以改变其功能的小分子,要么在某些情况下本身就是蛋白质。同时,AlphaFold Multimer 是 AlphaFold 2 的扩展,预测蛋白质-蛋白质相互作用,这也有助于药物设计。
谷歌 DeepMind 已经分拆出一家名为 Isomorphic 的姐妹公司,正在利用 AlphaFold 3 和其他工具设计药物。它与 诺华 和 礼来 建立了合作关系,虽然尚未公开宣布他们正在研发的药物候选者。AlphaFold 3 对学术研究人员免费提供,但 Isomorphic 和谷歌以外的商业实体不允许使用该软件。
谷歌 DeepMind 还创建了一个名为 AlphaProteo 的 AI 模型,可以设计出具有特定结合特性的全新蛋白质。该 AI 实验室还创建了一个名为 AlphaMissense 的系统,可以预测单点基因突变的危害程度,这可能帮助科学家理解许多疾病的根本原因,并可能找到治疗方法,包括可能的基因疗法。
贾姆珀表示,他个人对探索大型语言模型(如谷歌的 Gemini AI)在科学中的作用感兴趣。一些 AI 初创公司已经开始尝试 LLM,允许科学家指定蛋白质的功能,然后 LLM 就会输出该蛋白质的 DNA 配方。(这些仍需进行实验测试以查看它们是否真正有效。)但贾姆珀表示,他对这些 LLM 在设计非常新颖的蛋白质方面的效果持怀疑态度。贾姆珀还表示,他知道一些人实际上创建了 AlphaFold 的聊天机器人前端,但他说这“并不那么有趣”。
相反,他表示,让他感到兴奋的是利用 LLM 的力量来发展新的假设,并设计新实验来验证这些假设。DeepMind 基于 Gemini 创建了一个原型“AI 科学家”,可以做到这一点。但贾姆珀表示,他认为这个概念还有更大的潜力。“真正令人兴奋的、庞大的数据集就是整个科学文献,”他说。
热门跟贴