编译丨王聪
编辑丨王多鱼
排版丨水成文
基于机器学习(Machine Learning)的人工智能(AI)工具,彻底改变了科学家研究蛋白质结构的方式。
近日,《自然·化学生物学》(Nature Chemical Biology)期刊采访了Cecilia Clementi(柏林自由大学)、Bruno Correia(洛桑联邦理工学院)和卢培龙(西湖大学),探讨了开发用于预测蛋白质结构和性质的计算工具方面的进展,这些工具如何用于蛋白质设计,以及他们希望在该领域看到的发展。
问:用于预测蛋白质结构和特性的新计算工具已经彻底改变了化学生物学的许多领域。最近蛋白质建模方面有哪些进展让您感到兴奋?您在自己的研究中是否已经开始使用任何新工具?
Cecilia Clementi:我们正生活在一个非常令人兴奋的时代,机器学习正在推动不同科学领域取得重大进展。我特别兴奋的是,机器学习工具现在开始着手应对理解大分子动态和功能的挑战,超越了单一结构的局限。在我的研究小组中,我们正在朝着这个方向努力,并且正在基于诸如 AlphaFold 和 BioEmu 这样的工具开展工作。
Bruno Correia:在过去几年里,我们见证了蛋白质建模工具取得了令人难以置信的进步。AlphaFold 引领了全球热潮,使蛋白质的结构生物学“角度”成为一种更为普遍的看待蛋白质的方式,并在设计实验时充分考虑这些信息。另一类工具——生成或设计工具,也变得更容易为更广泛的受众所使用,它们能够更快地设计出新的蛋白质序列,且成功率更高,希望在不久的将来也能用于小分子的设计。
卢培龙:近期蛋白质建模技术的进展,特别是 AlphaFold3 和 RoseTTAFold All-Atom,显著提升了蛋白质结构及相互作用预测的精度与范围。这些模型已超越单纯的蛋白质结构预测,能够涵盖包含核酸、小分子配体和翻译后修饰的复合物体系,从而实现更复杂的生物系统模拟和功能生物元件的从头设计。在我们的研究中,我们同时运用这两种工具来模拟配体结合位点、优化酶活性中心并设计蛋白质-核酸相互作用界面,这些应用显著提高了蛋白质从头设计的精确度和成功率。
问:目前可用的基于机器学习的工具在预测小型球状蛋白质的结构方面效果良好。当前的工具在生成蛋白质复合物、膜蛋白和部分结构化蛋白质的模型方面有多准确?提高这些结构类别结构预测的准确性存在哪些障碍?
卢培龙:对于蛋白质复合物,像 AlphaFold-Multimer 和 AlphaFold3 这类方法能够准确预测许多具有紧密相互作用的复合体结构。然而,在模拟大型、复杂、动态或瞬时存在的复合物时,尤其是当涉及构象变化或较弱相互作用界面时,仍存在显著挑战。对于膜蛋白,这些方法能够为许多跨膜蛋白生成高精度模型,但在应用于大型、动态或瞬时的膜蛋白复合物时,同样面临局限性。对于部分结构化或固有无序蛋白,大多数预测工具表现不佳,因为它们通常基于结构有序的静态数据进行训练,往往会将无序区域错误折叠成非天然的构象。进一步发展的主要障碍在于这些体系的高分辨率实验数据稀缺。解决这些挑战需要将深度学习与分子动力学模拟、交联蛋白质组学数据、从更深度序列比对中优化提取共进化信号相结合,并开发新的深度学习方法。
Bruno Correia:我认为这完全取决于蛋白质复合物和膜蛋白的进化信息是否充足——对于那些拥有足够进化信息的体系,即便是极其复杂的复合物和膜蛋白,我们也能获得惊人的预测结果。部分结构化蛋白或固有无序蛋白无疑是更棘手的难题,目前预测算法对其效果不佳,但考虑到这类蛋白的真实结构数据极其稀疏且难以获取,这个结果或许并不令人意外。
Cecilia Clementi:在我看来,将结构预测拓展到球状蛋白之外的主要挑战在于可用高分辨率数据相对稀缺,以及缺乏量化预测成功与否的明确标准。例如,部分无序蛋白的特征在于其结构集合体属性,很难界定用于模型训练和评估的真实结构基准。此外,大规模复合体系具有高度动态性,蛋白质在发挥功能过程中会不断结合与解离。这些案例表明,我们必须超越单一结构预测的范式。
问:AlphaFold 3、RoseTTAFold 及类似的基于机器学习的工具可以预测结构,但无法预测折叠路径。当前的工具在考虑不同溶液条件或温度方面的效果如何?需要什么来增进对动态结构的了解?
Bruno Correia:是的,这是一个关键点。这些算法显然不具备关于折叠路径的知识,这也不是它们被训练学习的目标,老实说,生物化学家可能也没有多少他们能明确了解其折叠路径的实例。一个重大的前沿领域正是如何预测蛋白质的“动态个性”这一课题。尽管某些算法确实为我们提供了一些洞见,因为它们已经学会了序列-结构映射的准确表征,但我们在预测动力学方面确实存在一些根本性的局限性。这些局限包括实验数据的缺乏——这些数据同样难以收集——在此要向核磁共振波谱学家们致敬,我认为未来将为他们带来绝佳的机会。但另一个原因在于,动力学很容易在微小变化的层面上被调控,例如点突变,这使得问题变得极其困难,因为大多数这些算法基于统计学习而非物理原理。所以,这是一个超级有趣的问题,它处于蛋白质功能及我们理解蛋白质工作机制的核心。
Cecilia Clementi:我相信,要能够描述动态结构并预测其响应环境条件变化而产生的构象改变,关键在于将多种数据源整合到机器学习模型中,这既包括模拟数据也包括实验测量数据,并且需要考虑必须满足的物理学约束和热力学原理。我们已经开始看到这个方向的一些努力,包括我自己研究组的工作,我认为未来几年内我们将见证该领域取得重大进展。
卢培龙:目前,预测出的结构反映了训练数据中正常的生理溶液条件,因为诸如 pH 值、温度、压力和离子浓度等关键变量并未明确纳入预测过程。
问:目前用于设计结构以外性质的工具的准确性如何?您认为要改进具有生物功能和/或化学反应性的蛋白质设计,需要取得哪些重大进展?
Cecilia Clementi:我认为当前的工具在捕捉蛋白质功能的动态特性方面仍存在不足。蛋白质动力学涉及的时间尺度范围很广,且难以简化为少数几个可测量的参数,因此这项任务并不简单。生物功能的实现往往依赖于多种蛋白质及其他分子间的相互作用,其中局部变化可能引发整体结构重组并触发信号级联反应。我们需要定量预测构象变化、有序-无序转变及结合亲和力等参数来表征生物分子功能,但由于缺乏大规模可靠数据,现有工具仍有很大局限性。我认为发展多尺度方法与多模态学习技术对于推动相关过程的表征研究至关重要。目前我的研究团队及其他团队正致力于开发机器学习模型以实现这一目标,但完整的表征体系尚未建立。
卢培龙:目前,用于设计结构以外的蛋白质特性(例如催化和变构调节)的工具已取得进展,但由于必须模拟多态动力学,仍面临巨大挑战。尽管结合蛋白的设计变得越来越可行(特别是对于明确界面的设计),但结合亲和力的准确预测和控制仍然困难。与此同时,蛋白质语言模型(pLM)已成为进行序列到功能预测的强大工具,能够直接从序列数据中捕捉进化约束并识别功能残基。然而,pLM 继承了训练数据集中不均衡表征所带来的偏差。特定的蛋白质家族,例如抗体,在通用的 pLM 中代表性不足,这限制了它们在治疗性设计等专业任务中的表现。
主要的瓶颈源于我们模拟构象集合及其与配体、底物或光、电压等物理刺激动态相互作用的能力有限。要推动该领域发展,我们需要更多高质量、标准化的实验数据来训练和验证模型。未来的方向可能在于将捕捉序列层面功能约束的语言模型,与考虑几何结构、能量学和动力学的基于结构的物理模型相结合。
Bruno Correia:总的来说,设计工具在我们可称之为非常“静态”的结构设计方面确实表现出色。当然,设计生物功能是一个非常宽泛的范畴,因为功能主要是一种依赖于情境的属性,并且常常取决于系统的许多其他组成部分和变量。但我们在蛋白质-蛋白质相互作用的从头设计方面已经看到了令人难以置信的进展,这在几年前似乎还只是梦想。在我看来,小分子结合和酶活性仍然是非常困难的问题,或许是因为这些问题严重依赖于非常微小的细节以及所设计蛋白质的动态特性。所以,还有很多重要的问题需要研究。
问:基于生成式人工智能的方法已被用于帮助设计新的蛋白质。哪些技术给您留下了深刻的印象?该领域面临的主要挑战是什么?
Bruno Correia:那么,生成式 AI 已经取得了惊人的进展。然而,我可以略带挑衅地说,如果我们没有一种出色的序列预测工具来帮助筛选最有潜力的设计蛋白质,那么这些工具中的许多都不会像今天这样有用——这改变了一切。随后,随着生成算法的更加强大,设计的质量也得到了提高,但这方面仍有很多工作要做。显然,许多生成式设计仍然会产生大量不可行的解决方案,其效率有待提高,以使蛋白质设计变得更加容易,从而普及蛋白质设计工具的使用。与小分子设计相关的问题仍然极具挑战性,并且迄今为止,基于机器学习的工具是否在药物设计领域取得了变革性的进展,这一点尚存争议。
卢培龙:RFdiffusion 与 ProteinMPNN 等技术的影响力尤为显著。最新版本的 RFdiffusion3 能够以原子分辨率生成配体、核酸及其他非蛋白质成分约束下的蛋白质结构——这为实现高度定制化的功能位点及多组分复合物设计提供了可能。
尽管取得了这些进展,但仍存在重大挑战。设计具有动态构象或多功能状态(例如涉及变构调控或刺激响应行为的蛋白质)仍然十分困难。实现可调控、可控制和模块化的功能仍是一个相当大的障碍。克服这些局限可能需要更丰富的实验数据集、改进蛋白质灵活性及环境背景(例如膜环境、pH值和辅因子)的建模方法,并将蛋白质语言模型提供的序列层面信息与基于物理原理的生成模型相结合。
Cecilia Clementi:我再次认为,一个主要挑战在于如何考量蛋白质的动态特性及其对变化的响应。最近一些设计蛋白质以多种构象存在的研究工作令我印象深刻。我相信这是实现蛋白质功能设计的一个极具前景的方向。
问:基于机器学习的工具需要非常大规模的数据集。您希望学界开发哪些额外的数据集来帮助扩展蛋白质的设计或理解?
卢培龙:首先,希望能扩大数据集类型,纳入更多功能性和生物物理测量数据——比如结合亲和力、催化速率,以及蛋白质在不同条件下的稳定性。这类数据能让模型更准确地预测功能表现,而不再局限于结构预测。其次,需要捕获动态和多态构象的数据,包括通过交联实验、时间分辨晶体学、冷冻电镜和核磁共振等技术获得的中间态和构象集合数据。这对于模拟依赖结构动态变化实现功能的蛋白质至关重要。最后,系统整理并分享那些失败或无效的设计数据(这类数据往往被低估或未充分报告)能为模型训练提供关键的负面样本,从而优化训练集并提升预测模型的鲁棒性。通过学界协作来生成、标准化并共享此类数据集,将是推动蛋白质设计实现下一次飞跃、增强其预测能力和生物学影响的关键。
Cecilia Clementi:若能增加蛋白质-蛋白质相互作用、蛋白质-配体结合及蛋白质复合物形成的数据集将会非常有用——这些不应仅是结构数据库,还需补充结合亲和力等实验测量数据作为支撑。
Bruno Correia:我个人的理想是,每个蛋白质都能配有深度突变扫描实验数据,这样我们就能了解这些突变会对其功能(及结构)产生何种影响。或许这将帮助我们重新定义对蛋白质功能的理解,而在我看来,蛋白质功能远不止于其结构的静态快照。
问:在将基于机器学习的方法与其他计算方法(例如分子动力学、密度泛函理论和基于粗粒度的方法)相结合方面取得了多少进展?是否有任何集成多种方法来设计蛋白质特性的混合工具?
Cecilia Clementi:在过去几年里,所有这些方面都取得了惊人的进展。在我的团队中,我们开发了机器学习粗粒度方法,并且最近发布了一个可转移的粗粒度力场,用于模拟蛋白质的长时间尺度动力学。然而,能够整合不同分辨率以在广泛长度尺度上描述蛋白质的方法才刚刚起步。随着针对固定分辨率的方法变得越来越精确,开发混合工具是下一个自然而然的步骤。
Bruno Correia:据我所知,机器学习方法如今也被用于加速分子动力学中的采样过程,并构建能量函数的仿真模拟器。我认为目前这些领域才刚刚迈出第一步,因为开发既基于统计学习又符合物理先验原理的架构一直存在挑战,但建模领域显然会在这方面投入更多努力。
卢培龙:一个标志性的例子是 AI2BMD(AI-based ab initio biomolecular dynamics)的工作——这是一个混合系统,弥合了生物分子模拟中精度与可扩展性之间的差距。AI2BMD 将蛋白质片段化策略与基于量子力学数据训练的机器学习力场相结合,能够以从头算的精度对大型生物分子(超过10000个原子)进行全原子模拟,而计算成本仅为密度泛函理论的一小部分。 对于蛋白质设计,我们经常利用分子动力学模拟作为关键验证工具,来评估所设计蛋白质的稳定性、构象动力学和功能行为——特别是对于静态模型不足以描述的膜蛋白和动态组装体。 分子动力学模拟使我们能够探究设计的结构在特定条件下是否保持完整、配体如何结合、以及构象转换是否按预期发生。
问:机器学习在科学领域的广泛采用已经展示了其潜在效益;然而,在其他领域,AI 产品的发展也引发了人们对安全性和能源消耗的担忧。您对 AI 在科学领域的负责任使用有何顾虑?如果有,可以采取哪些措施来解决这些问题?
卢培龙:目前,我并未看到蛋白质设计领域的 AI 存在迫切或普遍的风险,因而无需采取严格的监管措施,因为过度监管可能会减缓科学进步,削弱我们应对气候变化、可持续制造和公共卫生等紧迫全球挑战的能力。话虽如此,若需对生物领域的 AI 负责任使用采取主动措施,监控 DNA 合成等关键技术瓶颈或是一种可行方案。最有效的保障措施之一,是加强商业 DNA 合成提供商用于筛查潜在风险序列的检测系统。
诚如 Wittmann 等人最近在《科学》(Science)杂志发表的文章中所强调的,AI 驱动的蛋白质设计能够生成有害蛋白质的功能性变体,其序列可规避传统的生物安全筛查工具。然而,该文章也表示,经过更新的、AI 增强的筛查软件能够有效标记出这些经过人工设计的序列,即使它们被大幅度重新设计。这表明解决方案不在于限制 AI 的使用,而在于同步提升我们的监测能力。通过持续改进检测算法,并促进学术界、工业界和合成公司之间的合作,我们可以在确保生物安全的同时保持科学的开放性。关键在于实施适应性的、由科学驱动的监管——既跟上创新的步伐,又不扼杀创新。
Bruno Correia:鉴于这些技术日益强大,我们必须对其应用保持谨慎。话虽如此,自然界本身已经创造了许多“有害”分子,因此自然界本就不缺乏有害物质。我个人认为,当我们讨论非复制性实体(例如病毒)时,很难想象某种分子能大规模地造成危害。另一个关于能源消耗的担忧是真实存在的,显然我们习惯性地采用粗暴的方法和结果,但往往难以衡量其实际带来的效益——不过,公平地说,这种探索本身就是研究的一部分,随着我们不断挖掘这些算法的潜力,也会逐渐学会如何提升其效率。
Cecilia Clementi:我担忧的是,过去几年在结构预测和蛋白质设计领域取得的重大进展可能会降低设计新病原体的门槛。针对这种可能性,我们应当采取预防性措施。不过我认为,科学领域 AI 的能耗与用于文本和图像生成的大语言模型的训练及部署相比仍然有限。但关键在于,我们需要理解机器学习模型的运作机制,才能做到负责任地使用并从中学到知识。可解释性 AI 工具应当被拓展应用于科学问题,从而简化模型并解析其学习模式。我始终相信,将物理学原理融入模型将有助于减少“幻觉”生成和错误应用。
问:您认为在蛋白质性质的计算预测方面,哪些是最重要或最有趣的前沿领域?您希望在未来几年看到哪些发展或里程碑式的成就?
卢培龙:计算蛋白质设计的一个令人兴奋的前沿方向是动态膜蛋白(例如转运体和受体)的从头设计。这些蛋白质通过介导生物膜上的信号和代谢物的选择性交换,在细胞通讯和代谢中发挥关键作用。从第一性原理设计这种蛋白质的能力——使其能够响应合成或可调配体、传递特定信号或运输非天然底物——可能在合成生物学、生物传感和靶向治疗方面带来革命性进展。
然而,设计具有精确功能控制的动态、刺激响应型膜蛋白仍然是一个重大挑战。成功需要超越静态结构模型,准确模拟构象集合、配体相互作用和自由能景观。达到这种复杂程度将标志着一个根本性转变——从设计惰性支架转向工程化功能分子机器,使其能够进行智能、受调控的跨膜信号转导。
Cecilia Clementi:我认为蛋白质动力学是下一个前沿领域。要对蛋白质动力学进行预测,整个学术界共同努力来定义和整理数据库、基准和里程碑是至关重要的。我认为不仅预测结构集合,而且预测它们在不同条件下的变化将是一项具有里程碑意义的成就,我希望在不久的将来能够为此发展做出贡献。
Bruno Correia:从高度应用的角度来看,我认为如果能够预测生物制剂的“可开发性”及其免疫原性,将为我们开发新疗法带来革命性突破。对我而言,另一个具有里程碑意义的应用成就是:从头设计的蛋白质能够常规用作药物,同时避免免疫原性的缺陷。这将彻底改变游戏规则,我相信这个目标终将实现,但可能需要在我们充分掌握免疫原性的决定因素,以及如何实现“隐形”递送这些蛋白质而不触发免疫反应之后才能达成。
论文链接:
https://www.nature.com/articles/s41589-025-02110-z
热门跟贴