撰文丨王聪
编辑丨王多鱼
排版丨水成文
在蛋白质科学领域,从蛋白质结构预测到蛋白质从头设计,技术发展日新月异,从 AlphaFold 到 RFdiffusion,各种强大的 AI 工具层出不穷。 然而,对于大多数实验室科学家来说,这些工具的使用门槛却高得令人望而却步。 此外,每个 AI 工具都有自己独特的安装要求、运行环境和数据格式,将它们整合到一个连贯的工作流程中,需要深厚的计算专业知识。
值得一提的是,GYDE 免费向学术界和工业界的蛋白质研究科学家开放,助力构建符合个性化需求的药物发现分析平台。
2026 年 3 月 27 日,基因泰克(Genentech)公司的研究人员在预印本平台 bioRxiv 上发表了题为:GYDE: A collaborative drug discovery platform for AI-powered protein design and engineering 的研究论文。
基因泰克推出了一个开源、多功能、基于网络的协作平台——GYDE(Guide Your Design and Engineering),旨在让实验室科学家只需点击鼠标即可调动前沿 AI 模型,轻松进行蛋白质和抗体的计算分析和设计。
GYDE 通过深度整合的可视化界面支持序列-结构-功能关系的探索,使研究人员能够通过真实实验数据或计算工具全面解析蛋白质功能决定因素。其直观接口可无缝对接用于蛋白质/抗体结构预测、设计与下游分析的前沿 AI 模型。通过采用 Slivka 计算 API,平台可灵活便捷地集成新工具与模型。该平台还支持会话保存功能,方便研究者与其他用户共享研究发现,从而构建更具协作性的科研社区。
实验室科学家的困境
现代药物发现越来越依赖计算工具和 AI 模型,AlphaFold、RosettaFold、OpenFold 等 AI 模型现在已被常规用于预测新型蛋白质结构、可能影响蛋白质功能的构象变化以及蛋白质与其他分子之间的相互作用。ProteinMPNN、BindCraft、RFdiffusion 等 AI 模型则能够实现治疗性多肽、迷你蛋白和抗体的从头设计。
然而,AI 工具开发的速度之快以及计算复杂性的增加,给计算科学家和非计算科学家都带来了巨大挑战。此外,每个 AI 工具都构建方式不同,难以在同一计算环境中协同工作。
要将这些工具连接起来供实验室科学家使用,需要大量的技术专业知识和 IT 投入。即使所有平台都安装好了,第二个挑战是每个工具的学习曲线,因为它们通常是为特定目的设计的,而不是为了连续的工作流程。这些问题使得协作或连续工作流程变得更加困难。商业解决方案虽然提供端到端的解决方案,但通常伴随着非技术限制,例如昂贵的授权许可、专有代码库以及可能落后于新工具发布计划的有限可定制性。
GYDE 的设计原则
该研究中推出的GYDE(Guide Your Design and Engineering),是一个开源、多功能且基于网络的协作平台,旨在让实验室科学家能够轻松进行蛋白质和抗体的计算分析。
GYDE 平台的设计遵循四个核心原则,这些原则直接针对上述挑战——
无代码用户界面是 GYDE 的首要设计原则,与依赖最终用户懂编码的解决方案不同,GYDE 团队认为无代码用户界面对于提高用户采用率至关重要。
序列-结构-功能关系的紧密集成是蛋白质科学家熟悉的思维框架,GYDE 设计的界面允许这三者的集成,在单一环境中实现稳健分析。
访问最新工具和数据是应对计算结构生物学领域快速发展的关键。GYDE 需要一个灵活的后端服务运行器,允许轻松添加新工具,以便高效评估和及时使用。
协作功能解决了结构、序列和功能数据共享的障碍,通过将用户会话存储在集成数据集中,GYDE 实现了稳健的数据存储,并通过直观的超链接共享功能与协作者共享。
GYDE 的网页界面
GYDE 平台的核心功能
GYDE 的网页界面组织成不同但集成的组件,为用户提供灵活的操作体验。常用组件默认更容易访问,主要包括以下七个核心模块:
多序列比对查看器(MSA Viewer)是许多工作流程的起点,可以查看蛋白质序列。序列可以使用 MAFFT 进行蛋白质对齐,或通过抗体特异性对齐器如 Absolve 进行对齐,后者注释互补决定区域。
结构可视化(Structural Visualization)使用 Mol* Viewer,使用户能够探索与 MSA Viewer 中选择的一个或多个序列相关的分子结构。MSA 和 Mol* Viewer之间的序列-结构集成通过序列比对自动标准化序列和结构之间的残基编号来实现。
绘图组件(Plotting)支持基于上传到 GYDE 数据表中的数据值快速创建直方图或散点图。这些数据值通常代表正在分析的蛋白质或突变体的功能特性。
序列到图像查看器(Sequence-To-Image Viewer),允许查看许多计算分析产生的静态图像摘要。例如,像 AlphaFold 这样的结构预测工具会产生 MSA 覆盖率和置信度指标的图表。
频率分析(Frequency Analysis),通过显示选定位置或具有选定保守水平的氨基酸分布,帮助识别保守残基或过滤具有特定残基的序列。
热图查看器(Heatmap Viewer),为饱和突变数据集提供简洁和交互式的可视化,帮助导航和提炼这些复杂、丰富的数据矩阵信息。
序列标识(Sequence logo),集成了序列标识查看器,使用户无需寻求其他软件即可使用这种常见且信息丰富的蛋白质位置变异性可视化方法。
技术架构与集成
GYDE 采用模块化架构,有助于隔离用户界面、计算和数据管理组件的开发,同时仍允许模块间通信。
GYDE 服务器作为系统的中央枢纽,协调计算和数据管理操作。它处理与 GYDE UI 发送和接收数据的请求。为了运行计算工具,GYDE 集成了 Slivka 计算 API,为各种高性能计算资源提供作业运行器。这种与 Slivka 的集成,使 GYDE 能够利用外部计算能力进行大规模数据处理和分析,从而增强 GYDE 的能力和可扩展性。
数据模型和管理,是 GYDE 数据管理系统的核心。数据集作为在具有访问控制的集中存储库中存储和共享信息的核心单元。这种结构支持实时协作,允许多个研究人员同时处理共享项目。
GYDE 数据集围绕灵活的列式数据框架设计,集成了关键元数据。该模型高度适应,支持对药物发现至关重要的专业领域特定数据类型,包括蛋白质、DNA 和 RNA 序列,以及像 SMILES 这样的化学信息学格式。
GYDE 系统架构
实际应用案例
GYDE 已在多个案例研究中得到应用,展示了其在蛋白质工程和设计项目中的实用性。用户报告了显著的时间节省(在某些情况下从数天减少到几分钟或几小时)和增强的协作效率。
单次跨膜多聚体研究中,研究人员使用 AlphaFold2-Multimer 生成蛋白质复合物预测,基于包含 1381 个提议相互作用的实验蛋白质组学数据集。通过 GYDE 的数据上传机制,将这些预测和计算指标与实验筛选值以及关于相关蛋白质的任何现有结构的公共数据库知识合并。
抗体工程工作流程是 GYDE 的另一个重要应用领域,GYDE 平台支持抗体特异性工具,例如 Absolve 用于抗体 Fv 编号,Therapeutic Antibody Profiler 用于抗体表面特性分析,以及 ABodyBuilder 用于抗体结构预测。
这些工具的集成使研究人员能够在统一环境中进行端到端的蛋白质或抗体的设计和优化。
在抗 PD-1 抗体重链的ProteinMPNN 序列设计工作流程中的GYDE平台核心界面
GYDE 平台可实现从头生成结合蛋白
行业意义
当前,蛋白质科学领域正经历快速发展,在这些技术进步中,GYDE 平台的独特价值在于其开源和协作特性,与商业解决方案不同,GYDE 是免费提供给学术界和工业界的科学家使用的,他们可以根据自己的需求构建定制的药物发现分析平台。这种开放性有助于促进更广泛的科学社区协作,加速科学进步的步伐。
GYDE 平台已经在其内部部署中集成了超过 20 种不同的计算工具,包括 AlphaFold、Boltz、Chai、ProteinMPNN、RFdiffusion 等主流 AI 模型,用户可以通过简单的点击操作调用这些工具,无需担心安装配置和环境兼容性问题。此外,该平台的数据共享功能尤其值得关注——研究人员可以通过一个简单的超链接与全球同行分享完整的分析会话,包括所有数据、可视化结果和计算参数。这种级别的协作便利性在传统科研工作流程中是难以实现的。
随着 AI 在药物发现中的应用日益深入,像 GYDE 这样的平台可能会成为未来科研基础设施的重要组成部分。它不仅降低了技术门槛,更重要的是,它改变了科学家的工作方式——从孤立的工具使用转向集成的、协作的研究范式。
论文链接:
https://www.biorxiv.org/content/10.64898/2026.03.24.714039v1
热门跟贴