“让全世界的科研人员,都能更快为单个患者设计有效疗法。” 这句话,来自一位专攻儿科的前临床医生、现在同时也是 Meta 首席执行官马克·扎克伯格的妻子——普莉希拉·陈。她所联合创办的 Biohub 研究所刚刚做了一件事:把一套能预测、设计并发现蛋白质的 AI 系统,全部免费公开了。换句话说,过去药厂可能要耗上三四年才能筛出的抗体候选分子,现在借助这套工具,只需几天就能在计算机上完成初筛。

这套系统围绕三个核心组件构建,可以看成一套蛋白质世界的“语言翻译器、结构设计师与茫茫图谱搜索引擎”的组合。打头阵的是 ESMC,一个在从整个生命域采集来的约 28 亿条蛋白质序列上训练出来的最先进表达语言模型。你可以把它理解为一台蛋白质界的通用句法解释器,它能将任意一段氨基酸序列转换为一组高维“语义”向量,这些向量携带着有关序列功能、进化关系和潜在结构偏好的丰富信号。

打开网易新闻 查看精彩图片

接着上场的是 ESMFold2,它充当结构设计引擎,负责把 ESMC 输出的序列表达直接翻译成生物大分子复合物的三维结构。重点在于它的实战目标:针对像肿瘤这样的特定靶点,ESMFold2 能够提前标定那些最有可能产生高亲和力结合的蛋白质构象。比起在湿实验中一枪一枪地试,这种计算优先的方式,等于把“大海捞针”变成了“拿着一张指针清晰的寻宝图”。相关测试数据表明,在蛋白质-蛋白质相互作用以及抗体-抗原相互作用的预测任务上,ESMFold2 的性能已经能超越或至少打平 Google 的 AlphaFold 3——后者一直是该领域的明星模型。

打开网易新闻 查看精彩图片

第三块拼图是 ESM Atlas(蛋白图谱)。它让研究人员可以跨越 ESMC 产生的 68 亿个蛋白质序列表达向量、以及 11 亿个预测结构进行大规模探索。以往的蛋白质数据库往往受限于已测定的结构范围,很多暗藏在序列里的远缘关联、功能相似性,根本挖不出来。而 ESM Atlas 凭借这般量级的向量及结构检索能力,能将那些以往数据库捕捉不到的关系暴露在台面上,相当于给了生物学家们一部可以随意放大缩小、甚至自动高亮相似家族的蛋白质宇宙星图。

这三样工具——ESMC、ESMFold2 和 ESM Atlas,已经被全部整合进 Biohub 的公共平台,全球科学界可以无偿使用。一个典型的应用场景是:过去要对难治性癌症或自身免疫病搞抗体疗法,找到有前景的候选蛋白通常要经过三年到四年的漫长筛选;现在,ESMFold2 利用计算手段包揽了前端大部分的探索工作,据说只需几天就能给出可以直接进实验室验证的设计。这不只是速度的提升,更是在资源分配逻辑上的一次重置:让昂贵的湿实验被花在最有希望的方向上。

打开网易新闻 查看精彩图片

从 Biohub 公布信息来看,被加速的不只有抗癌抗体设计。因为该模型在抗体-抗原交互预测上的高准确性,意味着针对感染性疾病、自身免疫紊乱等过去“无药可用”的领域,也可能快速产出试验性蛋白质药物方案。普莉希拉·陈的那句话背后,是她长期作为儿科医生目睹病患缺乏有效治疗手段的切身体会,如今通过把前沿计算工具直接推送到全世界研究者手中,她期望的是“更快的前进速度”——速度快到能赶在病情恶化之前。

如果你觉得这像是把 AlphaFold 的故事又讲了一遍,那这次的区别在于:Biohub 没有把它当成一篇放在顶级期刊上的“广告”,而是直接打开大门、免费用、随时接进研究流程。在扎克伯格和普莉希拉·陈的资助体系下,这套模型并没有商业授权门槛,而是带着完整的三件套生态系统走向公共科研。对于正卡在蛋白质工程瓶颈里的团队而言,下一个救命的抗体药分子,或许就在几天计算后的候选名单里。