扎克伯格研究所开源蛋白模型：设计疗法从3年缩至数日|序列|开源蛋白|抗体|抗原|蛋白质|马克·扎克伯格

“让全世界的科研人员，都能更快为单个患者设计有效疗法。” 这句话，来自一位专攻儿科的前临床医生、现在同时也是 Meta 首席执行官马克·扎克伯格的妻子——普莉希拉·陈。她所联合创办的 Biohub 研究所刚刚做了一件事：把一套能预测、设计并发现蛋白质的 AI 系统，全部免费公开了。换句话说，过去药厂可能要耗上三四年才能筛出的抗体候选分子，现在借助这套工具，只需几天就能在计算机上完成初筛。

这套系统围绕三个核心组件构建，可以看成一套蛋白质世界的“语言翻译器、结构设计师与茫茫图谱搜索引擎”的组合。打头阵的是 ESMC，一个在从整个生命域采集来的约 28 亿条蛋白质序列上训练出来的最先进表达语言模型。你可以把它理解为一台蛋白质界的通用句法解释器，它能将任意一段氨基酸序列转换为一组高维“语义”向量，这些向量携带着有关序列功能、进化关系和潜在结构偏好的丰富信号。

接着上场的是 ESMFold2，它充当结构设计引擎，负责把 ESMC 输出的序列表达直接翻译成生物大分子复合物的三维结构。重点在于它的实战目标：针对像肿瘤这样的特定靶点，ESMFold2 能够提前标定那些最有可能产生高亲和力结合的蛋白质构象。比起在湿实验中一枪一枪地试，这种计算优先的方式，等于把“大海捞针”变成了“拿着一张指针清晰的寻宝图”。相关测试数据表明，在蛋白质-蛋白质相互作用以及抗体-抗原相互作用的预测任务上，ESMFold2 的性能已经能超越或至少打平 Google 的 AlphaFold 3——后者一直是该领域的明星模型。

第三块拼图是 ESM Atlas（蛋白图谱）。它让研究人员可以跨越 ESMC 产生的 68 亿个蛋白质序列表达向量、以及 11 亿个预测结构进行大规模探索。以往的蛋白质数据库往往受限于已测定的结构范围，很多暗藏在序列里的远缘关联、功能相似性，根本挖不出来。而 ESM Atlas 凭借这般量级的向量及结构检索能力，能将那些以往数据库捕捉不到的关系暴露在台面上，相当于给了生物学家们一部可以随意放大缩小、甚至自动高亮相似家族的蛋白质宇宙星图。

这三样工具——ESMC、ESMFold2 和 ESM Atlas，已经被全部整合进 Biohub 的公共平台，全球科学界可以无偿使用。一个典型的应用场景是：过去要对难治性癌症或自身免疫病搞抗体疗法，找到有前景的候选蛋白通常要经过三年到四年的漫长筛选；现在，ESMFold2 利用计算手段包揽了前端大部分的探索工作，据说只需几天就能给出可以直接进实验室验证的设计。这不只是速度的提升，更是在资源分配逻辑上的一次重置：让昂贵的湿实验被花在最有希望的方向上。

从 Biohub 公布信息来看，被加速的不只有抗癌抗体设计。因为该模型在抗体-抗原交互预测上的高准确性，意味着针对感染性疾病、自身免疫紊乱等过去“无药可用”的领域，也可能快速产出试验性蛋白质药物方案。普莉希拉·陈的那句话背后，是她长期作为儿科医生目睹病患缺乏有效治疗手段的切身体会，如今通过把前沿计算工具直接推送到全世界研究者手中，她期望的是“更快的前进速度”——速度快到能赶在病情恶化之前。

如果你觉得这像是把 AlphaFold 的故事又讲了一遍，那这次的区别在于：Biohub 没有把它当成一篇放在顶级期刊上的“广告”，而是直接打开大门、免费用、随时接进研究流程。在扎克伯格和普莉希拉·陈的资助体系下，这套模型并没有商业授权门槛，而是带着完整的三件套生态系统走向公共科研。对于正卡在蛋白质工程瓶颈里的团队而言，下一个救命的抗体药分子，或许就在几天计算后的候选名单里。