编译丨王聪

编辑丨王多鱼

排版丨水成文

1952 年,英国科学家罗莎琳德·富兰克林(Rosalind Franklin)拍摄了一张B 型 DNA 的 X 射线晶体衍射照片,也就是后来著名的“照片51号”。1953 年,詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)受“照片51号”的启发,成功构建了DNA 双螺旋结构模型,这是生命科学领域的里程碑成就,开启了分子生物学时代。1962 年,詹姆斯·沃森(James Watson)、弗朗西斯·克里克(Francis Crick)和莫里斯·威尔金斯(Maurice Wilkins)三人因 DNA 双螺旋结构获得了诺贝尔生理学或医学奖,而罗莎琳德·富兰克林已于 1958 年因乳腺癌去世

英年早逝,未获诺奖,这让罗莎琳德·富兰克林对 DNA 双螺旋结构的贡献在很长一段时间里被人们所忽视。庆幸的是,近年来的发现的一些新证据显示,罗莎琳德·富兰克林并非传言所说的不能理解 DNA 双螺旋结构,她不仅拍下了“照片51号”,还与莫里斯·威尔金斯一起,为寻找 DNA 结构的答案采取了早期关键行动,提供关键数据,并验证了结果。因此,她是解析双螺旋四人组中平等的一员”,她和莫里斯·威尔金斯贡献了发现 DNA 双螺旋结构一半的力量,与詹姆斯·沃森弗朗西斯·克里克的贡献相当。

2026 年 4 月 16 日,OpenAI推出了其首个生命科学 AI 大模型——GPT-Rosalind,这一模型的命名正是致敬罗莎琳德·富兰克林(Rosalind Franklin)。


打开网易新闻 查看精彩图片

罗莎琳德·富兰克林


药物研发是人类历史上最昂贵且耗时最长的事业之一。在美国,从发现新药靶点到获得监管批准上市,通常需要 10-15 年的时间。其中大部分时间并非用于取得突破性进展,而是用于细致的分析工作——筛选海量文献、设计试剂以及解读复杂的生物数据。OpenAI认为,人工智能(AI)能够帮助缩短这些时间,因此推出了迄今最专业的生命科学 AI 模型来证明这一点。

OpenAI表示,GPT-Rosalind旨在为生物化学和基因组学等领域提供更强大的基础推理能力。与在所有领域广泛训练的通用语言模型不同,GPT-Rosalind 专门针对生命科学研究中深度分析需求进行了微调,且该模型绝非为了取代科学家,而是帮助他们更快地完成科学过程中一些最耗时和分析难度最大的阶段。

GPT-Rosalind 实际能做什么

要理解生物学中的“科学推理”是什么样子的,这会有所帮助。例如,一位从事新基因疗法研究的研究人员可能需要:查阅数百篇近期的论文,识别蛋白质结构中的模式,设计克隆方案,然后预测特定 RNA 序列在细胞中的表现。传统上,每一步都需要不同的工具、不同的专家以及大量的时间。

GPT-Rosalind被定位为一种工具,旨在协助处理科学发现中固有的复杂多步骤工作流程。它支持证据综合、假设生成、实验规划以及其他多步骤研究任务,旨在帮助研究人员加快发现的早期阶段。实际上,这意味着该模型能够在同一界面内查询专业数据库、解析近期科学文献、与计算工具交互,并提出新的实验路径。

OpenAI 此次不仅是发布了一个新模型,还推出了一个生态系统,旨在与科学家们已有的工具相集成。其中的核心是 Codex 的新生命科学研究插件,可在 GitHub 上获取。科学研究向来自为营,一个项目可能需要研究人员查阅蛋白质结构数据库,浏览数十年来的研究文献,然后使用单独的工具进行序列操作。而这个新的插件将 GPT-Rosalind 模型与 50 多种科学工具和数据源相连接,使研究人员能够通过熟悉的开发者界面以编程方式访问生物数据库和计算流程。

基准性能:表现如何?

AI 公司所宣传的性能,向来需要仔细审查,而OpenAI已公布了 GPT-Rosalind 在既定基准测试中的数据。GPT-Rosalind 在BixBench上的通过率为 0.751,该基准测试围绕生物信息学和数据分析而设计。BixBench 评估模型在生物信息学家实际执行的真实世界任务中的表现,比如处理测序数据、运行统计分析以及解读基因组输出。0.751 的通过率表明其在该领域具备强大的实践能力。

LABBench2上,GPT-Rosalind 在 11 项任务中的 6 项上超越了 GPT-5.4,其中最显著的提升出现在克隆问答(CloningQA)任务中——这是一个需要为分子克隆实验方案设计端到端试剂的任务。

最引人注目的评估来自一个真实的研究环境。在与Dyno Therapeutics的合作中, GPT-Rosalind 在从未公开过的 RNA 序列到功能预测上进行了评估。这些数据从未出现在任何公开的训练集中,从而排除了记忆作为干扰因素的可能性。在 Codex 环境中直接评估时,该模型的十次提交中的最佳结果在预测任务中排名高于 95%的人类专家,在序列生成方面达到了 84% 的百分位。对于任何在新的生物学数据上运行的 AI 系统来说,这都是一个了不起的成绩。

打开网易新闻 查看精彩图片

有限且受管控的访问权限

鉴于能够重新设计生物结构的 AI 模型所具有的潜在力量,OpenAI并没有选择广泛“开源”或向公众普遍发布的方式,而是选择了一个“可信访问”计划,且模型已内置技术保障措施,包括用于标记潜在危险活动的系统以及对模型使用方式的限制。

GPT-Rosalind模型作为研究预览版,专门面向符合条件的企业客户推出——即那些致力于改善人类健康成果、开展合法生命科学研究以及维持强大安全与控制治理的组织机构。这种受限部署基于三个核心原则:有益使用严格治理受控访问。申请访问的组织必须接受资格和安全审查,以确保其开展的是具有明确公共利益的合法研究。

目前,OpenAI 已与包括安进Moderna艾伦研究所赛默飞世尔科技在内的客户合作,将 GPT-Rosalind 应用于整个研究工作流程。OpenAI 还与洛斯阿拉莫斯国家实验室合作,进行 AI 指导下的蛋白质和催化剂设计。

安进公司负责人工智能和数据的高级副总裁Sean Bruich指出,此次合作使公司能够以加快向患者提供药物的速度的方式应用先进工具。

ModernaCEOStéphane Bancel强调了该模型能够在复杂的生物学证据之间进行推理,以帮助团队将见解转化为实验工作流程。

艾伦研究所CTOAndy Hickl表示,GPT-Rosalind 的突出之处在于,它让诸如查找和对齐数据之类的手动步骤在代理工作流程中变得更加一致且可重复。

这些成就建立在 OpenAI 在生命科学领域已取得的切实成果之上,例如其与合成生物学公司Ginkgo Bioworks的合作中,其 AI 模型帮助将蛋白质生产成本降低了 40%。

领域专用模型将是下一个前沿

OpenAI 此次发布的 GPT-Rosalind 反映了整个 AI 行业正在发生的更广泛的架构转变。领先的 AI 研究机构不再仅仅依赖于日益庞大的通用模型,而是开始投资于针对特定科学或专业领域优化的模型。

领域专用模型可能代表着 AI 的下一个重要阶段,而生命科学——以其广阔的搜索空间、高维数据以及巨大的社会影响——成为最明确的试验场之一。正如微调和 RLHF(人类反馈强化学习)使语言模型能够专门用于代码生成或指令遵循一样,OpenAI 现在正应用类似策略,以创建能够对基因组序列、化学结构和实验方案进行有意义推理的模型。

打开网易新闻 查看精彩图片