美国一款新药从实验室走到药房平均要熬10到15年,OpenAI说它的新模型能把这锅"慢炖汤"改成高压锅模式。GPT-Rosalind——以发现DNA双螺旋结构的罗莎琳德·富兰克林命名——是OpenAI首个专为生命科学打造的模型。但科学家真正关心的是:它到底能砍掉哪些环节,还是只是给旧流程套了个新界面?
一、为什么偏偏是"罗莎琳德"
OpenAI的命名策略很有意思。罗莎琳德·富兰克林的X射线衍射照片是沃森和克里克破解DNA结构的关键,但她本人从未获得诺贝尔奖。这个选择像是在暗示:AI要做那个"幕后推手",帮科学家看到他们自己看不到的东西。
模型定位很明确——药物发现、生物学研究、转化医学。这三个领域有个共同痛点:数据海量但噪音更大。一篇癌症论文可能有300个基因表达数据点,但哪些是真信号、哪些是实验误差?GPT-Rosalind被设计来啃这块硬骨头。
但这里有个微妙的时间线。2024年诺贝尔化学奖刚颁给DeepMind的AlphaFold团队,Demis Hassabis的原话是:「对我来说,AI最好的应用场景就是改善人类健康、加速科学发现。」OpenAI此时入场,很难说没有对标意味。
更微妙的是竞争格局。Anthropic在2025年1月就推出了Claude for Life Sciences,同样瞄准生命科学。OpenAI的回应是:我的模型能帮你"改进研究靶点选择、构建更强假设、设计更高质量实验"——这三句话分别对应药物研发链条上的三个烧钱环节。
二、10到15年的黑洞,AI能填多少
药物研发的时间成本是个经典行业痛点。临床前研究平均3-6年,临床试验又要6-7年,FDA审批还得排队。更隐蔽的成本是"失败税"——一个靶点推到二期临床才发现无效,前面几亿美金就打水漂。
GPT-Rosalind的切入点很精准:靶点选择和实验设计。这两个环节决定了后续90%的资源投入方向。如果AI能在早期筛掉"看起来很美、实则有毒"的候选分子,省下的不只是时间,是整个团队的士气。
但OpenAI的博客文章没有给出具体数字。没有"缩短X%",没有"成本降低Y倍"。这种克制反而值得玩味——要么数据还在积累,要么他们不想重蹈某些AI医疗公司的覆辙(过度承诺后被监管打脸)。
模型测试覆盖的领域倒是列得很细:有机化学理解、蛋白质结构、遗传学分析。这三块恰好是AlphaFold已经验证过的战场。Google DeepMind的AlphaFold3能预测蛋白质-配体复合物结构,直接对接药物设计。GPT-Rosalind的差异化在哪?
一个可能的答案是"文献消化能力"。研究人员可以用它"查找相关科学文献"——这句话听起来普通,但做过文献综述的人都知道,PubMed每年新增30万篇生物医学论文,读完摘要都是不可能任务。如果AI能真正理解实验设计的逻辑漏洞、识别哪些结论被后续研究推翻,价值远超简单的关键词匹配。
三、科学家的警惕不是矫情
文章里埋了一个容易被忽略的警告:「一些科学家曾对AI快速渗透科学领域表示担忧,警告存在漏洞、潜在滥用和数据表征问题。」
这三类风险个个致命。
"漏洞"指的是什么?AI模型可能学会数据中的虚假相关性。比如某类分子在训练数据里恰好都和有效药物共存,模型就以为"有A结构=有效",实际上A结构只是当时流行技术的副产物。这种"伪模式"在化学空间探索里尤其危险——合成一个分子要真金白银,AI的幻觉成本极高。
"潜在滥用"的边界更模糊。 dual-use研究(两用研究)在生物学是敏感词:帮助理解病毒进化的工具,也可能被用来设计更危险的病原体。OpenAI说GPT-Rosalind有"防护措施",但博客没展开细节。是输出过滤?是访问权限控制?还是训练数据清洗?不同方案的安全边际天差地别。
"数据表征问题"最隐蔽。生物医学数据有严重的发表偏倚——阳性结果容易发论文,阴性结果被扔进抽屉。AI如果只在"成功故事"上训练,会对真实世界的失败率产生系统性误判。一个预测准确率90%的模型,如果那10%错误集中在真正关键的靶点上,还不如抛硬币。
四、商业模式的未解之谜
OpenAI没有公布GPT-Rosalind的定价和接入方式。这是关键信息缺口。
生命科学AI的付费意愿从来不缺,但付费模式一直在试错。Schrödinger的分子模拟软件按算力收费,一年订阅费能买辆保时捷;DeepMind的AlphaFold免费开源,但Google的云计算服务默默收钱。OpenAI会走哪条路?
一个观察角度:药物研发的客户是机构而非个人。辉瑞、罗氏这些大药企有专门的AI团队,他们需要的是可定制的模型、可审计的决策链路、符合FDA要求的验证文档。ChatGPT的订阅模式在这里可能完全失效。
另一个角度:OpenAI在2025年经历了高管动荡和盈利压力。GPT-Rosalind可能是向B端高价值客户伸出的橄榄枝——生命科学企业的合同金额,和中小开发者的API调用费不在一个数量级。
但这里有个悖论。越是高价值的应用场景,客户对模型的"可解释性"要求越高。FDA不会接受"黑箱模型说有效就有效",他们需要知道AI为什么选中这个分子、排除了哪些选项、置信度来自哪些特征。GPT-4的"思维链"展示在聊天场景很酷,在监管文件里可能还不够。
五、行业格局的微妙位移
把几条时间线并排放,能看到一些有趣的挤压效应。
2024年10月:AlphaFold团队获诺贝尔化学奖,AI for Science的合法性达到顶峰。
2025年1月:Anthropic推出Claude for Life Sciences,定位"研究助手"。
2025年(未明确月份):CNET母公司Ziff Davis起诉OpenAI侵犯版权,涉及训练数据。
2026年4月17日:GPT-Rosalind发布。
这个序列里,诉讼案的位置很微妙。Ziff Davis的指控核心是"训练数据侵权",而GPT-Rosalind的训练数据必然包含大量科学文献——其中很多受版权保护。OpenAI在博客文末主动披露诉讼,像是在提前打预防针:我们知道你们在想什么,但产品照发。
更深层的问题是:科学出版物的版权边界在哪里?PubMed Central的开放获取论文、作者预印本、付费期刊的摘要——这些在AI训练中的法律地位,可能比新闻文章更模糊。毕竟,科学知识的"公有性"传统和出版商的商业利益一直在拉扯。
回到产品本身。GPT-Rosalind的发布,标志着OpenAI从"通用助手"向"垂直专家"的试探性转身。但生命科学这个赛道有个特点:赢家通吃的逻辑不成立。AlphaFold在蛋白质结构预测上建立的优势,并没有阻止其他公司在抗体设计、临床试验优化等细分环节找到自己的位置。
药物研发是个链条极长的行业,AI的渗透注定是"农村包围城市"——先啃下文献综述、实验记录整理这些边缘环节,再逐步向核心决策靠近。GPT-Rosalind现在的位置,大概还在外围。
真正值得观察的指标不是"用了多少 Pharma 企业",而是"有多少AI设计的分子真正进了临床试验"——以及,它们的成功率是否显著高于传统方法。这个答案,可能需要3-5年才能浮出水面。
热门跟贴