新智元报道
编辑:元宇
【新智元导读】Anthropic开始抢科学家了?其STEM Fellow项目正大规模招募各学科专家驻场办公,补齐AI最后一块短板:判断力。
一份来自硅谷最顶尖AI公司的招聘启事,机器学习竟然并非必需能力?
Anthropic官网刚刚上线了一个新岗位:Anthropic STEM Fellow(研究员),招聘对象是STEM(科学、技术、工程、数学)领域的专家。
在STEM Fellow的岗位说明中,Anthropic称机器学习经验有帮助,但不是必需,而科学判断力和快速学习的意愿更重要。
所有入选者要在位于旧金山等Anthropic办公室全职驻场三个月,每周津贴3800美元。
他们能用到前沿Claude模型和内部评测工具,每个研究员还会被分配一位Anthropic研究员做一对一导师,合作一个边界清晰的研究项目。
Anthropic在STEM Fellow的岗位说明中举出了两个示例项目:
一位材料科学家发现Claude在推理相稳定性时会犯错,于是构建一套专门的评测流程来修补这个短板;
一位气候科学家把大气建模软件接入Claude,并构建能够调用这些工具的环境。
所有项目,都将限定在研究员计划周期内完成交付。
很明显,Anthropic花钱请研究员来,不是让他们「用Claude做研究」,而是让他们利用自己科学知识,「告诉Claude哪里做错了」,「调教」这个全球最强模型。
三年三代Fellowship,越招越靠近Claude
从给API到请人进来,这三年来,Anthropic在科研路线上一直在不断加码,每一步都比上一步更深。
第一代,是2024年的AI Safety Fellows Program。
那时候招的还是传统AI安全研究人才,用fellowship机制提供资助和导师,让外部技术人才参与对齐研究。
这轮fellowship的重心在「安全」,解决的是Claude会不会跑偏。
第二代,是2025年5月启动的AI for Science Program。
Anthropic推出AI for Science Program,给科研机构的研究者免费发放API额度,重点支持生物学和生命科学领域的高影响力项目。
这一次是解决好Claude的「安全护栏」后,再把它送出去。
第三代,就是现在挂出的Anthropic STEM Fellow。
从发API credits到把科学家直接请进办公室;从模型安全人才到科学家;从远程审核拨付到全职驻场合作——三代fellowship走下来,Anthropic 和外部科学家的距离越来越近。
第一代,Anthropic 要的是「能让Claude变得更安全的人」;
第二代,Anthropic 要的是「能用Claude做出科学成果的人」;
第三代,Anthropic 要的是「能告诉Claude怎么做科学的人」。
权重越来越偏向让顶级科学家直接参与Claude的能力打磨。
STEM Fellow的岗位说明中写道,这些研究员会「与Anthropic研究员一起设计实验、评估模型能力、分析模型在长周期科研任务中的表现」。
这是共建层面的合作。
同一时间段里,Anthropic的配套动作也在密集展开。
2026年3月上线了Science Blog,接连发布Claude参与科学计算和理论物理研究的案例文章。
2026年3月上线的Anthropic Science Blog,科学能力开始成为Anthropic独立叙事线https://www.anthropic.com/research/introducing-anthropic-science
它还是美国能源部Genesis Mission的核心合作伙伴,参与了一项跨产业界、学术界和政府的科研加速计划。
2026年4月,AI for Science项目扩展到了澳大利亚,投入300万澳元API额度,与澳大利亚国立大学、Garvan研究所等机构合作罕见病遗传分析和精准医疗研究。
Science Blog、Claude for Life Sciences、AI for Science Program、STEM Fellow、Genesis Mission……
这一系列动作背后的线索已经很清楚了:
Anthropic在系统性地构建一个科研生态,每一步都是这盘棋上的一枚颗子。
AI科研的真实瓶颈不是算力
而是「判断力」
为什么一家AI公司会觉得,提升模型科学能力最缺的东西,不是更多的GPU、更多的AI工程师,而是一群做实验的科学家?
答案就藏在Anthropic自家的一篇博客里。
2026年3月,哈佛理论物理学教授Matthew Schwartz在Anthropic Science Blog上发表了一篇文章,标题叫「Vibe Physics: The AI Grad Student」。
https://www.anthropic.com/research/vibe-physics?utm_source=chatgpt.com
他做了一个实验:让Claude Opus 4.5独立完成一项研究生水平的高能理论物理计算。他自己全程不动手,只用文字提示词指导Claude。
结果惊人。这个项目如果他带一个真人研究生来做,大概需要一到两年。他自己独立做,要三到五个月。跟Claude合作,两周搞定。
速度快了10倍。
Schwartz在文章里写道:Claude确实能力很强,但也够粗糙,以至于领域专家的判断对于验证它的准确性不可或缺。
他举了个例子。
Claude在他的指导下完成修订稿后,仍然把论文最核心的因式分解公式给搞错了。
这个错误看上去很自然,因为Claude其实是从另一个物理体系里把公式照搬过来的,没有做必要的修改。
如果Schwartz不是在这个领域深耕多年,他可能也不会立刻发现这个错误。
他还发现Claude一直在调整参数,只为让图表吻合,而不是找出真正的错误。「它伪造了结果,指望我不会察觉。」
而且,Claude也不知道该检查什么来验证自己的结果。
整个项目下来,超过110个版本的迭代,3600万token,40多小时的本地CPU计算时间。
最后,Schwartz给出了一个精准的评级:
当前的大模型在理论物理上大约处于「二年级研究生」水平。
他同时给出了另一个更关键的判断:AI还没有做到端到端的自主科学研究。
现在回头看Anthropic STEM Fellow的岗位描述,一切都说得通了:
设计严格的、不容易被投机取巧绕过的评估方法,测试模型能不能在你的领域里规划实验、解读数据、推理机制。系统性地找出它「自信但错误」的地方。识别能力短板,创建有针对性的数据和技术来弥补。
也就是说,模型最危险的时刻,不是它说「我不知道」,而是它一本正经地给出一个看起来完全合理、但实际上是错的答案。
而能分辨这种「高置信度错误」的人,当然不是写代码的工程师,而是在各个领域摸爬滚打多年的专家。
所以,STEM Fellow的本质,是让科学家(或者各领域专家)帮AI补课,做它们的「高级审校」,用他们的判断力,去校准模型在科研场景中的输出质量。
换句话说,Anthropic缺的不是让模型「更聪明」的人,是能告诉模型「你这里错了」的人。
Amodei的执念和Anthropic的赌注
Anthropic招这批科学家,不是一时兴起。
往回翻一年,Dario Amodei在2024年10月发的那篇长文「Machines of Loving Grace」,就把这条路想清楚了。
https://www.darioamodei.com/essay/machines-of-loving-grace
这篇文章里,Amodei把AI应用场景排了个优先级。
生物学和医疗健康排第一,因为AI能把人类未来50到100年的生物医学进展压缩到5到10年内完成。更值得重视的,是他怎么定义AI在这件事里的角色。
Amodei认为AI应该是一位virtual biologist:
要能自己设计实验、指挥实验、发明新方法;要能像一个完整的人类生物学家一样独立执行研究流程。
这相当于把AI科学这件事,从提升效率升级成了「直接参与」。前者需要更强的模型,后者则需要会做科学的模型。
Amodei还给出了一套论证。
他认为生物学的历史进步并非平滑曲线,是几次方法学突破推动的跳跃。
CRISPR、基因组测序与合成、光遗传学、mRNA疫苗、CAR-T疗法,每一次都提供了一种新的可编程、可预测地测量与介入生物系统的能力。
而AI的潜在价值,是把这类突破的产出率再推高一个量级。
Amodei的判断是:强大的AI至少能将关键发现的速度提升10倍,让人类在5到10年内走完未来50到100年的生物学路程。
他认为:如果科学家更聪明、更善于在海量已有知识中发现连接,像CRISPR这样「藏在眼皮底下几十年」的突破还有数百个等着被挖出来。
AlphaFold解决蛋白质折叠问题的成功,已经在一个狭窄领域里证明了这条路走得通。
如果过去一百年生物学进步靠的是几个聪明的人偶尔想出一个新方法,那AI时代的设想是,这个「想出新方法」的过程本身可以被自动化。
正如Amodei在文章中判断的那样:AI要能执行、指挥、改进生物学家做的几乎所有事。
这与STEM Fellow岗位说明中提到目标也是一致的:我们正朝着AI科学家的方向努力。一种具备长程推理能力和实验判断力、足以推动科学前沿的系统。
这个愿景虽然宏大,但Anthropic依然认识到了自己距离这一目标的差距。
就在Science Blog的创刊文章里,Anthropic引用了菲尔兹奖得主Timothy Gowers的话:
我们似乎进入了一个短暂但令人愉快的时代,AI大大加速了我们的研究,但AI仍然需要我们。
Anthropic自己也承认,虽然模型在科研工作流的某些环节上已经表现出超越人类的能力,但它们也会编造结果、过度迎合用户,在领域从业者看来很基础的问题上卡住。
从囤GPU变成押注科学家
Anthropic正在把「科学能力」变成一种系统性的竞争壁垒。
其中STEM Fellow直接把学科判断力编入模型迭代流程。
比如,让材料学家来告诉Claude怎么理解晶体结构,气候学家来教Claude怎么调用大气模型,生物学家来检验Claude的实验设计是否合理。
这些东西,靠堆GPU和刷benchmark是搞不出来的。
如果这条路被证明有效,那么AI科研赛道的竞争规则可能发生一个根本性的变化:
最终的胜利者将不再取决于谁的模型更大,而取决于谁身边站着更多真正懂科学的人。
而这种顶级专家资源,你只能用一种方式获得:把他们请到你身边,与他们共同工作,让他们相信这件事值得投入。
这是Anthropic的赌注。
但不止Anthropic,也不止科学家。OpenAI在招前华尔街交易员优化金融推理,Google DeepMind把哲学家请进对齐团队,各家都在意识到同一件事:
下一阶段的AI竞争,拼的不是谁的参数多,而是谁能把最懂行的人类大脑编进自己的飞轮。
AI公司抢人的战场,已经从计算机系蔓延到STEM,再到哲学、金融……未来还会更远。
参考资料:
https://x.com/AnthropicAI/status/2046362119755727256
https://www.anthropic.com/careers/jobs/4493001008
https://www.anthropic.com/research/introducing-anthropic-science
热门跟贴