Anthropic 招 STEM 博士，给 Claude 挑刺|anthropic|claude|science|stem|博士|科学|翻译

REPORT

Anthropic 启动了 STEM Fellows Program，向科学和工程领域的专家招人，三个月合同，跟研究团队一起做具体项目

Anthropic 官推

群里有朋友看完评论区丢了一句：下半年 AI4S + 榨白领的最后一滴

以下是完整信息

招什么人，做什么

地点 SF 办公室 in-person，周薪约 $3800，6 月 15 日开工，9 月 15 日结束，合同期三个月，个别可延。申请截止 5 月 15 日，6 月 1 日出结果

Greenhouse 上的职位描述

要求是 STEM 领域在读或已完成的 PhD，也接受同等研究经验。没有 ML 背景可以，官方说 「scientific judgment 和快速学习」 比这更重要

在意向候选人中，则这么说道

familiar with using Claude and Claude Code as part of their day-to-day workflow

翻译成中文，就是：希望他们平日里的工作，就高频在使用 Claude 和 Claude Code

核心工作，官方拆成三件事

第一条是

Designing rigorous, hard-to-game evaluations that measure whether models can plan experiments, interpret data, and reason about mechanisms in your field, and systematically finding where they're confidently wrong.

翻译过来，就是设计一套模型没法背下答案的评估，测它在你领域里会不会规划实验、解读数据、推理机制，把它答得很自信但其实答错的地方，系统揪出来

第二条是

Identifying or creating data and techniques that target capability gaps.

找或者造数据和方法，填 Claude 在你领域里的能力盲区

第三条是

Applying Claude to open problems in your domain, by using various test-time compute strategies and integrating relevant scientific tools/software.

把 Claude 用在你领域里的 open problems 上，配合各种 test-time compute 策略，把相关的科研工具和软件集成进来

例子是官方给的两个。一位材料科学家发现，Claude 在 phase stability（相稳定性）这个问题上推理不过关，就建一条 pipeline 批量产出 property prediction（物性预测）任务填这个坑。一位气候科学家把大气建模工具集成进来，搭出一个能把 Claude 推出错的环境

申请阶段的四道问答题

申请阶段要答四道问答题。前三题问你的 STEM 领域专长、ML/AI 经验、Claude Code 使用情况。第四题是这么问的

Propose one or two concrete ideas for evaluating, improving, or applying Claude in your field that you think are promising and would be excited about.

翻译过来，就是请你提一两个你觉得有前景的、愿意动手做的、在你领域里评估、改进或者应用 Claude 的具体想法

从投简历那一刻起，就在交付领域内的 Claude 应用方案

放回 AI4S 图谱

Anthropic 在 AI for Science 这条线上已经铺了四年

四年，四层，这次补的是人

2024 年末开 AI for Science Program，给学术机构免费 API credits，生命科学优先

2025 年 10 月发 Claude for Life Sciences，把 Claude 集成进 Benchling、PubMed、10x Genomics，从 literature review、statistical analysis 一路覆盖到 clinical protocol、regulatory submission。Opus 4.5 在 Protocol QA 这个 benchmark 上拿到 0.83 分，高于 0.79 的人类 baseline

2026 年 3 月开 Science Blog，专门发内部科学家的工作和外部合作。首发一篇是物理学家 Matthew Schwartz 写的「Vibe physics: The AI grad student」，讲他监督 Claude 做一个理论物理计算的过程

现在，是在补人

前三层给的是算力、工具、内容，都能采购或者产品化。第四层给的是 tacit knowledge，领域专家脑子里的判断力

知道什么算好 benchmark，知道模型哪个答案 confidently wrong，知道什么数据能真正撬动能力。这些在论文里找不到，在 paper pipeline 里也看不见

前三层能采购，第四层只能请人

三个值得琢磨的细节一，要求已经是 Claude 日常用户

这条筛掉了「想来试试 AI」的科学家，留下已经在用 Claude 做事的那批。前者是新人，后者已经完成了 AI 渗透，知道模型能做什么，也知道模型在哪里不行。后者交付更快，学习曲线更短

二，申请阶段就要交具体想法

第四道问答题让你 propose 在你领域内 evaluating / improving / applying Claude 的 concrete ideas。Anthropic 收到这些答卷，实际上是拿到一份众包的 AI4S 领域地图，来自全世界的 STEM PhD。哪怕最后没被录取，你的想法也已经进了他们视野

三，目标是找 confidently wrong

第一条工作描述里的关键词是 confidently wrong，模型答得很自信但答错了的地方

这类错误通过 benchmark 很难发现，需要领域专家站在现场看。找出来之后，就是下一版模型要消除的

找问题的人是博士，改模型的也是

顺便一句

类似的事儿 OpenAI 也在干。他们的 Residency 六个月，月薪 $18300，招数学、物理、神经科学那边的人

不过方向是反的。OpenAI 想把领域人才转成 AI 研究员，Anthropic 是把领域人才脑子里的知识直接搬进 Claude

以及

Anthropic 自己在 Science Blog 里提过一组问题

当 AI 在科研工作流里越来越中心，research apprenticeship 应该长什么样。当发表文献越来越多由 AI 参与生产，怎么维持对 literature 的信任。当科研的瓶颈从执行变成管理，做一个科学家还意味着什么

他们说有些问题现在还早，AI 的科研能力还在 beta

话是这么说，每周 3800 美元的合同已经发到 STEM PhD 手里