Andrej Karpathy 宣布加入 Anthropic。
这位 OpenAI 创始团队成员、前 Tesla AI 总监、Eureka Labs 创始人,刚刚宣布加入 Anthropic,重新回到前沿大模型研发一线。根据外媒报道,Karpathy 将加入 Anthropic 的 pre-training team,并参与组建一个用 Claude 加速预训练研究的团队。
这条消息公布后,也引发了AI 圈的讨论。Karpathy 的履历可以说极具辨识度,他同时拥有研究者、工程负责人、教育者和开发者社区意见领袖这几重身份。参与过 OpenAI 早期建设,也在 Tesla 负责过大规模 AI 工程系统;离开大公司后,他又通过课程、视频和 Eureka Labs 持续影响着大量开发者。
更重要的是,在正式加入 Anthropic 之前,他已经是 Claude Code 最有影响力的外部使用者之一。今年 1 月,Karpathy 曾公开表示,自己的编程工作流发生了 20 年来最大的变化:过去主要靠自己手写代码,现在大量工作由 Claude Code 这样的 AI agent 驱动。
这也让他的选择多了一层含义。Karpathy 不是突然转向 Anthropic,而是在深度使用 Claude 之后,选择进入这家公司,把自己的下一段时间放回模型研发现场。
回到模型研发一线
在海外社交媒体上,Karpathy 表示未来几年,前沿大模型的发展会非常关键,他想回到研发现场。
当然,过去两年Karpathy 并没有离开 AI。他创办 Eureka Labs,继续做 AI 教育,也持续输出大模型、编程工具和开发者工作流相关内容。以他的影响力,继续做教育和创业,是一条很自然的路径。
但他最终回到了模型公司。这说明在他的判断里,AI 最核心的问题仍然发生在模型层:数据如何组织,训练如何稳定,推理能力如何继续提升,代码和 agent 能力还能走到哪里。这些问题还没有到可以旁观的阶段。
Karpathy 适合回到这个位置,也和他的经历有关。他在 Tesla 做过真实世界 AI 系统,知道模型进入工程现场后会遇到多少复杂问题;他长期做教育,也知道一项技术如何被开发者理解、使用和误用。研究、工程、教育几条线交叉在一起,让他不只是一个模型研究者,也更像一个能把模型能力和真实使用场景连接起来的人。
为什么是 Anthropic?
如果只看今天这条消息,会觉得有点突然。但如果看他今年以来的公开表达,就没那么突然。
今年 1 月,Karpathy 说自己的编程工作流发生了 20 年来最大的变化。以前大部分代码自己写,现在大量工作交给 Claude Code 这样的 AI agent 来做。
这意味着 Claude Code 已经进入了他的工作流。当前,很多人用 AI 编程,还是停留在补全、问答、生成一段代码。而Karpathy 的用法已经更接近日常协作,他会以项目的方式,预先给到目标和限制,再整理上下文,最后检查agent执行后的结果。
随后,开发者 Forrest Chang 将 Karpathy 的 AI 编程原则整理成 CLAUDE.md,在 GitHub 上快速传播。这个项目走红,本身也反映出开发者工作方式正在变化。过去项目里有 README,给人看;有 CONTRIBUTING,给团队看;有 lint 和 test,给代码质量系统看。现在多了 CLAUDE.md,开发者开始给 AI agent 写工作说明,告诉它项目习惯、边界和处理不确定问题的方式。
这也是 Anthropic 目前最有优势的地方之一。Claude 不只是在模型榜单上竞争,它已经通过 Claude Code 进入一部分开发者的日常工作流。Karpathy 加入之前,已经用自己的工作方式为 Claude 做过一次高质量背书。加入之后,他知道 Claude 哪里顺手,哪里会出错,哪里让开发者放心,哪里还需要提升。
Anthropic 的人才吸引力正在变强
Karpathy 也不是第一个从 OpenAI 体系转向 Anthropic 的重要人物。
Jan Leike 去了 Anthropic,John Schulman 也去了 Anthropic,现在又来了 Karpathy。这几个人的背景不一样,但都属于 AI 圈分量很重的人。
Anthropic 给外界的印象更垂直,它专注于提供更好的模型能力。安全、对齐和可解释性一直是它的主线,Claude 在写作、代码、长上下文和开发者体验上的口碑也在过去一年快速提升。Claude Code 出现后,Anthropic 和开发者之间的连接变得更具体。
对研究者来说,一个足够聚焦、产品正在变强、问题又足够大的组织,本身就有吸引力。尤其是对 Karpathy 这样既懂模型又懂工程的人来说,Anthropic 提供的并不只是一个研究岗位,也是一条把模型能力推进真实研发流程的路径。
当然,单个顶级研究者的加入,不会立刻改变模型排名。AI 公司竞争仍然取决于算力、数据、训练系统、产品分发、收入和组织执行。但人才流向始终是一个重要信号。越是选择多的人,下一站越能反映他对行业重心的判断。
用 Claude 加速研发
根据外媒的报道,Karpathy 将加入 Anthropic 的 pre-training team,并帮助组建一个用 Claude 加速预训练研究的团队。预训练是模型公司的核心地带。外界通常看到的是模型发布、榜单成绩、API 和产品演示,但模型能力到底如何增长,很大程度上取决于预训练阶段的工作:数据配比、训练稳定性、架构调整、评估设计、失败结果分析,每一项都非常重。
预训练是模型公司的深水区。外面的人通常看到的是模型发布、榜单、API、产品演示,但模型能力到底怎么长出来,很多工作都在预训练阶段。数据怎么配,训练怎么稳,架构怎么调,评估怎么做,失败结果怎么解释,这些都是硬活。
Karpathy 要做的事情,大概就是把 Claude 放进这套研发流程里。
比如研究员提出一个训练假设,Claude 可以协助写实验代码、修改配置、补评估脚本、整理日志。实验结果不理想时,它可以帮助归类失败样本,找出可能的问题。下一轮实验开始前,它也可以把前几轮记录整理成更容易阅读和复盘的材料。
这些都是研发中的日常工作,但它们决定了研究循环的速度。AI 研发消耗时间的地方,往往不只在灵感本身,而在灵感变成实验、实验变成结果、结果变成下一轮判断的过程。每个环节快一点,长期差距就会被拉开。
Karpathy 的价值,也正在这里。他懂模型训练,懂工程系统,又是 AI 编程工具的重度用户。他知道哪些任务适合交给 agent,哪些地方必须保留人工审查,哪些自动化看起来顺手却可能埋下风险。对 Anthropic 来说,这样的人选很适合把 Claude 从开发者工具进一步带进研究系统。
当然,这件事对普通开发者也有参考意义。AI 编程不会长期停留在“帮你少写几行代码”。工程师的工作会越来越像管理一个小型协作系统:拆任务、写边界、检查结果、把 agent 产出的东西接入真实项目。代码能力仍然重要,但组织 AI 干活的能力会变得越来越重要。
Karpathy 加入 Anthropic,当然不能说明 Anthropic 已经赢了,也不能说明 Claude 从此就会压过所有模型。AI 公司之间的竞争,最后还是要落到模型能力、产品体验、算力、分发和组织执行上。
但这件事值得被记住的地方在于,Karpathy 不是在旁边评价 Claude,而是把自己的下一段时间投了进去。一个长期写代码、做研究、带工程团队、又懂教育的人,选择去 Anthropic 做预训练研究,还要把 Claude 用到模型研发流程里,这个动作本身就很有分量。
对开发者来说,这条新闻也不是远处的行业八卦。Claude Code、CLAUDE.md、agentic coding 这些东西,已经在改变一部分人的工作方式。今天它们先出现在 Karpathy 这样的重度用户身上,明天就可能变成更多工程团队的基本配置。
所以这件事最值得看的,不只是 Karpathy 去了哪家公司,而是他把自己的判断押在了哪里:前沿模型还会继续往前冲,AI agent 会进入越来越核心的研发流程,而 Anthropic,至少现在,正在成为这条路上越来越重要的玩家。
热门跟贴