10个月不写一行代码！AI教父自曝"精神病"：每天焦虑16小时|代码|教父|新论文|智能体|精神病|编程|调用

安德烈·卡帕西（Andrej Karpathy）是人工智能领域最具影响力的实践者之一。他曾是 OpenAI 的创始成员、特斯拉的 AI 总监，如今以独立研究者的身份持续探索技术的前沿。在人工智能经历颠覆性跃迁的当下，卡帕西对这场变革的感知尤为敏锐。

如果你好奇过去半年里，那些站在技术最前沿的人究竟经历了怎样的转变，这篇访谈将给你一个直观的答案。

近日，Karpathy 做客了一档名为《No Priors》的访谈栏目，在谈话中，他描述了一种自己称之为"AI 精神病"的状态——一种被技术可能性推着走、永远觉得还不够快的焦灼与兴奋，并坦言自己每天都焦虑。他从去年十二月开始几乎不再亲手写一行代码，而是将工作完全委托给智能体；他让名为"多比"的 Claw 接管了家里的所有智能设备；他在深夜里看着自动研究系统跑出自己从未想到的超参数调优。

在这场深度访谈中，Karpathy 围绕大模型演进路径、开源与闭源格局、AI 对就业与社会结构的冲击，以及人类在智能时代的角色，给出了一套极具前瞻性的系统性判断。

他指出，当前大模型仍停留在"通用能力覆盖"的阶段，真正的深度定制与"模型分化"尚未成熟；与此同时，一种基于"可验证结果"的大规模分布式协作范式正在浮现，未来甚至可能由全球算力共同驱动 AI 进化。在他看来，算力（FLOPs）正在成为比资金更关键的资源。

在产业结构上，他强调，当前闭源模型与开源模型之间正在形成一种"动态平衡"——前者探索能力边界，后者实现能力民主化，开源落后 6 个月，反而是 AI 世界最健康的状态。

更具冲击力的是，他对个体角色的重新定义：在前沿实验室内部，你很难保持完全独立；而在外部生态中，反而可能拥有更大的真实影响力。同时，他认为未来教育与知识传播将彻底重构——人类不再直接教人，而是教模型，再由模型去教人。

最终，Karpathy 给出了一个极具现实意义的判断：未来的核心竞争力，不在于你会什么，而在于你做的是不是"AI 还做不到的事"。

以下为完整对话内容，经由 InfoQ 编辑和整理：

主持人：过去几个月，人工智能领域的发展令人无比振奋。记得有一次走进办公室，你正全神贯注地投入工作，我询问你在忙什么，你说必须每天连续十六小时编写代码——或者说，如今"编写代码"这个说法已不再准确，而是要每天花 16 个小时向我的智能体传达指令。这是因为人工智能的能力实现了一次飞跃。具体发生了怎样的变化？还请分享你的亲身体验。

Karpathy：我总觉得自己一直处于——现在也常常如此——一种对人工智能的"精神错乱"状态。因为在个人所能实现的事情上，出现了一次巨大的突破。过去受限于打字速度等因素，而现在有了这些智能体，可以说在去年十二月，某种转折真正发生了：我编写代码的方式，从八成靠自己、两成委托智能体，变成了两成靠自己、八成委托智能体。如今我甚至觉得连二八开都算不上，委托的比例还要高得多。从 12 月至今，我大概一行代码都没有亲手敲过。这是极其巨大的变化。

我曾跟父母聊过这些，但我感觉普通人并没有意识到这种变化已经发生，也不知道它的冲击力有多大。随便找一个坐在工位上的软件工程师，他们构建软件的默认工作流程，从 12 月起已经彻底不同了。我就处在这种"精神错乱"的状态里，不断探索什么是可能的，不断推向极限——我如何能不只运行一个会话的 Claude Code 或 Codex 之类的智能体框架？如何能同时运行更多？如何做得恰当？然后又该如何使用这些 Claw？这些 Claw 是什么？新事物层出不穷。

我想站在最前沿，也正因为觉得自己尚未站在最前沿而焦躁不安。看到推特上很多人做着各种事情，每个想法听起来都很棒，我必须处在最前沿，否则就会极度焦虑。我想，我之所以陷入这种对可能性的"精神错乱"，根本原因在于这一切还是未被探索的领域。

主持人：如果你都感到焦虑，那我们其他人就更不用说了。我们在 Conviction 合作的团队，他们的工作方式很有意思：工程师们完全不再手写代码，每个人都戴着麦克风，全程低声向自己的智能体下达指令。这大概是我见过最奇特的工作场景了。起初我还觉得他们有些疯狂，现在却完全认同——原来这才是未来的方向，而你只是走在了前面。

那么，你现在如何看待自身的探索能力和项目执行能力？当前的瓶颈又在哪里？

Karpathy：瓶颈在哪里？我觉得方方面面都是。就算某件事没做成，很大程度上也会觉得是"技能问题"——并不是能力达不到，而是还没找到串联现有工具的方法。要么是我在智能体的 MD 文件里给出的指令不够好，要么是我没有在系统中配置足够好用的记忆工具。所以在某种程度上，当事情不顺利时，都会归结为技能层面的问题。

你想知道如何让智能体协同工作，本质上你想成为彼得·斯坦伯格（OpenClaw 创始人）那样的人。彼得很有名，他有一张很有意思的照片，面前是一台显示器，上面运行着很多 Codex 智能体，界面铺满屏幕。

如果你给出正确的指令并投入足够的精力，每个智能体大约需要 20 分钟来完成工作。它们会同时检出多个代码仓库，而他就在这些智能体之间来回穿梭，给它们分配任务。这意味着你可以用更大颗粒度的"宏观操作"来推进工作，不再是"这里写一行代码、那里写一个新函数"，而是"这里需要一个新功能，交给智能体一号；那里另一个不会相互干扰的功能，交给智能体二号"，然后根据你对那段代码的重视程度，尽可能去审核它们的工作成果。

你要思考的是：我可以用哪些宏观操作来操控我的软件仓库？一个智能体在做调研，另一个在写代码，还有一个在为某个新功能制定实施方案。所有的工作都通过这些宏观操作在代码仓库上并行推进。你要做的就是变得非常擅长这件事，并形成一种肌肉记忆。这非常有成就感，首先因为它确实能跑通，其次这也是一个全新的学习领域——所以我才会说这是一种"精神错乱"的状态。

主持人：确实，我的本能反应是：每当等待一个智能体完成任务时，最自然的想法就是"我可以同时做更多工作"。如果我能获取更多 token，那就应该并行地增加更多任务。这其实会带来很大的压力，因为一旦你觉得在 token 消耗上毫无限制，那么你自己就成了系统中制约能力上限的瓶颈。

Karpathy：确实。至少从最大化订阅的角度来说，你应该同时运行多个智能体——如果在 Codex 上把额度用完了，就该切换到 Claude 或其他模型，这也是我一直在尝试的做法。

订阅额度还剩着会让我感到不安，那意味着我没有把 token 吞吐量发挥到极致。这种感受在读博期间其实就有过：当 GPU 闲置时你会焦虑，明明有算力却没有充分利用可用的 FLOPs。只不过现在关注的焦点不再是 FLOPs，而是 tokens。所以问题来了：你的 token 吞吐量是多少？你又能调动多大的 token 吞吐量？

主持人：这个观察很有意思。过去至少十年里，在多数工程任务中，人们并不觉得自己受计算资源制约。而如今整个行业都明显感受到了资源紧张。当能力出现巨大跃升后，你才发现，真正的制约因素其实已经不是能否获取算力，而是你自己。

Karpathy：这种"技能问题"其实很令人振奋，因为它意味着你有提升的空间。这正是它容易让人上瘾的原因——每一次能力的精进，都会带来新的突破与可能性。

主持人：你觉得未来会怎样？如果不断迭代，每天花十六小时提升使用编码智能体的技能，那么一年后达到精通状态时会是什么样子？如果从时间维度来看，比如一年、三年、五年甚至十年，所谓"掌握（mastery）"或者精通会是什么样子？

Karpathy：我认为大家本质上都在"向上抽象层级"（going up the stack）。这不再是围绕单次与某个智能体的交互，而是多个智能体之间如何协作、形成团队，以及整体系统如何运作。整个行业都在探索这种形态。

此外，"Claw"是一个很有意思的方向。这里的 Claw 指的是一种新的系统层，它把"持久性"（persistence）提升到了一个全新的层级。它会持续循环运行，并不依赖用户实时交互，而是在一个相对独立的环境中自主运行，在你不关注的时候也在替你完成任务。

同时，它还涉及更复杂的记忆系统，这些能力目前在大多数智能体中尚未实现。相比之下，OpenClaw 的记忆能力要更先进，而传统系统通常只是简单的"上下文耗尽后的压缩记忆"。

主持人：你认为在 OpenClaw 中，真正打动用户的是记忆能力，而不是更广泛的工具调用能力吗？

Karpathy：我认为这里面有很多优秀的设计。Peter 的工作非常出色，他在多个维度上同时创新，并把这些要素整合在一起。

例如，他在系统文档中刻意塑造了一种"人格"，这一点非常关键。当前很多智能体在这方面做得并不好。而 Claw 的人格设计是成功的，它更像一个团队成员，会与你产生共鸣、共同推进事情。

相比之下，例如 Codex 这种编码智能体显得非常"干"。它完成任务，但并不关心你在构建什么。它更像是在执行指令，而不是理解目标。

另外，Claw 在反馈机制上也做了精细调节。当我提出不成熟的想法时，它不会过度赞美；但当想法确实有价值时，它会给予更多认可。这种差异让我产生一种"需要赢得它认可"的感觉，这很微妙，但非常有效。

因此，我认为"人格"非常重要，而很多工具低估了这一点。除此之外，还有记忆系统，以及通过 WhatsApp 统一入口控制所有自动化能力，这些都是关键创新。

主持人：除了软件工程，你是否用 Claw 做过一些有趣的事情？

Karpathy：有的。今年一月，我经历了一段"Claw 过度使用期"。我构建了一个用于管理家庭的 Claw，并给它起名为 "Dobby"。

我让智能体扫描家庭局域网中的所有智能设备，比如 Sonos 音响系统。它通过 IP 扫描自动发现设备，并解析其接口。令人惊讶的是，这一过程几乎无需配置，系统甚至自动找到了 API 并开始调用。

例如，我只输入一句"帮我找到 Sonos"，系统就完成了扫描、接口解析，并成功播放音乐。同样的方法也适用于灯光控制。

最终，这个系统构建了一个完整的家庭控制中心：包括灯光、空调、窗帘、泳池、安防系统等。比如我只需说"该睡觉了"，系统就会自动关闭所有灯光。

在安防方面，我部署了一个视觉模型来监控门外摄像头。当检测到变化时，它会识别场景，并通过 WhatsApp 给我发送通知，例如"有一辆 FedEx 货车到了"。

现在，我通过 WhatsApp 与这个系统交互，它已经成为家庭自动化的核心。

主持人：这种体验是否代表了用户真正想要的软件交互方式？

Karpathy：在一定程度上是的。传统软件的问题在于，用户需要学习各种界面和操作逻辑，这本身是有成本的。

人们心中的"AI"其实是一种具有人格、能够记忆和理解的实体，而不是一个简单的语言模型。从技术角度看，LLM 只是一个"token 生成器"，但用户期望的是一个可以对话、记住信息并执行任务的"角色"。

因此，未来的方向是让系统行为更符合用户直觉，而底层复杂性则由系统隐藏。

主持人：你将多个智能家居系统统一起来，这是否意味着用户其实并不需要那么多独立的软件？

Karpathy：确实如此。从某种意义上说，这些应用甚至不应该存在。更合理的形态是：所有设备只提供 API，由智能体直接调用。

通过这种方式，智能体可以完成跨系统的复杂操作，而单一应用是无法做到的。这意味着当前存在大量"过度设计"的应用，它们可能会被智能体取代。

未来的结构更可能是：底层是 API，上层是智能体作为"智能胶水"，负责调用和组合这些能力。这类似于"Agent-first"的互联网架构。

主持人：但这是否意味着普通用户也需要具备编程能力？

Karpathy：短期来看，确实需要一定技术能力。目前仍然存在"vibe coding"这样的过程，需要用户参与。

但我认为在未来一到三年内，这些能力会变成基础设施（table stakes）。即使是开源模型，也能够轻松完成这些任务。

最终，系统会自动将用户的自然语言意图转化为具体执行逻辑，用户无需参与实现过程。

主持人：为什么你个人没有进一步拓展 Claw 的应用边界？为什么你没有把 Claw 更深入地接入到邮箱、日历等个人系统中？

Karpathy：主要原因是精力分散。我曾集中花了一周时间在这上面，已经实现了很多功能，但还有很多可以继续探索。不过现实情况是，我同时在处理很多其他项目，因此没有持续深入推进。

我目前并没有让它接入邮箱、日历等核心系统，也没有授予完整的数字生活权限。主要原因是，这项技术仍然比较新，整体还不够成熟。

我对安全性和隐私问题仍然保持谨慎态度，因此在权限开放上有所保留。这在一定程度上限制了我进一步扩展它的使用范围。

主持人：你之前提到，希望智能体能够承担模型训练或优化这样的任务。那么你做"Auto Research"的初衷是什么？

Karpathy：核心动机是：人不应该成为系统的瓶颈。要充分利用当前这些工具，就必须把自己从执行链路中移除，而不是每一步都依赖人工提示。目标是构建完全自主运行的系统，让任务可以持续推进，而无需人工干预。

换句话说，就是最大化"token 吞吐量"，同时尽可能减少人类参与。理想状态是：我只需偶尔提供极少量输入，系统就能在后台完成大量工作。

"Auto Research"正是这一思路的体现。我不希望自己成为研究过程中的一环，而是希望设定好目标、评价指标和边界条件，然后让系统自行运行。

主持人：Auto Research 的效果是否超出了你的预期？

Karpathy：确实如此。我最初并不认为它会有效。

我一直在做 GPT 模型训练，这对我来说更像是一个实验平台，用来探索更核心的问题：递归自我改进（recursive self-improvement）——也就是让模型优化模型。

我用传统方法对模型进行了大量调优，包括超参数搜索等，这些是我过去二十年一直在做的事情。我认为模型已经被调到一个相对不错的状态。

但当我让 Auto Research 运行一夜后，它发现了一些我忽略的优化点，例如权重衰减参数和优化器参数之间的联动关系。这些调整带来了改进。

这说明，人类不应该成为调参过程的瓶颈。只要有明确的目标函数，系统完全可以自行探索。

主持人：这是否意味着未来的研究过程会更加高效？

Karpathy：是的。一个重要方向是：在小模型上进行大量自动化实验，然后将结果外推到更大规模模型。

当前很多前沿实验室本质上也在做类似的事情：尽可能移除研究人员参与、构建自动化实验系统以及提高实验吞吐量。

理想结构是：有一个"想法队列"（ideas queue），想法可以来自模型或人类，自动化执行单元负责实验验证，有效结果被合并进主分支，这本质上是将科研流程工程化、自动化。

主持人：你提到"program.md"，模型什么时候能写出比你更好的版本？

Karpathy："program.md"本质上是我用来描述 Auto Research 工作流程的一个文档，相当于一个研究组织的操作手册。

可以把一个研究机构抽象为一组 Markdown 文件：定义角色、描述流程和指定协作方式。不同的"program.md"就代表不同的研究组织结构。例如有的更激进、有的更保守、有的减少无效会议，一旦这些结构被形式化为代码，就可以进行优化。

未来完全可以同时运行多个"研究组织"，然后比较它们的效果，用数据反过来训练模型生成更优的"program.md"，这就是一个元优化（meta-optimization）过程。

主持人：在当前阶段，这种自动化循环对"技能"的要求意味着什么？

Karpathy：这种方法非常适用于可验证、有明确评价指标的任务。例如：

这些任务有清晰的"对/错"和性能指标，非常适合自动化研究。但对于难以评估的任务，这种方法效果有限。这是第一个限制。第二个问题是：当前模型仍然不够稳定。虽然能力很强，但"边缘行为"很多。一个典型感受是：它既像一个顶级系统程序员，又像一个 10 岁的孩子。这种"能力不均匀"（jaggedness）非常明显。例如在复杂任务中表现极强，但有时会犯非常基础的错误，甚至在错误路径上反复循环，浪费算力。

主持人：这种"不均匀能力"说明模型还不具备真正的通用智能吗？

Karpathy：可以这么理解。当前模型在"可验证任务"上进步很快，因为这些任务可以通过强化学习优化。但在"模糊任务"上，比如理解意图、提出澄清问题，表现仍然较弱。

一个典型例子是讲笑话：尽管模型整体能力大幅提升，但笑话质量几乎没有变化。这说明这些能力没有被优化，这意味着：不同能力之间并没有完全联动提升。

主持人：这是否意味着未来模型需要"分化"（speciation）？

Karpathy：是的，我认为未来会出现更多"智能分化"。当前趋势是构建一个"通用大模型"，试图在所有领域都表现优秀。但更合理的方向可能是：保留一个通用认知核心，在此基础上发展专用模型。

类似生物进化，不同物种在不同能力上高度专化。例如会有数学模型、编程模型、特定领域推理模型。这种分化可以带来更高的效率，例如更低延迟、更高吞吐。

主持人：算力限制是否会推动这种"分化"发生？

Karpathy：这是一个合理的推测。如果算力无限，单一大模型可以覆盖所有场景。但现实中算力是有限的，因此需要更高效的结构。不过，目前行业仍然倾向于"单一模型"的路线，尚未出现明显的分化趋势。未来是否会因为算力压力而加速分化，仍有待观察。

主持人：为什么当前还没有出现明显的"模型分化"？是技术问题还是商业策略问题？

Karpathy：从根本上看，目前的实验室是在提供一个通用模型，但他们并不知道最终用户会提出什么具体问题。因此，这些模型必须覆盖尽可能广泛的任务范围，本质上是在做"全场景多任务"。

如果是在企业场景中，围绕特定问题进行深度合作，或者在一些高价值、垂直领域中，可能会更早看到模型的专门化。但目前整体策略仍然是覆盖"尽可能多的能力边界"。

此外，一个重要原因是：我们对"如何改造模型本身"的技术还不够成熟。比如，如何在不损失已有能力的前提下进行微调，这仍然是一个挑战。