打开网易新闻 查看精彩图片

安德烈·卡帕西(Andrej Karpathy)是人工智能领域最具影响力的实践者之一。他曾是 OpenAI 的创始成员、特斯拉的 AI 总监,如今以独立研究者的身份持续探索技术的前沿。在人工智能经历颠覆性跃迁的当下,卡帕西对这场变革的感知尤为敏锐。

如果你好奇过去半年里,那些站在技术最前沿的人究竟经历了怎样的转变,这篇访谈将给你一个直观的答案。

近日,Karpathy 做客了一档名为《No Priors》的访谈栏目,在谈话中,他描述了一种自己称之为"AI 精神病"的状态——一种被技术可能性推着走、永远觉得还不够快的焦灼与兴奋,并坦言自己每天都焦虑。他从去年十二月开始几乎不再亲手写一行代码,而是将工作完全委托给智能体;他让名为"多比"的 Claw 接管了家里的所有智能设备;他在深夜里看着自动研究系统跑出自己从未想到的超参数调优。

在这场深度访谈中,Karpathy 围绕大模型演进路径、开源与闭源格局、AI 对就业与社会结构的冲击,以及人类在智能时代的角色,给出了一套极具前瞻性的系统性判断。

他指出,当前大模型仍停留在"通用能力覆盖"的阶段,真正的深度定制与"模型分化"尚未成熟;与此同时,一种基于"可验证结果"的大规模分布式协作范式正在浮现,未来甚至可能由全球算力共同驱动 AI 进化。在他看来,算力(FLOPs)正在成为比资金更关键的资源。

在产业结构上,他强调,当前闭源模型与开源模型之间正在形成一种"动态平衡"——前者探索能力边界,后者实现能力民主化,开源落后 6 个月,反而是 AI 世界最健康的状态。

更具冲击力的是,他对个体角色的重新定义:在前沿实验室内部,你很难保持完全独立;而在外部生态中,反而可能拥有更大的真实影响力。同时,他认为未来教育与知识传播将彻底重构——人类不再直接教人,而是教模型,再由模型去教人。

最终,Karpathy 给出了一个极具现实意义的判断:未来的核心竞争力,不在于你会什么,而在于你做的是不是"AI 还做不到的事"。

以下为完整对话内容,经由 InfoQ 编辑和整理:

主持人:过去几个月,人工智能领域的发展令人无比振奋。记得有一次走进办公室,你正全神贯注地投入工作,我询问你在忙什么,你说必须每天连续十六小时编写代码——或者说,如今"编写代码"这个说法已不再准确,而是要每天花 16 个小时向我的智能体传达指令。这是因为人工智能的能力实现了一次飞跃。具体发生了怎样的变化?还请分享你的亲身体验。

Karpathy:我总觉得自己一直处于——现在也常常如此——一种对人工智能的"精神错乱"状态。因为在个人所能实现的事情上,出现了一次巨大的突破。过去受限于打字速度等因素,而现在有了这些智能体,可以说在去年十二月,某种转折真正发生了:我编写代码的方式,从八成靠自己、两成委托智能体,变成了两成靠自己、八成委托智能体。如今我甚至觉得连二八开都算不上,委托的比例还要高得多。从 12 月至今,我大概一行代码都没有亲手敲过。这是极其巨大的变化。

我曾跟父母聊过这些,但我感觉普通人并没有意识到这种变化已经发生,也不知道它的冲击力有多大。随便找一个坐在工位上的软件工程师,他们构建软件的默认工作流程,从 12 月起已经彻底不同了。我就处在这种"精神错乱"的状态里,不断探索什么是可能的,不断推向极限——我如何能不只运行一个会话的 Claude Code 或 Codex 之类的智能体框架?如何能同时运行更多?如何做得恰当?然后又该如何使用这些 Claw?这些 Claw 是什么?新事物层出不穷。

我想站在最前沿,也正因为觉得自己尚未站在最前沿而焦躁不安。看到推特上很多人做着各种事情,每个想法听起来都很棒,我必须处在最前沿,否则就会极度焦虑。我想,我之所以陷入这种对可能性的"精神错乱",根本原因在于这一切还是未被探索的领域。

主持人:如果你都感到焦虑,那我们其他人就更不用说了。我们在 Conviction 合作的团队,他们的工作方式很有意思:工程师们完全不再手写代码,每个人都戴着麦克风,全程低声向自己的智能体下达指令。这大概是我见过最奇特的工作场景了。起初我还觉得他们有些疯狂,现在却完全认同——原来这才是未来的方向,而你只是走在了前面。

那么,你现在如何看待自身的探索能力和项目执行能力?当前的瓶颈又在哪里?

Karpathy:瓶颈在哪里?我觉得方方面面都是。就算某件事没做成,很大程度上也会觉得是"技能问题"——并不是能力达不到,而是还没找到串联现有工具的方法。要么是我在智能体的 MD 文件里给出的指令不够好,要么是我没有在系统中配置足够好用的记忆工具。所以在某种程度上,当事情不顺利时,都会归结为技能层面的问题。

你想知道如何让智能体协同工作,本质上你想成为彼得·斯坦伯格(OpenClaw 创始人)那样的人。彼得很有名,他有一张很有意思的照片,面前是一台显示器,上面运行着很多 Codex 智能体,界面铺满屏幕。

如果你给出正确的指令并投入足够的精力,每个智能体大约需要 20 分钟来完成工作。它们会同时检出多个代码仓库,而他就在这些智能体之间来回穿梭,给它们分配任务。这意味着你可以用更大颗粒度的"宏观操作"来推进工作,不再是"这里写一行代码、那里写一个新函数",而是"这里需要一个新功能,交给智能体一号;那里另一个不会相互干扰的功能,交给智能体二号",然后根据你对那段代码的重视程度,尽可能去审核它们的工作成果。

你要思考的是:我可以用哪些宏观操作来操控我的软件仓库?一个智能体在做调研,另一个在写代码,还有一个在为某个新功能制定实施方案。所有的工作都通过这些宏观操作在代码仓库上并行推进。你要做的就是变得非常擅长这件事,并形成一种肌肉记忆。这非常有成就感,首先因为它确实能跑通,其次这也是一个全新的学习领域——所以我才会说这是一种"精神错乱"的状态。

主持人:确实,我的本能反应是:每当等待一个智能体完成任务时,最自然的想法就是"我可以同时做更多工作"。如果我能获取更多 token,那就应该并行地增加更多任务。这其实会带来很大的压力,因为一旦你觉得在 token 消耗上毫无限制,那么你自己就成了系统中制约能力上限的瓶颈。

Karpathy:确实。至少从最大化订阅的角度来说,你应该同时运行多个智能体——如果在 Codex 上把额度用完了,就该切换到 Claude 或其他模型,这也是我一直在尝试的做法。

订阅额度还剩着会让我感到不安,那意味着我没有把 token 吞吐量发挥到极致。这种感受在读博期间其实就有过:当 GPU 闲置时你会焦虑,明明有算力却没有充分利用可用的 FLOPs。只不过现在关注的焦点不再是 FLOPs,而是 tokens。所以问题来了:你的 token 吞吐量是多少?你又能调动多大的 token 吞吐量?

主持人:这个观察很有意思。过去至少十年里,在多数工程任务中,人们并不觉得自己受计算资源制约。而如今整个行业都明显感受到了资源紧张。当能力出现巨大跃升后,你才发现,真正的制约因素其实已经不是能否获取算力,而是你自己。

Karpathy:这种"技能问题"其实很令人振奋,因为它意味着你有提升的空间。这正是它容易让人上瘾的原因——每一次能力的精进,都会带来新的突破与可能性。

主持人:你觉得未来会怎样?如果不断迭代,每天花十六小时提升使用编码智能体的技能,那么一年后达到精通状态时会是什么样子?如果从时间维度来看,比如一年、三年、五年甚至十年,所谓"掌握(mastery)"或者精通会是什么样子?

Karpathy:我认为大家本质上都在"向上抽象层级"(going up the stack)。这不再是围绕单次与某个智能体的交互,而是多个智能体之间如何协作、形成团队,以及整体系统如何运作。整个行业都在探索这种形态。

此外,"Claw"是一个很有意思的方向。这里的 Claw 指的是一种新的系统层,它把"持久性"(persistence)提升到了一个全新的层级。它会持续循环运行,并不依赖用户实时交互,而是在一个相对独立的环境中自主运行,在你不关注的时候也在替你完成任务。

同时,它还涉及更复杂的记忆系统,这些能力目前在大多数智能体中尚未实现。相比之下,OpenClaw 的记忆能力要更先进,而传统系统通常只是简单的"上下文耗尽后的压缩记忆"。

主持人:你认为在 OpenClaw 中,真正打动用户的是记忆能力,而不是更广泛的工具调用能力吗?

Karpathy:我认为这里面有很多优秀的设计。Peter 的工作非常出色,他在多个维度上同时创新,并把这些要素整合在一起。

例如,他在系统文档中刻意塑造了一种"人格",这一点非常关键。当前很多智能体在这方面做得并不好。而 Claw 的人格设计是成功的,它更像一个团队成员,会与你产生共鸣、共同推进事情。

相比之下,例如 Codex 这种编码智能体显得非常"干"。它完成任务,但并不关心你在构建什么。它更像是在执行指令,而不是理解目标。

另外,Claw 在反馈机制上也做了精细调节。当我提出不成熟的想法时,它不会过度赞美;但当想法确实有价值时,它会给予更多认可。这种差异让我产生一种"需要赢得它认可"的感觉,这很微妙,但非常有效。

因此,我认为"人格"非常重要,而很多工具低估了这一点。除此之外,还有记忆系统,以及通过 WhatsApp 统一入口控制所有自动化能力,这些都是关键创新。

主持人:除了软件工程,你是否用 Claw 做过一些有趣的事情?

Karpathy:有的。今年一月,我经历了一段"Claw 过度使用期"。我构建了一个用于管理家庭的 Claw,并给它起名为 "Dobby"。

我让智能体扫描家庭局域网中的所有智能设备,比如 Sonos 音响系统。它通过 IP 扫描自动发现设备,并解析其接口。令人惊讶的是,这一过程几乎无需配置,系统甚至自动找到了 API 并开始调用

例如,我只输入一句"帮我找到 Sonos",系统就完成了扫描、接口解析,并成功播放音乐。同样的方法也适用于灯光控制。

最终,这个系统构建了一个完整的家庭控制中心:包括灯光、空调、窗帘、泳池、安防系统等。比如我只需说"该睡觉了",系统就会自动关闭所有灯光。

在安防方面,我部署了一个视觉模型来监控门外摄像头。当检测到变化时,它会识别场景,并通过 WhatsApp 给我发送通知,例如"有一辆 FedEx 货车到了"。

现在,我通过 WhatsApp 与这个系统交互,它已经成为家庭自动化的核心。

主持人:这种体验是否代表了用户真正想要的软件交互方式?

Karpathy:在一定程度上是的。传统软件的问题在于,用户需要学习各种界面和操作逻辑,这本身是有成本的。

人们心中的"AI"其实是一种具有人格、能够记忆和理解的实体,而不是一个简单的语言模型。从技术角度看,LLM 只是一个"token 生成器",但用户期望的是一个可以对话、记住信息并执行任务的"角色"。

因此,未来的方向是让系统行为更符合用户直觉,而底层复杂性则由系统隐藏。

主持人:你将多个智能家居系统统一起来,这是否意味着用户其实并不需要那么多独立的软件?

Karpathy:确实如此。从某种意义上说,这些应用甚至不应该存在。更合理的形态是:所有设备只提供 API,由智能体直接调用。

通过这种方式,智能体可以完成跨系统的复杂操作,而单一应用是无法做到的。这意味着当前存在大量"过度设计"的应用,它们可能会被智能体取代。

未来的结构更可能是:底层是 API,上层是智能体作为"智能胶水",负责调用和组合这些能力。这类似于"Agent-first"的互联网架构。

主持人:但这是否意味着普通用户也需要具备编程能力?

Karpathy:短期来看,确实需要一定技术能力。目前仍然存在"vibe coding"这样的过程,需要用户参与。

但我认为在未来一到三年内,这些能力会变成基础设施(table stakes)。即使是开源模型,也能够轻松完成这些任务。

最终,系统会自动将用户的自然语言意图转化为具体执行逻辑,用户无需参与实现过程。

主持人:为什么你个人没有进一步拓展 Claw 的应用边界?为什么你没有把 Claw 更深入地接入到邮箱、日历等个人系统中?

Karpathy:主要原因是精力分散。我曾集中花了一周时间在这上面,已经实现了很多功能,但还有很多可以继续探索。不过现实情况是,我同时在处理很多其他项目,因此没有持续深入推进。

我目前并没有让它接入邮箱、日历等核心系统,也没有授予完整的数字生活权限。主要原因是,这项技术仍然比较新,整体还不够成熟。

我对安全性和隐私问题仍然保持谨慎态度,因此在权限开放上有所保留。这在一定程度上限制了我进一步扩展它的使用范围。

主持人:你之前提到,希望智能体能够承担模型训练或优化这样的任务。那么你做"Auto Research"的初衷是什么?

Karpathy:核心动机是:人不应该成为系统的瓶颈。要充分利用当前这些工具,就必须把自己从执行链路中移除,而不是每一步都依赖人工提示。目标是构建完全自主运行的系统,让任务可以持续推进,而无需人工干预。

换句话说,就是最大化"token 吞吐量",同时尽可能减少人类参与。理想状态是:我只需偶尔提供极少量输入,系统就能在后台完成大量工作。

"Auto Research"正是这一思路的体现。我不希望自己成为研究过程中的一环,而是希望设定好目标、评价指标和边界条件,然后让系统自行运行。

主持人:Auto Research 的效果是否超出了你的预期?

Karpathy:确实如此。我最初并不认为它会有效。

我一直在做 GPT 模型训练,这对我来说更像是一个实验平台,用来探索更核心的问题:递归自我改进(recursive self-improvement)——也就是让模型优化模型。

我用传统方法对模型进行了大量调优,包括超参数搜索等,这些是我过去二十年一直在做的事情。我认为模型已经被调到一个相对不错的状态。

但当我让 Auto Research 运行一夜后,它发现了一些我忽略的优化点,例如权重衰减参数和优化器参数之间的联动关系。这些调整带来了改进。

这说明,人类不应该成为调参过程的瓶颈。只要有明确的目标函数,系统完全可以自行探索。

主持人:这是否意味着未来的研究过程会更加高效?

Karpathy:是的。一个重要方向是:在小模型上进行大量自动化实验,然后将结果外推到更大规模模型。

当前很多前沿实验室本质上也在做类似的事情:尽可能移除研究人员参与、构建自动化实验系统以及提高实验吞吐量。

理想结构是:有一个"想法队列"(ideas queue),想法可以来自模型或人类,自动化执行单元负责实验验证,有效结果被合并进主分支,这本质上是将科研流程工程化、自动化。

主持人:你提到"program.md",模型什么时候能写出比你更好的版本?

Karpathy:"program.md"本质上是我用来描述 Auto Research 工作流程的一个文档,相当于一个研究组织的操作手册。

可以把一个研究机构抽象为一组 Markdown 文件:定义角色、描述流程和指定协作方式。不同的"program.md"就代表不同的研究组织结构。例如有的更激进、有的更保守、有的减少无效会议,一旦这些结构被形式化为代码,就可以进行优化。

未来完全可以同时运行多个"研究组织",然后比较它们的效果,用数据反过来训练模型生成更优的"program.md",这就是一个元优化(meta-optimization)过程。

主持人:在当前阶段,这种自动化循环对"技能"的要求意味着什么?

Karpathy:这种方法非常适用于可验证、有明确评价指标的任务。例如:

这些任务有清晰的"对/错"和性能指标,非常适合自动化研究。但对于难以评估的任务,这种方法效果有限。这是第一个限制。第二个问题是:当前模型仍然不够稳定。虽然能力很强,但"边缘行为"很多。一个典型感受是:它既像一个顶级系统程序员,又像一个 10 岁的孩子。这种"能力不均匀"(jaggedness)非常明显。例如在复杂任务中表现极强,但有时会犯非常基础的错误,甚至在错误路径上反复循环,浪费算力。

主持人:这种"不均匀能力"说明模型还不具备真正的通用智能吗?

Karpathy:可以这么理解。当前模型在"可验证任务"上进步很快,因为这些任务可以通过强化学习优化。但在"模糊任务"上,比如理解意图、提出澄清问题,表现仍然较弱。

一个典型例子是讲笑话:尽管模型整体能力大幅提升,但笑话质量几乎没有变化。这说明这些能力没有被优化,这意味着:不同能力之间并没有完全联动提升。

主持人:这是否意味着未来模型需要"分化"(speciation)?

Karpathy:是的,我认为未来会出现更多"智能分化"。当前趋势是构建一个"通用大模型",试图在所有领域都表现优秀。但更合理的方向可能是:保留一个通用认知核心,在此基础上发展专用模型。

类似生物进化,不同物种在不同能力上高度专化。例如会有数学模型、编程模型、特定领域推理模型。这种分化可以带来更高的效率,例如更低延迟、更高吞吐。

主持人:算力限制是否会推动这种"分化"发生?

Karpathy:这是一个合理的推测。如果算力无限,单一大模型可以覆盖所有场景。但现实中算力是有限的,因此需要更高效的结构。不过,目前行业仍然倾向于"单一模型"的路线,尚未出现明显的分化趋势。未来是否会因为算力压力而加速分化,仍有待观察。

主持人:为什么当前还没有出现明显的"模型分化"?是技术问题还是商业策略问题?

Karpathy:从根本上看,目前的实验室是在提供一个通用模型,但他们并不知道最终用户会提出什么具体问题。因此,这些模型必须覆盖尽可能广泛的任务范围,本质上是在做"全场景多任务"。

如果是在企业场景中,围绕特定问题进行深度合作,或者在一些高价值、垂直领域中,可能会更早看到模型的专门化。但目前整体策略仍然是覆盖"尽可能多的能力边界"。

此外,一个重要原因是:我们对"如何改造模型本身"的技术还不够成熟。比如,如何在不损失已有能力的前提下进行微调,这仍然是一个挑战。