AI大神姚顺宇：AI这个行业真的不太需要脑子|agent|上下文|代码|姚顺宇|新论文|程序员

刚听完小珺这期对姚顺宇的访谈，信息密度直接拉满。

这位从清华物理转斯坦福高能物理、再从 Anthropic 跳到 Google DeepMind 的研究员，参与过 Claude 3.7 / 4.5 和 Gemini 3 系列开发。

他有一句话非常反常识：

AI 这个行业真的不太需要脑子，最重要的特质是靠谱。

这句话听起来像凡尔赛，但他后面展开之后，你会发现背后其实是一套非常朴素的判断：AI 行业已经从个人英雄主义，进入了系统工程时代。真正稀缺的不是聪明，而是把简单事情做细、做稳、做可靠的能力。

这期把最硬的反常识观点、行业内幕、模型真实差距，以及普通人能抄的实操，全拆一遍。

两个姚顺宇，以及一个物理半道出家的 AI 研究员

先说背景。

姚顺宇本科是清华物理，后来去了斯坦福做理论高能物理和量子信息，短暂做过伯克利 postdoc，之后直接进入 Anthropic，今年 9 月底跳到 Gemini。

有意思的是，AI 圈里还有另一个姚顺宇，也就是 OpenAI 系的姚顺宇。两人本科就认识，是好朋友，但路线完全不同。

他自嘲说：自己是半道出家，物理出身；另一个姚顺宇是纯 CS 科班。

但物理背景给他的最大帮助，不是某个具体工具，而是两件事：系统性思考，以及刨根问底。

这在 AI 里反而成了稀缺品。

因为现在很多问题表面上是模型问题、训练问题、工程问题，但底层往往是：你有没有能力把一个复杂系统拆开，一层一层排查，到底哪里出了问题。

AI 本质上很简单，不需要那么多“天才脑子”

姚顺宇反复强调一个观点：

AI 现在是简单的。

这句话非常反常识。因为外界看 AI，总觉得这是最聪明的人才能玩的领域，数学、代码、推理、强化学习、系统工程，每个词都吓人。

但他说，恰恰相反。

以前大家觉得最难的东西，比如写代码、数学、推理，反而是 AI 最容易干好的。原因很简单：这些任务有清晰的 reward signal，也就是反馈信号。

代码能不能跑，测试能不能过，数学答案对不对，推理有没有撞上验证集，这些都相对容易判断。

反而是人最擅长的东西，比如产品判断、复杂场景里的直觉、用户到底想要什么，这些更难训练。因为没有一个标准答案，也没有一个干净的反馈信号。

所以他真正想说的不是“AI 没有技术含量”，而是：AI 的核心难点，已经越来越不像传统意义上的聪明题，而更像系统工程题。

个人英雄主义时代已经过去了。

他用了一个很形象的说法：

冲浪的人不重要，重要的是浪本身。

AI 这波浪在往前走，你冲不冲，它都会拍到岸上。真正重要的是，你能不能站在这波浪上，把自己组织成一个可靠的系统。

靠谱大于天才：硅谷最缺的不是聪明人

这期最值得记住的一句话是：

硅谷最缺的不是聪明人，是靠谱的人。

姚顺宇说，AI 行业最重要的特质就是：做事细，对自己做的事负责任。

这点特别朴素，但也特别残酷。

因为现在很多人会把 AI 当成一种外包能力：任务丢给模型，模型生成一堆东西，然后自己不看、不懂、不验证，最后出了问题再怪模型。

但他真正看重的是另一种人：你可以用 AI，但你必须真正理解 AI 做了什么。你要知道它哪里可能错，哪里需要验证，哪些结论可以信，哪些地方必须自己把关。

他面试时会给候选人一个 24 小时的强化学习小项目。

这个项目不只是考你会不会写代码，而是看你怎么用 AI。你是把任务全扔给 AI，然后自己完全不理解；还是能利用 AI 提速，同时真正理解每一步，最后讨论时能把问题、方案、取舍讲清楚。

很多花里胡哨的技巧，最后都比不过一件事：

把简单事做干净。

这可能也是 AI 时代对工程师最残酷的筛选。AI 会放大你的能力，也会放大你的不靠谱。

模型纸面打平，但真实体验仍然不同

聊到模型差距，姚顺宇的判断很实在。

到 2026 年，Claude、OpenAI、Gemini 这三家的纸面 benchmark 很多都已经打到 80%+ 附近。很多差距其实主要是 noise，也就是噪声。

但这不代表模型体验完全一样。

他认为真实使用里仍然有明显差别。

Claude 仍然是 agent、tool use 和 coding 最强。

Codex 最近在纯 coding 上追得很快。

Gemini 在纯 reasoning 和日常使用上最好。

这些差异不只是能力本身，也和不同公司早期的意愿、产品方向、基础设施和数据积累有关。比如 Claude 很早就更专注 coding 和 agent 场景，所以在这些方向上形成了更强的产品体感。

但现在真正难的，已经不是盯着 benchmark 多涨一点。

更难的是：

定义问题。

模型越来越强之后，问题不再是“它会不会做”，而是“你到底要它做什么”“怎么验证它做对了”“怎么把它放进一个可靠系统里”。

OpenClaw / Manus 不是技术革命，而是可能性展示

聊到 OpenClaw 和 Manus 这类项目，姚顺宇的判断也很冷静。

他说，业内其实没那么惊讶。很多大模型 lab 内部早就做过类似 demo。

它们真正火的原因，不是展示了一个完全没人见过的技术奇迹，而是让更多人第一次意识到：

模型已经可以做 long-horizon 工作了。

也就是把很多模型、工具、上下文、任务步骤拼起来，连续完成一个长任务。

这件事的意义很大，但它不等于壳公司已经彻底脱离模型公司。

Manus 和 OpenClaw 最后都卖给了大模型公司，这说明现阶段很多外层应用和 agent 壳，还逃不掉底层模型能力的掌心。

姚顺宇判断，这类公司想活下去大概有两条路。

第一，逃得足够快。Cursor 现在赌的就是这条路。

第二，市场足够小，大公司懒得管。

这听起来有点残酷，但也很真实。AI 时代的应用层，如果没有足够强的速度、数据、工作流绑定或垂直场景优势，很容易被模型公司向上吞掉。

预训练 Scaling Law 远没到头，很多“撞墙”其实是 bug

关于 Scaling Law 是否到头，姚顺宇的观点很明确：

至少从他的亲身感受看，预训练能力还在持续变强。

过去几个月，预训练的能力仍然在往前走。未来 4 个月，他也没看到明确到头的迹象。

他特别提醒，很多人喊“到头了”，其实可能有三种情况。

第一，规律适用范围真的到头了。

第二，数据或算力条件不满足。

第三，也是最常见的：自己有 bug 没发现。

这点很有意思，也很“物理”。

当实验结果和预期不一致时，第一反应不应该是宣布世界规律失效，而是系统性排查每一种可能性。数据有没有问题？训练管线有没有问题？评估有没有问题？算力有没有问题？实现有没有 bug？

很多所谓的天花板，可能只是工程 bug 被误认为自然规律。

这也是他一直强调“靠谱”和“系统性思考”的原因。

Coding 为什么爆得最快？因为它天生适合 AI

这一段特别适合所有程序员看。

姚顺宇认为，coding 是 AI 能力爆发最快的方向之一，背后有两个核心原因。

第一，代码的 reward signal 极其清晰。输入是什么，输出是什么，测试能不能过，类型检查能不能通过，程序能不能跑，这些都有明确反馈。

第二，GitHub 本身就是天然的高质量数据海洋。大量真实代码、issue、PR、commit、文档、测试，全都给模型提供了极好的学习材料。

所以从 Claude 3.5 New，也就是外界说的 3.6 开始，coding 能力一直高速发展。

他自己现在 90%+ 的代码都由模型生成。人主要负责设计逻辑、review 接口、把关架构。

工作效率可以提升 20 到 50 倍。

但这里也有一个反直觉后果：效率变高以后，大脑反而成了瓶颈，工作时间甚至会变长。

因为你不再是在慢慢写代码，而是在持续做判断、做设计、做 review、做系统把关。AI 把执行速度拉满之后，人类真正累的是决策密度。

未来最大机会：Long Horizon 和有限 context 实现无限上下文

姚顺宇最看好的两个方向，一个是 ML Coding，一个是 Long Horizon。

ML Coding 的意思是，让 AI 不只是帮你写业务代码，而是完整做研究流程：写代码、跑实验、分析结果、提出新假设，再继续下一轮实验。

这相当于把 AI 从 coding assistant 推向 research assistant。

Long Horizon 则是更大的方向：让模型能够完成长时序任务。

这里最关键的问题是 context。

训练时模型的 context 是有限的，但使用时要接近 infinite context。也就是说，模型要像人一样，学会选择性遗忘、检索、压缩和恢复关键信息，而不是把所有东西都塞进上下文窗口。

一旦这个能力实现，很多应用都会解锁。

个人助手会真正变得长期有用，持续交互会变得自然，Agent 也能执行更长周期的任务。

姚顺宇判断，今年技术上一定能做到，现在拼的是哪条路线效率最高。

普通人真正能抄的，不是技巧，而是工作方式

这期听下来，对普通人最有价值的建议其实很简单。

如果你想进 AI 行业，不要只想着证明自己多聪明。靠谱比聪明重要。先把简单事做干净，把任务理解清楚，把输出验证清楚，对自己交付的东西负责。

如果你已经在用 AI 写代码，不要只改 spec，也不要把模型当成自动补全机器。你应该多花时间设计接口，建立统一语言，强制测试，做 TDD，让模型在清晰反馈里工作。

如果你是未来程序员，也不用简单焦虑“程序员会不会消失”。

姚顺宇的判断是，千分之一甚至万分之一的人会活得非常好。这些人不一定是最会手写代码的人，而是懂大系统、能和 AI 高效协作、懂业务、能做架构判断的人。

换句话说，未来程序员不是“写代码的人”，而是“让一组 AI 和系统可靠产出的人”。

最大反常识总结

这期最反常识的地方，其实可以总结成三句话。

AI 不是越来越难，而是越来越简单。

个人英雄主义已经过去，靠谱和系统性思考才是真正的护城河。

预训练还没到头，很多 bug 只是被误以为是天花板。

以前我们总怕 AI 抢饭碗，但这期听完，我反而觉得 AI 正在把人从执行者升级成系统设计师。

真正稀缺的，从来不是写代码本身，而是知道要造什么、怎么造、怎么验证、怎么让整个系统可靠运转。