刚听完小珺这期对姚顺宇的访谈,信息密度直接拉满。
这位从清华物理转斯坦福高能物理、再从 Anthropic 跳到 Google DeepMind 的研究员,参与过 Claude 3.7 / 4.5 和 Gemini 3 系列开发。
他有一句话非常反常识:
AI 这个行业真的不太需要脑子,最重要的特质是靠谱。
这句话听起来像凡尔赛,但他后面展开之后,你会发现背后其实是一套非常朴素的判断:AI 行业已经从个人英雄主义,进入了系统工程时代。真正稀缺的不是聪明,而是把简单事情做细、做稳、做可靠的能力。
这期把最硬的反常识观点、行业内幕、模型真实差距,以及普通人能抄的实操,全拆一遍。
两个姚顺宇,以及一个物理半道出家的 AI 研究员
先说背景。
姚顺宇本科是清华物理,后来去了斯坦福做理论高能物理和量子信息,短暂做过伯克利 postdoc,之后直接进入 Anthropic,今年 9 月底跳到 Gemini。
有意思的是,AI 圈里还有另一个姚顺宇,也就是 OpenAI 系的姚顺宇。两人本科就认识,是好朋友,但路线完全不同。
他自嘲说:自己是半道出家,物理出身;另一个姚顺宇是纯 CS 科班。
但物理背景给他的最大帮助,不是某个具体工具,而是两件事:系统性思考,以及刨根问底。
这在 AI 里反而成了稀缺品。
因为现在很多问题表面上是模型问题、训练问题、工程问题,但底层往往是:你有没有能力把一个复杂系统拆开,一层一层排查,到底哪里出了问题。
AI 本质上很简单,不需要那么多“天才脑子”
姚顺宇反复强调一个观点:
AI 现在是简单的。
这句话非常反常识。因为外界看 AI,总觉得这是最聪明的人才能玩的领域,数学、代码、推理、强化学习、系统工程,每个词都吓人。
但他说,恰恰相反。
以前大家觉得最难的东西,比如写代码、数学、推理,反而是 AI 最容易干好的。原因很简单:这些任务有清晰的 reward signal,也就是反馈信号。
代码能不能跑,测试能不能过,数学答案对不对,推理有没有撞上验证集,这些都相对容易判断。
反而是人最擅长的东西,比如产品判断、复杂场景里的直觉、用户到底想要什么,这些更难训练。因为没有一个标准答案,也没有一个干净的反馈信号。
所以他真正想说的不是“AI 没有技术含量”,而是:AI 的核心难点,已经越来越不像传统意义上的聪明题,而更像系统工程题。
个人英雄主义时代已经过去了。
他用了一个很形象的说法:
冲浪的人不重要,重要的是浪本身。
AI 这波浪在往前走,你冲不冲,它都会拍到岸上。真正重要的是,你能不能站在这波浪上,把自己组织成一个可靠的系统。
靠谱大于天才:硅谷最缺的不是聪明人
这期最值得记住的一句话是:
硅谷最缺的不是聪明人,是靠谱的人。
姚顺宇说,AI 行业最重要的特质就是:做事细,对自己做的事负责任。
这点特别朴素,但也特别残酷。
因为现在很多人会把 AI 当成一种外包能力:任务丢给模型,模型生成一堆东西,然后自己不看、不懂、不验证,最后出了问题再怪模型。
但他真正看重的是另一种人:你可以用 AI,但你必须真正理解 AI 做了什么。你要知道它哪里可能错,哪里需要验证,哪些结论可以信,哪些地方必须自己把关。
他面试时会给候选人一个 24 小时的强化学习小项目。
这个项目不只是考你会不会写代码,而是看你怎么用 AI。你是把任务全扔给 AI,然后自己完全不理解;还是能利用 AI 提速,同时真正理解每一步,最后讨论时能把问题、方案、取舍讲清楚。
很多花里胡哨的技巧,最后都比不过一件事:
把简单事做干净。
这可能也是 AI 时代对工程师最残酷的筛选。AI 会放大你的能力,也会放大你的不靠谱。
模型纸面打平,但真实体验仍然不同
聊到模型差距,姚顺宇的判断很实在。
到 2026 年,Claude、OpenAI、Gemini 这三家的纸面 benchmark 很多都已经打到 80%+ 附近。很多差距其实主要是 noise,也就是噪声。
但这不代表模型体验完全一样。
他认为真实使用里仍然有明显差别。
Claude 仍然是 agent、tool use 和 coding 最强。
Codex 最近在纯 coding 上追得很快。
Gemini 在纯 reasoning 和日常使用上最好。
这些差异不只是能力本身,也和不同公司早期的意愿、产品方向、基础设施和数据积累有关。比如 Claude 很早就更专注 coding 和 agent 场景,所以在这些方向上形成了更强的产品体感。
但现在真正难的,已经不是盯着 benchmark 多涨一点。
更难的是:
定义问题。
模型越来越强之后,问题不再是“它会不会做”,而是“你到底要它做什么”“怎么验证它做对了”“怎么把它放进一个可靠系统里”。
OpenClaw / Manus 不是技术革命,而是可能性展示
聊到 OpenClaw 和 Manus 这类项目,姚顺宇的判断也很冷静。
他说,业内其实没那么惊讶。很多大模型 lab 内部早就做过类似 demo。
它们真正火的原因,不是展示了一个完全没人见过的技术奇迹,而是让更多人第一次意识到:
模型已经可以做 long-horizon 工作了。
也就是把很多模型、工具、上下文、任务步骤拼起来,连续完成一个长任务。
这件事的意义很大,但它不等于壳公司已经彻底脱离模型公司。
Manus 和 OpenClaw 最后都卖给了大模型公司,这说明现阶段很多外层应用和 agent 壳,还逃不掉底层模型能力的掌心。
姚顺宇判断,这类公司想活下去大概有两条路。
第一,逃得足够快。Cursor 现在赌的就是这条路。
第二,市场足够小,大公司懒得管。
这听起来有点残酷,但也很真实。AI 时代的应用层,如果没有足够强的速度、数据、工作流绑定或垂直场景优势,很容易被模型公司向上吞掉。
预训练 Scaling Law 远没到头,很多“撞墙”其实是 bug
关于 Scaling Law 是否到头,姚顺宇的观点很明确:
至少从他的亲身感受看,预训练能力还在持续变强。
过去几个月,预训练的能力仍然在往前走。未来 4 个月,他也没看到明确到头的迹象。
他特别提醒,很多人喊“到头了”,其实可能有三种情况。
第一,规律适用范围真的到头了。
第二,数据或算力条件不满足。
第三,也是最常见的:自己有 bug 没发现。
这点很有意思,也很“物理”。
当实验结果和预期不一致时,第一反应不应该是宣布世界规律失效,而是系统性排查每一种可能性。数据有没有问题?训练管线有没有问题?评估有没有问题?算力有没有问题?实现有没有 bug?
很多所谓的天花板,可能只是工程 bug 被误认为自然规律。
这也是他一直强调“靠谱”和“系统性思考”的原因。
Coding 为什么爆得最快?因为它天生适合 AI
这一段特别适合所有程序员看。
姚顺宇认为,coding 是 AI 能力爆发最快的方向之一,背后有两个核心原因。
第一,代码的 reward signal 极其清晰。输入是什么,输出是什么,测试能不能过,类型检查能不能通过,程序能不能跑,这些都有明确反馈。
第二,GitHub 本身就是天然的高质量数据海洋。大量真实代码、issue、PR、commit、文档、测试,全都给模型提供了极好的学习材料。
所以从 Claude 3.5 New,也就是外界说的 3.6 开始,coding 能力一直高速发展。
他自己现在 90%+ 的代码都由模型生成。人主要负责设计逻辑、review 接口、把关架构。
工作效率可以提升 20 到 50 倍。
但这里也有一个反直觉后果:效率变高以后,大脑反而成了瓶颈,工作时间甚至会变长。
因为你不再是在慢慢写代码,而是在持续做判断、做设计、做 review、做系统把关。AI 把执行速度拉满之后,人类真正累的是决策密度。
未来最大机会:Long Horizon 和有限 context 实现无限上下文
姚顺宇最看好的两个方向,一个是 ML Coding,一个是 Long Horizon。
ML Coding 的意思是,让 AI 不只是帮你写业务代码,而是完整做研究流程:写代码、跑实验、分析结果、提出新假设,再继续下一轮实验。
这相当于把 AI 从 coding assistant 推向 research assistant。
Long Horizon 则是更大的方向:让模型能够完成长时序任务。
这里最关键的问题是 context。
训练时模型的 context 是有限的,但使用时要接近 infinite context。也就是说,模型要像人一样,学会选择性遗忘、检索、压缩和恢复关键信息,而不是把所有东西都塞进上下文窗口。
一旦这个能力实现,很多应用都会解锁。
个人助手会真正变得长期有用,持续交互会变得自然,Agent 也能执行更长周期的任务。
姚顺宇判断,今年技术上一定能做到,现在拼的是哪条路线效率最高。
普通人真正能抄的,不是技巧,而是工作方式
这期听下来,对普通人最有价值的建议其实很简单。
如果你想进 AI 行业,不要只想着证明自己多聪明。靠谱比聪明重要。先把简单事做干净,把任务理解清楚,把输出验证清楚,对自己交付的东西负责。
如果你已经在用 AI 写代码,不要只改 spec,也不要把模型当成自动补全机器。你应该多花时间设计接口,建立统一语言,强制测试,做 TDD,让模型在清晰反馈里工作。
如果你是未来程序员,也不用简单焦虑“程序员会不会消失”。
姚顺宇的判断是,千分之一甚至万分之一的人会活得非常好。这些人不一定是最会手写代码的人,而是懂大系统、能和 AI 高效协作、懂业务、能做架构判断的人。
换句话说,未来程序员不是“写代码的人”,而是“让一组 AI 和系统可靠产出的人”。
最大反常识总结
这期最反常识的地方,其实可以总结成三句话。
AI 不是越来越难,而是越来越简单。
个人英雄主义已经过去,靠谱和系统性思考才是真正的护城河。
预训练还没到头,很多 bug 只是被误以为是天花板。
以前我们总怕 AI 抢饭碗,但这期听完,我反而觉得 AI 正在把人从执行者升级成系统设计师。
真正稀缺的,从来不是写代码本身,而是知道要造什么、怎么造、怎么验证、怎么让整个系统可靠运转。
热门跟贴