新智元报道
【新智元导读】Fable 5发布后,Claude Code团队说,他们不再验证Claude有没有把活干对,而是开始验证它有没有在干对的事。开发者开始从盯代码输出的监工,转变为定标准的产品经理,衡量优秀工程师的标准也随之变了。
一夜之间,全网被一张由飞舞蝴蝶拼成的「5」字刷屏了。
这张图的主角,正是Anthropic刚端出的最强模型——Claude Fable 5。
https://www.anthropic.com/news/claude-fable-5-mythos-5
Anthropic官宣,这是他们第一款为通用场景做好安全处理的Mythos级模型,能力超过此前公开发布的任何一款。
紧接着,官方又公布了将所有用户的5小时和每周速率限制全部清零,让大家「尽情享受Fable 5」。
开发者这边,也一夜变天。
用Claude Code团队自己的话说:过去,他们盯的是Claude有没有正确完成工作;现在,他们盯的是Claude有没有在做正确的事。
Claude Code团队成员Thariq Shihipar认为,Fable是模型领域的一次重大突破,将改变人们与Claude的协作方式,有了这样的利器加持,「是时候更有雄心了」。
Thariq是AskUserQuestion工具的作者。这个工具的功能,就是让AI反过来采访你:动手写代码前,先抛一串选择题,把实现细节、边界情况、取舍问清楚。模型能自己跑得越久,这种事先问清楚的能力就越重要。
Thariq也分享了团队总结的Fable 5所带来的变化——
三件事被改写了:你怎么给它交代任务、你怎么验收它、你一个人能同时指挥多少个它。
先看Anthropic发布文中的Stripe案例:5000万行Ruby代码库全库迁移,人工需两个多月,Fable 5一天完成。
一个5000万行的Ruby代码库,要做全库迁移,按人手算,一个团队得干两个多月,Fable 5用了一天
把两个多月压成一天,这已经不是提速那么简单,人与AI的分工又一次被重新定义了。
从盯过程的监工
到定标准的产品经理
这轮升级的焦点,并不是跑分。
Anthropic给Claude Code的定位是「智能体编程环境(agentic coding environment)」。
它能读文件、跑命令、改代码,在你盯着、打断、或者干脆离开的时候,自己把问题推进下去。
这才是关键:它能自己干活了你还盯什么?Claude Code官方最佳实践里提到这样一句话:
如果你不给Claude一个能跑的检查项,那你自己就会变成那个验证循环。每一个错误,都得等你亲眼发现。
Claude Code官方最佳实践:给Claude一个能跑的检查,测试、构建或截图对比,否则你自己就成了验证循环
意思是说,过去你是监工,蹲在屏幕前看它一步步写,写错一行改一行。现在不一样了。你的活,从「逐步指挥」变成了「定义目标、给够上下文、立好验收标准」。
「给目标、给上下文」听起来不复杂,落地却不容易,官方最佳实践也给出了方向。
别一上来就让它写代码,先让它探索、再让它计划、最后才动手,免得它埋头解决了一个错的问题。
还有关键一点:用刚才提到的AskUserQuestion,让Claude先反过来采访你,把你没想清楚的实现细节、边界情况、取舍一条条问出来,最后落成一份SPEC.md。
不要担心这些准备工作浪费时间。当模型能力足够强,能够自主干活,把需求说清楚,比你盯着它写代码就要值钱得多了。
这正是Claude Code团队身上发生的事:从以前验证Claude有没有做对事情,到现在验证它有没有在做对的事情。
放手很爽
如何才能信任
放手听起来很爽,但凭什么信任Claude?
它最让人头疼的一点,是错了还一脸笃定。而且模型越强,输出越像模像样,错起来越难被一眼看穿。
Claude会在「看起来做完了」的时候停下来,可这恰恰是最危险的信号。
没有一个能跑的检查,「看起来完成」就成了Claude唯一的判断依据,到头来可能就成了你的麻烦。
官方的解法是:给它一个能判断「通过」或「失败」的东西。
比如一套测试、一个构建的退出码、一段把结果和设计稿做对比的截图。它干活、跑检查、读结果、再改,直到检查通过。这个循环自己就闭环了。
更进一步,是Claude Code里的/goal。你设一个完成条件,它就跨轮次一直干,不用你一轮轮去催。
每干完一轮,会有另一个小模型出来打分:它不是干活那个Claude,而是一个更小更快、更便宜的模型(默认是Haiku),专门读一遍完成条件和这轮对话,判一句「达成」还是「没达成」,再附一句理由。没达成就接着干,达成了自动收工。
Claude Code的/goal命令:设好完成条件,每轮由一个小模型判断是否达成,没达成就继续干
看上去像无人驾驶。但有一点必须讲清楚:那个打分的小模型,不会自己去跑命令,也不会自己去读文件,它只能看Claude在对话里摆出来的证据。
也就是说,这套循环转得顺不顺,全看Claude有没有把真东西摆出来。条件写得松一点,或者Claude只是嘴上说「跑过了」,评估器照样可能通过。
所以自检交付不等于无人审稿。
敢放手,靠的是随时能看到证据,不是赌模型聪明。
一个人
开始指挥上百个智能体
如果说/goal是让一个Claude干得更久,那Dynamic workflows是让一群Claude一起干。
它的玩法是,Claude替你写一段JavaScript脚本,这段脚本去编排大量子智能体在后台跑。
官方给的适用场景有全库的代码审计、500个文件的大迁移、需要交叉验证的研究问题等。
运行规模有多大?一次运行最多能调动1000个智能体,同时并发最多16个。
Claude Code官方文档的workflows约束表,高亮处显示单次运行最多1000个智能体
Claude Code甚至内置了一个叫/deep-research的workflow,专门把一个问题拆成多个角度去搜、去交叉核验、再投票筛掉站不住的说法,最后给你一份带引用的报告。
这意味着什么?Claude Code已经不只是终端里那个陪你聊天的对话框了,它在向一个能持续运行、能编排、能复用的工程代理系统靠拢。
一个人指挥一支AI军团,现在只用/workflows里的一行命令就能办到。
自主不等于替代
Fable 5确实更强。
官方说它能比此前任何Claude模型更长时间自主工作,任务越长越复杂,它领先得越多,但这不等于程序员完全可以撒手不管了。
恰恰相反,官方最佳实践通篇在强调四件必须要交给人去干的活:定验证标准、管权限、控上下文、审证据。
它甚至专门列出了一些应当避免的常见失败模式,其中一类错误叫「信任但不验证的缺口」(The trust-then-verify gap),说的正是Claude给出一份看着像模像样、实则没处理边界的情况。
解法只有一个:你能验证它,才能发布它;验证不了,就别发布。
成本和门槛,也绕不过去。
Fable 5的价格是每百万输入token 10美元、每百万输出token 50美元。能力更猛的「孪生兄弟」Mythos 5,底层是同一个模型,只是放宽了部分安全保护,眼下只开放给一小部分网络防御者和基础设施提供方。
Fable 5本身还带着一层分类器护栏。
碰到网络安全、生物化学这类敏感话题,它会自动把回答交给Opus 4.8接管。官方说超过95.0%的会话不会触发这种回退,但护栏调得偏保守,偶尔也可能误伤正常请求。
敢接长任务,不等于敢完全撒手。越自主,越要会验收。
回到Thariq那句话:是时候更有雄心了。
这个雄心背后的潜台词是让你敢把更大的问题交出去。但放手的过程还要有掌控,这更像是一种融合了经验与直觉的艺术。
规则是起点
不是教条
说了这么多规则和方法后,Anthropic官方补了一条:它们全是起点,不是教条。
也就是说,这套最佳实践在多数情况下好用,却未必适合每个场景。
有时候,你该让上下文一直攒着,因为你正啃一个复杂问题,那段历史很重要;有时候,你该跳过计划直接让Claude上,因为任务本就是探索性的;有时候,一句含糊的提示恰恰是对的,因为你想先看看它怎么理解,再决定要不要框住它。
诀窍是留心什么管用,没有一定之规。
Claude干得漂亮时,回想你做了什么:提示怎么写的、给了哪些上下文、用的哪个模式;它卡壳时,反思一下:提示太空、任务一口吃不下?
慢慢地,你会长出一种没有任何指南可以教的直觉:什么时候该说细、什么时候该留白;什么时候该计划、什么时候该放它去探索——
到了那一步,你才算真懂了怎么和它一起干活。
当Fable 5能把两个多月的活一天干完之后,程序员最稀缺的能力已经变了:不再是把代码写好,而是定义什么才是好代码,「会编程」这件事的定义,也在被悄悄改写。
未来最值钱的工程师,不再是代码监工,而是那个最会提问、定标准、验收的人。
参考资料:
https://www.anthropic.com/news/claude-fable-5-mythos-5%20%20
https://code.claude.com/docs/en/best-practices%20
https://code.claude.com/docs/en/common-workflows%20
https://x.com/ClaudeDevs/status/2064399512664526853
编辑:元宇
热门跟贴