5月28日,Anthropic发布了Opus 4.8。照例,基准测试表格满天飞——SWE-Bench Pro上超越前代,等等。每个人都截图转发。
但我却被那些测试分数旁边的一个小玩意儿绊住了:一个努力度旋钮。
这篇帖子不是官宣,它是个问题。所以打了#讨论 的标签。
先明确一下到底改了什么。和Opus 4.8一起落地的东西包括:
努力度控制被搬进了用户界面。它之前是个API参数,只有开发者才会碰的开关。现在它直接躺在claude.ai和Cowork的模型选择器旁边。档位有:低、中、高、超高(Claude Code里叫xhigh,claude.ai里叫“额外”),以及最大。
默认值也变了。4.7时默认是超高,4.8改成了高。Anthropic的说法是:在编程任务上,4.8用高努力度消耗的token数和4.7默认差不多,但在每个编程基准上的得分都更高。所以这是一种“少琢磨、多交付”式的调校。
诚实度方面也有一项声明。根据Anthropic自己的评估,4.8对自己代码中存在的缺陷视而不见的概率大约是之前的四分之一。早期测试者还反馈,它更频繁地标记自己的不确定性,并且更少给出没有依据的主张。
动态工作流作为研究预览推出。Claude Code现在可以在一个会话里并行运行数百个子代理;据说能处理横跨几十万行代码的基础级迁移,从启动到合并,以现有测试套件为通过标准。(企业/团队/最高配计划可用。)
快速模式的速度是原来的2.5倍,而且费用比前代模型便宜了三分之二。价格方面,和4.7持平。
我亲眼见识了诚实度那部分:它先是自信地指出一个具体违规,并给出行号,接着又自我否定,重新执行实际检查,并在同一轮对话中纠正了编造出来的行号。这一点比任何基准测试的柱状图都重要。
好了,以上就是功能清单。现在说正事。
真正的问题是:这会改变我们的日常工作节奏吗?
有一个说法是这样的:你没办法同时优化token消耗、速度和质量。这是个三角,拽住一个角,另外两个就会变形。
而Opus 4.8做的事,是把这颗三角形的选择权从模型手里拿走,塞到你手里。过去那种“自适应思考”套路说的是“模型自己决定该琢磨多久”,而现在的努力度旋钮在说:“不,你告诉我。”
到这里,我的想法被撕成了两半。
一方面,这确实是一次工作流上的实质变化。如今每项任务之前都多了一个微小决策——“这事配高还是超高?”把一个困难的重构任务拧到最大,丢到后台异步去跑,和为了改个拼写错误而拨到低档,完全是两个世界。对自律的使用者来说,这从速率限制管理到输出质量,都会带来真实的差异。
另一方面:到底有多少人会真的去碰那个旋钮?大多数人会直接留在默认档。坦白讲,一位测试者提醒过,在动态、循环任务里把设置拉到最高,token消耗会“吓人地夸张”。所以要是用法不当,这功能就不是功能,而是个陷阱。
还有一点:努力度旋钮也救不了一个糟糕的提示词。一个模模糊糊的输入,就算拧到最大,吐出来的东西照样靠不住。
热门跟贴