模型出了个旋钮，我的日常被改变了？

薛定谔的BUG

2026-05-30 04:03 ·北京

5月28日，Anthropic发布了Opus 4.8。照例，基准测试表格满天飞——SWE-Bench Pro上超越前代，等等。每个人都截图转发。

但我却被那些测试分数旁边的一个小玩意儿绊住了：一个努力度旋钮。

这篇帖子不是官宣，它是个问题。所以打了#讨论的标签。

先明确一下到底改了什么。和Opus 4.8一起落地的东西包括：

努力度控制被搬进了用户界面。它之前是个API参数，只有开发者才会碰的开关。现在它直接躺在claude.ai和Cowork的模型选择器旁边。档位有：低、中、高、超高（Claude Code里叫xhigh，claude.ai里叫“额外”），以及最大。

默认值也变了。4.7时默认是超高，4.8改成了高。Anthropic的说法是：在编程任务上，4.8用高努力度消耗的token数和4.7默认差不多，但在每个编程基准上的得分都更高。所以这是一种“少琢磨、多交付”式的调校。

诚实度方面也有一项声明。根据Anthropic自己的评估，4.8对自己代码中存在的缺陷视而不见的概率大约是之前的四分之一。早期测试者还反馈，它更频繁地标记自己的不确定性，并且更少给出没有依据的主张。

动态工作流作为研究预览推出。Claude Code现在可以在一个会话里并行运行数百个子代理；据说能处理横跨几十万行代码的基础级迁移，从启动到合并，以现有测试套件为通过标准。（企业/团队/最高配计划可用。）

快速模式的速度是原来的2.5倍，而且费用比前代模型便宜了三分之二。价格方面，和4.7持平。

我亲眼见识了诚实度那部分：它先是自信地指出一个具体违规，并给出行号，接着又自我否定，重新执行实际检查，并在同一轮对话中纠正了编造出来的行号。这一点比任何基准测试的柱状图都重要。

好了，以上就是功能清单。现在说正事。

真正的问题是：这会改变我们的日常工作节奏吗？

有一个说法是这样的：你没办法同时优化token消耗、速度和质量。这是个三角，拽住一个角，另外两个就会变形。

而Opus 4.8做的事，是把这颗三角形的选择权从模型手里拿走，塞到你手里。过去那种“自适应思考”套路说的是“模型自己决定该琢磨多久”，而现在的努力度旋钮在说：“不，你告诉我。”

到这里，我的想法被撕成了两半。

一方面，这确实是一次工作流上的实质变化。如今每项任务之前都多了一个微小决策——“这事配高还是超高？”把一个困难的重构任务拧到最大，丢到后台异步去跑，和为了改个拼写错误而拨到低档，完全是两个世界。对自律的使用者来说，这从速率限制管理到输出质量，都会带来真实的差异。

另一方面：到底有多少人会真的去碰那个旋钮？大多数人会直接留在默认档。坦白讲，一位测试者提醒过，在动态、循环任务里把设置拉到最高，token消耗会“吓人地夸张”。所以要是用法不当，这功能就不是功能，而是个陷阱。

还有一点：努力度旋钮也救不了一个糟糕的提示词。一个模模糊糊的输入，就算拧到最大，吐出来的东西照样靠不住。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴