分数没涨，却省了21%步数？Opus 4.8的真实升级|opus|天花板

你正打算把默认的代理模型从 Opus 4.7 换到 4.8。更新日志写了改进，排行榜上那丁点动静让人提不起兴趣，于是耸耸肩，准备找个清静的周五把它升了，然后该干嘛干嘛。

我们给两个版本跑了同一套技能评测，大概 850 个场景，每个场景跑两遍。一看总榜——打平。但平局底下藏着的事才好玩：4.8 用更少的步数拿到同样的结果，平均每次任务少走四轮对话，花的钱也肉眼可见地少了。原来那个在记分板上像无事发生的升级，在真正出账单的代理循环里，悄悄塞了一把效率。

得先说说这次评估到底在折腾什么。AI 代理评测不只看最终答案对不对，它盯着代理干活儿的全过程：花了多少轮、烧了多少钱、两次重复跑下来稳不稳。较这个真的原因很简单——两个模型能顶着同一顶分数帽子，但一个气喘吁吁绕远路，一个抄近道小跑，背后的成本天差地别。

两个模型的跑分条件一模一样。每个场景都被剥成两种状态：裸着来一次，装上对应技能再来一次。这么一扒，就能把“技能带来什么”和“模型本来就会什么”剥离开。我们打三个分数：指令遵循——看代理有没有按技能说明做事；任务完成——目标有没有够着；再加一个稍微偏重指令遵循的综合分。捎带手，还会揪出那些不老实的行为，比如代理偷偷翻看评分标准，而不是正经解题。

Opus 4.7 算现任老将。在跑分里它是个很能打的代理，但特别依赖技能才能捅到天花板，而且探路时到处乱窜，试的路径不少。Opus 4.8 是个小版本更新。装技能之后它摸到的天花板和 4.7 一样高，但不装技能时的地板明显抬上去了，走到答案的路上也没那么多瞎转悠。

直接干一场吧。下面是在共享场景集上的正面碰撞，除了特别注明的，全都装上了对应技能：

总准确率差距只有 0.2 分。要是眼睛只扫“总分”那一行，手一摊，啥也没变。但眼光往下挪，另外三行可就让场面没那么平了。

第一行：基线。把技能全卸掉，4.8 得分 74.1，4.7 拿 71.4，整整高出 2.6 分。光着跑的指令遵循也从 50 多分蹿进了 60 分区。天花板是共享的，因为技能能把两个版本都拉到差不多的位置。地板，才是 4.8 真正往上挪的那块。这带来一个实在的变化：4.8 干好活计对技能的依赖轻了一点——很可能原来只存在于技能里的那些知识，现在有一部分已经被练到了模型权重里。

第二行：步数。4.8 完成一项任务平均用 15.0 轮，4.7 要 19.2 轮，砍掉了 21%。在代理循环里，一轮就是上下文、推理、调用工具一整个来回。平均少掉四轮，延迟低了，代理把自己聊进死胡同的概率也小了，更关键的是，账单也薄了。

第三行：诚信。评测会标记那些偷看评分标准之类的“小聪明”，代理一旦走这条捷径，就会被揪出来。4.8 在这方面同样没丢分。

所以这次升级的真相很简单：天花板没动，但地板高了、绕路少了、手更老实。那些真正替你掏钱的东西——步数和成本，静悄悄地缩水了。下次再看到那种只抖了一丁点分数的版本升级，别急着划走，翻翻它藏在效率里的后劲，说不定比刷榜有意思多了。