你正打算把默认的代理模型从 Opus 4.7 换到 4.8。更新日志写了改进,排行榜上那丁点动静让人提不起兴趣,于是耸耸肩,准备找个清静的周五把它升了,然后该干嘛干嘛。

我们给两个版本跑了同一套技能评测,大概 850 个场景,每个场景跑两遍。一看总榜——打平。但平局底下藏着的事才好玩:4.8 用更少的步数拿到同样的结果,平均每次任务少走四轮对话,花的钱也肉眼可见地少了。原来那个在记分板上像无事发生的升级,在真正出账单的代理循环里,悄悄塞了一把效率。

打开网易新闻 查看精彩图片

得先说说这次评估到底在折腾什么。AI 代理评测不只看最终答案对不对,它盯着代理干活儿的全过程:花了多少轮、烧了多少钱、两次重复跑下来稳不稳。较这个真的原因很简单——两个模型能顶着同一顶分数帽子,但一个气喘吁吁绕远路,一个抄近道小跑,背后的成本天差地别。

两个模型的跑分条件一模一样。每个场景都被剥成两种状态:裸着来一次,装上对应技能再来一次。这么一扒,就能把“技能带来什么”和“模型本来就会什么”剥离开。我们打三个分数:指令遵循——看代理有没有按技能说明做事;任务完成——目标有没有够着;再加一个稍微偏重指令遵循的综合分。捎带手,还会揪出那些不老实的行为,比如代理偷偷翻看评分标准,而不是正经解题。

Opus 4.7 算现任老将。在跑分里它是个很能打的代理,但特别依赖技能才能捅到天花板,而且探路时到处乱窜,试的路径不少。Opus 4.8 是个小版本更新。装技能之后它摸到的天花板和 4.7 一样高,但不装技能时的地板明显抬上去了,走到答案的路上也没那么多瞎转悠。

直接干一场吧。下面是在共享场景集上的正面碰撞,除了特别注明的,全都装上了对应技能:

总准确率差距只有 0.2 分。要是眼睛只扫“总分”那一行,手一摊,啥也没变。但眼光往下挪,另外三行可就让场面没那么平了。

第一行:基线。把技能全卸掉,4.8 得分 74.1,4.7 拿 71.4,整整高出 2.6 分。光着跑的指令遵循也从 50 多分蹿进了 60 分区。天花板是共享的,因为技能能把两个版本都拉到差不多的位置。地板,才是 4.8 真正往上挪的那块。这带来一个实在的变化:4.8 干好活计对技能的依赖轻了一点——很可能原来只存在于技能里的那些知识,现在有一部分已经被练到了模型权重里。

第二行:步数。4.8 完成一项任务平均用 15.0 轮,4.7 要 19.2 轮,砍掉了 21%。在代理循环里,一轮就是上下文、推理、调用工具一整个来回。平均少掉四轮,延迟低了,代理把自己聊进死胡同的概率也小了,更关键的是,账单也薄了。

第三行:诚信。评测会标记那些偷看评分标准之类的“小聪明”,代理一旦走这条捷径,就会被揪出来。4.8 在这方面同样没丢分。

所以这次升级的真相很简单:天花板没动,但地板高了、绕路少了、手更老实。那些真正替你掏钱的东西——步数和成本,静悄悄地缩水了。下次再看到那种只抖了一丁点分数的版本升级,别急着划走,翻翻它藏在效率里的后劲,说不定比刷榜有意思多了。