故事是这样的。先说结论三个让用户炸锅的点第一,代码能力「降智」第二,推理质量倒退第三,花更多钱,体验更差为什么会这样微软的动作很有意思这事儿意味着什么写在最后

4月16日晚,Anthropic发布了Claude Opus 4.7。科技媒体清一色「编程能力炸了」「视觉三倍升级」「白嫖式升级」。

48小时后,Reddit上一篇「Claude Opus 4.7是严重倒退,不是升级」的帖子冲上3000赞。

同一个模型,有人看到了AGI的影子,有人觉得自己的工作流炸了。

我翻了十几篇报道,又去Reddit和Twitter上看了几百条用户反馈,发现这事儿比想象中有意思。

Opus 4.7不是变蠢了,是变「轴」了。

Anthropic把Claude从一个「顺从的助手」改造成了一个「更有主见的同事」。但这个改造,把大量用户的日常工作流给掀翻了。

更关键的是,有个细节大多数媒体都没注意到——

价格没涨,但你的账单可能要涨35%。

大量开发者反馈,从4.6升级到4.7之后,之前能稳定完成的编程任务开始频繁出错。

一位Reddit用户用已知答案的长重构任务做回归测试,结果模型自信地改挂了3个原本在4.6下能通过的测试。

评论区涌入上百条类似经历。

但另一边,SWE-bench Pro基准测试显示,Opus 4.7得分64.3%,高于GPT-5.4的57.7%。

跑分更强了,但用户不买账。

为什么?

因为4.7的执行逻辑变了。官方迁移指南里有一句很关键的话——

Claude Opus 4.7会以更字面、更明确的方式理解提示词。

说人话就是,4.6会「猜你的意思」,4.7会「照你说的做」。

如果你的prompt本来就写得含糊,4.6可以帮你脑补,但4.7不会。

对一部分用户来说,这叫「不听话」。对另一部分用户来说,这叫「终于不乱猜了」。

NYT Connections Extended基准测试,使用940道《纽约时报》Connections谜题评估大语言模型的逻辑推理能力。

结果是,Opus 4.6得分94.7%,Opus 4.7仅41.0%。

从年级第一,跌到不及格。

另一份数据来自Anthropic自己的System Card,100万token上下文的MRCR v2测试,4.6得分78.3%,4.7得分32.2%。

这组数据没法用「迁移成本」解释。

某些逻辑推理和长上下文检索任务上,4.7确实出现了显著退步。

这个细节藏在Anthropic的官方迁移指南里,我估计99%的读者都跳过了。

原文是这样的——

Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that the same input can map to more tokens—roughly 1.0–1.35× depending on the content type.

说人话就是,他们换了一把新尺子。

同一段提示词,过去量出来100个token,现在可能是130个。

定价没动,还是5美元/百万Token输入、25美元/百万Token输出。但你的token计算凭空增加了,账单自然就要变大。

假设一家公司每月在Opus 4.6上花100万美元API费。切到4.7之后,同样的工作量,账单可能会悄悄爬到135万。

每月多出来几十万美元的开销。

这就是AI时代不知不觉的暗税。

把几件事放在一起看,Anthropic的意图其实挺清晰的。

第一,幻觉率下降了25个百分点。

从61%降到36%。怎么做到的?靠「更频繁地选择不作答」。

宁可说「我不知道」,也不瞎编。

第二,GDPval-AA测试登顶。

这项测试衡量的是AI在44种职业、9个主要行业的真实知识工作中的表现。Opus 4.7拿到1753 Elo,领先第二名79分。

第三,官方博客里有句话很关键。

engineers shift from working 1:1 with agents to managing them in parallel

工程师从「和一个AI对话」,变成了「同时管着好几个AI」。

把这几件事串起来,Anthropic的战略意图就清楚了——

他们不在于优化Claude的聊天体验,而是在优化Claude的工作能力。

一个能独立完成复杂任务、不瞎编、严格按指令执行的AI,比一个「聊天很顺」的AI更有价值。

但对于习惯了4.6「猜你意思」的用户来说,这个转变太突然了。

没有过渡期,没有兼容模式,直接把全部迁移成本推给了用户。

发布当天,微软就把Opus 4.7集成到了GitHub Copilot等9大开发环境。

打破了与OpenAI的长期独家合作。

为什么这么急?

因为Opus 4.7在代码生成任务上的平均响应时间只有1.2秒,多文件代码重构任务的错误率降低了28%。

对于开发者场景,这些指标比「聊天顺不顺」重要得多。

微软看中的是「工作能力」,不是「聊天体验」。

AI厂商的商业模式,正在从「卖回答」转成「卖工时」。

过去那种AI是工具属性的。你问一句它答一句,按次计价,每次调用的边界由你来画。

现在这批AI更像是劳动力。你下一个目标,它自主工作几个小时,按token消耗计价。工作边界由AI自己决定。

OpenAI在Codex发布会上做了一个演示,让Codex自己写一款赛车游戏。整个过程烧了700万token。

对比一下,你用GPT-4问一个问题,一次大概消耗500到2000个token。

Codex一次任务就是过去单次调用的三千多倍。

这带来的影响有三个层面。

一是预算方案直接失效。

过去企业AI预算怎么算?要么按席位数乘月费,要么按API调用次数。现在呢,同一个用户、同一个调用,消耗量可以差100倍。

CFO拿到账单才知道自己花了多少钱。

二是工程师的角色边界要重新设定。

以前工程师是写代码的人,现在是管AI工作流的人。你得不停判断,这个活值不值得让AI烧100万token去干?

三是能力差距会被继续拉大。

同样的AI工具,会用的人和不会用的人,产出能差10倍。

不是AI变强了你就自动受益,你得学会怎么「管AI工时」这件事。

Opus 4.7的争议不是个案。

OpenAI经历过GPT-4 Turbo降智风波,几个月前撤下GPT-4o时也遭遇过类似的用户反弹。

每一次模型升级,都有一批用户失去已经适应的工具。

新分词器让旧的成本预算失效,新的默认行为让旧的prompt不再好用,新的接口规范让旧的代码直接报错。

每一项单独看都有技术上的合理性,但叠在一起,就是把全部迁移成本一次性推给了用户。

Anthropic员工Alex Albert在发布次日写道,很多人在刚开始体验时遇到的bug,现在都已经修复了。

Bug可以修。但信任这种东西,消耗容易,重建很慢。

当AI从玩具变成生产力工具,「快速迭代」就不再是无条件的优点。

用户的耐心,已经开始倒计时了。

打开网易新闻 查看精彩图片