Claude Opus 4.7发布当天,技术社区吵翻了。一边是"每个档位严格碾压4.6"的性能曲线,一边是"这到底算不算新模型"的身份质疑。 Anthropic这次升级,到底是诚意迭代还是精心包装的蒸馏产物?

正方:这是教科书式的渐进式胜利

打开网易新闻 查看精彩图片

先看硬数据。Anthropic给出的档位对比堪称强迫症福音:4.7-low严格优于4.6-medium,4.7-medium严格优于4.6-high,4.7-high超越4.6-max,还新增了xhigh档位作为Claude Code默认配置。这种"每个维度都强一点"的发布策略,在AI产品史上并不多见。

定价纹丝不动。输入5美元、输出25美元每百万token的价格锚定,让老用户无痛升级。更隐蔽的利好是成本结构:新分词器(tokenizer)虽可能增加35%的token用量,但整体推理效率提升使实际消耗反而下降50%。换句话说,花同样的钱,能跑更多轮对话。

视觉能力的跃迁被低估了。长边支持2576像素(约375万像素),是前代的三倍以上。这意味着什么?密集的UI截图、复杂的工程图纸、需要像素级定位的设计稿,终于能被准确解析。计算机使用(computer use)场景下的agent工作流,瓶颈从"看不清"转向了"怎么做"。

Claude Code的即时跟进同样关键。xhigh作为默认推理档位上线,SWE-Bench Pro分数提升11分——这不是实验室数字,是开发者每天打交道的工具链在变硬。

反方:这可能是"Mythos-adjacent"的蒸馏变体

质疑声集中在技术身份的模糊性。社区讨论中浮出一个敏感词:"Mythos-adjacent"——暗示4.7或许并非完整预训练的新基座模型,而是基于更高阶系统蒸馏而来的效率优化版。

证据链有几环。新分词器的出现通常伴随预训练数据重组,但Anthropic对"new pretrain"的表述闪烁其词。性能曲线的完美阶梯状提升,在自然界罕见,更像人为校准的产物。如果4.7真是从某个未公开的更强系统蒸馏而来,那么当下的"升级"本质是技术债的阶段性清偿,而非能力边界的真实拓展。

更深层的不安在于产品节奏。OpenAI同期发布GPT-Rosalind和新版Codex,Anthropic选择用"严格更好"的叙事对冲。这种精准卡位的竞争策略,是否牺牲了长期技术路线图的清晰度?当用户习惯了"每个小数点后都更强"的预期管理,真正的架构突破反而更难被识别。

我的判断:效率革命比参数竞赛更诚实

这场辩论的核心,是对"什么是模型升级"的定义权争夺。

我倾向于认为4.7的价值被低估了——恰恰因为它拒绝迎合"新基座=大新闻"的行业惯性。多模态分辨率的实打实提升、推理效率的结构性优化、工具链的day-one同步,这三件事指向同一个产品哲学:把用户从"调参炼丹"中解放出来,让默认体验就是最佳体验。

所谓"Mythos-adjacent"的猜测,即便属实,也改变不了使用层面的质变。蒸馏不是原罪,无效升级才是。如果4.7真能在xhigh档位下稳定输出更长、更准、更省钱的推理,它的技术血统反而没那么重要。

真正值得观察的,是Anthropic能否维持这种"不换名字也能感知进步"的节奏。当行业沉迷于版本号营销(4→4.5→5的跃迁幻觉),小数点后的诚实迭代,或许才是服务长期用户的更优解。

至于Claude Code用户——你们现在默认就在用最强档位了。至于这个"最强"是不是来自某个更神秘的源头,就像问咖啡师你的拿铁是不是用竞赛级豆子做的:好喝就行,追根究底反而影响口感。