刚刚，马斯克新模型撞车Claude，口碑崩了

AppSo

2026-02-18 07:12 ·广东 ·AppSo官方网易号

完成 300 亿美元融资后，Anthropic 交出了第一份 AI 答卷。就在刚刚，Claude Sonnet 4.6 正式发布，定位是「史上最强 Sonnet」。

编程、计算机操作、长上下文推理、智能体规划，全面升级。价格没变，还是每百万 token 3 美元输入/15 美元输出，但性能直接逼近 Opus 级别。

在与 Opus 4.5 的对比测试里，用户有 59% 的时间更偏好 Sonnet 4.6。理由也很实在：过度工程化更少、幻觉更少、多步骤任务执行更稳。

计算机操作能力是这次升级的重头戏。

在 OSWorld 基准测试上，Sonnet 系列过去 16 个月持续进步，现在处理复杂电子表格、填写多步骤网页表单已接近人类水平。

这个能力戳中的是一个真实痛点：很多企业的老旧软件没有现代 API 接口，过去只能专门开发连接器，现在模型直接像人一样看屏幕、点鼠标就行了，省掉了一大截工程成本。

顺带一提，Excel 中的 Claude 插件这次也同步升级，新增了 MCP 连接器支持，对金融从业者来说，这个更新很实用。

Sonnet 4.6 另一个亮点是支持 100 万 token 超大上下文，足以在一次请求里塞进完整代码库、数十篇论文或一堆合同。

在 Vending-Bench Arena 这个模拟企业运营的评估里，Sonnet 4.6 摸索出一套有意思的策略：前期大举投资产能，最后阶段猛转盈利导向，靠这个转折时机甩开其他模型。支撑这套打法的，正是它的长期规划能力。

对普通用户来说，Free 和 Pro 方案的默认模型已经切换为 Sonnet 4.6，claude.ai 和 Claude Cowork 同步更新。

开发者方面，API 模型标识是 claude-sonnet-4-6，支持自适应思考、扩展思考，上下文压缩功能可以在对话快撑爆上下文时自动总结旧内容，省 token 又省心。

✊ 而就在 Sonnet 4.6 发布的同期，马斯克旗下 xAI 的 Grok 4.20 测试版也正式上线了 grok.com。

Grok 4.20 支持并行调度 4 个专业智能体——Grok、Harper、Benjamin、Lucas——协同执行任务。然而整体口碑两极分化严重，且过往预期拔得太高，导致不少用户期望落空，差评偏多。

后续马斯克罕见连发多条推文灭火「救场」。他解释称，目前的 Grok 4.20 只是参数量 500B 的小型基础模型，尚处公测阶段。他还强调，Grok 4.20 的底层架构具备每周自我迭代的能力，递归式智能增长空间很大。

按他的说法，公测结束后，Grok 4.20 的智能和速度将比 Grok 4 提升约一个数量级。但这个承诺能否兑现，只能说拭目以待吧。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴