完成 300 亿美元融资后,Anthropic 交出了第一份 AI 答卷。就在刚刚,Claude Sonnet 4.6 正式发布,定位是「史上最强 Sonnet」。

编程、计算机操作、长上下文推理、智能体规划,全面升级。价格没变,还是每百万 token 3 美元输入/15 美元输出,但性能直接逼近 Opus 级别。

在与 Opus 4.5 的对比测试里,用户有 59% 的时间更偏好 Sonnet 4.6。理由也很实在:过度工程化更少、幻觉更少、多步骤任务执行更稳。

计算机操作能力是这次升级的重头戏。

在 OSWorld 基准测试上,Sonnet 系列过去 16 个月持续进步,现在处理复杂电子表格、填写多步骤网页表单已接近人类水平。

这个能力戳中的是一个真实痛点:很多企业的老旧软件没有现代 API 接口,过去只能专门开发连接器,现在模型直接像人一样看屏幕、点鼠标就行了,省掉了一大截工程成本。

顺带一提,Excel 中的 Claude 插件这次也同步升级,新增了 MCP 连接器支持,对金融从业者来说,这个更新很实用。

Sonnet 4.6 另一个亮点是支持 100 万 token 超大上下文,足以在一次请求里塞进完整代码库、数十篇论文或一堆合同。

在 Vending-Bench Arena 这个模拟企业运营的评估里,Sonnet 4.6 摸索出一套有意思的策略:前期大举投资产能,最后阶段猛转盈利导向,靠这个转折时机甩开其他模型。支撑这套打法的,正是它的长期规划能力。

对普通用户来说,Free 和 Pro 方案的默认模型已经切换为 Sonnet 4.6,claude.ai 和 Claude Cowork 同步更新。

开发者方面,API 模型标识是 claude-sonnet-4-6,支持自适应思考、扩展思考,上下文压缩功能可以在对话快撑爆上下文时自动总结旧内容,省 token 又省心。

✊ 而就在 Sonnet 4.6 发布的同期,马斯克旗下 xAI 的 Grok 4.20 测试版也正式上线了 grok.com。

Grok 4.20 支持并行调度 4 个专业智能体——Grok、Harper、Benjamin、Lucas——协同执行任务。然而整体口碑两极分化严重,且过往预期拔得太高,导致不少用户期望落空,差评偏多。

后续马斯克罕见连发多条推文灭火「救场」。他解释称,目前的 Grok 4.20 只是参数量 500B 的小型基础模型,尚处公测阶段。他还强调,Grok 4.20 的底层架构具备每周自我迭代的能力,递归式智能增长空间很大。

按他的说法,公测结束后,Grok 4.20 的智能和速度将比 Grok 4 提升约一个数量级。但这个承诺能否兑现,只能说拭目以待吧。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片