大年初二,祝大家新年好
然后,Anthropic 今天发布了 Claude Sonnet 4.6
编码、Computer Use、长上下文推理、Agent 规划、知识工作、设计,全线升级。上下文窗口拉到 100 万 token(beta)。价格没变,还是 $3/$15 每百万 token,跟 Sonnet 4.5 一样
Free 和 Pro 用户现在打开 claude.ai 和 Claude Cowork,默认模型已经换成 Sonnet 4.6 了
到底强多少
Anthropic 在 Claude Code 里做了内测,用户 70% 的时候更喜欢 Sonnet 4.6 而不是 Sonnet 4.5
更狠的数据是,用户拿它跟去年 11 月发的旗舰模型 Opus 4.5 比,59% 的时候更喜欢 Sonnet 4.6
内测用户的反馈集中在几个点:修改代码之前会先好好读上下文,会主动合并重复逻辑而不是到处复制粘贴,长时间使用不那么让人抓狂了。过度工程化和「偷懒」的情况明显少了,instruction following 好了一截。虚报完成、幻觉、多步任务半途而废的情况都在减少
基准测试上,Sonnet 4.6 全面接近 Opus 级别的智力水平。前端代码和金融分析是客户反馈里提升最突出的两个方向,多个客户独立地说视觉输出更精致了,布局、动画、设计感都比之前的模型好,迭代轮次也少了
100 万 token 上下文
1M token 的上下文窗口能装下整个代码库、长合同、几十篇论文
但关键不只是能装,是装进去之后还能有效推理。Anthropic 拿 Vending-Bench Arena 测了一下,这个评测让模型去经营一家(模拟的)公司,不同 AI 模型之间还会互相竞争
Sonnet 4.6 搞出了一个有意思的策略:前 10 个模拟月大量投入产能,花得比竞争对手多很多,然后在最后阶段急转弯聚焦盈利。靠这个时间差,最终利润远超其他模型
2024 年 10 月 Anthropic 首发通用 Computer Use 的时候,自己都说「还是实验性的,用起来有时候笨手笨脚还容易出错」
16 个月过去了,OSWorld 基准测试(让模型在真实软件环境里完成任务,用的是 Chrome、LibreOffice、VS Code 这些,没有特殊 API,就是看屏幕、点鼠标、打字)上,Sonnet 系列模型的分数一路在涨
早期用户反馈,在操作复杂电子表格、填写多步骤网页表单、跨多个浏览器标签页协同这些任务上,Sonnet 4.6 已经接近人类水平了
安全方面,Computer Use 最大的风险是 prompt injection,恶意网站藏指令让模型执行。Sonnet 4.6 在抵御 prompt injection 上比 Sonnet 4.5 有大幅提升,跟 Opus 4.6 水平接近
平台更新
API 侧,Sonnet 4.6 同时支持 adaptive thinking 和 extended thinking,context compaction(beta)可以在对话接近上限时自动压缩旧上下文
Claude 的 web search 和 fetch 工具现在会自动写代码来过滤和处理搜索结果,只保留相关内容在上下文里。code execution、memory、programmatic tool calling、tool search、tool use examples 这几个功能正式 GA 了
Claude in Excel 插件现在支持 MCP connectors,可以在 Excel 里直接调用 S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet 这些工具。如果你在 claude.ai 已经配好了 MCP connectors,Excel 里直接能用。Pro、Max、Team、Enterprise 计划可用
Anthropic 的建议是,extended thinking 关掉的情况下 Sonnet 4.6 表现也很好,可以根据具体场景调整 thinking effort 找到速度和质量的平衡点。需要最深度推理的任务(代码库重构、多 Agent 协调、对精度要求极高的场景),Opus 4.6 仍然是更好的选择
怎么用
所有 Claude 计划、Claude Cowork、Claude Code、API、各大云平台,现在都能用
免费版也升级到 Sonnet 4.6 了,还带上了 file creation、connectors、skills 和 compaction
开发者用 API 调用的模型名是 claude-sonnet-4-6
安全评估方面,Anthropic 的安全研究员对 Sonnet 4.6 的总结是:整体跟其他近期 Claude 模型一样安全或者更安全,性格温和、诚实、亲社会,偶尔还挺有趣,安全行为很强,没有发现重大的高风险 misalignment 迹象
热门跟贴