作者|子川

来源|AI先锋官

今天这是怎么了?各大厂家模型齐发!

今天凌晨,OpenAI开源两款推理模型。

Anthropic紧接着推出Claude Opus 4.1,来了一场狭路相逢的戏码。

据介绍,此次推出的Claude Opus 4.1将代理任务、编程、推理等能力推向了新的高度。

特别是在 SWE-bench Verified 编码测试中,相比Claude Opus 4,新版的Opus 4.1性能飙升至 74.5%虽然提升不大)。

可能很多朋友还不了解SWE-bench Verified这个榜单,这里给大家简单介绍一下。

SWE-bench Verified是 AI 代码能力评测中“最贴近真实开发场景”的榜单之一,专门用来衡量大模型/智能体在软件工程任务中的“动手能力”。

和传统刷算法题不同,它把 GitHub 上真实存在的 issue(bug 或需求)连同整个代码仓库、依赖环境一起打包,要求模型独立完成。

并且只有一次性通过测试,才算“解决”,因此这个榜单的成绩含金量非常高。

目前这个榜单的前三分别是Claude 4 Opus、Claude 4 Sonnet和o3。

除此之外,Claude Opus 4.1在Agentic terminal coding、Graduate-level reasoning、Multilingual Q&A、Visual reasoning等测试中,都全面超越了Claude Opus 4。

下面就是大家最关心的价格,Claude Opus 4.1加量不加价,价格和Claude Opus 4保持一致(不过也真的贵)。

  • 每百万输入 token 15 美元

  • 每百万输出 token 75 美元

目前Claude Opus 4.1已经面向Pro、Max、Team和Enterprise用户开放,同时大家也可以通过调用。

距离发布已过好几个小时,不少网友已经陆续分享它们实测的结果。

网友@Lisan al Gaib测试发现,Claude Opus 4.1的理解能力很强,

并评论到:他是为数不多在你说“想象你的家”时,会想象一间房间而非整栋房子的模型之一。

网友@karminski-牙医放出了对比Gemini 2.5 Pro、gpt-oss-120b、gpt-oss-20b的对比视频。

 刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测
打开网易新闻 查看更多视频
刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测

网友@Techikansh放出了他使用Claude Opus4.1和Claude Opus 4的一个对比动画,从肉眼上看,几乎没有区别。

 刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测
打开网易新闻 查看更多视频
刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测

Claude Opus4.1

 刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测
打开网易新闻 查看更多视频
刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测

Claude Opus4

@suemaru用游戏来做了性能对比,结论是画面质量明显更好。

 刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测
打开网易新闻 查看更多视频
刚刚,Anthropic正式推出Claude Opus 4.1,附全网实测

并表示除了视觉效果,之前用 Sonnet 4 生成的关卡难度爆表,想截个图都费劲;而 Opus 4.1 生成的难度刚刚好,玩着很舒服,甚至没下指令就自带高分榜,回放也做得特别有趣。

长期以来,Anthropic 一直被视为 OpenAI 最强劲的竞争对手,尤其是在对模型要求极高的编程领域。

最近,这场竞争的紧张气氛再度升级,有报道称 Anthropic 指控 OpenAI 违规使用其模型以训练和优化自家的产品,并因此切断了 OpenAI 对其 API 的访问权限。

而现在,Anthropic 紧随 OpenAI 的步伐,于同一天发布了新模型 Claude Opus 4.1,这多少有一点“狙击”的意思了。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾