作者|子川
来源|AI先锋官
今天这是怎么了?各大厂家模型齐发!
今天凌晨,OpenAI开源两款推理模型。
Anthropic紧接着推出Claude Opus 4.1,来了一场狭路相逢的戏码。
据介绍,此次推出的Claude Opus 4.1将代理任务、编程、推理等能力推向了新的高度。
特别是在 SWE-bench Verified 编码测试中,相比Claude Opus 4,新版的Opus 4.1性能飙升至 74.5%(虽然提升不大)。
可能很多朋友还不了解SWE-bench Verified这个榜单,这里给大家简单介绍一下。
SWE-bench Verified是 AI 代码能力评测中“最贴近真实开发场景”的榜单之一,专门用来衡量大模型/智能体在软件工程任务中的“动手能力”。
和传统刷算法题不同,它把 GitHub 上真实存在的 issue(bug 或需求)连同整个代码仓库、依赖环境一起打包,要求模型独立完成。
并且只有一次性通过测试,才算“解决”,因此这个榜单的成绩含金量非常高。
目前这个榜单的前三分别是Claude 4 Opus、Claude 4 Sonnet和o3。
除此之外,Claude Opus 4.1在Agentic terminal coding、Graduate-level reasoning、Multilingual Q&A、Visual reasoning等测试中,都全面超越了Claude Opus 4。
下面就是大家最关心的价格,Claude Opus 4.1加量不加价,价格和Claude Opus 4保持一致(不过也真的贵)。
每百万输入 token 15 美元
每百万输出 token 75 美元
目前Claude Opus 4.1已经面向Pro、Max、Team和Enterprise用户开放,同时大家也可以通过调用。
距离发布已过好几个小时,不少网友已经陆续分享它们实测的结果。
网友@Lisan al Gaib测试发现,Claude Opus 4.1的理解能力很强,
并评论到:他是为数不多在你说“想象你的家”时,会想象一间房间而非整栋房子的模型之一。
网友@karminski-牙医放出了对比Gemini 2.5 Pro、gpt-oss-120b、gpt-oss-20b的对比视频。
网友@Techikansh放出了他使用Claude Opus4.1和Claude Opus 4的一个对比动画,从肉眼上看,几乎没有区别。
Claude Opus4.1
Claude Opus4
@suemaru用游戏来做了性能对比,结论是画面质量明显更好。
并表示除了视觉效果,之前用 Sonnet 4 生成的关卡难度爆表,想截个图都费劲;而 Opus 4.1 生成的难度刚刚好,玩着很舒服,甚至没下指令就自带高分榜,回放也做得特别有趣。
长期以来,Anthropic 一直被视为 OpenAI 最强劲的竞争对手,尤其是在对模型要求极高的编程领域。
最近,这场竞争的紧张气氛再度升级,有报道称 Anthropic 指控 OpenAI 违规使用其模型以训练和优化自家的产品,并因此切断了 OpenAI 对其 API 的访问权限。
而现在,Anthropic 紧随 OpenAI 的步伐,于同一天发布了新模型 Claude Opus 4.1,这多少有一点“狙击”的意思了。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴