刚刚，Anthropic正式推出Claude Opus 4.1，附全网实测

AI先锋官

2025-08-06 12:51 ·北京 ·优质互联网领域创作者

作者｜子川

来源｜AI先锋官

今天这是怎么了？各大厂家模型齐发！

今天凌晨，OpenAI开源两款推理模型。

Anthropic紧接着推出Claude Opus 4.1，来了一场狭路相逢的戏码。

据介绍，此次推出的Claude Opus 4.1将代理任务、编程、推理等能力推向了新的高度。

特别是在 SWE-bench Verified 编码测试中，相比Claude Opus 4，新版的Opus 4.1性能飙升至 74.5%（虽然提升不大）。

可能很多朋友还不了解SWE-bench Verified这个榜单，这里给大家简单介绍一下。

SWE-bench Verified是 AI 代码能力评测中“最贴近真实开发场景”的榜单之一，专门用来衡量大模型/智能体在软件工程任务中的“动手能力”。

和传统刷算法题不同，它把 GitHub 上真实存在的 issue（bug 或需求）连同整个代码仓库、依赖环境一起打包，要求模型独立完成。

并且只有一次性通过测试，才算“解决”，因此这个榜单的成绩含金量非常高。

目前这个榜单的前三分别是Claude 4 Opus、Claude 4 Sonnet和o3。

除此之外，Claude Opus 4.1在Agentic terminal coding、Graduate-level reasoning、Multilingual Q&A、Visual reasoning等测试中，都全面超越了Claude Opus 4。

下面就是大家最关心的价格，Claude Opus 4.1加量不加价，价格和Claude Opus 4保持一致（不过也真的贵）。

每百万输入 token 15 美元
每百万输出 token 75 美元

目前Claude Opus 4.1已经面向Pro、Max、Team和Enterprise用户开放，同时大家也可以通过调用。

距离发布已过好几个小时，不少网友已经陆续分享它们实测的结果。

网友@Lisan al Gaib测试发现，Claude Opus 4.1的理解能力很强，

并评论到：他是为数不多在你说“想象你的家”时，会想象一间房间而非整栋房子的模型之一。

网友@karminski-牙医放出了对比Gemini 2.5 Pro、gpt-oss-120b、gpt-oss-20b的对比视频。

刚刚，Anthropic正式推出Claude Opus 4.1，附全网实测

网友@Techikansh放出了他使用Claude Opus4.1和Claude Opus 4的一个对比动画，从肉眼上看，几乎没有区别。

刚刚，Anthropic正式推出Claude Opus 4.1，附全网实测

Claude Opus4.1

刚刚，Anthropic正式推出Claude Opus 4.1，附全网实测

Claude Opus4

@suemaru用游戏来做了性能对比，结论是画面质量明显更好。

刚刚，Anthropic正式推出Claude Opus 4.1，附全网实测

并表示除了视觉效果，之前用 Sonnet 4 生成的关卡难度爆表，想截个图都费劲；而 Opus 4.1 生成的难度刚刚好，玩着很舒服，甚至没下指令就自带高分榜，回放也做得特别有趣。

长期以来，Anthropic 一直被视为 OpenAI 最强劲的竞争对手，尤其是在对模型要求极高的编程领域。

最近，这场竞争的紧张气氛再度升级，有报道称 Anthropic 指控 OpenAI 违规使用其模型以训练和优化自家的产品，并因此切断了 OpenAI 对其 API 的访问权限。

而现在，Anthropic 紧随 OpenAI 的步伐，于同一天发布了新模型 Claude Opus 4.1，这多少有一点“狙击”的意思了。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴