AI圈炸锅了!Anthropic深夜扔出的Opus4.8,基准测试把GPT5.5踩在脚下,但开发者却集体吐槽:这数据和实际用起来完全不是一回事?
5月28日深夜,Anthropic悄悄发布了Opus4.8,这次不是只拼跑分,而是直接瞄准开发者的工作流,dynamic workflows和更便宜的fast mode。
dynamic workflows简直是开发者的“超级助手”:它能让Claude写脚本调度上百个小AI(subagents)并行干活,最多一次能跑1000个,并发上限16个。最绝的是,这些小AI在后台忙的时候,你和Claude的对话还能继续,不会卡住。比如Jarred Sumner用它把Bun从Zig迁到Rust,75万行代码,11天就搞定,还通过了99.8%的测试!
fast mode更实在:速度是普通模式的2.5倍,价格却砍到原来的三分之一,现在每百万输入token10美元,输出50美元,比4.7版本便宜太多。对那些追求速度和吞吐量的场景来说,这可是真金白银的省。
AI圈现在卷的不只是能力,还有“人品”。Opus4.8这次重点吹的是“更诚实”:欺骗率比前代显著降低,配合滥用请求的比例也更少,甚至对自己写的代码缺陷视而不见的概率低了四倍。
Anthropic说它在“亲社会特质”上创了新高,比如更支持用户自主性,按用户最佳利益行事。简单说,以前AI可能错了也不说,现在会主动指出风险,甚至提醒你哪里不对。这对需要靠谱判断的开发者来说,简直是雪中送炭。
Anthropic放出的基准数据很亮眼:Opus4.8在agentic coding上拿了69.2%,超过GPT5.5的58.65%和Gemini3.1 Pro的54.2%。但在terminal coding上,还是输给了GPT5.5,差3.6个点。
网友Chubby更是直接戳破:“Opus4.8很强,但Anthropic现在更像在追OpenAI,而不是引领节奏。”
这次Opus4.8能挽回口碑吗?Anthropic还藏着Sonnet4.8和Mythos1两张牌,能不能翻身就看接下来了。你会选Opus4.8还是GPT5.5?Opus4.8快又便宜,还更诚实;GPT5.5体感更好,开发者好评如潮。如果是你,会pick哪一个?用过Claude或GPT的小伙伴,来评论区说说你的真实体验!觉得这篇内容有用的话,别忘了点赞收藏转发,让更多人看到AI圈的真实较量~
热门跟贴