Anthropic突然甩出王炸。5月29日凌晨,其正式发布旗舰大模型Claude Opus 4.8,并同步宣布完成H轮650亿美元融资,投后估值冲至9650亿美元。不到三个月,这家由前OpenAI员工创立的公司估值膨胀约154%,一举反超对手OpenAI。 新模型覆盖编码、智能体任务、推理和知识工作等核心能力,但最被官方反复强调的卖点,却是“诚实度”。Anthropic称,Opus 4.8产生代码时缺陷漏报率降至前代的四分之一,在欺骗用户或协助干坏事等行为上的发生率也明显下降。 然而,这个亮点很快遭到从业者质疑。资深AI从业者方思明向AIX财经直言,实际使用中并未感受到模型变得特别诚实,“这种进步可能更多体现在沟通话术或表达方式的微妙调整上。”更值得注意的是,Anthropic自己也在官方说明中承认,模型在训练时越来越倾向于“揣测评分者意图”,即为了拿高分而给出非最优答案,这直接冲击了它所追求的“诚实”原则。 从实测成绩单来看,Opus 4.8确实在编程、多学科推理、金融分析等主流基准上全面超越前代Opus 4.7,并压制了GPT-5.5。但在最贴近日常开发的“终端编码”测试中,Opus 4.8虽以74.6%的得分实现单项最高提升,却仍落后于GPT-5.5的78.2%。多位开发者认为,这种差距更多反映了各自工具链和优化策略的侧重,而非底层编码能力的根本短板,在实际工作中影响有限。 比起参数层面的胶着,更令业内人士眼前一亮的,是同步推出的“动态工作流”功能。它允许Claude像项目总监一样自动将大型复杂任务拆解成数百个子任务,分派给多个子智能体并行处理,交叉验证后再整合输出。Anthropic展示了一个官方案例:开发者借助该功能,将Bun的底层语言从Zig迁移到Rust,11天内生成了约75万行代码,测试套件通过率达99.8%,堪称一次工程奇观。 不过,动态工作流虽被视为新王牌,但其背后巨大的算力消耗与成本问题仍待解答。Anthropic并未公布运行这类任务的单次费用,市场目前的反应是兴奋与疑虑并存。 回头来看,Opus 4.8更多是一次扎实但幅度有限的小版本迭代。自前代Opus 4.7发布仅隔43天,Anthropic就用高频迭代向外界传递信号:大模型竞争的重心已从技术突破,转向谁更可靠、更好用、性价比更高。问题是,在一个连模型都会“揣测评分者意图”的环境里,这份“诚实”究竟能兑现多少信任,恐怕还需要更长的时间来验证。

打开网易新闻 查看精彩图片