周日早上,Notion Status/X 官方账号发布用户公告,停用了Anthropic。

公告称, Opus 4.7 和 4.8 这两款模型出现性能下降(degraded performance)现象,导致在 Notion AI 中选择这些模型的用户遭遇更高比例的请求失败。

打开网易新闻 查看精彩图片

为降低影响,Notion 在模型选择器中暂时禁用了所有 Anthropic 模型,同时,将相关请求自动切换(reroute)到其他 AI 服务提供商。

Notion 是 Anthropic 最早的一批企业合作伙伴之一。Notion AI 近两年一直深度使用 Claude 系列模型作为服务支撑。

现在,它成为了第一个公开关闭 Anthropic 模型的头部应用。

12小时后, Notion产品负责人Max Schoening 发文称,他很意外有大量网友转发相关动态,刻意将此事解读为模型本身质量存在问题。

他表示,本次性能异常只是临时服务故障,这类问题在所难免,Notion、GitHub、亚马逊云服务、各类AI产品以及其他平台都曾遇到过。

Schoening同时补充,Notion 已重新开放对 Anthropic 模型的调用。

对此,Anthropic 发言人也发表声明:“短时基础设施故障,导致多款 Claude 模型报错激增。目前问题已彻底解决。”

但这次“乌龙”看起来更像是一次双方默契的危机公关,因为Anthropic 新模型近来在社交媒体上正被密集吐槽。

许多用户在X、Reddit上表示,Opus 4.7 编程能力确实有所提升,但代价是 Token 消耗急剧上升。

比如,有用户反馈,同一张设计稿输入Opus 4.7,消耗的Token 是 Opus 4.6 的 3 倍多。

有付费订阅用户称,原本可以支撑一天对话的额度,现在几次对话就被耗尽。

但更要命的是原因。开发者吐槽称,Opus 4.7 对指令的理解变得“过于死板”,不再像前代那样主动帮用户补全模糊需求,导致需要写更详细的提示词,进一步推高了 Token 消耗。

开发者个人评测结果称,“几乎所有测试结果都比 Opus 4.6 更差”。

企业AI 工作流平台Intric 在官方事故页面显示,使用 Opus 4.7 可能导致请求失败或响应延迟。

打开网易新闻 查看精彩图片

Reddit 社区有个高热帖子“Opus 4.7: Are these first signs of model collapse”称,想不到 Opus 4.7的逻辑推理能力竟如此糟糕。

打开网易新闻 查看精彩图片

向它咨询各类问题时,给出的回答往往逻辑混乱、不知所云,甚至完全错误,连我们刚刚聊过的基础概念都理解不了。

相比前代模型,它的水平下滑十分明显,“这让我不禁开始怀疑模型崩坏的迹象是否已经显现”。

对此,Anthropic 官方也没否认。

其产品状态页在最近一系列事故中多次承认,Elevated errors on multiple models(多个模型错误率上升)、Degraded performance for multiple models(多个模型性能下降)。

比如,官方状态页Claude Status Page⁠记录显示,6月2日出现多模型错误率升高,6月7日再次出现多个模型性能下降的问题……

打开网易新闻 查看精彩图片

“大语言模型的性能是否已经抵达顶峰,并且从此开始走下坡路了”,Reddit 开发者说。

《Nature》曾有著名论文《AI models collapse when trained on recursively generated data》提出,如果未来模型越来越多地使用 AI 生成内容训练自己,模型会逐渐丢失真实世界分布中的稀有信息,最终输出越来越同质化、越来越荒谬。

也有论文认为,模型越来越针对 Benchmark 优化,但真实体验反而下降,出现 “Benchmark崩坏”或者“Evaluation Collapse(评测崩坏)”。

更极端的认知是, GPT-4 之后,大模型其实没有本质突破,只是更大算力、更长上下文、更多 Agent、更多工具调用……而看到的所有的“崩坏”,都只是整个 Scaling Law 开始失效的表现。

但这些并非共识。比如,Anthropic 最新披露,Claude 已经编写了公司超过 80% 的合并代码。工程师生产效率提升了约 8 倍。

Anthropic 就此指出,如果未来 AI 大部分研发工作都由 AI 完成,会不会出现“递归自我改进(Recursive Self-Improvement)”?

但是,既然这样,为什么 opus 4.8/4.7,不如 opus 4.6?