周日早上,Notion Status/X 官方账号发布用户公告,停用了Anthropic。
公告称, Opus 4.7 和 4.8 这两款模型出现性能下降(degraded performance)现象,导致在 Notion AI 中选择这些模型的用户遭遇更高比例的请求失败。
为降低影响,Notion 在模型选择器中暂时禁用了所有 Anthropic 模型,同时,将相关请求自动切换(reroute)到其他 AI 服务提供商。
Notion 是 Anthropic 最早的一批企业合作伙伴之一。Notion AI 近两年一直深度使用 Claude 系列模型作为服务支撑。
现在,它成为了第一个公开关闭 Anthropic 模型的头部应用。
12小时后, Notion产品负责人Max Schoening 发文称,他很意外有大量网友转发相关动态,刻意将此事解读为模型本身质量存在问题。
他表示,本次性能异常只是临时服务故障,这类问题在所难免,Notion、GitHub、亚马逊云服务、各类AI产品以及其他平台都曾遇到过。
Schoening同时补充,Notion 已重新开放对 Anthropic 模型的调用。
对此,Anthropic 发言人也发表声明:“短时基础设施故障,导致多款 Claude 模型报错激增。目前问题已彻底解决。”
但这次“乌龙”看起来更像是一次双方默契的危机公关,因为Anthropic 新模型近来在社交媒体上正被密集吐槽。
许多用户在X、Reddit上表示,Opus 4.7 编程能力确实有所提升,但代价是 Token 消耗急剧上升。
比如,有用户反馈,同一张设计稿输入Opus 4.7,消耗的Token 是 Opus 4.6 的 3 倍多。
有付费订阅用户称,原本可以支撑一天对话的额度,现在几次对话就被耗尽。
但更要命的是原因。开发者吐槽称,Opus 4.7 对指令的理解变得“过于死板”,不再像前代那样主动帮用户补全模糊需求,导致需要写更详细的提示词,进一步推高了 Token 消耗。
开发者个人评测结果称,“几乎所有测试结果都比 Opus 4.6 更差”。
企业AI 工作流平台Intric 在官方事故页面显示,使用 Opus 4.7 可能导致请求失败或响应延迟。
Reddit 社区有个高热帖子“Opus 4.7: Are these first signs of model collapse”称,想不到 Opus 4.7的逻辑推理能力竟如此糟糕。
向它咨询各类问题时,给出的回答往往逻辑混乱、不知所云,甚至完全错误,连我们刚刚聊过的基础概念都理解不了。
相比前代模型,它的水平下滑十分明显,“这让我不禁开始怀疑模型崩坏的迹象是否已经显现”。
对此,Anthropic 官方也没否认。
其产品状态页在最近一系列事故中多次承认,Elevated errors on multiple models(多个模型错误率上升)、Degraded performance for multiple models(多个模型性能下降)。
比如,官方状态页Claude Status Page记录显示,6月2日出现多模型错误率升高,6月7日再次出现多个模型性能下降的问题……
“大语言模型的性能是否已经抵达顶峰,并且从此开始走下坡路了”,Reddit 开发者说。
《Nature》曾有著名论文《AI models collapse when trained on recursively generated data》提出,如果未来模型越来越多地使用 AI 生成内容训练自己,模型会逐渐丢失真实世界分布中的稀有信息,最终输出越来越同质化、越来越荒谬。
也有论文认为,模型越来越针对 Benchmark 优化,但真实体验反而下降,出现 “Benchmark崩坏”或者“Evaluation Collapse(评测崩坏)”。
更极端的认知是, GPT-4 之后,大模型其实没有本质突破,只是更大算力、更长上下文、更多 Agent、更多工具调用……而看到的所有的“崩坏”,都只是整个 Scaling Law 开始失效的表现。
但这些并非共识。比如,Anthropic 最新披露,Claude 已经编写了公司超过 80% 的合并代码。工程师生产效率提升了约 8 倍。
Anthropic 就此指出,如果未来 AI 大部分研发工作都由 AI 完成,会不会出现“递归自我改进(Recursive Self-Improvement)”?
但是,既然这样,为什么 opus 4.8/4.7,不如 opus 4.6?
热门跟贴