Notion 因"降智"停用Anthropic,AI"崩坏"狼来了？

AI先锋官

2026-06-08 07:59 ·北京 ·优质互联网领域创作者

周日早上，Notion Status/X 官方账号发布用户公告，停用了Anthropic。

公告称， Opus 4.7 和 4.8 这两款模型出现性能下降（degraded performance）现象，导致在 Notion AI 中选择这些模型的用户遭遇更高比例的请求失败。

为降低影响，Notion 在模型选择器中暂时禁用了所有 Anthropic 模型，同时，将相关请求自动切换（reroute）到其他 AI 服务提供商。

Notion 是 Anthropic 最早的一批企业合作伙伴之一。Notion AI 近两年一直深度使用 Claude 系列模型作为服务支撑。

现在，它成为了第一个公开关闭 Anthropic 模型的头部应用。

12小时后， Notion产品负责人Max Schoening 发文称，他很意外有大量网友转发相关动态，刻意将此事解读为模型本身质量存在问题。

他表示，本次性能异常只是临时服务故障，这类问题在所难免，Notion、GitHub、亚马逊云服务、各类AI产品以及其他平台都曾遇到过。

Schoening同时补充，Notion 已重新开放对 Anthropic 模型的调用。

对此，Anthropic 发言人也发表声明：“短时基础设施故障，导致多款 Claude 模型报错激增。目前问题已彻底解决。”

但这次“乌龙”看起来更像是一次双方默契的危机公关，因为Anthropic 新模型近来在社交媒体上正被密集吐槽。

许多用户在X、Reddit上表示，Opus 4.7 编程能力确实有所提升，但代价是 Token 消耗急剧上升。

比如，有用户反馈，同一张设计稿输入Opus 4.7，消耗的Token 是 Opus 4.6 的 3 倍多。

有付费订阅用户称，原本可以支撑一天对话的额度，现在几次对话就被耗尽。

但更要命的是原因。开发者吐槽称，Opus 4.7 对指令的理解变得“过于死板”，不再像前代那样主动帮用户补全模糊需求，导致需要写更详细的提示词，进一步推高了 Token 消耗。

开发者个人评测结果称，“几乎所有测试结果都比 Opus 4.6 更差”。

企业AI 工作流平台Intric 在官方事故页面显示，使用 Opus 4.7 可能导致请求失败或响应延迟。

Reddit 社区有个高热帖子“Opus 4.7: Are these first signs of model collapse”称，想不到 Opus 4.7的逻辑推理能力竟如此糟糕。

向它咨询各类问题时，给出的回答往往逻辑混乱、不知所云，甚至完全错误，连我们刚刚聊过的基础概念都理解不了。

相比前代模型，它的水平下滑十分明显，“这让我不禁开始怀疑模型崩坏的迹象是否已经显现”。

对此，Anthropic 官方也没否认。

其产品状态页在最近一系列事故中多次承认，Elevated errors on multiple models（多个模型错误率上升）、Degraded performance for multiple models（多个模型性能下降）。

比如，官方状态页Claude Status Page⁠记录显示，6月2日出现多模型错误率升高，6月7日再次出现多个模型性能下降的问题……

“大语言模型的性能是否已经抵达顶峰，并且从此开始走下坡路了”，Reddit 开发者说。

《Nature》曾有著名论文《AI models collapse when trained on recursively generated data》提出，如果未来模型越来越多地使用 AI 生成内容训练自己，模型会逐渐丢失真实世界分布中的稀有信息，最终输出越来越同质化、越来越荒谬。

也有论文认为，模型越来越针对 Benchmark 优化，但真实体验反而下降，出现 “Benchmark崩坏”或者“Evaluation Collapse（评测崩坏）”。

更极端的认知是， GPT-4 之后，大模型其实没有本质突破，只是更大算力、更长上下文、更多 Agent、更多工具调用……而看到的所有的“崩坏”，都只是整个 Scaling Law 开始失效的表现。

但这些并非共识。比如，Anthropic 最新披露，Claude 已经编写了公司超过 80% 的合并代码。工程师生产效率提升了约 8 倍。

Anthropic 就此指出，如果未来 AI 大部分研发工作都由 AI 完成，会不会出现“递归自我改进（Recursive Self-Improvement）”？

但是，既然这样，为什么 opus 4.8/4.7，不如 opus 4.6？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴