在Agent大考中惨败的Claude祭出了「永久大脑」，意味着什么？|agent|大模型|大考|智能体|永久大脑

“为什么说Anthropic想成为Agent时代的「大管家」？”

作者丨陈嘉欣

编辑丨徐晓飞

AI Agent如何才能摆脱实验室的真空环境，真正替人类工作？

就在昨天，UniPat AI团队发布的SaaS-Bench测试中，106个真实办公任务，Claude只完整通过了4个，完全通过率仅3.8%。

在实验室中测试良好的Agent系统，为何在放到真实场景下就“失智”了？

一个很重要的原因在于，目前大模型的“记忆”一般是把用户长期有效的信息做成结构化的条目/摘要，这种模式对信息抽取和结构化质量要求很高，因此在面对复杂的、多步骤的、需要长时间运行任务时，容易出现混乱。

就在测试发布的同一天，著名AI追踪平台TestingCatalog爆出猛料，Anthropic正为Claude测试一套更强大的记忆系统，疑似是之前提出的“知识库”的最新版本。

Anthropic此举的意义在哪？归根结底还是战略问题。

Agent测试几近全军覆没，Claude怎么了？

5月25日，UniPat AI发布了SaaS-Bench。这不是又一个仿真环境测试，23个真实SaaS系统跑在Docker里，从OpenProject到Mattermost，每个系统都填入了真实业务数据。106个任务中，93.4%需要跨越至少两个应用。

一个典型的任务是：在OpenProject中创建一个研发项目，分配给三个团队成员，设置里程碑日期，然后在Mattermost中发起项目启动通知，三个应用、跨系统调用、15个操作步骤。

最长的任务操作步数超过300步。从创建客户档案开始，到生成季度财务报告结束。

结果惨到什么程度？

Claude Opus 4.7，整个行业公认的最强模型，106个任务只完整完成了4个。完全通过率3.8%。Kimi K2.5和Gemini 3.1 Pro是0%，一个都没走到底。

但故事还有另一面。如果放宽标准看“检查点分数”，只要求部分完成、按权重计算进度，Claude的得分是43.9%。这意味着它几乎在每个任务中都走到了一半左右，然后在某个环节突然卡住。

评测团队总结了四种失败模式：

第一种，任务越长越做不对。模型前20步的表现和后20步判若两人。随着上下文越长，注意力涣散越严重，这是一个不可逆的衰减曲线。

第二种，一步错、步步错。上游一个微小错误，比如在创建客户档案时把“企业客户”选成了“个人客户”，会导致下游所有相关任务全部失败。Agent没有从错误中恢复的能力，也没有“退一步重来”的设计。

第三种，做完不检查。Agent在输出层面认为任务已完成，但实际上系统状态并未改变。它缺少严谨的反思闭环，没有人教它“做完之后回头看一眼”。

第四种，成绩忽高忽低。同一个模型、同一个任务、相同的初始状态下，两次运行结果可能一个接近满分、一个接近零分。这不是能力问题，是稳定性问题，执行过程像赌博。

这不是修bug能解决的。这是架构层面的缺陷。

某人形机器人公司创始人曾向雷峰网表达过类似问题，他表示，目前的大模型像是个没有OS的小计算机，只能先满足一个很特别的应用，你有需求的时候才找它一下，这个逻辑是不对的，AI Agent最后会变成一个大管家，随时在线，就像你的助理一样，什么事都能找他。

没有OS层的支持，Agent就没有持久状态管理能力。你让它跨应用做一个长流程任务，它在第50步时已经忘了第10步的状态。

没有OS层，就没有记忆。

永久大脑：记忆系统的三层架构

但就在同一天，另一条消息说明Claude正在解决这个“没有记忆”的问题。

Anthropic为Claude推出了一套双模记忆系统。核心是两项技术：

“文件记忆”让Claude在对话中自动把信息分类整理成结构化文档。以后再遇到相关话题，Claude不会翻找全部历史，而是精准读取对应的文件。容量理论上无限，用户可以像编辑Wiki词条一样随时增删改。

“梦境”是一种异步后台机制。灵感来自人类的REM睡眠，在Claude空闲时，它会自动对积累的记忆文件做深度维护：合并重复项、替换过时条目、解决逻辑矛盾、挖掘隐藏模式。触发条件很简单：累积5次对话，或者距离上次整合超过24小时。用户也可以手动敲“/dream”触发。

Netflix等首批企业的反馈是：首次处理错误率暴降97%，文档验证提速30%。

与此同时曝光的还有Conway Agent，一个7x24小时永不下线的AI智能体平台。它不需要用户输入提示词才回复，而是常驻后台，监听外部事件、主动触发任务、通过Webhook接收信号、自主操控浏览器和运行Claude Code。

把这三件事串起来：Memory Files提供无限存储 → Dreams提供自动维护 → Conway提供自主运行时。从“存储”到“反思”到“行动”，这是一个完整的闭环。

用户基数不是缺陷，核心场景做透才是战略

硅谷AI生态观察专家在雷峰网采访中提供了一个关键的格局判断，编程赛道“Anthropic第一、Cursor第二、Copilot第三”。Claude Code是这个赛道的绝对王者。之前需要10人的产品经理团队，现在可能只需要一个人+Agent就够了。

Anthropic押注记忆系统的策略很清晰：为其核心的Code场景提供更流畅稳定的用户体验。随着用户逐渐将更多、更复杂的任务交给Agent，这种用户体验可能直接影响用户“用脚投票”。

面对OpenAI庞大的用户基础，Anthropic没有着急和对家抢人，而是先把一个核心场景做透、建立不可替代性，再往外扩展。这和当下国内AI公司“什么都想做、什么都做到60分”的思路截然不同。

业界把这叫“从builder到大众用户”的路径：先让开发者离不开你，再慢慢扩展到普通用户。Claude Code锁定了开发者，Conway Agent锁定了智能体的运行时框架，永久记忆锁定了用户的数据迁移成本。

SaaS-Bench还有一个更深层的结论。

评测团队发现，当前SaaS界面是为人类设计的，按钮、下拉菜单、弹出对话框，全部依赖人类的视觉识别和操作逻辑。当Agent成为主要使用者时，这些界面就成了累赘。Agent需要的是API、结构化数据、可编程接口，不是“点这个按钮然后确认”的交互。

这意味着，未来软件需要为Agent重新设计。不是给SaaS系统加一个API接口，而是从底层重构，让Agent能直接操作数据层，而不是通过UI层绕一圈。

Claude的Conway Agent本质上就是在构建这个“Agent时代的操作系统框架”。如果开发者生态（Claude Code）和智能体运行框架（Conway）都被Anthropic锁定，未来任何一家公司想做Agent，都可能绕不开Anthropic定义的架构。

这是比模型能力更深层的竞争壁垒。

模型能力可以追，跑分可以刷，但开发者的工作流习惯、用户的记忆数据、Agent的运行框架一旦被锁定，迁移成本会越来越高。

三年窗口期内，Anthropic赌的是当范式固化时，它已经站在了开发者生态和Agent运行时的交叉点上。

本文作者长期追踪国内外科技巨头动态、前沿技术和幕后故事，欢迎添加微信 aqingcjx 一起快乐吃瓜。

在Agent大考中惨败的Claude祭出了「永久大脑」，意味着什么？

热搜

热门跟贴

热搜

热门跟贴

相关推荐

华为云WAIC“亮剑”企业AI，周跃峰拆解智能体规模化落地步骤

AI颠覆「旧手机」，阶跃创造「新物种」

WAIC2026的三个关键信号：算力重组、Agent交付与AI硬件闭环

WAIC直击：AI不只活在云端，此芯科技让智能体走进每台设备

Claude Code之父的夜班AI军团，Fable 5两个命令搭好

全球首台机器人手机，能预购了！与阿里合作

人在养虾，虾在选人

端侧AI成WAIC大热门！后摩要用这颗芯把千亿大模型塞进口袋

800万人围观！虾爹给Agent套上循环，让它自己跑起来！

WAIC五位首席科学家交锋：多模态是LLM的“外挂”，还是下一代智能的“灵魂”？

距离预产期仅两天时，收到裁员通知

天谱乐大模型发布4.7，让AI音乐更懂“二次创作”｜独家

TRAE Work上线 40 万字的“AI 打工说明书”！一手实测在此

商汤发布旗舰级SenseNova U1 Pro，多模态智能体实现长程任务闭环

后摩智能携 M50 Inside 终端亮相 WAIC 2026，支撑端侧 AI 算力与终端创新

AI Agent是科技革命中的一次真正的范式转移

大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

展会当保安、流水线搬砖！WAIC展示机器人“就业潮”全景

王晓野：Working Agent将是下一个爆发点

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML