打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

为什么说Anthropic想成为Agent时代的「大管家」?

作者丨陈嘉欣

编辑丨徐晓飞

AI Agent如何才能摆脱实验室的真空环境,真正替人类工作?

就在昨天,UniPat AI团队发布的SaaS-Bench测试中,106个真实办公任务,Claude只完整通过了4个,完全通过率仅3.8%。

在实验室中测试良好的Agent系统,为何在放到真实场景下就“失智”了?

一个很重要的原因在于,目前大模型的“记忆”一般是把用户长期有效的信息做成结构化的条目/摘要,这种模式对信息抽取和结构化质量要求很高,因此在面对复杂的、多步骤的、需要长时间运行任务时,容易出现混乱。

就在测试发布的同一天,著名AI追踪平台TestingCatalog爆出猛料,Anthropic正为Claude测试一套更强大的记忆系统,疑似是之前提出的“知识库”的最新版本。

Anthropic此举的意义在哪?归根结底还是战略问题。

01

Agent测试几近全军覆没,Claude怎么了?

5月25日,UniPat AI发布了SaaS-Bench。这不是又一个仿真环境测试,23个真实SaaS系统跑在Docker里,从OpenProject到Mattermost,每个系统都填入了真实业务数据。106个任务中,93.4%需要跨越至少两个应用。

一个典型的任务是:在OpenProject中创建一个研发项目,分配给三个团队成员,设置里程碑日期,然后在Mattermost中发起项目启动通知,三个应用、跨系统调用、15个操作步骤。

最长的任务操作步数超过300步。从创建客户档案开始,到生成季度财务报告结束。

结果惨到什么程度?

Claude Opus 4.7,整个行业公认的最强模型,106个任务只完整完成了4个。完全通过率3.8%。Kimi K2.5和Gemini 3.1 Pro是0%,一个都没走到底。

但故事还有另一面。如果放宽标准看“检查点分数”,只要求部分完成、按权重计算进度,Claude的得分是43.9%。这意味着它几乎在每个任务中都走到了一半左右,然后在某个环节突然卡住。

打开网易新闻 查看精彩图片

评测团队总结了四种失败模式:

第一种,任务越长越做不对。模型前20步的表现和后20步判若两人。随着上下文越长,注意力涣散越严重,这是一个不可逆的衰减曲线。

第二种,一步错、步步错。上游一个微小错误,比如在创建客户档案时把“企业客户”选成了“个人客户”,会导致下游所有相关任务全部失败。Agent没有从错误中恢复的能力,也没有“退一步重来”的设计。

第三种,做完不检查。Agent在输出层面认为任务已完成,但实际上系统状态并未改变。它缺少严谨的反思闭环,没有人教它“做完之后回头看一眼”。

第四种,成绩忽高忽低。同一个模型、同一个任务、相同的初始状态下,两次运行结果可能一个接近满分、一个接近零分。这不是能力问题,是稳定性问题,执行过程像赌博。

这不是修bug能解决的。这是架构层面的缺陷。

某人形机器人公司创始人曾向雷峰网表达过类似问题,他表示,目前的大模型像是个没有OS的小计算机,只能先满足一个很特别的应用,你有需求的时候才找它一下,这个逻辑是不对的,AI Agent最后会变成一个大管家,随时在线,就像你的助理一样,什么事都能找他。

没有OS层的支持,Agent就没有持久状态管理能力。你让它跨应用做一个长流程任务,它在第50步时已经忘了第10步的状态。

没有OS层,就没有记忆。

02

永久大脑:记忆系统的三层架构

但就在同一天,另一条消息说明Claude正在解决这个“没有记忆”的问题。

打开网易新闻 查看精彩图片

Anthropic为Claude推出了一套双模记忆系统。核心是两项技术:

“文件记忆”让Claude在对话中自动把信息分类整理成结构化文档。以后再遇到相关话题,Claude不会翻找全部历史,而是精准读取对应的文件。容量理论上无限,用户可以像编辑Wiki词条一样随时增删改。

“梦境”是一种异步后台机制。灵感来自人类的REM睡眠,在Claude空闲时,它会自动对积累的记忆文件做深度维护:合并重复项、替换过时条目、解决逻辑矛盾、挖掘隐藏模式。触发条件很简单:累积5次对话,或者距离上次整合超过24小时。用户也可以手动敲“/dream”触发。

打开网易新闻 查看精彩图片

Netflix等首批企业的反馈是:首次处理错误率暴降97%,文档验证提速30%。

与此同时曝光的还有Conway Agent,一个7x24小时永不下线的AI智能体平台。它不需要用户输入提示词才回复,而是常驻后台,监听外部事件、主动触发任务、通过Webhook接收信号、自主操控浏览器和运行Claude Code。

把这三件事串起来:Memory Files提供无限存储 → Dreams提供自动维护 → Conway提供自主运行时。从“存储”到“反思”到“行动”,这是一个完整的闭环。

03

用户基数不是缺陷,核心场景做透才是战略

硅谷AI生态观察专家在雷峰网采访中提供了一个关键的格局判断,编程赛道“Anthropic第一、Cursor第二、Copilot第三”。Claude Code是这个赛道的绝对王者。之前需要10人的产品经理团队,现在可能只需要一个人+Agent就够了。

Anthropic押注记忆系统的策略很清晰:为其核心的Code场景提供更流畅稳定的用户体验。随着用户逐渐将更多、更复杂的任务交给Agent,这种用户体验可能直接影响用户“用脚投票”。

面对OpenAI庞大的用户基础,Anthropic没有着急和对家抢人,而是先把一个核心场景做透、建立不可替代性,再往外扩展。这和当下国内AI公司“什么都想做、什么都做到60分”的思路截然不同。

业界把这叫“从builder到大众用户”的路径:先让开发者离不开你,再慢慢扩展到普通用户。Claude Code锁定了开发者,Conway Agent锁定了智能体的运行时框架,永久记忆锁定了用户的数据迁移成本。

SaaS-Bench还有一个更深层的结论。

评测团队发现,当前SaaS界面是为人类设计的,按钮、下拉菜单、弹出对话框,全部依赖人类的视觉识别和操作逻辑。当Agent成为主要使用者时,这些界面就成了累赘。Agent需要的是API、结构化数据、可编程接口,不是“点这个按钮然后确认”的交互。

这意味着,未来软件需要为Agent重新设计。不是给SaaS系统加一个API接口,而是从底层重构,让Agent能直接操作数据层,而不是通过UI层绕一圈。

Claude的Conway Agent本质上就是在构建这个“Agent时代的操作系统框架”。如果开发者生态(Claude Code)和智能体运行框架(Conway)都被Anthropic锁定,未来任何一家公司想做Agent,都可能绕不开Anthropic定义的架构。

这是比模型能力更深层的竞争壁垒。

模型能力可以追,跑分可以刷,但开发者的工作流习惯、用户的记忆数据、Agent的运行框架一旦被锁定,迁移成本会越来越高。

三年窗口期内,Anthropic赌的是当范式固化时,它已经站在了开发者生态和Agent运行时的交叉点上。

本文作者长期追踪国内外科技巨头动态、前沿技术和幕后故事,欢迎添加微信 aqingcjx 一起快乐吃瓜。

打开网易新闻 查看精彩图片