AI agent的进化方向,正在从"反应更快"转向"记得更牢"。

Anthropic刚刚给Claude Managed Agents上线了三个新功能,其中最抓眼球的是一个科幻感十足的词:Dreaming(做梦)。但别误会,这不是让AI产生意识,而是一个实打实的工程优化——让agent在任务间隙自动复盘,把踩过的坑变成长期记忆。

打开网易新闻 查看精彩图片

这个功能目前处于research preview(研究预览)阶段。它的运作逻辑很直白:当agent处于空闲状态时,系统会调度一个后台进程,扫描该agent过往的所有对话记录、内存日志和已完成任务,从中提取重复出现的错误模式和稳定有效的解决路径。这些洞察会被锁定到agent的记忆中,确保下一次启动时带着"上次什么管用、什么不管用"的上下文。

对于开发者来说,这里有道选择题:可以让Dreaming自动更新记忆,也可以设置人工审核,确认后再生效。考虑到AI agent在长期运行中容易陷入"重复犯错"的循环,这种跨会话的错题本机制,本质上是在解决一个被低估的问题——agent的"经验"如何沉淀,而不是每次归零重启。

第二个升级Outcomes(成果验收)则瞄准了输出质量的可控性。开发者可以编写一套评分标准(rubric),由独立的评分系统(grader)对agent的输出进行验收。不达标就退回重写,直到满足门槛。这个设计的关键在于评分系统与agent的推理过程隔离,避免"自己给自己打分"的偏差。配合webhooks的事件驱动触发,整个流程可以脱离持续的人工prompting,自动跑完。

第三个功能Multiagent Orchestration(多agent编排)让多个Claude agent能够并行处理复杂任务的不同模块。按Anthropic的说法,这能压缩时间成本,同时扩展单条工作流的响应覆盖范围。加上webhooks补全了事件触发的能力,这套组合拳的指向很明确:让agent从"执行单次指令"进化为"托管长期项目"。

三个功能里,Dreaming的命名最诗意,但工程意图也最清晰。它不是让AI"思考",而是给agent加了一个定期整理的夜间模式——把散落的执行记录转化为可复用的模式识别。对于需要处理复杂、长周期任务的开发者来说,这种"越用越顺"的复利效应,可能比单次响应的智商提升更实用。