谷歌工程师撕破AI代理遮羞布：90%产品连"刚才干了啥"都答不上

我是一个粉刷匠2

2026-04-05 06:50 ·北京

去年有个测试在圈内传疯了——让市面上主流的AI代理连续执行5步任务，第6步问它"第一步做了什么"，73%的代理要么瞎编，要么直接崩溃。不是内存不够，是压根没有状态管理这个概念。

这就像一个实习生，你让他去订会议室、发邀请、准备材料、会后整理纪要。他每一步都执行了，但问"会议室订的几楼"，他得把聊天记录翻一遍才能回答。这不是记性差，是工作方法有问题。

状态≠记忆：行业最大的概念偷换

状态≠记忆：行业最大的概念偷换

几乎所有框架都在混淆这两个词。它们给代理塞一段对话历史，就宣称"支持状态管理"。原文作者打了个精准的比方：这就像给程序员一个Git提交记录，然后说这是项目文档。

真正的状态是什么？是代理做决策所需的全部上下文：哪些任务已完成、哪些卡住了、为什么卡住、做过什么关键决策、依据是什么。这些需要结构化存储，而不是藏在几十轮对话的犄角旮旯里。

LangChain、AutoGPT早期版本都栽在这个坑里。用户看着代理跑得很热闹，一旦任务超过10步，行为就开始诡异——重复执行已完成的步骤、对同一问题给出矛盾答案、在错误的前提上继续推进。2023年AutoGPT的GitHub issue区，"forgot what it did"标签下有超过400条未关闭的反馈。

四大暗礁：为什么状态管理这么难搞

四大暗礁：为什么状态管理这么难搞

第一个坑叫隐式状态累积。代理通过对话"自然"记住东西，但要用的时候找不着。就像你把钥匙随手放，要用时得把全屋翻一遍。显式状态管理要求代理明确知道自己知道什么——这对当前的大模型架构是个反直觉的设计。

第二个坑是状态漂移。任务越长，代理对当前状态的认知和世界真实状态的偏差越大。原文作者指出，代理"以为自己处于状态A，但世界已经移动到状态B"。一个典型的场景：代理检查库存时说"还剩50件"，两小时后实际库存变了，它仍按旧数据做采购决策。

第三个坑是序列化断层。代理跑在会话里，会话会结束。服务器重启、API超时、用户关闭页面——状态说没就没。大多数框架没解决跨会话持久化，导致"续传"成了奢侈品。某头部RPA厂商的内部数据显示，因会话中断导致的任务失败占其客服工单量的31%。

第四个坑最隐蔽：多代理共享状态。企业级场景往往需要多个代理协作，但每个代理是隔离进程，共享状态需要额外的协调层。没有这层，就会出现A代理标记"等待用户确认"，B代理不知道，直接覆盖为"继续执行"的灾难。

解法的轮廓：状态即契约

解法的轮廓：状态即契约

原文给出了一个被验证有效的模式。不再传递整段对话，而是传递一个结构化的状态对象：

已完成任务清单、待处理队列、阻塞项及原因、相关上下文数据、关键决策记录。

代理读取状态→执行动作→更新状态。状态成为轮次之间的契约。这个设计让代理能直接回答"我目前做到哪了"，而不需要回放整个对话历史。

一些团队已经开始实践。CrewAI在0.5版本后引入了显式状态层，多代理任务的完成率从62%提升到89%。LangGraph干脆把状态流作为核心抽象，用图结构定义状态转换规则。这些不是炫技，是解决真问题的工程选择。

国内也有跟进者。某大厂智能体平台在2024年Q3的更新中，把"状态快照"作为付费功能推出，企业客户续费率环比涨了17个百分点——说明有人愿意为可靠性买单。

从"能动"到"能协调"

从"能动"到"能协调"

原文的结语很锋利：状态是"能动"和"能协调"的分水岭。没有状态管理，代理只是按顺序执行动作的脚本；有了状态管理，它才能处理依赖关系、应对中断、协作分工。

这个区分正在重塑产品选型标准。去年企业客户问的是"支持哪些模型"，今年变成"状态持久化怎么实现""多代理冲突怎么解决"。一个做智能客服的CTO跟我吐槽：POC阶段各家都差不多，一上生产环境，状态管理没做好的厂商直接出局。

更深层的影响在架构层面。状态管理需要显式设计，意味着产品经理得想清楚业务流程的每个决策点、每种异常分支。这逼退了只想套壳大模型赚快钱的玩家，也让真正理解业务的人有了护城河。

那个测试还有后续——同一批代理，给它们加上显式状态层后，5步任务成功率从27%跳到94%。技术问题有时候就这么朴素：不是模型不够聪明，是基础设施没搭对。

你现在用的AI工具，能准确说出它上一步做了什么、为什么这么做吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴