你能在20分钟内搭建一个"AI代理团队"——这是现在YouTube上最热门的教程标题。五个代理、十个代理、一整群代理协作完成复杂任务,演示视频看起来完美无瑕:一个负责调研,一个负责写作,一个负责审核,流水线般顺畅。

但演示不会告诉你的是:当你把这个流程跑500次、5000次之后会发生什么。当一个代理产生幻觉,下一个代理把这个幻觉当作事实传递给第三个代理,而第三个代理已经据此采取了行动——这种连锁反应在账单到来之前,构建者往往毫无察觉。

打开网易新闻 查看精彩图片

我运行着一个生产级的多智能体系统,每天都在用。所以我要说的不是"这玩意儿没用",而是:现在流传的大多数建议,危险地不完整。

框架在疯狂繁殖:CrewAI、AutoGen、LangGraph。最新的版本是"我用AI代理30分钟建了一家公司"。有人启动Paperclip这类框架——公平地说,它的底层工程确实扎实:心跳调度、预算上限、任务队列、审计追踪——但后续内容让你以为可以一夜之间替代整个组织。工具没问题,有问题的是解读层:博主们拍摄搭建过程,跳过那个关键环节——48个预配置代理每4小时在前沿模型上唤醒,没人提月底账单是多少。也没人提当第23号代理收到污染输入,其他47个信任它的输出时会发生什么。

协调问题是真实存在的,而且扩展性极差。Galileo对多智能体可靠性的研究发现,增加代理会以指数级方式倍增故障点。4个代理产生6个潜在故障点,不是4个;10个代理产生45个。每一次代理间交接都是上下文丢失、指令误读或输出损坏的节点。

《CIO》杂志2026年3月报道,真正的多智能体协作在很大程度上仍只是愿景。其测试显示,单一代理在孤立任务上达到100%成功率,而层级式多智能体结构失败率达64%,自组织集群失败率达68%。这不是四舍五入的误差,这是根本性的协调税。

我亲眼见过的失败模式包括:没有目的定义——代理存在只是因为有人觉得"多一个会更好";没有故障隔离——一个代理崩溃不会优雅降级,而是拖垮整个链条;没有成本意识——每个代理调用都是真金白银,而"集群"意味着调用量乘以代理数量再乘以迭代次数。