过去几个月,一个变化正在悄悄发生。CrewAI、AutoGen、LangGraph 这些框架不再只是演示工具——它们已经跑在生产环境里。

团队把规划器、工具调用智能体、检索器和外部 API 串在一起,然后交给它们真正的任务:事件响应、内部 copilot、自动化流水线。这一切看起来越来越不像实验,越来越像基础设施。

打开网易新闻 查看精彩图片

可一旦这些系统上线,问题立刻暴露。不是那种"大语言模型会幻觉"的老问题。是更偏运维层面的麻烦。

现在的局面是:我们很会搭智能体,但很不擅长运维它们。框架让组合变得简单,可一旦规模上去,真正的控制权就没了。

这个缺口在生产环境里马上显现。

一个尴尬的现实是,很多团队部署多智能体系统时的可见性,比十年前运维微服务时还差。他们相信输出,却没法完全理解这些输出是怎么来的。

演示这么干没问题。可一旦系统开始接触真实数据、真实用户、真实资金,就撑不住了。

真正崩的是系统本身。本该一两步搞定的请求,变成几十次模型调用。智能体互相碰撞,重试、改写、循环,勉强能跑但毫无效率。延迟往上爬,成本跟着涨。没崩溃,所以没告警。你只是觉得……哪里不对劲。

更糟的是,表面一切正常,答案却微妙地错了。一个智能体超时,另一个补偿,第三个用残缺上下文填空。等你看到输出,失败已经深埋在一串无法轻易还原的决策链里。

还有数据问题。不是那种明显的泄露,是渐进式的扩散。一个智能体读了敏感信息,另一个做摘要,第三个把它塞进外部模型的提示词里。单看每一步都没问题,可整个系统越过了不该越的边界。

共同点是:没人真正看清发生了什么。

大多数团队试图用现有工具硬凑。日志、追踪、可能再抓点提示词。这在边缘有点用,但回答不了核心问题:系统到底是怎么得出这个结果的?

智能体系统不只是 API 调用更多的分布式系统。它们更像动态演化的执行图,决策是实时做的,路径随中间结果变化。盯着单个调用,就像只看一帧栈就想推断整个程序。

运维工具的设计假设是:你知道组件是什么,知道它们怎么连接,知道请求怎么流转。这些假设在智能体系统里全不成立。拓扑是运行时决定的,调用图每次都不一样,"正常"行为本身就在漂移。

团队需要的不是更多的仪表盘,是不同的观测方式。要能追踪意图怎么在智能体间传递,能标记某次调用是计划的一部分还是偏离轨道的补偿,能区分"这个输出技术上有效"和"这个输出实际上回答了用户的问题"。

现在的可观测性工具做不到这些。它们是为静态架构设计的,而智能体系统是动态的。

一些团队开始自己造工具。抓执行轨迹,存中间状态,给调用打语义标签。但这很费工程,而且每套系统都得重做。框架没提供标准,云厂商也没跟上。

结果是碎片化的。每个生产里的多智能体系统,背后都有一堆临时脚本和内部工具,勉强把系统粘在一起。能跑,但不可移植,难维护,更谈不上规模化。

这局面不会一直持续。随着更多团队把智能体系统推到生产,对真正运维能力的需求会压过对快速搭建的需求。框架的下一个战场不是谁的功能多,是谁能让这些系统在生产里可控。

问题是,很多团队还没意识到自己已经踩进这个坑了。他们还在用微服务的思维运维智能体,用静态工具看动态系统,用"没报错就是正常"的假设面对本质上不可预测的行为。

等他们反应过来,可能已经欠了一堆技术债。不是代码层面的,是认知层面的——没人知道这些系统实际在干什么,而它们已经在干重要的事了。