监控全绿但体验崩了？小红书AgentOps踩坑实录|agentops|小红书|知名企业|腾讯

传统DevOps那套监控体系，放在AI Agent身上正在失效。

4月16日-18日，QCon全球软件开发大会北京站，小红书可观测团队负责人王亚普会专门聊聊这件事。他的演讲题目是《面向生产的AgentOps：小红书AI Agent应用工程化实践》，核心就一个困惑：为什么Agent的可用性监控一路绿灯，用户却觉得越来越不好用了？

答案藏在故障模式的质变里。传统软件出问题是"异常型"——服务挂了、报错码了，一目了然。Agent的故障是"漂移型"：Prompt微调了一下、模型版本换了、某个Tool响应慢了，单看都没问题，组合起来效果就不可预期。这就像调鸡尾酒，每种配料比例都对，但顺序错了，味道全变。

王亚普把Agent的变更单元拆解得很细：Prompt、Model、Skill/Tool、Knowledge，任意一个维度的波动都可能引发连锁反应。传统监控盯着代码变更，Agent的"代码"是这四者的动态组合，旧地图当然找不到新大陆。

他在实践中踩过三个具体的坑：

评测数据集的维护成本被严重低估。不是一次性建完就完事，得像内容运营一样持续迭代，多源采集、质量清洗、场景覆盖，全是隐形人力。

Agent实现百花齐放，评估工程很难一刀切。有的团队用ReAct，有的用Plan-and-Solve，有的自己造轮子，评估标准怎么统一？

Judge模型的评估成本与延迟是道数学题。用GPT-4当裁判准但贵，用小模型快但可能判错，这个tradeoff没有标准答案，只有业务场景里的妥协。

小红书的解法是把可观测体系重新定义为"可归因、可回放、可评估"。以AI Trace为数据底座，搭起在线+离线的双轨评估机制，让Agent迭代有闭环。换句话说，不是监控Agent跑没跑，而是追踪它为什么这样跑。

这次QCon北京站还有20多个专题，覆盖Agentic Engineering、多模态、具身智能、AI Infra等方向，100多位来自腾讯、阿里、百度、华为、蚂蚁、小米、网易的技术专家会带来真实落地案例。想细聊的可以联系票务经理18514549229。

王亚普之前提过一个细节：他们内部有个Agent上线后，连续两周可用性100%，但客服工单涨了40%。最后定位到是一个Tool的响应延迟从200ms涨到800ms，Agent为了"优雅"地等结果，自动延长了思考链，用户体感就是"变笨了"。这个案例后来被写进了他们的On-Call手册——监控看得到的不是全部，用户沉默离开的时候不会打差评。