传统DevOps那套监控体系,放在AI Agent身上正在失效。
4月16日-18日,QCon全球软件开发大会北京站,小红书可观测团队负责人王亚普会专门聊聊这件事。他的演讲题目是《面向生产的AgentOps:小红书AI Agent应用工程化实践》,核心就一个困惑:为什么Agent的可用性监控一路绿灯,用户却觉得越来越不好用了?
答案藏在故障模式的质变里。传统软件出问题是"异常型"——服务挂了、报错码了,一目了然。Agent的故障是"漂移型":Prompt微调了一下、模型版本换了、某个Tool响应慢了,单看都没问题,组合起来效果就不可预期。这就像调鸡尾酒,每种配料比例都对,但顺序错了,味道全变。
王亚普把Agent的变更单元拆解得很细:Prompt、Model、Skill/Tool、Knowledge,任意一个维度的波动都可能引发连锁反应。传统监控盯着代码变更,Agent的"代码"是这四者的动态组合,旧地图当然找不到新大陆。
他在实践中踩过三个具体的坑:
评测数据集的维护成本被严重低估。不是一次性建完就完事,得像内容运营一样持续迭代,多源采集、质量清洗、场景覆盖,全是隐形人力。
Agent实现百花齐放,评估工程很难一刀切。有的团队用ReAct,有的用Plan-and-Solve,有的自己造轮子,评估标准怎么统一?
Judge模型的评估成本与延迟是道数学题。用GPT-4当裁判准但贵,用小模型快但可能判错,这个tradeoff没有标准答案,只有业务场景里的妥协。
小红书的解法是把可观测体系重新定义为"可归因、可回放、可评估"。以AI Trace为数据底座,搭起在线+离线的双轨评估机制,让Agent迭代有闭环。换句话说,不是监控Agent跑没跑,而是追踪它为什么这样跑。
这次QCon北京站还有20多个专题,覆盖Agentic Engineering、多模态、具身智能、AI Infra等方向,100多位来自腾讯、阿里、百度、华为、蚂蚁、小米、网易的技术专家会带来真实落地案例。想细聊的可以联系票务经理18514549229。
王亚普之前提过一个细节:他们内部有个Agent上线后,连续两周可用性100%,但客服工单涨了40%。最后定位到是一个Tool的响应延迟从200ms涨到800ms,Agent为了"优雅"地等结果,自动延长了思考链,用户体感就是"变笨了"。这个案例后来被写进了他们的On-Call手册——监控看得到的不是全部,用户沉默离开的时候不会打差评。
热门跟贴