传统软件出问题,日志一查便知;Agent出毛病,你连它"想"了什么都不知道。

4月16日至18日,QCon全球软件开发大会北京站,阿里云技术专家蔡健将分享他们如何把Agent从Demo搬进核心生产系统的踩坑实录。这不是技术布道,是一份带血的工程笔记。

蔡健团队遇到的困境很有代表性:Agent的非确定性推理、动态工具调用,形成了传统监控完全穿透不了的"语义黑盒"。故障来了找不到决策断层,优化时缺细粒度数据,多Agent一协同复杂度直接爆炸。更尴尬的是,QPS、延迟这些老指标对Agent毫无意义——任务到底能不能成、决策合不合理,传统仪表盘给不出答案

他们曾在多个重要业务场景里连续踩雷:服务不稳定、质量逐渐漂移、成本失控超支。最终被迫承认一个事实:必须针对Agent特性,从可观测和评估两个维度重建整套保障体系。

打开网易新闻 查看精彩图片

这次分享的核心干货包括三类实战坑位:

不确定性泥潭:低代码和高代码两种范式落地长周期多轮交互时,状态管理混乱、异常无法恢复、推理链路飘忽不定;

观测失明:线上首包响应慢、成本不可控,但传统监控看不到完整的Agent执行链路;

评估真空:Agent上线后质量悄然退化,新功能发布导致部分场景默默不可用。

打开网易新闻 查看精彩图片

解决方案层面,蔡健会拆解可观测体系从0到1的搭建全流程,以及评估体系的闭环优化路径。具体包括:LLM-as-Judge、Code-as-Judge与人工标注的混合使用策略;评估运行时环境部署、多版本并行配置、结果到调优动作的转化链路;还有"评估覆盖不充分""结果不可复现""批量评估耗时过长"等典型坑位的避坑指南。

针对Multi-Agent协同场景,他还会分享跨智能体链路追踪的实现思路,以及长上下文对话中用户意图演化导致评估指标失效的应对策略——甚至包括"基于业务特征自动推荐评估策略"的自动化探索。

技术债同样刺眼:多语言技术栈和AI框架快速迭代,埋点适配成本高、数据格式碎片化;全链路追踪缺乏统一的语义元信息(session_id、user_id、Agent_id),客户端与服务端难以有效关联;Agent实现路径多样、依赖环境复杂,高质量评估常面临冷启动困难与基准缺失。

本届QCon除"Agent可观测性与评估工程"外,还设有Agentic Engineering、智能体记忆系统、具身智能、AI原生基础设施等20余个专题,100余位来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业的技术专家将带来一线落地案例。

蔡健团队内部复盘时有个细节:早期他们曾用传统单元测试的思路评估Agent,结果"质量验证手段失效""评估结果与用户反馈严重脱节""长尾意图完全覆盖不到"——三个问题同时出现,像同时踩中三颗地雷。后来才意识到,Agent的评估不是找bug,而是持续判断"这个智能体还靠不靠谱"。