AI Agent监控三层栈：基础设施、链路追踪与质量评估

硅屿手记

2026-05-14 09:09 ·北京

你的AI Agent返回了200状态码，响应延迟也很低，但用户真的得到想要的答案了吗？传统监控工具在这里会失效——它们能告诉你服务是否在线，却判断不了"我没找到巴黎的天气数据"这种回答算不算失败。

这套三层可观测性方案试图解决这个问题：CloudWatch负责基础设施指标，Arize Phoenix处理链路追踪，LLM-as-Judge则专门评估输出质量。三者分工，覆盖从"机器是否正常"到"回答是否有用"的完整光谱。

技术选型上有几个值得注意的点。Agent框架用的是AWS开源的Strands SDK，底层模型是Bedrock上的Claude Sonnet 4.6。追踪层选Arize Phoenix而非商业SaaS，原因是它能完全本地运行——localhost:6006直接开箱，不需要注册账号或配置API密钥。OpenTelemetry作为统一协议，把Bedrock的调用数据桥接到Phoenix的UI里。

具体实现分三步：启动Phoenix本地服务，配置OTel的TracerProvider指向localhost:6006/v1/traces，最后用BedrockInstrumentor自动埋点。完成后能在UI里看到完整的推理链条：LLM收到的上下文、做出的决策、调用的工具、返回的结果。这比"响应耗时2秒"有用得多。

这套架构目前跑在GitHub开源仓库里，包含完整的Jupyter Notebook——从环境搭建、链路追踪到评估清理，所有代码都可执行验证。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴