你的AI Agent返回了200状态码,响应延迟也很低,但用户真的得到想要的答案了吗?传统监控工具在这里会失效——它们能告诉你服务是否在线,却判断不了"我没找到巴黎的天气数据"这种回答算不算失败。
这套三层可观测性方案试图解决这个问题:CloudWatch负责基础设施指标,Arize Phoenix处理链路追踪,LLM-as-Judge则专门评估输出质量。三者分工,覆盖从"机器是否正常"到"回答是否有用"的完整光谱。
打开网易新闻 查看精彩图片
技术选型上有几个值得注意的点。Agent框架用的是AWS开源的Strands SDK,底层模型是Bedrock上的Claude Sonnet 4.6。追踪层选Arize Phoenix而非商业SaaS,原因是它能完全本地运行——localhost:6006直接开箱,不需要注册账号或配置API密钥。OpenTelemetry作为统一协议,把Bedrock的调用数据桥接到Phoenix的UI里。
具体实现分三步:启动Phoenix本地服务,配置OTel的TracerProvider指向localhost:6006/v1/traces,最后用BedrockInstrumentor自动埋点。完成后能在UI里看到完整的推理链条:LLM收到的上下文、做出的决策、调用的工具、返回的结果。这比"响应耗时2秒"有用得多。
这套架构目前跑在GitHub开源仓库里,包含完整的Jupyter Notebook——从环境搭建、链路追踪到评估清理,所有代码都可执行验证。
热门跟贴