我给AI代理装上“监控”之后，发现追踪LLM调用链远比想得复杂|代码|显式标识|调用链|追踪

如果你还在用传统微服务的思路看待AI代理的可观测性，那套方法论会立刻失效。一个用户提问可能触发多次大模型调用、网页搜索、自研工具执行，外加几轮回溯推理——整个过程没有固定路径。传统的指标、日志、链路追踪三件套，放在这里只能回答“API返回了200吗”这种层面，根本看不清代理到底走了哪条路。

我在亲自跑通SigNoz的OpenTelemetry NBA Agent示例之后，对这个问题有了更具体的感受。这套演示代码刻意保持简洁：一个FastAPI应用，配一个代理、一个自定义工具、一条护栏规则，加上基于会话的对话记录。正因为东西不多，它产出的遥测数据反而更能暴露AI代理真正的监控痛点——非确定性、上下文相关的“正确性”标准，以及底层模型与API接口的快速迭代。

同样的提问，两次运行可能得到完全不同的答案，这让回归测试几乎无从下手。分布式链路追踪的价值开始凸显：你需要知道代理选择了哪条执行路径，而不是只看它返回了哪段文本。另一个问题是“正确”的判断高度依赖场景。一句简短的“会下雨吗”回答可以是一两个字，但涉及投资组合再平衡的咨询，简略回复就是灾难。监控体系必须能把护栏触发情况、工具调用记录和回复结构，与用户意图、话题关联起来。

技术栈也在以惊人速度变动。模型版本更新、服务商偶发中断、OpenAI那边Responses接口与Chat Completions接口的切换，加上OpenTelemetry GenAI语义约定的持续演进，任何一项都可能悄然改变代理行为。没有基线指标，你无法判断一次部署或模型替换到底让系统变好还是变差。OpenTelemetry在采集层提供了厂商中立的抓取能力，SigNoz，或者任何一个兼容OTLP的后端，负责可视化。演示代码证明这条管道跑得通，而生产环境需要你把这条管道延伸到每一个集成点。