分布式训练卡死时，每台机器都显示正常|echo|rank|sql|主机|分布式训练|调用

八块显卡跑在两块主机上，所有单节点监控指标绿油油。但吞吐量掉了四倍。问题藏在跨节点查询里，不在任何一台机器的日志中。

一个典型场景：全员健康，全员卡死

这是GPU集群调试的噩梦模式。八个rank分布在两台主机，执行ncclAllReduce（英伟达集合通信库的全归约操作）。token吞吐暴跌75%，但每台机器上的nvidia-smi显示GPU利用率95-99%，DCGM的SM_ACTIVE指标正常跳动，eBPF追踪看到cudaLaunchKernel → ncclAllReduce → cudaStreamSynchronize完整走完。

真相：rank 5在B节点上某步骤花了380毫秒，其他七个rank 90毫秒就跑完。剩下七人不是闲着——他们在ncclAllReduce里等了290毫秒。ncclAllReduce本身是CUDA核函数，nvidia-smi看来就是"正在运行"。

单节点视角完全失效。你需要问的是：这次端到端掉速，哪个rank的ncclAllReduce比同伴启动更晚？它之前500毫秒在干什么？

这是跨主机关联查询，不是时间序列能回答的。

为什么现有工具集体失明

三个事实，单节点监控永远看不见：

一、rank 5进入屏障比其他rank晚290毫秒——这是集群级事实，不是主机级事实。

二、其他rank在ncclAllReduce里阻塞的290毫秒，本地追踪显示为"正常完成的核函数调用"。

三、根因是rank 5前一步的某个操作，但那个操作的痕迹只存在于rank 5的本地日志。

传统方案把每台机器的采样打到中央仪表盘，画成时间序列曲线。曲线能告诉你"8点15分集群慢了"，但回答不了"谁导致的"。

需要的是关系型查询：把八个rank的事件流按时间戳和资源属性（cluster ID, node ID, rank, nranks）做跨节点join。

Ingero Echo的设计：让AI代理能直接问

Ingero的v0.12.4版本已经解决了数据采集。每台主机的agent通过uprobe挂钩libcudart.so和libnccl.so，用eBPF捕获内核调度事件，输出OTLP（OpenTelemetry协议）格式。