凌晨2点，Prometheus为何"失明"

灰度测试中

2026-05-10 22:38 ·北京

凌晨两点，告警系统安静得反常。运维工程师盯着屏幕——Cilium的指标全消失了，Prometheus像被蒙住了眼睛。

这不是第一次。云原生监控的幽灵故障，总在深夜造访。

问题出在服务发现的边界。Cilium作为Kubernetes的CNI插件，用eBPF重构了网络观测层。但当Prometheus去抓取指标时，两个系统的"对话"出现了时差：Cilium的端点信息更新了，Prometheus的抓取目标却还停在旧版本。

更深层的矛盾是架构假设的冲突。Prometheus默认目标稳定存在，而Cilium的端点随Pod生灭高频变动。当Pod在两次抓取间隔内销毁，指标采集就扑了空。

修复方案并不复杂：缩短抓取间隔、启用Cilium的Operator托管端点、或者改用Cilium Hubble的专用导出器。但真正的教训是——在云原生世界，监控系统的可靠性，取决于它对"短暂性"的适应能力。

凌晨的故障从来不是偶然。它是架构债务在压力时刻的集中兑现。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴