谷歌前工程师拆解云原生：90%监控指标都在浪费钱

闪存猎手

2026-04-04 00:38 ·北京

云原生系统的监控仪表盘越堆越多，告警邮件却越来越没人看。前Google SRE Gaurav Gaur在最新技术长文里算了一笔账：大多数团队采集的指标中，真正能在故障时派上用场的不到10%。

他把这比作"在火灾现场装了一屋子烟雾探测器，却没一个能告诉你火在哪层"。Gaurav花了15年折腾分布式系统，从Borg到Kubernetes一路跟过来，发现工程师们陷入同一种焦虑——怕漏掉任何数据，结果 drowned in data，thirsty for insight。

文章的核心观点很直白：「监控不是越多越好，关键是建立从现象到根因的快捷路径。」他举了个具体例子，某团队有2000+告警规则，生产事故平均定位时间仍超过40分钟；而精简到50条核心链路指标后，MTTR直接砍到8分钟以内。

Gaurav把云原生架构拆成三层来看——基础设施、平台服务、业务应用，每层只保留"能触发行动"的指标。基础设施层看资源饱和度与错误率，平台层追踪请求延迟的P99分布，业务层则锁定用户可见的端到端成功率。其余统统归档，不触发实时告警。

这套方法有个反直觉的前提：接受"暂时看不见"的风险。Gaurav坦承，精简初期确实漏过几次边缘 case，但团队因此被迫完善了日志采样和链路追踪的联动机制——这比无限扩容监控成本健康得多。文章结尾附了一张他2019年在Google内部用的极简仪表盘截图，只有7个面板，覆盖十万级容器集群。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴