打开网易新闻 查看精彩图片
云原生系统的监控仪表盘越堆越多,告警邮件却越来越没人看。前Google SRE Gaurav Gaur在最新技术长文里算了一笔账:大多数团队采集的指标中,真正能在故障时派上用场的不到10%。
他把这比作"在火灾现场装了一屋子烟雾探测器,却没一个能告诉你火在哪层"。Gaurav花了15年折腾分布式系统,从Borg到Kubernetes一路跟过来,发现工程师们陷入同一种焦虑——怕漏掉任何数据,结果 drowned in data,thirsty for insight。
打开网易新闻 查看精彩图片
文章的核心观点很直白:「监控不是越多越好,关键是建立从现象到根因的快捷路径。」他举了个具体例子,某团队有2000+告警规则,生产事故平均定位时间仍超过40分钟;而精简到50条核心链路指标后,MTTR直接砍到8分钟以内。
Gaurav把云原生架构拆成三层来看——基础设施、平台服务、业务应用,每层只保留"能触发行动"的指标。基础设施层看资源饱和度与错误率,平台层追踪请求延迟的P99分布,业务层则锁定用户可见的端到端成功率。其余统统归档,不触发实时告警。
这套方法有个反直觉的前提:接受"暂时看不见"的风险。Gaurav坦承,精简初期确实漏过几次边缘 case,但团队因此被迫完善了日志采样和链路追踪的联动机制——这比无限扩容监控成本健康得多。文章结尾附了一张他2019年在Google内部用的极简仪表盘截图,只有7个面板,覆盖十万级容器集群。
热门跟贴