打开网易新闻 查看精彩图片

监控大屏绿得发亮,用户却在推特上排队骂街。这是SRE团队最经典的噩梦场景——系统指标一切正常,真实用户集体掉线。

当时这位工程师正在给老板展示新上的可观测性仪表盘。99.97% uptime,绿色对勾整齐排列,月费4000美元的监控栈安静如鸡。手机突然开始震动,不是PagerDuty,不是Datadog,是@angry_user_47的推文:「yo @OurStartup your login has been broken for 2 hours wtf」

接下来两分钟,推特通知炸了。「your app is broken」「can't log in」「is this a joke」——各种变体轮番轰炸。而监控大屏依然绿得刺眼,像什么都没发生。

问题出在登录链路。2000用户无法访问,但健康检查探针走的是缓存热路径,完美绕过了真实故障。换句话说,系统监控的是"系统以为自己很好",不是"用户能不能用"。

事后团队发现,故障持续了整整2小时,监控零告警。第一个警报来自Twitter的@符号,来自一个花了0秒写成的脏话推文。那条推文现在被截图钉在工位上,旁边贴着一行小字:最贵的监控,不如一个愤怒的用户。