打开网易新闻 查看精彩图片

那天,我正在给老板演示新监控面板。满屏绿色对勾,99.97% uptime,漂亮得像样板间。手机突然炸了——不是PagerDuty,不是Datadog,不是每月4000刀的观测套件,是Twitter。

@angry_user_47 的留言很直接:「yo @OurStartup your login has been broken for 2 hours wtf」。紧接着第二条、第三条涌进来,全是"登不上""开玩笑吗"的质问。我盯着大屏,所有指标依然翠绿。

真相很尴尬:登录服务确实挂了,但健康检查绕过了认证流程。系统自检时只问"服务器活着吗",没问"用户能进去吗"。2000人被困在登录页,我们的仪表盘却在开庆功会。

团队花了47分钟定位问题,修复只用了3分钟。事后复盘,有人提议给Twitter用户发感谢信——被否决了。现在他们的告警规则里多了一条:如果@提到数5分钟内超10条,自动升级P0。

老板再也没让我演示那个面板。