监控大屏一片翠绿,值班工程师刚泡好咖啡,客服群突然炸了。用户截图甩过来:支付按钮点了十遍,订单页面转圈三分钟。仪表盘?一切正常。
这就是「在线≠能用」的经典现场。Crft团队最近扒了一堆生产事故,发现一个反直觉规律:系统活着,跟用户能正常用完功能,完全是两码事。他们管这叫「僵尸可用」——心跳还在,魂没了。
典型死法有几种。API返回200,但数据是空的;服务没挂,只是慢到浏览器超时;最阴的是部分降级,核心链路完好,边缘功能随机抽风。监控探针通常只问「在吗」,不问「好用吗」。
Crft的原话很扎心:「从监控仪表盘看,一切正常。从用户视角看?灾难。」他们见过某金融App全年 uptime 99.99%,但用户投诉率翻了四倍——因为每次发布都伴随半小时的「能登录但转不了账」。
解法倒不复杂:把用户完成关键路径的成功率,和系统存活指标分开看。但多数团队还没转过这个弯,毕竟「服务在线」比「用户爽了」好量化,也好汇报。
有个细节很有意思。Crft调研了50家技术团队,只有12%把「用户端错误率」写进值班手册。剩下的88%,至今在跟老板解释:「真的没报警啊。」
热门跟贴