运维团队盯了99.9%的仪表盘，用户却在骂娘

报错免疫体

2026-04-11 10:03 ·北京

监控大屏一片翠绿，值班工程师刚泡好咖啡，客服群突然炸了。用户截图甩过来：支付按钮点了十遍，订单页面转圈三分钟。仪表盘？一切正常。

这就是「在线≠能用」的经典现场。Crft团队最近扒了一堆生产事故，发现一个反直觉规律：系统活着，跟用户能正常用完功能，完全是两码事。他们管这叫「僵尸可用」——心跳还在，魂没了。

典型死法有几种。API返回200，但数据是空的；服务没挂，只是慢到浏览器超时；最阴的是部分降级，核心链路完好，边缘功能随机抽风。监控探针通常只问「在吗」，不问「好用吗」。

Crft的原话很扎心：「从监控仪表盘看，一切正常。从用户视角看？灾难。」他们见过某金融App全年 uptime 99.99%，但用户投诉率翻了四倍——因为每次发布都伴随半小时的「能登录但转不了账」。

解法倒不复杂：把用户完成关键路径的成功率，和系统存活指标分开看。但多数团队还没转过这个弯，毕竟「服务在线」比「用户爽了」好量化，也好汇报。

有个细节很有意思。Crft调研了50家技术团队，只有12%把「用户端错误率」写进值班手册。剩下的88%，至今在跟老板解释：「真的没报警啊。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴