打开网易新闻 查看精彩图片

2023年11月24日,晚上11点47分。Postmortem Files的工程师刚躺下,手机突然炸了。

黑五最后一小时,他们刚创下18万美元销售额纪录。然后Redis集群毫无征兆地挂了——不是慢慢降级,是直接"装死"。缓存雪崩像多米诺骨牌,数据库被89K RPS(每秒请求数)冲垮,支付队列堆积如山。等他们爬起床修好,36万美元已经蒸发在感恩节夜里。

事后复盘,根因简单到让人想笑:一个热点key过期,恰好撞上海量流量。团队负责人回忆当时:「我盯着监控面板,看着错误率从0.3%飙到97%,用了不到90秒。」

第二年黑五前,他们改了三个地方。给热点key加了永不过期+后台异步刷新,把单集群拆成读写分离,再给支付链路上了本地缓存兜底。2024年黑五,同样的流量峰值,Redis没吭声,安静地扛完了。

最讽刺的细节在日志里:崩溃前6分钟,Redis内存使用率才67%,健康得像个没事人。