5月8日凌晨00:25,全球云计算版图突然缺了一角。AWS北弗吉尼亚us-east-1区域的use1-az4可用区,因为一场"thermal event"——热事件,整个机房断电了。

这不是比喻。数据中心里成千上万台机架,每台功耗以千瓦计,全部转化为热量。正常情况下,冷水机组、泵和空气处理器会把热量排出去。但当冷却系统跟不上,硅片就会自己做决定:关机总比着火强。于是客户的工作负载跟着一起消失。

打开网易新闻 查看精彩图片

AWS健康仪表板的措辞堪称冷静:"EC2实例和EBS卷因热事件期间的电力中断而受到影响。"第二句更微妙:"其他依赖该可用区内受影响EC2实例和EBS卷的AWS服务也可能出现功能受损。"这句话的潜台词是:事情比看起来更大。

实际波及的清单很长。首先是use1-az4本地的计算和存储,然后是同一可用区的IoT Core、弹性负载均衡、NAT网关、Redshift。真正让半个互联网感受到疼痛的,是第三层:那些号称全球冗余、却把控制平面绕经us-east-1的服务——IAM身份管理、CloudFront内容分发、Route 53域名解析、DynamoDB全局表。你的工程师被告知这些有冗余,确实有,只是冗余路径恰好经过同一个着火点。

us-east-1的臭名昭著不是新闻。这个区域承载了AWS最早期、最大规模的客户部署,历史包袱让它成为事实上的全球枢纽。当一栋楼的空调失效,连锁反应可以跨越大洲。

热事件这个词的精妙之处在于它把责任天气化——仿佛一场突如其来的自然灾害,而非冷却设计余量耗尽的人为结果。真实的描述更简单:楼太热了,运维没来得及有序关机。

云计算的透明性承诺在此刻显形:你看到仪表板上的绿点变红,但看不到机房里的温度曲线。当冷却冗余成为单点故障,所谓的高可用架构只是统计学上的安慰。而us-east-1的不可替代性,让这场局部过热变成了全球事件。