一栋楼太热，半个互联网没了

全栈遛狗员

2026-05-09 20:30 ·北京

5月8日凌晨00:25，全球云计算版图突然缺了一角。AWS北弗吉尼亚us-east-1区域的use1-az4可用区，因为一场"thermal event"——热事件，整个机房断电了。

这不是比喻。数据中心里成千上万台机架，每台功耗以千瓦计，全部转化为热量。正常情况下，冷水机组、泵和空气处理器会把热量排出去。但当冷却系统跟不上，硅片就会自己做决定：关机总比着火强。于是客户的工作负载跟着一起消失。

AWS健康仪表板的措辞堪称冷静："EC2实例和EBS卷因热事件期间的电力中断而受到影响。"第二句更微妙："其他依赖该可用区内受影响EC2实例和EBS卷的AWS服务也可能出现功能受损。"这句话的潜台词是：事情比看起来更大。

实际波及的清单很长。首先是use1-az4本地的计算和存储，然后是同一可用区的IoT Core、弹性负载均衡、NAT网关、Redshift。真正让半个互联网感受到疼痛的，是第三层：那些号称全球冗余、却把控制平面绕经us-east-1的服务——IAM身份管理、CloudFront内容分发、Route 53域名解析、DynamoDB全局表。你的工程师被告知这些有冗余，确实有，只是冗余路径恰好经过同一个着火点。

us-east-1的臭名昭著不是新闻。这个区域承载了AWS最早期、最大规模的客户部署，历史包袱让它成为事实上的全球枢纽。当一栋楼的空调失效，连锁反应可以跨越大洲。

热事件这个词的精妙之处在于它把责任天气化——仿佛一场突如其来的自然灾害，而非冷却设计余量耗尽的人为结果。真实的描述更简单：楼太热了，运维没来得及有序关机。

云计算的透明性承诺在此刻显形：你看到仪表板上的绿点变红，但看不到机房里的温度曲线。当冷却冗余成为单点故障，所谓的高可用架构只是统计学上的安慰。而us-east-1的不可替代性，让这场局部过热变成了全球事件。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴