打开网易新闻 查看精彩图片

2024年6月,AWS美东1区(us-east-1)宕机137分钟。官方事后解释:一架无人机撞上了变电站,备用电源切换失败。这不是电影情节,是亚马逊自己写的故障报告。

全球32%的互联网流量曾经过这个区域。宕机期间,Netflix、Robinhood、Coinbase集体掉线,损失按秒计算。

讽刺的是,AWS官网首页当时还挂着"11个9可用性"的承诺——也就是每年停机不超过31秒。这次一口气超了265倍。

云厂商的"无限冗余"叙事,是怎么被一架消费级无人机戳破的

AWS的架构设计堪称教科书。每个可用区(Availability Zone)独立供电、独立网络,理论上单个设施故障不会蔓延。美东1区有6个可用区,彼此间隔数公里,专门防范"区域性灾难"。

但灾难的定义权在云厂商手里。AWS把"变电站被无人机撞击"归类为"不可预见的极端事件",不在标准容灾预案中。

问题出在切换逻辑。主电源中断后,柴油发电机应在10秒内接管。但撞击导致冷却系统故障,发电机过热保护启动——设计时没人想过"备用电源的备用冷却"这一层。

「我们模拟过地震、洪水、网络攻击,」AWS工程师在事后复盘会上说,「但没人提交过'无人机撞变电站'的测试用例。」

这像什么?就像你买了三重保险,结果理赔条款里写着"不承保被陨石砸中"——而陨石真的来了。

137分钟里,技术负责人能做什么

137分钟里,技术负责人能做什么

宕机发生时,Coinbase的SRE团队(站点可靠性工程师)在17分钟内切到了美西区域。Robinhood花了43分钟。Netflix因数据同步延迟,被迫回滚到缓存版本,部分用户看到3小时前的账户余额。

这些数字来自各公司的事后技术博客,不是AWS官方披露。云厂商从不主动公布客户损失细节。

最尴尬的是AWS自己的状态页面(AWS Service Health Dashboard)。宕机前15分钟,页面显示"所有服务正常";宕机后20分钟,更新为"部分服务受影响";直到恢复后1小时,才承认"重大中断"。

「状态页面的延迟比服务本身更打击信任,」一位金融科技CTO在Blind论坛发帖,「我们靠这个页面决定要不要启动百万美元的灾备预案,它在骗我们。」

这个页面后来成了梗。工程师们叫它"安慰剂仪表盘"——药是假的,但吃了能缓解焦虑。

多云架构是解药吗?可能更贵

多云架构是解药吗?可能更贵

宕机后一周,Gartner接到咨询量暴涨340%。问题高度一致:要不要把鸡蛋分到多个篮子?

多云(Multi-Cloud)的成本结构很微妙。数据跨云传输费用,AWS egress定价是0.09美元/GB,Azure和GCP互相同级。一个日均1TB数据交换的中型应用,年传输成本超过3万美元——还没算工程师维护两套API的学习成本。

更隐蔽的是架构复杂度。Netflix早在2011年就推行"混沌工程"(Chaos Engineering),随机杀死生产环境实例来测试韧性。但2024年这次,他们的跨区域故障转移仍出现3分钟空白。

「多云不是免疫,是稀释,」Netflix云架构师在QCon演讲中说,「你把100%的风险拆成AWS占60%、GCP占40%,但协调这两套系统的故障模式,可能创造出新的100%风险。」

换句话说,你买了两份保险,但理赔时两家互相推诿。

无人机事件后,行业改变了什么

无人机事件后,行业改变了什么

AWS在90天内做了三件事:第一,所有变电站加装物理防护网;第二,发电机冷却系统独立冗余;第三,状态页面延迟从"小时级"压缩到"5分钟内"。

但这些是症状治疗。更深层的变化发生在合同层面。

2024年Q3,企业客户开始要求"无人机条款"——明确将"低空飞行器撞击基础设施"写入不可抗力排除项,或要求云厂商为此类事件提供额外赔偿。AWS标准SLA(服务等级协议)的月度积分补偿上限,从100%账单金额谈判到了150%-300%不等。

「以前我们谈SLA,关注的是百分比小数点后有几个9,」一位企业采购总监告诉The Information,「现在我们先问:你们的变电站有没有防空洞?」

这种黑色幽默背后,是云 computing(云计算)信任模型的根本动摇。当"基础设施即代码"遇到"基础设施即物理实体",代码的优雅掩盖不了变压器的脆弱。

最后一个细节

最后一个细节

那架无人机的操作者最终找到了,是当地一名摄影爱好者,在拍摄日出时失控。没有阴谋,没有国家背景,就是一个消费级设备的电池在低温下提前耗尽。

AWS在故障报告的附录里加了一段话,此前从未出现在任何云厂商文档中:「建议客户将'低空飞行器风险'纳入业务连续性评估。」

你的灾备预案,更新到能防御摄影爱好者了吗?