AWS 崩了 14 个小时：DNS 打喷嚏、DynamoDB 感冒、EC2 发烧了。。。

云头条

2025-10-21 11:42 ·北京 ·北京云头条咨询有限公司官方账号

US-EAST-1 区域出问题，根因竟是 DynamoDB 的 DNS 解析异常。

2025 年 10 月 20 日凌晨，美国东部时间还未破晓，AWS 的 US-EAST-1（北弗吉尼亚）区域却突然告急。短短几分钟内，多个服务错误率飙升、响应延迟暴增。

Reddit、Snapchat、Perplexity、Signal、Ring、Stripe……纷纷中招。

一时间，全球上千个网站和应用陷入“半瘫痪”状态。

AWS 官方健康状态页（AWS Health Dashboard）在凌晨发布通告：“我们正在调查 US-EAST-1 区域内多项服务错误率上升的问题。”

AWS 详细公告内容：

随后，这场从云端蔓延的风暴，持续了整整 14 个小时。

虽然问题只出在一个区域，但波及范围堪比“地震震中”，AWS 的 US-EAST-1 是其最核心的全球节点之一，无数服务默认部署在此。

这不是“局部宕机”，而是一场全球云端“数字流感”。

AWS 在最新说明中给出了关键结论：根本触发点，是 DynamoDB 区域服务端点的 DNS 解析问题。

简单说，系统在访问 DynamoDB 时，域名解析失败 —— 服务器“找不到家”。

而 DynamoDB 是 AWS 内部大量服务的基础依赖，问题一出，整个云端生态像被扯断的电缆一样，迅速失衡。

AWS 解释道，这一 DNS 故障导致：EC2 内部子系统无法正常启动实例（该子系统依赖 DynamoDB 存储元数据）；网络负载均衡器（NLB）健康检查机制异常，连带使 Lambda、CloudWatch、SQS 等服务连接失败；部分服务实施限流（Throttling），以防止系统过载进一步扩散。

AWS 详细解释：

在 10 月 19 日晚上 11:49（PDT）至 10 月 20 日凌晨 2:24（PDT）期间，

我们在 US-EAST-1（北弗吉尼亚）区域的多个 AWS 服务中经历了错误率上升和延迟增加的情况。

此外，依赖 US-EAST-1 区域端点的服务或功能（如 IAM 和 DynamoDB Global Tables）也在此期间出现了问题。

在 10 月 20 日凌晨 12:26（PDT），我们确定事件的触发原因为：区域性 DynamoDB 服务端点的 DNS 解析问题（DNS resolution issues）。

在凌晨 2:24（PDT）修复了 DynamoDB 的 DNS 问题后，服务开始恢复。

但随后我们发现 EC2 内部子系统出现新的故障，该子系统负责启动 EC2 实例，而它依赖于 DynamoDB，因此受到连带影响。

在我们持续处理 EC2 实例启动受阻问题的过程中，

网络负载均衡器（Network Load Balancer, NLB）健康检查也出现损坏，

导致多个服务（包括 Lambda、DynamoDB、CloudWatch）出现网络连接问题。

我们在上午 9:38（PDT）恢复了网络负载均衡器健康检查。

作为恢复工作的一部分，我们临时限制（throttled）了一些操作，包括：

1）EC2 实例启动；

2）通过 Lambda 事件源映射（Event Source Mappings）处理 SQS 队列；

3）异步 Lambda 调用。

随着时间推移，我们逐步减少了限流措施，并并行解决网络连接问题，直到所有服务完全恢复。

到下午 3:01（PDT），所有 AWS 服务已恢复正常运行。

不过仍有部分服务（如 AWS Config、Redshift、Connect）存在消息积压，

这些积压将在接下来的数小时内处理完毕。

一句话总结：DynamoDB 打喷嚏，EC2 感冒，整个 AWS 都开始发烧。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴