打开网易新闻 查看精彩图片

US-EAST-1 区域出问题,根因竟是 DynamoDB 的 DNS 解析异常。

打开网易新闻 查看精彩图片

2025 年 10 月 20 日凌晨,美国东部时间还未破晓,AWS 的 US-EAST-1(北弗吉尼亚)区域却突然告急。短短几分钟内,多个服务错误率飙升、响应延迟暴增。

Reddit、Snapchat、Perplexity、Signal、Ring、Stripe……纷纷中招。

打开网易新闻 查看精彩图片

一时间,全球上千个网站和应用陷入“半瘫痪”状态。

AWS 官方健康状态页(AWS Health Dashboard)在凌晨发布通告:“我们正在调查 US-EAST-1 区域内多项服务错误率上升的问题。”

AWS 详细公告内容:

打开网易新闻 查看精彩图片

随后,这场从云端蔓延的风暴,持续了整整 14 个小时。

打开网易新闻 查看精彩图片

虽然问题只出在一个区域,但波及范围堪比“地震震中”,AWS 的 US-EAST-1 是其最核心的全球节点之一,无数服务默认部署在此。

这不是“局部宕机”,而是一场全球云端“数字流感”。

AWS 在最新说明中给出了关键结论:根本触发点,是 DynamoDB 区域服务端点的 DNS 解析问题。

简单说,系统在访问 DynamoDB 时,域名解析失败 —— 服务器“找不到家”。

而 DynamoDB 是 AWS 内部大量服务的基础依赖,问题一出,整个云端生态像被扯断的电缆一样,迅速失衡。

AWS 解释道,这一 DNS 故障导致:EC2 内部子系统无法正常启动实例(该子系统依赖 DynamoDB 存储元数据);网络负载均衡器(NLB)健康检查机制异常,连带使 Lambda、CloudWatch、SQS 等服务连接失败;部分服务实施限流(Throttling),以防止系统过载进一步扩散。

AWS 详细解释:

打开网易新闻 查看精彩图片

在 10 月 19 日晚上 11:49(PDT)至 10 月 20 日凌晨 2:24(PDT) 期间,

我们在 US-EAST-1(北弗吉尼亚)区域 的多个 AWS 服务中经历了错误率上升和延迟增加的情况。

此外,依赖 US-EAST-1 区域端点的服务或功能(如 IAM 和 DynamoDB Global Tables)也在此期间出现了问题。

在 10 月 20 日凌晨 12:26(PDT),我们确定事件的触发原因为:区域性 DynamoDB 服务端点的 DNS 解析问题(DNS resolution issues)。

在 凌晨 2:24(PDT) 修复了 DynamoDB 的 DNS 问题后,服务开始恢复。

但随后我们发现 EC2 内部子系统出现新的故障,该子系统负责启动 EC2 实例,而它依赖于 DynamoDB,因此受到连带影响。

在我们持续处理 EC2 实例启动受阻问题的过程中,

网络负载均衡器(Network Load Balancer, NLB)健康检查也出现损坏,

导致多个服务(包括 Lambda、DynamoDB、CloudWatch)出现网络连接问题。

我们在上午 9:38(PDT) 恢复了网络负载均衡器健康检查。

作为恢复工作的一部分,我们临时限制(throttled)了一些操作,包括:

1)EC2 实例启动;

2)通过 Lambda 事件源映射(Event Source Mappings)处理 SQS 队列;

3)异步 Lambda 调用。

随着时间推移,我们逐步减少了限流措施,并并行解决网络连接问题,直到所有服务完全恢复。

到下午 3:01(PDT),所有 AWS 服务已恢复正常运行。

不过仍有部分服务(如 AWS Config、Redshift、Connect)存在消息积压,

这些积压将在接下来的数小时内处理完毕。

一句话总结:DynamoDB 打喷嚏,EC2 感冒,整个 AWS 都开始发烧

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片