打开网易新闻 查看精彩图片

2025 年 12 月 5 日,大约 08:47 UTC 开始故障,至 ~ 09:12 UTC 修复结束。 

打开网易新闻 查看精彩图片

影响约 28% 的 Cloudflare HTTP 流量。 

根本原因:为应对公开、严重的 CVE-2025-55182(“React2Shell”/React Server Components 漏洞),对 WAF(Web Application Firewall)逻辑进行紧急配置变更时,引入 legacy (旧版) 代理 (FL1) 中的一段 “killswitch + execute-rule” bug —— 导致对部分流量返回 500 错误。 

为何要变更 WAF / 应对 React 漏洞

CVE-2025-55182 是一个影响广泛的远程代码执行 (RCE) 漏洞 —— 影响使用 React / Next.js 等框架中 “React Server Components (RSC)” 的应用。 

为保护依赖 React/Next.js 的客户 (包括大量网站与服务),Cloudflare 决定通过其 WAF 部署新的防护规则 (managed rulesets),以检测并拦截潜在恶意请求。 

作为防护的一部分,Cloudflare 将 HTTP 请求 body 缓冲区 (buffer) 从 128 KB 扩大到 1 MB,以便 WAF 拦截体积较大的恶意 payload。 

事发经过 & 根因分析

根据 Cloudflare 官方 post-mortem 以及外部复盘/报道,故障机制大致如下: 

1、Cloudflare 的规则系统 (rulesets system) 中,每条规则 (rule) 包含一个 filter (判断请求是否匹配) 和一个 action (对匹配流量执行何种操作)—— 典型 action 为 "block"、"log"、"skip",还有一种 "execute",用于触发对另一个子-ruleset 的评估 (即嵌套 ruleset)。 

2、为快速禁用 (disable) 内部用于测试 (test) 的 WAF 规则 (shadow / managed-ruleset testing rule),Cloudflare 使用了其 “global configuration + killswitch” 系统。该系统允许对指定规则发出 “skip/disable” 指令,并立即下发到全球所有节点。 

3、问题在于,这次是首次对一条 action="execute" 的规则使用 killswitch。跳过该规则时,其对应的 rule_result.execute 对象未被创建 (nil),但后续代码仍假设其存在,并尝试访问其字段 (如 rule_result.execute.results):

end

由于 rule_result.execute 为 nil,Lua 报错 “attempt to index field ‘execute’ (a nil value)” —— 导致代理 (FL1) 崩溃/无法正确处理请求,因而对受影响流量返回 HTTP 500。

4、由于 Cloudflare 的旧代理 (FL1) 使用的是 “fail-closed” (fail-hard) 错误处理逻辑 —— 一旦遇到代码异常 (nil pointer / Lua error) 就拒绝 (drop) 请求,而不是降级 (fail-open) 或回退到安全默认状态 —— 导致大范围服务中断。

5、此问题对于使用 FL1 代理 + 启用 Managed Ruleset 并使用到该 test-rule 的客户生效。虽然不是所有客户都受到影响,但因为启用了 global config killswitch,影响在全球范围内传播 — 最终影响了约 28% 的 HTTP 流量。

Cloudflare 在 post-mortem 中也指出:这段 Lua 代码错误 “存在多年,但未曾因为相应配置组合被触发过 (never before applied a killswitch to a rule with action ‘execute’)”。这是首次触发该 edge-case,暴露出多年未被发现的技术债 (legacy code bug) 与部署模型风险。

故障影响与后果

多个使用 Cloudflare CDN / WAF /代理服务的网站与应用在数分钟内出现 “500 Internal Server Error”。包括大型网站、服务、游戏、内容平台等。

部分主流服务 (例如加密货币交易所 Coinbase、AI 服务 Claude AI 等) 确认受影响。

这至少是 Cloudflare 在不到一个月内第二次重大 outage —— 连续出现两次安全相关配置更新导致全球中断,严重冲击对其作为互联网基础设施供应商的信任。

对整个互联网生态敲响警钟:当少数基础设施供应商 (CDN、WAF、代理) 承载全球大量流量时,一次 bug / 配置错误 / 代码缺陷,就可能引发规模巨大、跨服务 / 跨行业的大面积崩溃。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片