引爆谷歌云。。。瞬间封锁全球流量。。。到处 503 。。。根因系统自动推送「无效配额」。。。|quota|知名企业|翻译|调用|谷歌云。|配额

2025 年 6 月 13 日，云头条报道了《》。

影响范围：

谷歌云发布初步原因：From our initial analysis, the issue occurred due to an invalid automated quota update to our API management system which was distributed globally, causing external API requests to be rejected. To recover we bypassed the offending quota check, which allowed recovery in most regions within 2 hours. However, the quota policy database in us-central1 became overloaded, resulting in much longer recovery in that region. Several products had moderate residual impact (e.g. backlogs) for up to an hour after the primary issue was mitigated and a small number recovering after that.

中文翻译：

多款谷歌云和谷歌 Workspace 产品在外部 API 请求中遇到了 503 错误增多的问题，对客户造成了影响。

我们的初步分析表明，该问题归因于我们的 API 管理系统遭到了无效的自动配额更新（该更新已分发至全球），导致外部 API 请求被拒绝。

为了恢复问题，我们绕过了导致问题的配额检查，这使得大多数地区在 2 小时内得到了恢复。

然而，us-central1 的配额政策数据库过载，导致该地区的恢复时间大大延长。

在主要问题得到缓解后，几款产品仍存在中等程度的残留影响（比如积压），持续时间长达一小时，少数产品随后恢复正常。

谷歌将在接下来的几天内完成一份完整的事件报告，到时会披露详细的根本原因。

根本原因：系统把一个错误的配额（quota）更新发给了全球，瞬间导致外部请求都被拒。我们紧急绕过后，大部分地区两小时内恢复，只有 us‑central1 区的数据库处理能力被压垮，拖慢了那里的恢复速度，导致业务积压持续了一个小时左右。

值得一提的是：这条配额并非人为调整，而是自动申请并推送的，但由于生产系统中出现异常或逻辑错误，导致自动生成了一个无效的自动配额更新，一发出就影响了全球请求。

故障原因拆解：

（1）一次“错误配置”广泛下发

系统里原本有自动更新 API 配额的机制（比如每秒允许多少请求）。这次更新配置错了，把一个非法或错误的配额规则，在全球所有区域都发了过去。