2025 年 6 月 13 日,云头条报道了《》。
影响范围:
谷歌云发布初步原因:From our initial analysis, the issue occurred due to an invalid automated quota update to our API management system which was distributed globally, causing external API requests to be rejected. To recover we bypassed the offending quota check, which allowed recovery in most regions within 2 hours. However, the quota policy database in us-central1 became overloaded, resulting in much longer recovery in that region. Several products had moderate residual impact (e.g. backlogs) for up to an hour after the primary issue was mitigated and a small number recovering after that.
中文翻译:
多款谷歌云和谷歌 Workspace 产品在外部 API 请求中遇到了 503 错误增多的问题,对客户造成了影响。
我们的初步分析表明,该问题归因于我们的 API 管理系统遭到了无效的自动配额更新(该更新已分发至全球),导致外部 API 请求被拒绝。
为了恢复问题,我们绕过了导致问题的配额检查,这使得大多数地区在 2 小时内得到了恢复。
然而,us-central1 的配额政策数据库过载,导致该地区的恢复时间大大延长。
在主要问题得到缓解后,几款产品仍存在中等程度的残留影响(比如积压),持续时间长达一小时,少数产品随后恢复正常。
谷歌将在接下来的几天内完成一份完整的事件报告,到时会披露详细的根本原因。
根本原因:系统把一个错误的配额(quota)更新发给了全球,瞬间导致外部请求都被拒。我们紧急绕过后,大部分地区两小时内恢复,只有 us‑central1 区的数据库处理能力被压垮,拖慢了那里的恢复速度,导致业务积压持续了一个小时左右。
值得一提的是:这条配额并非人为调整,而是自动申请并推送的,但由于生产系统中出现异常或逻辑错误,导致自动生成了一个无效的自动配额更新,一发出就影响了全球请求。
故障原因拆解:
(1)一次“错误配置”广泛下发
系统里原本有自动更新 API 配额的机制(比如每秒允许多少请求)。这次更新配置错了,把一个非法或错误的配额规则,在全球所有区域都发了过去。
(2)结果是请求被统一拒绝
所有外部 API 请求都被这个“非法配额”挡住了,就像闸门突然降下,大家都进不来。其他区域业务立马就栓住了。
(3)临时方案:绕过这个配额检查
为了迅速恢复,我们绕过了这个坏掉的配额校验逻辑,闸门打开了。绝大多数区域在约两小时内恢复正常。
(4)us‑central1 区域“卡”的原因:数据库过载
但 us‑central1 这一区域的配额策略数据库被打爆了——处理不过来,所以虽然绕过措施到位,数据库本身还在处理积压,区域恢复显著滞后。
(5)业务层出现“积压” & 小量延迟恢复
即使主问题解决,一些产品因请求积压,最多还卡了一个小时,少部分恢复更慢,主要是积压被清理完、队列慢慢消化完的过程。
配额是什么?Google Cloud 会给每个项目在各类资源上设置配额(API 调用次数、CPU、网络带宽等)。超了就被“拦住”。
热门跟贴