5 月初,Google Cloud最糟糕的噩梦之一成真了,一个令人尴尬的故障导致它完全删除了一个大型客户的账户和数据备份。不幸的受害者是澳大利亚养老基金 UniSuper,该基金为 60 多万成员管理着高达 1350 亿美元的资产。该养老基金因此有长达两个星期无法全面运作,只能慌忙从第三方备份中恢复。

打开网易新闻 查看精彩图片

事件始于 5 月 2 日,当时 UniSuper 突然无法访问其托管在Google Cloud上的所有数据和服务,包括备份。不久后,两家公司发表联合声明,承认是"不经意的错误配置"导致了数据删除,但具体细节却语焉不详。UniSuper 在 5 月 15 日完成全面恢复后才得以重新上线。

本周,Google终于详细说明了出错的具体原因。显然,该公司有人在使用内部工具配置 UniSuper 私有云服务时,不小心将一个参数留空。这个看似微小的失误却造成了灾难性的后果:UniSuper 的账户被标记为在固定期限后自动删除。

Google已就此事发布了简要说明:

"在使用内部工具为客户初步部署Google Cloud虚拟机引擎(GCVE)私有云期间,Google操作员无意中错误配置了 GCVE 服务,原因是将一个参数留空。这造成了意想不到的未知后果,即客户的 GCVE 私有云被默认为固定期限,并在期限结束时自动删除。事件触发和下游系统行为都已得到纠正,以确保这种情况不会再次发生"。

事故发生后,Google指出,"客户和Google团队经过几天全天候的努力,恢复了客户的 GCVE 私有云,恢复了网络和安全配置,恢复了应用程序,并恢复了数据,以恢复全面运营。"

Google也承认没有触发"客户通知",因为这是通过Google内部工具无意中删除的。整个事件肯定会让大客户 UniSuper 感到震惊。

关于UniSuper存储在Google Cloud存储中的备份是否真的被删除,存在相互矛盾的信息。最初,UniSuper 声称它不得不依赖第三方备份,因为它的Google备份也不见了。但Google的博客称,云备份未受影响,而且在恢复过程中"发挥了作用"。

值得称赞的是,Google承诺采取广泛的"补救"措施,以确保这种情况不再发生。他们已经删除了有问题的内部工具,并将该功能转移到客户控制的界面上。他们还清理了自己的数据库,并确认没有其他Google Cloud账户因配置不当而被删除。

该公司重申,已采取强有力的删除保障措施,包括软删除、提前通知和人工审批检查。

对于数百万云客户来说,这无疑是一个令人震惊的事件,但Google强调这只是一个影响到单个客户的"孤立事件"。他们坚称不存在系统性问题,不会让其他Google Cloud客户面临数据自发蒸发的风险。