当“云”遇到“火”……

9月10日,阿里云位于新加坡的可用区C数据中心发生了一场火灾。

根据外媒的报道,这次的火灾真不小。据悉,当天早上是在约 8 点发生的机房火灾,截至 11 日下午 8 点,持续 了36 小时,仍未完全扑灭。

而且,这场火灾还让Lazada 和字节跳动等主要科技公司托管的服务严重中断,导致还使用云平台的内部团队和卖家出现大面积错误。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

阿里云创立于2009年,是阿里巴巴集团旗下的云计算及人工智能科技公司。从早前的公开信息来看,阿里云新加坡数据中心于2015年9月份开放,按照当时的说法,新加坡数据中心启用后,将辐射规模百亿级的亚太市场,同时为“出海”的中国企业提供优质的云计算服务。

据悉,此次事故始于当地时间周二上午,有群众在事发前听到爆炸声,随后数据中心冒出滚滚浓烟,现场能闻到一股呛鼻的烧焦味。事故发生在数据中心一栋建筑的电池室内,锂电池爆炸的威力巨大,瞬间引发了火灾,并使得火势迅速蔓延。

新加坡消防局发表公告称,火患波及数据中心三楼阁楼内的两个电池房、两个电源房和一个设备储藏室。

另有消息称,新加坡消防局11日仍在现场处理风险,阿里云运维工程师正等待进入机房,若现场评估结果无法就地恢复,将实施服务器设备迁移恢复方案。

根据阿里云发布的官方声明,因为此次事故,其关键云产品受到影响,包括云数据库 Redis、MongoDB、RDS MySQL,对象存储 OSS,表存储 OTS 以及云原生大数据计算服务 MaxCompute。

对于包括跨境电商、在线教育等在内的高度依赖云服务的行业而言,服务中断意味着用户体验的下滑乃至直接的经济损失。阿里云新加坡数据中心的这次故障,导致部分用户服务中断,包括网站访问缓慢、API调用失败、云存储服务不可达等一系列问题接踵而至。

不过,今日早些时候,阿里云更新了新加坡可用区C机房火灾事件进展称,今日凌晨,大部分受到网络影响的云产品已恢复正常服务。剩余断电的机房业务仍需等待物理条件的恢复。昨晚20:23,消防部门仍在处理大楼现场风险中,运维工程师正在等待获准进入机房大楼。如现场评估后不具备原地恢复的物理条件,应急小组将执行服务器设备迁移恢复预案。

这也得到了一些客户的印证,某网购平台在社交媒体上对外表示,由于使用的阿里云服务器(新加坡机房)突发火灾事故,导致自家的APP、后台系统及司机配送系统自澳洲时间9月10日20:00起无法正常使用。经过与阿里云团队的紧密沟通和修复,系统已于9月11日12:00恢复正常,消费者可以正常下单。

当然,从官方通过媒体播报出来的这一进展来看,火灾的冲击波并非完全处理结束。

有意思的是,同行AWS 的销售还趁机打了一波自家产品的广告。

打开网易新闻 查看精彩图片

结合不少阿里云的客户在社交媒体上纷纷感叹此次事故来看,阿里云的品牌形象似乎也受到了一定影响。“刚刚从AWS转到阿里云就出了这样的事情……”、“停机24h了还没恢复,阿里云你知道这意味着什么吗?”“别光看账单上便宜那点事!”

过去,阿里云已经因为频频出现的事故备受瞩目。

2022年12月因阿里云香港地区机房故障宕机,多家公司和TOG部门网站瘫痪,数小时无法提供正常服务,这也是阿里云运营十多年来持续时间最长的一次大规模故障。

2023年11月12日,阿里云出现了一次故障,除了淘宝,钉钉,闲鱼,还有大量依赖阿里云服务的应用都出现了问题。阿里云官方的服务状态页显示,全球范围内所有可用区x所有服务全部都出现异常,时间从17:44到21:11,共计3小时16分钟。

同年11月27日,阿里云再次出现故障,北京、上海、杭州、深圳、青岛、香港以及美东、美西地域的数据库产品的控制台和Open API访问出现异常,持续时间约2小时。

今年7月2日,阿里云健康状态发布公告称,上海可用区N出现网络访问异常。公告称,北京时间2024年07月02日10:04,阿里云监控发现上海地域可用区N网络访问出现异常,阿里云工程师正在紧急处理中。10:35 阿里云工程师完成网络切流调度,上海可用区N网络访问开始恢复。10:42 经过处理受影响产品服务恢复。

在数字化浪潮席卷全球的今天,云计算作为信息技术的基石,其稳定性与安全性直接关系到万千企业的业务命脉。

事实上,包括谷歌、法国OVH、韩国SK公司等在内的巨头也发生过类似的事件。2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,这次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响。

数据中心的底座作用毋庸置疑,而包括火灾在内的事故严重威胁数据中心安全,将造成巨大的损失。所以,不仅仅是阿里云,这是整个行业都需要更为严谨对待的问题。