近日,“腾讯云崩了”冲上热搜。多位网友反馈称腾讯云出现服务故障,网页显示504错误。

01

腾讯云突然崩了

4月14日,针对用户反馈的腾讯云控制台故障,腾讯云官方发布了复盘及情况说明。

经过故障定位发现,登录不上控制台是由云API异常所导致。而事故根本原因在于腾讯云版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,最终导致云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

打开网易新闻 查看精彩图片

故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。

腾讯云方面称,接下来将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力作出改进。

02

“云崩”并非个例

此次腾讯云发生的大范围故障,无疑在云服务行业内引起了广泛关注。一些行业人士甚至将其与2023年11月阿里云史诗级故障并称。

2023年11月12日晚间,阿里云发生故障,“阿里全系产品崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”“阿里云盘崩了”等话题相继登上热搜。

阿里云对此公告称,2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。经工程师紧急处理,21:11阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。

近年来,因云服务问题导致应用程序“崩了”的现象频繁发生。对于故障背后的原因,网友戏称,“估计是裁的人太多,一不小心把真正干活的人给开了。”

或许有些片面,但也给云服务提供商敲响了警钟,要更加重视运维管理和技术风险控制,确保服务的稳定性和可靠性,不应因“降本增效”而忽视。

同时,我们也需要更加谨慎地选择云服务提供商,并加强自身的数据备份和安全管理措施,以应对可能出现的技术风险。

03

运营商能否“捡漏”

互联网大厂事故此起彼伏,对于同样能提供云服务的各大电信运营商来说,存在“捡漏”的可能性吗?

有,但不多。

客观来说,从技术的创新性和经营管理先进性这两方面看,当前运营商云在市场中并不占据显著优势。由于运营商云相对较晚进入市场,其水平无疑存在一定程度的滞后。

回到这次具体的事件,如果运营商云遇到了类似于阿里云、腾讯云那样的故障,其表现会否更加出色吗?可能未必。

不过,虽然云市场份额争夺激烈,但这并不意味着完全没有机会。运营商的潜在的机会主要在于——安全。云服务作为关乎国家经济和社会民生的重要基础设施,其安全性与可控性至关重要。而作为云计算国家队,电信运营商在这方面拥有与生俱来的、独特的优势。

不能否认的一点是,握有“安全”这张王牌的移动云等运营商云,如今的增长势头完全压过了传统的互联网背景的云服务商。

当然,运营商若想在竞争激烈的云服务市场中谋求长久且健康的发展,还需求不断提升自身服务品质,拿出真正的实力来,提供更加的专业化和多样化服务。毕竟,机会只留给有准备的人。