微软Azure OpenAI服务瑞典区域意外停机一整天

至顶AI实验室

2026-01-29 22:31 ·北京 ·优质互联网领域创作者

微软Azure，至少是其在瑞典中部区域处理OpenAI服务的部分，昨日出现大规模宕机，导致用户在大半个工作日内都面临错误提示。

微软首次确认问题发生在UTC时间09:00（尽管服务状态页面显示发现问题的时间为UTC 09:22）。当时，微软将Azure OpenAI服务的可用性问题归咎于"后端依赖服务不健康，导致级联故障"。

这家Windows巨头指出，使用GPT-5.2、GPT-5 Mini、GPT-4.1等模型及相关API时出现问题。

微软表示团队采取了缓解措施。换句话说，部署了IT界的老牌解决方案——在UTC 12:36时将有问题的IRM服务关闭后重新启动。

然而问题并未消失。UTC 12:46时，微软表示瑞典集群中的容器因内存不足错误而崩溃。公司开始扩展集群节点"以改善请求处理和恢复能力"，并在UTC 15:30开始增加容器可用内存，该操作在UTC 15:53完成。

最终，在UTC 16:12时，当许多瑞典人准备下班时，微软确认问题已得到解决。

虽然微软承认问题的透明度值得称赞，但处理这个看似软件问题所花费的时间长度却不尽人意。

有网友在社交媒体上调侃道："欧盟的韧性又得到了一次实战演练"，而其他人将此视为学习经验："以此为契机：部署到多个区域并实现自动故障转移。"

"教训：不要等到生产环境出问题才开始构建韧性。"

而且，因为这发生在瑞典，有人说："Azure OAI瑞典中部区域崩了！"

今天服务已恢复正常运行，但Azure的OpenAI服务在瑞典"卡壳"并需要一个工作日才能恢复，对于一家热衷于让客户充分利用其AI服务的公司来说，这并不是一个好现象。

Q&A

Q1：微软Azure OpenAI服务在瑞典出现了什么问题？

A：微软Azure OpenAI服务在瑞典中部区域出现大规模宕机，用户在使用GPT-5.2、GPT-5 Mini、GPT-4.1等模型及相关API时遇到错误。问题起因是后端依赖服务不健康导致级联故障，随后又出现容器内存不足崩溃问题。

Q2：这次Azure OpenAI服务故障持续了多长时间？

A：故障从UTC时间09:00开始，直到16:12才完全解决，持续了大约7个多小时，几乎覆盖了整个工作日。微软采取了多项措施包括重启服务、扩展集群节点和增加容器内存才最终解决问题。

Q3：这次故障对微软AI服务发展有什么影响？

A：这次长时间的服务中断对微软来说不是好现象，特别是对于一家热衷于让客户充分利用其AI服务的公司。虽然微软在问题处理上保持了透明度，但解决软件问题所需的时间过长，可能会影响用户对其AI服务可靠性的信心。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴