AI 删除并重建。。。第一大云「某个系统」崩了 13 个小时。。。|代码|智能体|某个系统|编程

2026 年 2 月 20 日，《金融时报》报道，AWS 在 2025 年 12 月期间至少发生两起与其内部研发的 AI 工具相关的服务中断事件。

其中一次中断发生在 12 月中旬，当时 AWS 内部工程师允许其自研的 Kiro AI 编程工具执行某些系统变更操作，该工具随后自主决定删除并重建整个运行环境，导致一套客户使用的系统服务中断约 13 小时。

该工具具备在一定权限范围内替用户执行代码改动的能力。

AWS 发言人在回复《路透社》的电子邮件中对此次中断作出回应。发言人表示，这次事件是由用户操作失误导致的权限配置不当，而非 AI 工具本身的缺陷。他强调这是一起 “极其有限的事件”，仅影响 AWS 在中国内地两个区域之一的一项服务，并未波及 AWS 的核心计算、存储、数据库、AI 技术或其他服务。

发言人称：“此次短暂事件是用户错误，具体是访问控制配置不当，而不是 AI 本身的问题。”

不过，《金融时报》报道引述 AWS 内部多名工程师的说法称，这并不是单一事件。

AWS 内部还曾发生过另一宗与其 AI 编程助手 Amazon Q Developer 有关的生产环境故障。多位 AWS 员工透露，在该起事故中，负责问题处理的工程师让Amazon Q Developer这种能够根据指令主动执行操作的智能体自行处理问题，而没有提供足够的人工监督或介入。结果，这个智能体在没有恰当复核的情况下对系统进行了自动改动，触发了故障。

虽然这一故障规模比 13 小时中断要小得多，影响范围也不大，但工程师们认为这种情况本来是完全可以预见的。他们指出，这类智能体在拥有与人类工程师类似的权限，却缺乏严格的审核和控制机制时，可能会执行出乎预料的操作，从而引发生产环境问题。这反映出在实际部署 AI 自动化工具到关键系统时，权限配置和监督机制必须非常谨慎，否则风险可能明显高于预期。

AWS 在公开回应中称，Kiro 默认在执行任何操作前会请求授权，但在相关事件中，该工具被授予了比预期更广泛的权限，从而跳过了更多风险控制机制。

上述两起中断事件虽然影响范围有限，但恰逢 AWS 正在推动内部及面向客户更大规模采用 AI 编程助手工具的阶段。

AWS 去年 7 月推出 Kiro，旨在让开发者通过自然语言指令自动生成并修改代码，比早期的 AI 编程辅助工具能力更强。

这类带有自主执行能力的智能体在提升效率的同时，也带来了更高的操作风险。

AWS 此外还强调，上述事件与 2025 年 10 月 AWS 曾发生的一次全球性大规模服务中断并无关联。那次中断由于基础设施组件故障，影响了包括 Reddit、Roblox 和 Snapchat 等多个知名平台，造成广泛的用户服务中断。相比之下，12 月的两起事件规模更小、影响更局限。

AWS 目前已经在内部加强了对 AI 工具的使用监管，包括引入更严格的权限限制、实施同行代码评审和强化员工培训等措施，以避免类似错误再次发生。