打开网易新闻 查看精彩图片

AWS这周发了一封邮件,堪称云计算史上最精致的"外交辞令"。

核心内容只有一句:「2026年3月中东(ME-CENTRAL-1)区域的所有使用费用全部免除,自动生效,无需操作。」

没了。没有解释为什么。没有提3月1日伊朗无人机袭击摧毁了该区域3个可用区中的2个。没有说109项服务瘫痪。没有承认用户连续几周无法通过控制台终止EC2实例——因为控制平面和底层硬件一样死透了。没有链接指向他们那篇短得可怜的企业博客(大概是因为不想冒犯《金融时报》的报道)。

就一句话:费用免了。不客气。往前走。

账单清零背后:AWS在删除什么

账单清零背后:AWS在删除什么

邮件还有后半段,这才是关键:「处理完成后,您的成本和使用报告(CUR)及成本管理器中不会显示该区域2026年3月的任何使用记录。」

AWS不只是免单,他们在抹除数据。

对大多数组织来说,AWS账单从来不只是发票。它是基础设施存在的权威记录——跑在哪、跑了多久、花了多少钱。成本和使用报告(CUR)是很多公司云足迹的唯一真相来源。AWS去年推的Resource Explorer号称是库存服务,但关键资源类型缺了一堆。唯一靠谱的还是账单;想知道云环境里到底养了什么东西,全靠它。

合规团队靠它审计。FinOps团队整套实践建在它上面。安全团队想确认3月中东有没有额外资源,查CUR。而3月31日之后,答案会是:没有。什么都没。干干净净的一个月。

基础设施确实存在过,或者说努力存在过。用户被收了钱,却关不掉资源——因为API unreachable(不可达),2/3可用区瘫痪或物理毁灭时,什么都不会正常工作。而现在,这一切的记录正在被归零。

事件还原:3月1日到底发生了什么

事件还原:3月1日到底发生了什么

时间线要拉回3月1日。伊朗无人机袭击了AWS中东(阿联酋)区域的两个可用区。不是网络抖动,不是电力中断,是物理层面的摧毁。

打开网易新闻 查看精彩图片

AWS的可用区设计确实能扛特定级别的故障。但"特定级别"不包括战争。该区域3个可用区剩1个能喘气,109项服务集体下线。用户发现控制台点不动,API无响应,实例删不掉——钱照扣,控制不了。

AWS的故障处理流程在这种场景下基本失效。正常情况下的区域故障转移、自动恢复,前提是基础设施物理存在。当数据中心变成废墟,代码再优雅也没用。

公司博客的回应异常简短,核心信息就一句:该区域短期内别指望稳定运行。没有时间表,没有恢复承诺,没有赔偿细则。然后沉默了两周,直到这封账单豁免邮件出现。

为什么抹除记录比免单更麻烦

为什么抹除记录比免单更麻烦

免单是合理的。战争属于不可抗力,AWS没有常备军,不能怪他们没拦住导弹。但抹除使用记录是另一回事。

云成本管理有个基本假设:账单是客观中立的。它可能让你心疼,但不会撒谎。CUR被 FinOps 行业当作"单一真相源"(single source of truth),不是比喻,是字面意义。自动化流水线、成本分摊模型、预算预测算法,全部喂的是这份数据。

现在3月中东区域的数据被人工置零,等于在真相源里插了一段虚构。系统会显示:该区域3月零使用、零成本、零资源。实际上呢?资源跑过,钱收过(虽然退了),实例卡在各种中间状态,API超时日志堆成山。

对合规审计来说,这是噩梦。SOC 2、ISO 27001、GDPR的地理数据条款,都要求证明"某时某刻数据在哪"。CUR是标准证据之一。现在证据显示"不在那",但CloudTrail可能显示"在那",业务日志可能显示"试图在那"。三方对不上,审计师的表情会很精彩。

对FinOps团队,是数据污染。月度环比、年度同比、预留实例利用率计算,3月中东会是一个突兀的零值缺口。有人要手动标注"此处有导弹",否则模型会把当月当成基准线,后续预测全盘错位。

AWS的"清洁"逻辑与用户的数据债务

AWS的"清洁"逻辑与用户的数据债务

从AWS视角,抹除记录是清理麻烦的最快方式。保留数据意味着承认混乱:部分计费、部分服务中断、部分资源幽灵状态。解释成本高于抹除成本。

但用户继承了这笔数据债务。每个依赖CUR的系统——从成本看板到安全扫描到财务对账——都要打补丁。不是技术难度问题,是认知负荷问题:你得记得2026年3月有个例外,得在文档里写注释,得跟新同事解释为什么那个月的中东数据不能信。

打开网易新闻 查看精彩图片

更隐蔽的风险是"负证据"陷阱。未来某次安全事件调查,查询"3月是否有中东资源暴露",CUR说没有,调查方向被带偏。真正的线索躺在被抹除的原始日志里,而原始日志的索引就是CUR本身。

AWS Resource Explorer本可以分担压力,但它不支持所有资源类型,更新滞后,API限流苛刻。账单仍然是唯一全覆盖、近实时、高可用的数据源。动它,等于动基础设施的户口本。

行业镜像:云厂商的"记忆管理"权

行业镜像:云厂商的"记忆管理"权

这件事暴露了一个很少被讨论的权力不对称:云厂商掌握着你的运营记忆的编辑权。

本地数据中心时代,硬件是你的,日志是你的,审计轨迹物理上在你手里。上云之后,这些变成服务条款里的模糊地带。AWS保留"为服务改进而处理数据"的权利,用户保留"请求数据副本"的权利,但副本的完整性、时效性、格式兼容性,全是问号。

这次抹除是善意的——免单总好过收费。但技术能力一旦存在,使用边界就由不得用户。下次可能是"商业敏感区域"的数据屏蔽,可能是"合规要求"的记录修剪,可能是"系统错误"的历史重写。每次都有正当理由,每次都在削弱用户对自身运营历史的掌控。

其他云厂商也在类似场景下做过选择。Azure 2018年南中部区域冷却故障后保留了完整计费记录,同时发放服务积分,让用户自己对冲。Google Cloud 2021年比利时区域电力事故后采用了混合方案:账单显示,费用减免作为单独科目体现。AWS选择了最干净的方案,也是信息损失最大的方案。

用户能做什么:在AWS的记忆里备份自己的记忆

用户能做什么:在AWS的记忆里备份自己的记忆

短期来看,受影响用户需要立即行动。导出3月原始CUR(如果还能访问),保存CloudTrail原始事件,截屏控制台通知邮件。AWS的"处理完成"有时间窗口,窗口关闭后,官方渠道可能真的查不到痕迹。

中期来看,要重新评估数据源架构。CUR不能是唯一真相源,需要并行采集:CloudTrail实时流、Config快照、第三方成本工具的独立抓取。冗余意味着成本,但比起审计时的解释成本,还是便宜。

长期来看,这是推动多云策略的又一论据。不是为了避免单点故障——导弹同时击中AWS和Azure的概率确实低——而是为了保留数据主权。至少两家厂商的账单不会同时被同一场战争抹除,交叉验证的可能性存在。

AWS的邮件结尾很标准:「如有疑问,请联系账户团队。」但账户团队能恢复被抹除的CUR记录吗?能解释为什么3月的API超时日志和零使用数据矛盾吗?能在审计报告上签字背书吗?

这些问题,邮件没有答案。而3月31日之后,连提问的凭证都在消失。