云成本浪费可以自动关虚拟机,IAM权限漏洞却要靠人工排队——同一块云,两套逻辑。

一个被默认接受的14天窗口

打开网易新闻 查看精彩图片

Lacework 2023年云威胁报告追踪了企业环境的实际数据:从IAM配置漂移被检测到最终修复,平均耗时14天。真正修改策略只需要4分钟,其余时间全耗在队列深度、冲刺边界和上下文切换上。

这14天不是运营摩擦,是攻击面本身。漏洞创建和修复之间的空档,就是 exploitation 发生的时机。

当前工作流像一条刻意绕远的路:配置漂移检测器标记了一个带有通配符 S3:* 权限的IAM主体→CSPM控制台弹出发现项→工程师看到,建票,丢进安全待办→票积灰→下个冲刺有人捡起,读上下文,登录控制台,编辑策略,关票。

SOC 2审计时这张票显示"周一创建,次周周五解决"。这个时间线无法被辩护为"及时控制"。

成本自动化与安全自动化的分岔口

闭环云修复在成本场景已是标配:检测偏差→评估可否自动修复→执行修复→输出审计记录。闲置虚拟机午夜自动关机,超配实例定时缩容。

这套DERA循环(Detect检测, Evaluate评估, Remediate修复, Audit审计)搬到安全领域却大面积空白。原因藏在Evaluate这一步。

成本修复的评估很简单:实例连续闲置7天?关机。安全修复的评估要回答更难的问题:该主体当前是否在用?有无活跃会话?是否在豁免清单上?修复错了能否回退?

没有Evaluate闸门,自动修复就会同时制造故障。有了它,确定性安全的案例走自动化,边缘案例进更短的人工队列。

信任人类模型的规模临界点

detect-then-ticket是一种信任人类模型,假设工程师会在可接受窗口内行动。10个服务时这个假设成立。100个服务、每个40个活跃IAM主体时,人工审查瓶颈追不上发现项的流速。

Autonomous IAM remediation消灭的是窗口本身,而不只是配置错误。

Evaluate闸门的设计决定了这套系统能否在生产环境运行。它把自动修复从"敢不敢用"变成"什么条件下可以用"——这不是技术乐观主义,是风险工程。

当云成本和安全共享同一套基础设施,为何修复能力的差距如此之大?是安全场景真的更复杂,还是我们对"自动"的定义在安全领域过于保守?