OpenAI把3.1小时攻防战压缩到1秒，红队饭碗悬了

字节漫游指南

2026-04-08 15:28 ·北京

2019年，顶尖AI攻破一道CTF题目需要人类专家花8小时。2026年4月，这个数字变成3.1小时——而且模型思考时间以秒计。METR最新研究给出的 doubling time（能力翻倍周期）是9.8个月，但2024年后的模型把这个周期压缩到5.7个月。换句话说，AI攻陷系统的速度，正在以快过摩尔定律的节奏狂奔。

这不是实验室玩具。GPT-5.3 Codex 和 Opus 4.6 已经能稳定拿下需要人类专家3小时以上才能完成的攻防任务，成功率50%。

时间线：从"能跑"到"能赢"的加速度

时间线：从"能跑"到"能赢"的加速度

METR的评估框架很直白：给AI一个网络安全任务，记录它花多少token、能不能成功，然后对标人类专家完成同样任务需要的时间。2019年的模型，P50时间地平线（50%成功率对应的人类耗时）还在1小时以下徘徊。2023年GPT-4发布时，这个数字摸到2小时边缘。

真正的跃迁发生在2024年后。Claude 3.5 Sonnet、o1、o3-mini 陆续把标杆推高到2.5小时、2.8小时。今年3月的 GPT-5.3 Codex 和 Opus 4.6 直接站上3.1小时和3.2小时——而且这还是在"限速"状态下跑出来的成绩。

研究团队用了固定的200万token预算做基准测试。这个设定在2024年前还算公平，但新模型的胃口已经变了。英国AISI（人工智能安全研究所）发现，2025年11月后的模型在更大token预算下没有性能瓶颈。METR自己复测：把GPT-5.3 Codex的失败案例重新放到1000万token预算下跑，P50从3.1小时飙到10.5小时。

3.1小时只是地板，不是天花板。研究团队的原话是："我们的数据集已经饱和。"

开源追上来了，差5.7个月

开源追上来了，差5.7个月

GLM-5是这份报告里唯一被点名的开源权重模型。它的表现恰好落在闭源前沿模型的5.7个月延迟线上——正好对上了2024年后的能力翻倍周期。这个对齐有点微妙：开源社区拿到顶尖攻防能力的时间窗口，正在从"年"缩短到"季度"。

5.7个月意味着什么？2024年初能攻破2小时任务的闭源模型，开源版本在同年夏天就能复现。2026年初的3小时任务能力，可能秋天就会出现在Hugging Face的下载榜上。

扩散速度本身在加速。这不是线性追赶，是周期同步。

但别急着喊"终结者来了"

但别急着喊"终结者来了"

METR在结论部分给自己打了三重补丁。第一，所有数字都来自7个开源基准测试，测的是"有边界、可验证的攻击子任务"，不是真实的APT（高级持续性威胁）全流程。第二，291道题目虽然请了10位专业红队成员标注耗时，但样本结构偏向CTF竞赛风格，和真实企业网络的复杂度不在一个量级。

第三，也是最扎心的：AI在"发现漏洞"和"利用漏洞"之间的鸿沟，可能比数字显示的更深。3.1小时的人类耗时里，大量时间花在信息搜集、权限维持、横向移动——这些环节在基准测试里被简化成了明确的flag捕获。

研究团队的原话很克制："生态效度有限。"翻译成人话：实验室里的3.1小时，不等于实战中的3.1小时。

但这句免责声明本身也在失效。基准测试的简化是双向的：AI少了真实环境的噪音，但也少了真实环境的辅助信息。如果token预算继续膨胀，模型开始像人类一样"边打边搜"，现在的测试框架可能反而低估了它们。

10.5小时的复测数据已经暗示了这个方向。当AI被允许"想得更久"，它的表现不是线性提升，是跳阶。

红队成员怎么看待这个趋势？METR的人类研究里没直接引用，但291个任务的标注过程本身说明了一点：专家们在评估"这道题值几小时"时，已经开始下意识考虑"如果AI来做，需要多久"。这个参照系的转移，可能比任何 doubling time 数字都更值得玩味。

GLM-5的5.7个月延迟，会在下一个周期被压缩到4个月、3个月吗？当开源模型也能稳定拿下10小时人类任务，企业安全团队的防御策略要从哪里开始重构？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴