打开网易新闻 查看精彩图片

2019年,顶尖AI攻破一道CTF题目需要人类专家花8小时。2026年4月,这个数字变成3.1小时——而且模型思考时间以秒计。METR最新研究给出的 doubling time(能力翻倍周期)是9.8个月,但2024年后的模型把这个周期压缩到5.7个月。换句话说,AI攻陷系统的速度,正在以快过摩尔定律的节奏狂奔。

这不是实验室玩具。GPT-5.3 Codex 和 Opus 4.6 已经能稳定拿下需要人类专家3小时以上才能完成的攻防任务,成功率50%。

时间线:从"能跑"到"能赢"的加速度

时间线:从"能跑"到"能赢"的加速度

METR的评估框架很直白:给AI一个网络安全任务,记录它花多少token、能不能成功,然后对标人类专家完成同样任务需要的时间。2019年的模型,P50时间地平线(50%成功率对应的人类耗时)还在1小时以下徘徊。2023年GPT-4发布时,这个数字摸到2小时边缘。

真正的跃迁发生在2024年后。Claude 3.5 Sonnet、o1、o3-mini 陆续把标杆推高到2.5小时、2.8小时。今年3月的 GPT-5.3 Codex 和 Opus 4.6 直接站上3.1小时和3.2小时——而且这还是在"限速"状态下跑出来的成绩。

研究团队用了固定的200万token预算做基准测试。这个设定在2024年前还算公平,但新模型的胃口已经变了。英国AISI(人工智能安全研究所)发现,2025年11月后的模型在更大token预算下没有性能瓶颈。METR自己复测:把GPT-5.3 Codex的失败案例重新放到1000万token预算下跑,P50从3.1小时飙到10.5小时。

打开网易新闻 查看精彩图片

3.1小时只是地板,不是天花板。研究团队的原话是:"我们的数据集已经饱和。"

开源追上来了,差5.7个月

开源追上来了,差5.7个月

GLM-5是这份报告里唯一被点名的开源权重模型。它的表现恰好落在闭源前沿模型的5.7个月延迟线上——正好对上了2024年后的能力翻倍周期。这个对齐有点微妙:开源社区拿到顶尖攻防能力的时间窗口,正在从"年"缩短到"季度"。

5.7个月意味着什么?2024年初能攻破2小时任务的闭源模型,开源版本在同年夏天就能复现。2026年初的3小时任务能力,可能秋天就会出现在Hugging Face的下载榜上。

扩散速度本身在加速。这不是线性追赶,是周期同步。

但别急着喊"终结者来了"

但别急着喊"终结者来了"

打开网易新闻 查看精彩图片

METR在结论部分给自己打了三重补丁。第一,所有数字都来自7个开源基准测试,测的是"有边界、可验证的攻击子任务",不是真实的APT(高级持续性威胁)全流程。第二,291道题目虽然请了10位专业红队成员标注耗时,但样本结构偏向CTF竞赛风格,和真实企业网络的复杂度不在一个量级。

第三,也是最扎心的:AI在"发现漏洞"和"利用漏洞"之间的鸿沟,可能比数字显示的更深。3.1小时的人类耗时里,大量时间花在信息搜集、权限维持、横向移动——这些环节在基准测试里被简化成了明确的flag捕获。

研究团队的原话很克制:"生态效度有限。"翻译成人话:实验室里的3.1小时,不等于实战中的3.1小时。

但这句免责声明本身也在失效。基准测试的简化是双向的:AI少了真实环境的噪音,但也少了真实环境的辅助信息。如果token预算继续膨胀,模型开始像人类一样"边打边搜",现在的测试框架可能反而低估了它们。

10.5小时的复测数据已经暗示了这个方向。当AI被允许"想得更久",它的表现不是线性提升,是跳阶。

红队成员怎么看待这个趋势?METR的人类研究里没直接引用,但291个任务的标注过程本身说明了一点:专家们在评估"这道题值几小时"时,已经开始下意识考虑"如果AI来做,需要多久"。这个参照系的转移,可能比任何 doubling time 数字都更值得玩味。

GLM-5的5.7个月延迟,会在下一个周期被压缩到4个月、3个月吗?当开源模型也能稳定拿下10小时人类任务,企业安全团队的防御策略要从哪里开始重构?