OpenAI把黑客任务完成率刷到50%，安全圈却更焦虑了

硅屿手记

2026-04-05 17:15 ·北京

2019年，AI破解一个漏洞需要人类专家10小时。现在，同样的任务，GPT-5.3 Codex用200万token预算就能做到50%成功率。Lyptus Research的最新测算显示，AI的进攻性网络能力正在以每5.7个月翻一倍的速度狂奔——比2019-2024年间的9.8个月周期快了近一倍。

token越多，AI"活"越久

这项研究用了METR时间跨度法，找了10位专业安全专家，设计了291个真实任务。核心发现很直白：给AI更多token，它能干更长的活。

GPT-5.3 Codex在200万token预算下，平均能完成需要人类3.1小时的任务。预算提到1000万token，时间跨度直接跳到10.5小时。Opus 4.6表现相近。研究人员承认，这个增速可能还是被低估了——毕竟测试环境有硬性限制，真实的黑产场景可不会给AI设token天花板。

开源模型落后闭源约5.7个月，刚好是能力翻倍的周期差。换句话说，今天OpenAI和Anthropic手里的东西，半年后就会出现在Llama和DeepSeek的权重文件里。

50%成功率意味着什么

50%成功率意味着什么

对安全从业者来说，50%不是及格线，是分水岭。

自动化攻击工具以前也有，但要么覆盖面窄（比如只扫特定CVE），要么需要人工调参。AI的不同在于通用性：同一个模型能读代码、写exp、绕过WAF、伪造钓鱼邮件。Lyptus的测试任务覆盖了渗透测试全流程，从初始访问到权限维持。

一位参与测试的安全专家「匿名」反馈：最麻烦的不是AI做对的事，是它做错的方式——"它会生成看似合理的payload，但触发条件有细微偏差，这种半真半假的输出比完全胡扯更难排查。"

研究者的自我怀疑

研究者的自我怀疑

报告里有个细节很少被提及：作者团队主动标注了研究的局限性。

291个任务全部来自公开数据集和授权渗透测试，没有涉及真实生产环境。token预算的上限也人为压低了——现实中，调用API的成本下降速度比模型能力提升更快，黑产团伙完全可以负担更大规模的调用。研究团队把原始数据和代码扔上了GitHub和Hugging Face，相当于邀请所有人来证伪。

这种开放姿态本身说明问题。AI安全研究有个尴尬的传统：发现风险→私下通知厂商→等补丁→公开细节。Lyptus选择直接发报告，理由是"能力增长速度已经超过了协调响应的速度"。

数据、代码、方法论全公开。下一个问题是：防御方的工具，能不能也按5.7个月的周期迭代？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴