2019年,AI破解一个漏洞需要人类专家10小时。现在,同样的任务,GPT-5.3 Codex用200万token预算就能做到50%成功率。Lyptus Research的最新测算显示,AI的进攻性网络能力正在以每5.7个月翻一倍的速度狂奔——比2019-2024年间的9.8个月周期快了近一倍。
token越多,AI"活"越久
这项研究用了METR时间跨度法,找了10位专业安全专家,设计了291个真实任务。核心发现很直白:给AI更多token,它能干更长的活。
GPT-5.3 Codex在200万token预算下,平均能完成需要人类3.1小时的任务。预算提到1000万token,时间跨度直接跳到10.5小时。Opus 4.6表现相近。研究人员承认,这个增速可能还是被低估了——毕竟测试环境有硬性限制,真实的黑产场景可不会给AI设token天花板。
开源模型落后闭源约5.7个月,刚好是能力翻倍的周期差。换句话说,今天OpenAI和Anthropic手里的东西,半年后就会出现在Llama和DeepSeek的权重文件里。
50%成功率意味着什么
对安全从业者来说,50%不是及格线,是分水岭。
自动化攻击工具以前也有,但要么覆盖面窄(比如只扫特定CVE),要么需要人工调参。AI的不同在于通用性:同一个模型能读代码、写exp、绕过WAF、伪造钓鱼邮件。Lyptus的测试任务覆盖了渗透测试全流程,从初始访问到权限维持。
一位参与测试的安全专家「匿名」反馈:最麻烦的不是AI做对的事,是它做错的方式——"它会生成看似合理的payload,但触发条件有细微偏差,这种半真半假的输出比完全胡扯更难排查。"
研究者的自我怀疑
报告里有个细节很少被提及:作者团队主动标注了研究的局限性。
291个任务全部来自公开数据集和授权渗透测试,没有涉及真实生产环境。token预算的上限也人为压低了——现实中,调用API的成本下降速度比模型能力提升更快,黑产团伙完全可以负担更大规模的调用。研究团队把原始数据和代码扔上了GitHub和Hugging Face,相当于邀请所有人来证伪。
这种开放姿态本身说明问题。AI安全研究有个尴尬的传统:发现风险→私下通知厂商→等补丁→公开细节。Lyptus选择直接发报告,理由是"能力增长速度已经超过了协调响应的速度"。
数据、代码、方法论全公开。下一个问题是:防御方的工具,能不能也按5.7个月的周期迭代?
热门跟贴