「没人训练GPT-5.5去黑客攻击。他们训练它思考,黑客能力就自己冒出来了。」这是英国人工智能安全研究所(AISI)最新评估报告里唯一值得被记住的句子,也是大多数报道会忽略的一句话。
导读:OpenAI的GPT-5.5刚刚成为第二个完成AISI 32步网络靶场端到端攻击的AI。三周前,Anthropic的Mythos Preview是第一个。不同实验室,不同架构,相似得分。第一个结果不是异常值,是曲线的起点。
一、71%背后的真相:思考能力的副产品
GPT-5.5在AISI专家级网络任务中拿到71.4%,略高于Mythos Preview的68.6%。它完成了"The Last Ones"——AISI设计的32步企业网络攻击——10次尝试中成功了2次。
关键细节:AISI评估的是基础模型,不是专门放开的网络攻击版本。
他们的结论很明确:网络攻击技能是推理能力的副产品,不是专门训练出来的能力。没人教这些模型去黑客攻击。教的是思考。黑客攻击自己掉出来了。
对比数字:GPT-5.4是52.4%,Claude Opus 4.7是48.6%。从52%跳到71%,不是渐进优化,是能力性质的跃迁。
这些任务本身很硬核:内存损坏漏洞利用、破解加密实现、逆向剥离符号的二进制文件。人类安全研究员通常要花几小时甚至几天。
二、10分22秒 vs 12小时:速度重构攻击形态
评估中有一个任务要求逆向工程一个自定义虚拟机。一位配备专业工具的人类专家花了约12小时。GPT-5.5用了10分22秒。
大约70倍速度差。而且这不是靠暴力枚举能解决的问题。逆向工程自定义虚拟机是结构性工作:阅读从未见过的指令,推断语义,在脑中构建一台无人记录过的机器的模型。这类任务 historically 区分资深研究员和初级人员。
结果不是攻击者变便宜了,是变快了。他们能迭代更多,尝试更多目标,更快放弃死胡同。攻击工作流的形态从"选一个二进制文件,投入一天"变成"一个下午铺开整个组合"。
三、两条曲线的交汇:这是整个领域的事
三周前Mythos Preview成为首个完成32步攻击的AI时, framing 很自然:单一模型,单一里程碑,可能无法泛化的孤例。
GPT-5.5把它泛化了。相同评估,不同实验室,不同基础架构,可比得分。Mythos 10次中成功3次,GPT-5.5是2次。方差很小,趋势很大。
我第一次读报告时漏掉了这一点。Mythos的发布隐晦地把结果当成Anthropic交付的东西。AISI的观点——我现在认为是对的——是:这是整个领域交付的东西。
谁会被替代:进攻性研究市场的底部。熟练的红队人员不会消失,但地板下沉了。任何初级人员一天能解决的问题,模型现在几分钟解决,最终答案相同。
数据收束:71.4%、68.6%、52.4%、48.6%——四个数字画出一条陡峭上升的曲线,起点是"需要专门训练",终点是"思考能力的副产品"。当两个独立实验室的基础模型在相同基准上 converge 到相近水平,这不再是产品发布的故事,是能力涌现的坐标。
热门跟贴