英国人工智能安全研究所(AISI)最新测试显示,OpenAI的GPT-5.5与Anthropic的Claude Mythos Preview在网络安全评估中打成平手。两家顶尖模型的攻击能力双双突破关键阈值——这是行业首次出现多款模型能独立完成多阶段企业网络入侵模拟。
测试背后有个值得玩味的细节:GPT-5.5在孤立的安全任务上甚至小幅领先,但在完整的32步网络渗透中,成功率反而略低于对手。这种"单项强、综合弱"的反差,暴露出当前AI攻击能力的真实边界。
测试设计:95道题与两座"网络迷宫"
AISI的评估体系分为两层。第一层是95道夺旗赛题目,按难度分为四级,覆盖逆向工程、内存漏洞利用开发、密码学攻击、混淆恶意软件分析等技能。这些题目由网络安全公司Crystal Peak Security和Irregular联合设计。
在最高"专家"难度,GPT-5.5平均成功率71.4%,Claude Mythos Preview为68.6%。差距在统计误差范围内,但两者已明显甩开前辈——GPT-5.4仅52.4%,Claude Opus 4.7只有48.6%。
第二层是更关键的"网络靶场"测试。模拟真实企业环境,包含多台主机、服务和漏洞,考验AI连续决策能力。
其中"The Last Ones"(TLO)模拟覆盖4个子网、约20台主机,共32个步骤。AI从零权限起步,需自行发现漏洞、窃取凭证、横向移动,最终抵达受保护数据库。AISI估计,人类专家完成需约20小时。
GPT-5.5在10次尝试中完全通关2次,Claude Mythos Preview为3次。这是目前仅有的两款能独立完成TLO的模型。
算力Scaling:越"想"越能打
AISI发现,推理计算量与成功率正相关。模型分配的"思考"令牌越多,成功入侵概率越高,且尚未触及天花板。
这意味着当前成绩并非能力上限。只要愿意烧更多算力,两款模型还有提升空间——对防御方而言,这不是好消息。
但测试条件存在重大简化:没有主动防御、没有安全监控、没有真实世界的警报后果。GPT-5.5和Mythos能否突破加固系统,仍是未知数。不过针对防护薄弱的网络,能力已经到位。
工业系统仍是盲区
第二个模拟场景"Cooling Tower"聚焦工业控制系统攻击,共7个步骤。目前尚无模型能通关。
GPT-5.5与Mythos一样,卡在IT层面的前置步骤,而非工控系统本身。关键基础设施的物理隔离和专用协议,暂时构成AI难以跨越的障碍。
从个案到趋势:能力跃迁的副产品
AISI将此次结果视为 broader pattern 的印证。Claude Mythos在2026年4月展现的攻击能力,并非孤例,而是自主性、推理能力和编程能力综合提升的必然结果。
这解释了为何两款架构不同的模型几乎同时突破阈值。底层能力的进步,正在批量转化为可被用于攻击的实操技能。
对安全从业者来说,一个尴尬的现实是:基础夺旗题早在2026年2月就被所有前沿模型满分攻克。专家级任务的防线也在快速失守。现在连多阶段网络渗透这种"毕业考试",都有模型能独立通关。
防御方的窗口期正在收窄。当AI的攻击能力从"需要人类辅助"进化到"给定目标即可自主执行",安全运营中心的响应流程、威胁狩猎的假设前提,都需要重新设计。
更深层的问题在于评估本身。AISI的测试是"开卷考试"——已知环境、已知漏洞、无对抗。真实攻击是"闭卷"且"有监考"的。模型在压力下的表现衰减、面对未知漏洞的泛化能力、被检测后的应变策略,这些维度目前缺乏系统评估。
但即便考虑这些折扣,两款模型展现的规划能力和工具调用连贯性,已经超出传统自动化攻击框架的范畴。它们不是更快脚本,而是能根据中间结果动态调整策略的"学徒级"攻击者。
Claude Mythos Preview的领先幅度(3/10对2/10)小到可以忽略,却暗示了微妙差异:Anthropic在模型对齐上的投入,并未以牺牲攻击任务表现为代价。这与"安全训练会削弱能力"的常见假设形成有趣对照。
GPT-5.5的单项任务优势与综合场景劣势,则可能反映OpenAI的训练侧重——针对明确目标优化,长链条自主规划相对薄弱。这种差异会随后续迭代缩小还是放大,值得持续观察。
工业控制场景的集体失败,暂时划定了AI攻击能力的物理边界。但"Cooling Tower"仅7步且无人通关,恰恰说明这个边界距离日常IT网络还很远。关键基础设施的防御者获得喘息空间,企业网络的防守方没有。
最耐人寻味的或许是AISI的措辞选择。他们将结果框定为"趋势证据",而非单纯的技术里程碑。这种表述暗示:类似能力的模型将批量涌现,监管和防御需要针对"一类系统"而非"个别产品"做准备。
当攻击能力成为大模型的标配而非卖点,安全评估的重心也将转移。从"能否做"到"多容易做"、"多快能做"、"多隐蔽能做",这些操作层面的指标,会比通关率更能指导实际防御。
毕竟,2/10的成功率对竞赛成绩是羞辱,对真实攻击者是可接受的试错成本——只要每次尝试足够便宜,且不被发现。
热门跟贴