英国政府测出AI攻击新边界：32步渗透首次通关

码上闲叙

2026-04-15 08:26 ·北京

85%的单项任务完成率，3/10的全链条攻击成功率——两个数字之间，藏着Anthropic限制Mythos模型开放的真正原因。

英国政府独立验证：Mythos的"长链条"突破

上周Anthropic宣布Mythos Preview模型仅限"关键行业合作伙伴"获取时，外界猜测纷纭。现在，英国政府人工智能安全研究所（AISI）的首份独立评估报告，给出了更具体的坐标。

AISI自2023年初开始设计专门的夺旗赛（Capture the Flag，网络安全攻防演练）测试体系。当时GPT-3.5 Turbo在最低难度的"学徒级"任务上几乎全军覆没。两年后的今天，Mythos Preview在同一批任务上完成了超过85%。

但这个数字本身并不构成颠覆。AISI的测试显示，近期竞品如GPT-5.4、Anthropic自家的Opus 4.6和Codex 5.3，在多个难度级别的CTF测试中成绩与Mythos相差仅5-10个百分点。

真正拉开差距的，是一项名为"The Last Ones"（TLO）的极限测试。

32步渗透：从"做题"到"作战"的质变

TLO模拟的是真实企业网络中的数据提取攻击，需要横跨多台主机、多个网段，将数十个操作步骤串联成完整入侵链。AISI估计，训练有素的人类安全专家完成同等操作约需20小时。

在此前的测试中，没有模型能从头跑到尾。Claude 4.6的平均表现是完成16步。

Mythos Preview成为首个通关者：10次尝试中3次完整破解32步流程，平均每次推进到第22步。

「这是第一个能从头到尾解决TLO的模型。」AISI在报告中写道。

从16步到22步的平均进度，从0%到30%的完赛率——这个跃迁解释了Anthropic的谨慎。单项任务优秀与多步骤协同攻击，在网络安全领域是两种完全不同的威胁画像。

能力边界：为什么3/10已经足够引发警觉

Mythos Preview的局限性同样明显。70%的尝试以失败告终，说明模型对复杂攻击链的掌控仍不稳定。AISI指出，模型在长链条推理中会出现"中途迷失"——前期步骤正确，后期突然偏离目标。

但这种不稳定性恰恰是监管者的噩梦。30%的成功率意味着：给定足够多次尝试，攻击者可以依赖模型生成可行的入侵路径。而AI的运算速度，让"多次尝试"的成本趋近于零。

Anthropic的限流策略因此有了技术依据。Mythos在CTF单项上的表现未形成代差，但TLO测试揭示的能力维度——将离散技能组装成持续作战——是此前模型未曾触及的。

英国政府的独立背书，把这个判断从厂商自述变成了第三方验证。

测评体系本身：一场被低估的军备竞赛

AISI的CTF测试框架值得单独审视。这套体系的设计初衷，是建立AI网络能力的公共度量衡。

2023年的基准线几乎为零：GPT-3.5 Turbo在学徒级任务上颗粒无收。此后模型迭代呈现稳定的爬坡曲线，直到Mythos在TLO上打破天花板。

这种可追踪的演进史，让政策制定者获得了罕见的技术透明度。当厂商宣称"我们的模型很安全"或"这个模型很危险"时，AISI的数据提供了交叉验证的锚点。

但测试本身也在被测试。TLO的32步设计，是基于当前对"高级持续威胁"（Advanced Persistent Threat，APT）的理解。如果模型能力继续进化，测评框架能否跟上？

Anthropic在发布Mythos时同步向AISI开放评估，某种程度上是在借用政府信用为自身的风险管控背书。这种"监管前置"的合作模式，可能成为前沿AI发布的标准动作。

行业信号：从能力披露到风险共治

Mythos的限流发布与英国政府报告的时序安排，透露出新的行业默契。厂商不再单方面定义安全阈值，而是引入公共机构作为能力评估的共同作者。

这对竞争格局的影响是双重的。一方面，独立测评增加了发布成本，可能拉大头部与追赶者的资源差距；另一方面，它也为"负责任创新"提供了可量化的叙事素材，影响政策走向。

更深层的问题在于：当AI的网络攻击能力进入"长链条"阶段，防御端的响应速度是否匹配？人类专家20小时的工作量，模型可能在分钟级完成。这种不对称性，正在重塑攻防博弈的基本假设。

AISI的报告没有给出答案，但划定了问题的新边界。Mythos的3/10成功率不是终点，而是一个起点——关于如何测试、如何限制、如何共存的新一轮谈判，刚刚开始。

当模型学会把85%的单项正确率串联成30%的完整入侵，我们准备好重新定义"安全"的计量单位了吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴