85%的单项任务完成率,3/10的全链条攻击成功率——两个数字之间,藏着Anthropic限制Mythos模型开放的真正原因。
英国政府独立验证:Mythos的"长链条"突破
上周Anthropic宣布Mythos Preview模型仅限"关键行业合作伙伴"获取时,外界猜测纷纭。现在,英国政府人工智能安全研究所(AISI)的首份独立评估报告,给出了更具体的坐标。
AISI自2023年初开始设计专门的夺旗赛(Capture the Flag,网络安全攻防演练)测试体系。当时GPT-3.5 Turbo在最低难度的"学徒级"任务上几乎全军覆没。两年后的今天,Mythos Preview在同一批任务上完成了超过85%。
但这个数字本身并不构成颠覆。AISI的测试显示,近期竞品如GPT-5.4、Anthropic自家的Opus 4.6和Codex 5.3,在多个难度级别的CTF测试中成绩与Mythos相差仅5-10个百分点。
真正拉开差距的,是一项名为"The Last Ones"(TLO)的极限测试。
32步渗透:从"做题"到"作战"的质变
TLO模拟的是真实企业网络中的数据提取攻击,需要横跨多台主机、多个网段,将数十个操作步骤串联成完整入侵链。AISI估计,训练有素的人类安全专家完成同等操作约需20小时。
在此前的测试中,没有模型能从头跑到尾。Claude 4.6的平均表现是完成16步。
Mythos Preview成为首个通关者:10次尝试中3次完整破解32步流程,平均每次推进到第22步。
「这是第一个能从头到尾解决TLO的模型。」AISI在报告中写道。
从16步到22步的平均进度,从0%到30%的完赛率——这个跃迁解释了Anthropic的谨慎。单项任务优秀与多步骤协同攻击,在网络安全领域是两种完全不同的威胁画像。
能力边界:为什么3/10已经足够引发警觉
Mythos Preview的局限性同样明显。70%的尝试以失败告终,说明模型对复杂攻击链的掌控仍不稳定。AISI指出,模型在长链条推理中会出现"中途迷失"——前期步骤正确,后期突然偏离目标。
但这种不稳定性恰恰是监管者的噩梦。30%的成功率意味着:给定足够多次尝试,攻击者可以依赖模型生成可行的入侵路径。而AI的运算速度,让"多次尝试"的成本趋近于零。
Anthropic的限流策略因此有了技术依据。Mythos在CTF单项上的表现未形成代差,但TLO测试揭示的能力维度——将离散技能组装成持续作战——是此前模型未曾触及的。
英国政府的独立背书,把这个判断从厂商自述变成了第三方验证。
测评体系本身:一场被低估的军备竞赛
AISI的CTF测试框架值得单独审视。这套体系的设计初衷,是建立AI网络能力的公共度量衡。
2023年的基准线几乎为零:GPT-3.5 Turbo在学徒级任务上颗粒无收。此后模型迭代呈现稳定的爬坡曲线,直到Mythos在TLO上打破天花板。
这种可追踪的演进史,让政策制定者获得了罕见的技术透明度。当厂商宣称"我们的模型很安全"或"这个模型很危险"时,AISI的数据提供了交叉验证的锚点。
但测试本身也在被测试。TLO的32步设计,是基于当前对"高级持续威胁"(Advanced Persistent Threat,APT)的理解。如果模型能力继续进化,测评框架能否跟上?
Anthropic在发布Mythos时同步向AISI开放评估,某种程度上是在借用政府信用为自身的风险管控背书。这种"监管前置"的合作模式,可能成为前沿AI发布的标准动作。
行业信号:从能力披露到风险共治
Mythos的限流发布与英国政府报告的时序安排,透露出新的行业默契。厂商不再单方面定义安全阈值,而是引入公共机构作为能力评估的共同作者。
这对竞争格局的影响是双重的。一方面,独立测评增加了发布成本,可能拉大头部与追赶者的资源差距;另一方面,它也为"负责任创新"提供了可量化的叙事素材,影响政策走向。
更深层的问题在于:当AI的网络攻击能力进入"长链条"阶段,防御端的响应速度是否匹配?人类专家20小时的工作量,模型可能在分钟级完成。这种不对称性,正在重塑攻防博弈的基本假设。
AISI的报告没有给出答案,但划定了问题的新边界。Mythos的3/10成功率不是终点,而是一个起点——关于如何测试、如何限制、如何共存的新一轮谈判,刚刚开始。
当模型学会把85%的单项正确率串联成30%的完整入侵,我们准备好重新定义"安全"的计量单位了吗?
热门跟贴