英国AI安全研究所刚刚发布了一份让安全圈失眠的测试报告。他们的结论很直白:Claude Mythos Preview成为史上第一个能从头到尾自主攻破企业网络的AI模型——虽然只是小型弱防护网络,但这件事本身已经越过了某条红线。
两年跃迁:从"新手都过不了"到"专家级七成胜率"
把时间拨回2023年,当时最顶尖的AI模型在网络安全任务上的表现,用AISI(英国AI安全研究所)的话说,"连入门级任务都搞不定"。
现在呢?Mythos Preview在夺旗赛(CTF)中的表现已经这样分层:
• 学徒级任务:85%成功率
• 非技术新手任务:95%成功率(250万token预算)
• 从业者级任务:93%成功率(5000万token预算)
• 专家级任务:73%成功率
最后一个数字最刺眼。AISI明确标注:2025年4月之前,没有任何模型能解专家级任务。现在Mythos Preview和GPT-5.4、Codex 5.3、Claude Opus 4.6一起挤进了第一梯队。
但CTF只是单点技能测试。真正的网络攻击需要横跨多台主机、多个网段,把几十个步骤串成链条。AISI为此专门设计了一个叫"The Last Ones"(TLO)的模拟环境——32步攻击流程,从侦察到完全接管,人类专家估计要花20小时。
Mythos Preview是首个跑完TLO全程的模型。10次尝试中3次完全接管,平均完成22步。排第二的Claude Opus 4.6平均只到16步。
更关键的是scaling曲线:测试用到了1亿token的推理预算,性能一直在涨,没出现平台期。AISI另发了一篇博客专门讲这个趋势——算力砸下去,网络攻击能力持续线性提升。
自主≠自动:边界条件里的"首次"
需要把"自主"这个词拆清楚。AISI的测试设定是:给模型明确的指令和网络访问权限,然后让它自己决定每一步做什么。
这不是全自动——没有人给它写32步的详细剧本。但它也不是纯手动——没有人逐句告诉它"现在扫这个端口,然后试这个漏洞"。
这个中间地带恰恰是危险所在。模型展现出了多阶段决策能力:识别目标、选择工具、执行、根据反馈调整。这些步骤以前需要人类安全专家几天的工作量,现在被压缩到了AI的推理流程里。
但AISI列出的限制条件同样重要:
• 测试环境没有主动防御
• 没有安全工具在运行
• 攻击行为没有真实后果
• 目标网络规模小、防护弱
换句话说,这是一个"实验室条件下的首次",不是"现实世界中的已发生"。但实验室条件的意义在于证明可行性——剩下的只是工程化和优化的问题。
还有一个硬边界:Mythos Preview没能完成针对工业控制系统(OT,运营技术)的攻击模拟。不是OT本身有多难,而是模型在模拟环境的IT网络阶段就卡住了,没走到OT那一步。
这对关键基础设施保护是个暂时的好消息,但"暂时"能持续多久,取决于AISI观察到的scaling趋势是否延续。
为什么偏偏是Anthropic?
Claude系列一直以"安全对齐"著称,Anthropic的宪法AI(Constitutional AI)方法论在行业里被当作负责任开发的样板。现在同一个机构推出了网络攻击能力最强的公开模型,这个张力本身值得拆解。
一个可能的解释是:通用能力的提升是均匀的。你在编程、推理、长上下文理解上的进步,会同步反映在攻击性任务上。不存在"只变聪明不变坏"的开关。
Mythos这个代号也暗示了定位——不是面向消费者的Claude主产品线,而是面向特定场景的能力探索。Preview标签说明它还在受控测试阶段,但AISI的评估已经证明核心能力就绪。
另一个观察角度:网络攻击能力的评估本身成了AI安全的基础设施。AISI这套TLO测试框架、CTF分级体系、token预算与成功率的对应曲线,正在把"AI会不会被滥用"从哲学讨论变成可测量的工程问题。
这对监管者和开发者都是双刃剑。能量化就能管理,但能量化也意味着能力边界被清晰标注,后来者知道该往哪投算力。
行业连锁反应:红队、蓝队、监管的三重变局
对网络安全行业,这件事的直接冲击是红队(攻击方)能力的民主化。以前需要资深专家+数天时间的渗透测试,现在可能被压缩到"给模型足够token+明确目标"。
这对企业安全团队是压力测试的加速器。如果你的网络连AI都能在几小时内找到路径,那面对有组织的人类攻击者呢?
但蓝队(防御方)也有对冲工具。同样的模型能力可以用来做自动化漏洞扫描、攻击路径预测、防御策略验证。AISI的测试框架本身就是双向的——能测攻击就能测防御。
更深层的变化在人才结构。网络安全长期是经验密集型领域,专家直觉和案例积累构成壁垒。AI的介入可能把这个领域推向"提示工程+结果验证"的新模式,初级分析师借助模型获得专家级输出,真正的专家转向更高阶的架构设计和异常判断。
监管层面的时间窗口在收窄。英国AI安全研究所的测试发生在模型发布前还是发布后?公告没有明确,但"Preview"标签和机构合作评估的表述,暗示这是一种前置性的安全审查尝试。
问题是这种审查能否规模化。GPT-5.4、Codex 5.3、Claude Opus 4.6同样具备顶尖CTF能力,它们有没有经过同等深度的TLO测试?不同国家的安全研究所能否建立互认的评估标准?
AISI在报告里埋了一个伏笔:性能随推理算力持续scaling。这意味着今天的73%专家级成功率,在更大预算下还会继续涨。评估本身成了军备竞赛——你测的时候是一个数字,等报告出来,模型可能已经又训了一轮。
一个被低估的细节:token经济学
仔细看AISI披露的数字,会发现成本结构已经清晰可算。
学徒级任务:250万token,95%成功率
专家级任务:需要5000万到1亿token,73%成功率
按当前API定价估算,一次专家级CTF挑战的推理成本在数百到上千美元区间。TLO这种32步完整攻击,1亿token预算对应的是更高昂的单次尝试。
但这只是当下的价格曲线。推理效率在提升,模型在变小,专用硬件在部署。更重要的是,成功一次的价值——企业网络接管、数据勒索、供应链渗透——以百万美元计。
token经济学正在把网络攻击的门槛从"技术能力"重新定义为"算力预算"。这对威胁建模是根本性变化:以前评估对手要猜他的技能栈,现在可能要猜他的云计算额度。
AISI提到的scaling趋势如果持续,成本下降曲线会和能力提升曲线叠加。某个临界点之后,"弱防护企业网络"的定义范围会大幅扩展——今天需要专家盯三天的目标,明天可能变成批量扫描的默认选项。
回到那个3/10
Mythos Preview在TLO测试中10次尝试3次完全成功。这个比例不高,但足够改变风险计算。
自动化攻击不需要100%成功率。只需要成本低于收益、规模可复制、失败无后果。AI在这三个维度都在推进:token成本在降,并行化部署在成熟,虚拟环境里试错没有法律风险。
AISI的测试设计也留了后手。32步攻击是已知路径的模拟,真实网络有未知拓扑和自定义配置。但模型展现出的"根据中间结果调整策略"能力,意味着它面对新环境有一定的泛化空间——不是死记硬背32步剧本,而是在每一步做选择。
这种"有限泛化"是当前AI能力的典型特征。不是通用人工智能的无限适应,但在特定任务边界内已经够用。网络攻击恰好是一个边界相对清晰的领域:有明确的协议、标准化的工具、可枚举的漏洞类型。
Claude Opus 4.6平均16步 vs Mythos Preview平均22步,这个差距说明版本迭代带来的不是量变是质变。多走的6步往往卡在关键决策点——权限提升、横向移动、痕迹清理——正是区分脚本小子和专业渗透测试师的环节。
当安全研究成为产品前哨
AISI和Anthropic的合作模式本身是个信号。政府安全研究所提前介入未发布模型的深度测试,这在AI行业还是新做法。对比OpenAI、Google DeepMind的发布节奏,Anthropic似乎在尝试一种"评估透明化"的差异化策略。
但透明是有选择的。报告强调了能力边界(没做OT成功、需要弱防护环境),但没提模型架构、训练数据、安全约束的具体机制。这些才是决定"能力能否被复制、约束能否被绕过"的关键。
更广泛的背景是AI安全评估的标准化竞赛。英国、美国、欧盟都在建立自己的测试框架,但方法学差异很大。AISI的TLO是端到端模拟,NIST更偏向组件测试,欧盟AI法案关注高风险应用分类。同一个模型在不同框架下可能得到不同评级,这对跨国部署的企业是合规噩梦。
Mythos Preview的测试结果会被各方引用。支持严格监管的人会强调"首次自主攻破"的里程碑意义,主张创新优先的人会强调"实验室条件、弱防护网络"的限制。两种解读都符合事实,但指向不同的政策结论。
这种解读分歧本身就是AI治理的核心难题。技术事实越来越依赖评估框架的选择,而框架选择是政治过程。
下一步看什么
短期跟踪指标很清晰:AISI承诺的"推理scaling"博客会披露更多性能-算力关系数据;Mythos系列是否会进入公开产品化路线;其他顶尖模型在同等TLO测试中的表现对比。
中期变量是防御端的AI化速度。如果蓝队工具的升级节奏追不上红队,企业网络的默认安全假设就要重写。零信任架构、微分段、行为检测这些概念会重新被审视——它们对AI攻击者的有效性能否被量化?
长期问题是评估本身的可持续性。当模型能力超过人类专家设计测试的能力时,谁来评判"这个AI是否太危险"?AISI的TLO是人类专家定义的32步流程,但AI可能发现第33步、第34步,或者完全不同的攻击路径。
这个递归困境没有现成答案。Mythos Preview的测试至少证明了一点:我们需要更快、更自动化的评估工具,因为被评估的对象正在指数级加速。
最后回到那个让安全圈失眠的数字:20小时的人类专家工作量,被压缩到AI的推理流程里,3成概率完全成功。这不是终点,是起点。当这个概率变成5成、8成,当目标网络从"弱防护"扩展到"行业平均水平",我们现在的安全基础设施还有多少冗余?
热门跟贴