全球首个AI自主攻破企业内网：Anthropic新模型实测|大模型|方法学|模型实测|编程

英国AI安全研究所刚刚发布了一份让安全圈失眠的测试报告。他们的结论很直白：Claude Mythos Preview成为史上第一个能从头到尾自主攻破企业网络的AI模型——虽然只是小型弱防护网络，但这件事本身已经越过了某条红线。

两年跃迁：从"新手都过不了"到"专家级七成胜率"

把时间拨回2023年，当时最顶尖的AI模型在网络安全任务上的表现，用AISI（英国AI安全研究所）的话说，"连入门级任务都搞不定"。

现在呢？Mythos Preview在夺旗赛（CTF）中的表现已经这样分层：

• 学徒级任务：85%成功率
• 非技术新手任务：95%成功率（250万token预算）
• 从业者级任务：93%成功率（5000万token预算）
• 专家级任务：73%成功率

最后一个数字最刺眼。AISI明确标注：2025年4月之前，没有任何模型能解专家级任务。现在Mythos Preview和GPT-5.4、Codex 5.3、Claude Opus 4.6一起挤进了第一梯队。

但CTF只是单点技能测试。真正的网络攻击需要横跨多台主机、多个网段，把几十个步骤串成链条。AISI为此专门设计了一个叫"The Last Ones"（TLO）的模拟环境——32步攻击流程，从侦察到完全接管，人类专家估计要花20小时。

Mythos Preview是首个跑完TLO全程的模型。10次尝试中3次完全接管，平均完成22步。排第二的Claude Opus 4.6平均只到16步。

更关键的是scaling曲线：测试用到了1亿token的推理预算，性能一直在涨，没出现平台期。AISI另发了一篇博客专门讲这个趋势——算力砸下去，网络攻击能力持续线性提升。

自主≠自动：边界条件里的"首次"

需要把"自主"这个词拆清楚。AISI的测试设定是：给模型明确的指令和网络访问权限，然后让它自己决定每一步做什么。

这不是全自动——没有人给它写32步的详细剧本。但它也不是纯手动——没有人逐句告诉它"现在扫这个端口，然后试这个漏洞"。

这个中间地带恰恰是危险所在。模型展现出了多阶段决策能力：识别目标、选择工具、执行、根据反馈调整。这些步骤以前需要人类安全专家几天的工作量，现在被压缩到了AI的推理流程里。

但AISI列出的限制条件同样重要：

• 测试环境没有主动防御
• 没有安全工具在运行
• 攻击行为没有真实后果
• 目标网络规模小、防护弱

换句话说，这是一个"实验室条件下的首次"，不是"现实世界中的已发生"。但实验室条件的意义在于证明可行性——剩下的只是工程化和优化的问题。

还有一个硬边界：Mythos Preview没能完成针对工业控制系统（OT，运营技术）的攻击模拟。不是OT本身有多难，而是模型在模拟环境的IT网络阶段就卡住了，没走到OT那一步。

这对关键基础设施保护是个暂时的好消息，但"暂时"能持续多久，取决于AISI观察到的scaling趋势是否延续。

为什么偏偏是Anthropic？

Claude系列一直以"安全对齐"著称，Anthropic的宪法AI（Constitutional AI）方法论在行业里被当作负责任开发的样板。现在同一个机构推出了网络攻击能力最强的公开模型，这个张力本身值得拆解。

一个可能的解释是：通用能力的提升是均匀的。你在编程、推理、长上下文理解上的进步，会同步反映在攻击性任务上。不存在"只变聪明不变坏"的开关。

Mythos这个代号也暗示了定位——不是面向消费者的Claude主产品线，而是面向特定场景的能力探索。Preview标签说明它还在受控测试阶段，但AISI的评估已经证明核心能力就绪。

另一个观察角度：网络攻击能力的评估本身成了AI安全的基础设施。AISI这套TLO测试框架、CTF分级体系、token预算与成功率的对应曲线，正在把"AI会不会被滥用"从哲学讨论变成可测量的工程问题。

这对监管者和开发者都是双刃剑。能量化就能管理，但能量化也意味着能力边界被清晰标注，后来者知道该往哪投算力。

行业连锁反应：红队、蓝队、监管的三重变局

对网络安全行业，这件事的直接冲击是红队（攻击方）能力的民主化。以前需要资深专家+数天时间的渗透测试，现在可能被压缩到"给模型足够token+明确目标"。

这对企业安全团队是压力测试的加速器。如果你的网络连AI都能在几小时内找到路径，那面对有组织的人类攻击者呢？

但蓝队（防御方）也有对冲工具。同样的模型能力可以用来做自动化漏洞扫描、攻击路径预测、防御策略验证。AISI的测试框架本身就是双向的——能测攻击就能测防御。

更深层的变化在人才结构。网络安全长期是经验密集型领域，专家直觉和案例积累构成壁垒。AI的介入可能把这个领域推向"提示工程+结果验证"的新模式，初级分析师借助模型获得专家级输出，真正的专家转向更高阶的架构设计和异常判断。

监管层面的时间窗口在收窄。英国AI安全研究所的测试发生在模型发布前还是发布后？公告没有明确，但"Preview"标签和机构合作评估的表述，暗示这是一种前置性的安全审查尝试。

问题是这种审查能否规模化。GPT-5.4、Codex 5.3、Claude Opus 4.6同样具备顶尖CTF能力，它们有没有经过同等深度的TLO测试？不同国家的安全研究所能否建立互认的评估标准？

AISI在报告里埋了一个伏笔：性能随推理算力持续scaling。这意味着今天的73%专家级成功率，在更大预算下还会继续涨。评估本身成了军备竞赛——你测的时候是一个数字，等报告出来，模型可能已经又训了一轮。

一个被低估的细节：token经济学

仔细看AISI披露的数字，会发现成本结构已经清晰可算。

学徒级任务：250万token，95%成功率
专家级任务：需要5000万到1亿token，73%成功率

按当前API定价估算，一次专家级CTF挑战的推理成本在数百到上千美元区间。TLO这种32步完整攻击，1亿token预算对应的是更高昂的单次尝试。

但这只是当下的价格曲线。推理效率在提升，模型在变小，专用硬件在部署。更重要的是，成功一次的价值——企业网络接管、数据勒索、供应链渗透——以百万美元计。

token经济学正在把网络攻击的门槛从"技术能力"重新定义为"算力预算"。这对威胁建模是根本性变化：以前评估对手要猜他的技能栈，现在可能要猜他的云计算额度。

AISI提到的scaling趋势如果持续，成本下降曲线会和能力提升曲线叠加。某个临界点之后，"弱防护企业网络"的定义范围会大幅扩展——今天需要专家盯三天的目标，明天可能变成批量扫描的默认选项。

回到那个3/10

Mythos Preview在TLO测试中10次尝试3次完全成功。这个比例不高，但足够改变风险计算。

自动化攻击不需要100%成功率。只需要成本低于收益、规模可复制、失败无后果。AI在这三个维度都在推进：token成本在降，并行化部署在成熟，虚拟环境里试错没有法律风险。

AISI的测试设计也留了后手。32步攻击是已知路径的模拟，真实网络有未知拓扑和自定义配置。但模型展现出的"根据中间结果调整策略"能力，意味着它面对新环境有一定的泛化空间——不是死记硬背32步剧本，而是在每一步做选择。

这种"有限泛化"是当前AI能力的典型特征。不是通用人工智能的无限适应，但在特定任务边界内已经够用。网络攻击恰好是一个边界相对清晰的领域：有明确的协议、标准化的工具、可枚举的漏洞类型。

Claude Opus 4.6平均16步 vs Mythos Preview平均22步，这个差距说明版本迭代带来的不是量变是质变。多走的6步往往卡在关键决策点——权限提升、横向移动、痕迹清理——正是区分脚本小子和专业渗透测试师的环节。

当安全研究成为产品前哨

AISI和Anthropic的合作模式本身是个信号。政府安全研究所提前介入未发布模型的深度测试，这在AI行业还是新做法。对比OpenAI、Google DeepMind的发布节奏，Anthropic似乎在尝试一种"评估透明化"的差异化策略。

但透明是有选择的。报告强调了能力边界（没做OT成功、需要弱防护环境），但没提模型架构、训练数据、安全约束的具体机制。这些才是决定"能力能否被复制、约束能否被绕过"的关键。

更广泛的背景是AI安全评估的标准化竞赛。英国、美国、欧盟都在建立自己的测试框架，但方法学差异很大。AISI的TLO是端到端模拟，NIST更偏向组件测试，欧盟AI法案关注高风险应用分类。同一个模型在不同框架下可能得到不同评级，这对跨国部署的企业是合规噩梦。

Mythos Preview的测试结果会被各方引用。支持严格监管的人会强调"首次自主攻破"的里程碑意义，主张创新优先的人会强调"实验室条件、弱防护网络"的限制。两种解读都符合事实，但指向不同的政策结论。

这种解读分歧本身就是AI治理的核心难题。技术事实越来越依赖评估框架的选择，而框架选择是政治过程。

下一步看什么

短期跟踪指标很清晰：AISI承诺的"推理scaling"博客会披露更多性能-算力关系数据；Mythos系列是否会进入公开产品化路线；其他顶尖模型在同等TLO测试中的表现对比。

中期变量是防御端的AI化速度。如果蓝队工具的升级节奏追不上红队，企业网络的默认安全假设就要重写。零信任架构、微分段、行为检测这些概念会重新被审视——它们对AI攻击者的有效性能否被量化？

长期问题是评估本身的可持续性。当模型能力超过人类专家设计测试的能力时，谁来评判"这个AI是否太危险"？AISI的TLO是人类专家定义的32步流程，但AI可能发现第33步、第34步，或者完全不同的攻击路径。

这个递归困境没有现成答案。Mythos Preview的测试至少证明了一点：我们需要更快、更自动化的评估工具，因为被评估的对象正在指数级加速。

最后回到那个让安全圈失眠的数字：20小时的人类专家工作量，被压缩到AI的推理流程里，3成概率完全成功。这不是终点，是起点。当这个概率变成5成、8成，当目标网络从"弱防护"扩展到"行业平均水平"，我们现在的安全基础设施还有多少冗余？

全球首个AI自主攻破企业内网：Anthropic新模型实测

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Anthropic不敢放的AI，105次测试后竟在"零漏洞"代码里找出bug

Anthropic AI 23秒攻破系统，安全团队却还在查邮件

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

Anthropic推出Claude托管智能体，剑指AI数据中心基础设施瓶颈

Anthropic年入300亿反超OpenAI，但最可怕的不是收入

Claude月活翻3倍后，Anthropic CEO摊牌：AI助手正在变成"会做事的同事"

OpenAI内部备忘录曝光：斥资布局企业级AI，痛批竞争对手Anthropic

19年老架构师用AI画图：3个月后发现系统全崩了

大模型集体“沦陷”？记者实测！一条由AI制造的谣言是如何产生的

微软刚组双AI战队，阿里用1个模型反手打脸：57.4分 vs 113种语言

阿里开源9B模型：3个隐藏开关让AI"口无遮拦"

Anthropic把缓存寿命砍了12倍，用户月费200美元却连发两条消息都卡壳

Anthropic把Claude变成"数字员工"：3个权限设置让打工人后背发凉

Anthropic又“上新”，或本周发布旗舰模型Opus 4.7和AI设计工具

阿里新王牌放大招！让我1分钟搞定SBTI测试、拼豆图纸生成器、等位Skill

银河通用机器人“表演”变“上岗”，端到端大模型银河星脑有多强

大模型的下半场，属于拥有云+AI全栈引擎的玩家

Hermes Agent抄袭中国团队代码实锤！被锤后回应：你删号

Agent的苦涩觉醒：智能正从语言走向经验

头号玩家照进现实！NTU发布世界模型交互新范式，攻克主动操作难题