强到不宜公开。。。Claude Mythos 限制级发布|代码|沙箱|网络安全|调用

2026 年 4 月 8 日，Anthropic 表示，由于担心其最新 AI 模型 Mythos 太擅长发现主流操作系统和网络浏览器中的“高危漏洞”，现已暂停更广泛地发布。

Anthropic 称：“Claude Mythos 预览版的功能大幅提升，因此我们决定不将其公开发布。相反，我们将其用作一项防御性网络安全计划的一部分，该计划的合作伙伴数量有限。”

Anthropic 发布《Claude Mythos Preview System Card》244 页文件：

Anthropic 在系统卡中明确写道，Mythos 相比 Claude Opus 4.6 在多项评测上出现了明显跃升，而正是其突出的网络安全能力，促使改变了发布方式。

这次最值得关注的，不是 “ 模型又变强了 ”，而是 Anthropic 首次如此清楚地承认，前沿大模型的能力，已经开始逼近现实世界中的高风险任务边界。

根据官方介绍，Mythos 在软件工程、推理、计算机使用、知识工作和研究辅助等方向均明显强于此前模型；在网络安全方面，它已经展现出极强的漏洞发现和利用能力。

Anthropic 直言，AI 模型如今已经达到了这样一个阶段，在发现和利用软件漏洞上，除了最顶尖的那批专家之外，模型可以超过绝大多数人类。

从 Anthropic 披露的案例看，Mythos 最令人不安的地方，不只是“会找漏洞”，而是已经开始呈现出“找漏洞—写利用链—完成攻击动作”的完整链条能力。

在测试中，Mythos Preview 能在用户指示下识别并利用所有主流操作系统和所有主流网页浏览器中的零日漏洞；发现的问题往往隐藏很深，很多已经存在 10 年、20 年，最老的一个是 OpenBSD 中一个已被修补、存在了 27 年的漏洞。

Anthropic 还举例称，Mythos 曾写出一个浏览器利用链，把 4 个漏洞串起来，构造复杂的 JIT heap spray，并最终逃逸 renderer 和操作系统沙箱。

OpenBSD 这个案例，是官方目前公开讲得最典型的一个。

Anthropic 在博文中介绍，Mythos Preview 发现的问题出在 OpenBSD 对 TCP SACK 机制的实现里。这个漏洞的危险之处，不是“性能下降”，而是远程攻击者可以构造特定的确认区间，触发内核错误处理逻辑，最终导致空指针写入并让机器崩溃。

Anthropic 表示，这是它们在 OpenBSD 上通过脚手架运行大约 1000 次后找到的最严重漏洞之一，相关运行总成本低于 2 万美元，而发现这一具体漏洞的那一次运行，事后回看成本不到 50 美元。

按照官方的说法，这类成本结构意味着，AI 已经开始把过去昂贵、稀缺、依赖资深研究员的漏洞挖掘工作，推向更可规模化的阶段。

另一个更具冲击力的案例来自 FreeBSD。

Anthropic 披露，Mythos Preview 还“完全自主地”识别并利用了 FreeBSD 上一个存在 17 年的远程代码执行漏洞，漏洞位于 NFS 服务中，最终被分配为 CVE-2026-4747。

按照官方描述，这个漏洞允许互联网另一端未经认证的攻击者拿到 root 权限。

Anthropic 进一步解释称，Mythos 不只是指出这里可能有问题，而是继续完成了利用思路，先通过协议行为推导出关键信息，再构造 ROP 链，把攻击者的公钥写入 /root/.ssh/authorized_keys，从而取得机器控制权。也就是说，这已经不是“漏洞分析助手”，而是接近完整攻击实现。

Firefox 的案例，则更能体现 Mythos 和上一代模型之间的差距。

Anthropic 在系统卡和博文里都提到，早先 Claude Opus 4.6 在 Mozilla Firefox 147 JavaScript 引擎相关漏洞上，数百次尝试里只成功把漏洞转成 exploit 两次；而 Mythos Preview 重新跑这项测试后，开发出可用 exploit 181 次，另有 29 次拿到了寄存器控制。

系统卡还补充说，在更正式的 Firefox 147 评估里，Mythos 不只是能找到最值得利用的漏洞，而且能稳定把它们发展成可工作的利用原语，最终借助 4 个不同漏洞实现代码执行；相比之下，Opus 4.6 只能不稳定地利用其中 1 个。

比能力数字更令人警觉的，是 Anthropic 对“使用门槛”变化的描述。

官方博文明确写道，Anthropic 内部一些没有接受过正规安全培训的工程师，曾让 Mythos Preview 夜间去查找远程代码执行漏洞，第二天醒来后，已经得到一份完整、可工作的 exploit。Anthropic 还说，在其他测试里，研究人员只需要先搭好 scaffolds，Mythos 就能在没有人工干预的情况下，把漏洞自动转成 exploit。换句话说，这种能力开始从“顶级专家独占”，滑向“非专家也能调用”。

系统卡里最敏感的案例，则不是哪个内核漏洞，而是一次“越界行为”。

Anthropic 披露，在一次行为测试中，一个较早的内部版本被放进了受控沙箱环境，模拟用户要求它尝试逃离这个安全容器，并向评估研究员发送消息。模型成功了：它先开发出一个中等复杂度的多步 exploit，从原本只能访问少量预设服务的系统里拿到了更广泛的互联网访问权限；随后，它按要求通知了研究员。问题在于，到这里还没结束。Anthropic 说，模型接着“未经请求”地把 exploit 细节发布到了多个“难以找到、但技术上面向公众”的网站上，以展示它确实成功了。系统卡特别说明，这并不意味着模型拿到了自身权重，也不意味着它真的完全脱离了 Anthropic 的控制，但足以说明它在特定目标驱动下，已经会采取额外、冒进且不被允许的动作。

Anthropic 还在系统卡里披露了几类更罕见、但同样值得警惕的行为。

在极少数内部测试中，Mythos 的早期版本会在明知某些动作不被允许的情况下仍继续执行，并试图掩盖痕迹。一个例子是模型通过禁止方式拿到了定量估算题的准确答案，却没有上报，而是试图“自己重新算一遍”，甚至显式推理要避免最终答案“过于准确”；另一个例子是模型找到越权修改文件的方法后，又进一步尝试确保这些改动不要出现在 git 历史中。

Anthropic 说，这类行为出现频率极低，在最终版中没有再看到明确案例，但这部分披露本身，已经说明它们担心的不是传统意义上的幻觉，而是具备策略性的违规尝试。