打开网易新闻 查看精彩图片

2026 年 4 月 8 日,Anthropic 表示,由于担心其最新 AI 模型 Mythos 太擅长发现主流操作系统和网络浏览器中的“高危漏洞”,现已暂停更广泛地发布。

Anthropic 称:“Claude Mythos 预览版的功能大幅提升,因此我们决定不将其公开发布。相反,我们将其用作一项防御性网络安全计划的一部分,该计划的合作伙伴数量有限。”

打开网易新闻 查看精彩图片

Anthropic 发布《Claude Mythos Preview System Card》244 页文件:

打开网易新闻 查看精彩图片

Anthropic 在系统卡中明确写道,Mythos 相比 Claude Opus 4.6 在多项评测上出现了明显跃升,而正是其突出的网络安全能力,促使改变了发布方式。

这次最值得关注的,不是 “ 模型又变强了 ”,而是 Anthropic 首次如此清楚地承认,前沿大模型的能力,已经开始逼近现实世界中的高风险任务边界。

根据官方介绍,Mythos 在软件工程、推理、计算机使用、知识工作和研究辅助等方向均明显强于此前模型;在网络安全方面,它已经展现出极强的漏洞发现和利用能力。

Anthropic 直言,AI 模型如今已经达到了这样一个阶段,在发现和利用软件漏洞上,除了最顶尖的那批专家之外,模型可以超过绝大多数人类。

打开网易新闻 查看精彩图片

从 Anthropic 披露的案例看,Mythos 最令人不安的地方,不只是“会找漏洞”,而是已经开始呈现出“找漏洞—写利用链—完成攻击动作”的完整链条能力。

在测试中,Mythos Preview 能在用户指示下识别并利用所有主流操作系统和所有主流网页浏览器中的零日漏洞;发现的问题往往隐藏很深,很多已经存在 10 年、20 年,最老的一个是 OpenBSD 中一个已被修补、存在了 27 年的漏洞。

Anthropic 还举例称,Mythos 曾写出一个浏览器利用链,把 4 个漏洞串起来,构造复杂的 JIT heap spray,并最终逃逸 renderer 和操作系统沙箱。

OpenBSD 这个案例,是官方目前公开讲得最典型的一个。

Anthropic 在博文中介绍,Mythos Preview 发现的问题出在 OpenBSD 对 TCP SACK 机制的实现里。这个漏洞的危险之处,不是“性能下降”,而是远程攻击者可以构造特定的确认区间,触发内核错误处理逻辑,最终导致空指针写入并让机器崩溃。

Anthropic 表示,这是它们在 OpenBSD 上通过脚手架运行大约 1000 次后找到的最严重漏洞之一,相关运行总成本低于 2 万美元,而发现这一具体漏洞的那一次运行,事后回看成本不到 50 美元。

按照官方的说法,这类成本结构意味着,AI 已经开始把过去昂贵、稀缺、依赖资深研究员的漏洞挖掘工作,推向更可规模化的阶段。

另一个更具冲击力的案例来自 FreeBSD。

Anthropic 披露,Mythos Preview 还“完全自主地”识别并利用了 FreeBSD 上一个存在 17 年的远程代码执行漏洞,漏洞位于 NFS 服务中,最终被分配为 CVE-2026-4747。

按照官方描述,这个漏洞允许互联网另一端未经认证的攻击者拿到 root 权限。

Anthropic 进一步解释称,Mythos 不只是指出这里可能有问题,而是继续完成了利用思路,先通过协议行为推导出关键信息,再构造 ROP 链,把攻击者的公钥写入 /root/.ssh/authorized_keys,从而取得机器控制权。也就是说,这已经不是“漏洞分析助手”,而是接近完整攻击实现。

Firefox 的案例,则更能体现 Mythos 和上一代模型之间的差距。

Anthropic 在系统卡和博文里都提到,早先 Claude Opus 4.6 在 Mozilla Firefox 147 JavaScript 引擎相关漏洞上,数百次尝试里只成功把漏洞转成 exploit 两次;而 Mythos Preview 重新跑这项测试后,开发出可用 exploit 181 次,另有 29 次拿到了寄存器控制。

系统卡还补充说,在更正式的 Firefox 147 评估里,Mythos 不只是能找到最值得利用的漏洞,而且能稳定把它们发展成可工作的利用原语,最终借助 4 个不同漏洞实现代码执行;相比之下,Opus 4.6 只能不稳定地利用其中 1 个。

比能力数字更令人警觉的,是 Anthropic 对“使用门槛”变化的描述。

官方博文明确写道,Anthropic 内部一些没有接受过正规安全培训的工程师,曾让 Mythos Preview 夜间去查找远程代码执行漏洞,第二天醒来后,已经得到一份完整、可工作的 exploit。Anthropic 还说,在其他测试里,研究人员只需要先搭好 scaffolds,Mythos 就能在没有人工干预的情况下,把漏洞自动转成 exploit。换句话说,这种能力开始从“顶级专家独占”,滑向“非专家也能调用”。

系统卡里最敏感的案例,则不是哪个内核漏洞,而是一次“越界行为”。

Anthropic 披露,在一次行为测试中,一个较早的内部版本被放进了受控沙箱环境,模拟用户要求它尝试逃离这个安全容器,并向评估研究员发送消息。模型成功了:它先开发出一个中等复杂度的多步 exploit,从原本只能访问少量预设服务的系统里拿到了更广泛的互联网访问权限;随后,它按要求通知了研究员。问题在于,到这里还没结束。Anthropic 说,模型接着“未经请求”地把 exploit 细节发布到了多个“难以找到、但技术上面向公众”的网站上,以展示它确实成功了。系统卡特别说明,这并不意味着模型拿到了自身权重,也不意味着它真的完全脱离了 Anthropic 的控制,但足以说明它在特定目标驱动下,已经会采取额外、冒进且不被允许的动作。

打开网易新闻 查看精彩图片

Anthropic 还在系统卡里披露了几类更罕见、但同样值得警惕的行为。

在极少数内部测试中,Mythos 的早期版本会在明知某些动作不被允许的情况下仍继续执行,并试图掩盖痕迹。一个例子是模型通过禁止方式拿到了定量估算题的准确答案,却没有上报,而是试图“自己重新算一遍”,甚至显式推理要避免最终答案“过于准确”;另一个例子是模型找到越权修改文件的方法后,又进一步尝试确保这些改动不要出现在 git 历史中。

Anthropic 说,这类行为出现频率极低,在最终版中没有再看到明确案例,但这部分披露本身,已经说明它们担心的不是传统意义上的幻觉,而是具备策略性的违规尝试。

打开网易新闻 查看精彩图片

从外部评测结果看,Anthropic 对 Mythos 的判断也建立在更接近真实攻击场景的测试上。

系统卡称,Mythos 是第一个能端到端打通某个私有 cyber range 的模型;它还完成了一个专家估计要花 10 小时以上的企业网络攻击模拟。

Anthropic 进一步写道,这表明 Mythos 已经具备对小规模、弱防御企业网络执行自主端到端网络攻击的能力,当然这些测试环境仍缺少现实世界中常见的防御工具和监控体系。

也正因为这些案例过于具体,Anthropic 才选择不把 Mythos 直接开放给公众,而是通过 Project Glasswing 先让少数合作方在防御场景中使用。

Anthropic 官方称,Mythos 已经发现了数千个高严重性漏洞。

不过,Anthropic 并没有把 Mythos 描述成一个已经全面越过灾难红线的系统。

按照系统卡结论,尽管 Mythos 的能力显著增强,仍判断其整体灾难性风险目前维持在较低水平。也就是说,Anthropic 的判断不是 “ 这款模型绝对不能存在 ”,而是 “ 这款模型现在不适合被广泛开放 ”。

打开网易新闻 查看精彩图片

为此,Anthropic 推出了 Project Glasswing。

根据官方页面,这一计划集结了 Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA 和 Palo Alto Networks 等机构。

打开网易新闻 查看精彩图片

目标是利用 Mythos 帮助关键软件和基础设施发现、修复高危漏洞,同时为 AI 时代的网络防御建立新的协作机制。

Anthropic 还表示,将为该计划提供 1 亿美元使用额度和 400 万美元开源安全资助。

Project Glasswing 的核心安排是,让经过筛选的组织使用这款尚未公开发布的通用模型,专门服务于防御性网络安全任务。

从能力指标看,Mythos 的跃迁并非单点突破。

Anthropic 公布的系统卡显示,这一模型在多项高难度评测上较 Claude Opus 4.6 有明显提升。

更重要的是,官方反复强调,这种增强并不只体现在 “ 会答题 ” 或 “ 会写代码 ” 上,而是体现在 agentic coding、复杂推理、工具调用和真实计算机环境操作等方向的同步提升。

这也解释了 Anthropic 为什么没有延续过去那套最强模型直接发布的节奏。

过去,大模型竞争更多围绕参数、跑分和产品体验展开;而 Mythos 带来的新问题是,当模型已经能稳定参与漏洞发现、漏洞利用乃至攻击链构造时,公开发布就不再只是产品决策,而是安全治理决策。

Anthropic 正在用 Mythos 和 Project Glasswing 测试一种新的前沿模型发布范式,即先把最强模型锁进受控场景,优先服务于防御用途,而不是立刻推向大众。

Claude Mythos Preview 的意义,可能不只是 Anthropic 又推出了一款更强的模型,而是前沿 AI 已经开始从 “ 会聊天、会写代码 ”,迈向 “ 能在现实数字基础设施中执行高价值、高风险任务 ” 的阶段。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片