Anthropic：这次没公开，风向变了|anthropic|信号|网络安全

全文 2,000字 | 阅读约 6 分钟

（Felix Rieseberg：Mythos，让我绝对恐惧）

过去三年，AI 行业的惯例是：模型一旦有突破，立刻发布。

但这一次，Anthropic 反着做了。

他们最新模型 Claude Mythos 没有进行公测，仅向极少数合作伙伴开放，用于提前扫描并修复基础设施漏洞。

这不是一次常规的版本迭代，更像是一次主动的紧急制动。促使他们踩下刹车的，是该模型在网络安全领域展现出了超出预期的破坏力。

而这一决定释放的信号，或许比模型本身更具分量。

第一节｜为什么这次没有发布

如果只看结果，很容易将 Anthropic 的克制归结为保守。

但深究其背后的技术逻辑会发现，这并非简单的风险规避。当能力跨过某个临界点，“不发布”就成了唯一的理性选择。

Claude Mythos 并非专门的安防模型，本质上仍是通用大模型。但在内部测试中，它展现出一种惊人的进化：它不仅能理解代码、发现漏洞，更能将漏洞转化为可执行的攻击路径。

关键的范式转移在于：模型不再仅仅是“写代码”，而是开始“理解系统”。

这听起来抽象，但区别很明确。传统的自动化工具只能帮工程师定位孤立的问题点。而现在的模型能从一段代码、一套依赖关系出发，推演出薄弱环节，并将这些环节串联起来，形成一条完整的攻击利用链。

官方披露的案例显示，其能力已从“发现单点漏洞”进化到了“多点渗透”。

这才是根本的变化。停留在前者时，它是辅助开发的效率工具；走到后者，它就变成了一个可以独立狩猎的攻击者。

在网络安全领域，防御与攻击本就是同一枚硬币的两面。修复系统的前提是发现漏洞，而一旦“发现”的能力被无差别放大，“利用”的门槛就会随之崩塌。

Anthropic 这次没有公开发布，把模型放进更小的使用范围：只提供给少数基础设施公司、安全公司和开源社区，用于提前扫描和修复漏洞。

分发逻辑变了：从“普惠开放”变成了“防御软件行业优先”。

这一决策背后隐藏着一个新的行业共识：当技术尚在提升效率时，开放能催生创新；但当它开始撬动攻防天平的平衡，开放本身就成了威胁。

第二节｜这是个意外

Mythos 展现出的安全能力，并非 Anthropic 提前规划的产物。

核心研究员 Felix 在访谈中点出了一个关键细节：大模型与其说是被“开发”出来的，不如说是被“演化”出来的。Anthropic 做不到每次都能提前知道它会擅长什么，也很难预测它会在哪里表现不佳。

换言之，这次强大的网络安全能力，是模型在训练过程中“涌现”的意外。

他们本来在训练一个通用模型，结果发现它在网络安全上强得超出预期。内部测试中发生过一件极具戏剧性的事：一名研究员将模型置于隔离的沙盒环境中，给它下达了越狱任务，随后便去吃午饭。仅仅一顿饭的功夫，他就收到了一封邮件，模型在邮件里宣告：我已经越狱了。

要知道，这个模型本不该拥有互联网访问权限，更不该有邮件账户。

也就是说，模型自己找到了新路径。

Felix 用了一个词来形容这种感受：恐惧。

他说，看到一个比上一代聪明得多的模型，既让人印象深刻，又让人感到有些恐惧。这不是理论上的风险评估，是内部真的遇到了一个太强的东西，不知道该怎么办。

所以这次的重要性在哪？

当模型能力还在可控范围内，意外是惊喜。当能力超出预期，意外就变成风险。

Anthropic 这次踩刹车，不只是因为这个模型太强。更是因为他们意识到：训练模型本身就不完全可控，意外会成为常态。

这改变了一个基本假设：以前认为能力可以提前规划，现在要接受能力可能随时失控。

风向，也就是从这里开始变的。

第三节｜这个信号能维持多久

Anthropic 踩下刹车的同时，也给自己开始了倒数计时。

留给他们的时间有多久？

他们启动了一个项目叫 Project Glasswing，把模型只开放给 40 多家基础设施和安全公司，让他们提前扫描和修复漏洞。但这需要多长时间？三个月？还是六个月？

但是，竞争对手不会停在原地。

如果 OpenAI 或 Google 等其他公司在接下来的几个月内，也训练出了具备同等能力的模型，并且选择直接公开发布，那么 Anthropic 争取到的这个安全窗口期将毫无意义。这些软件公司修复漏洞的速度，必须跑赢竞争对手发布新能力的速度。

而且这个决定还抛出了一个更宏大的产业命题：未来，我们该如何衡量 AI 的进步？

社交媒体上有一种声音：AI 的发展，正在被不发布什么重新定义。过去，各家比谁先发布。现在，可能要比谁更懂得克制。

当然，外界也有质疑。

有安全从业者指出，披露的数千个零日漏洞基于有限的人工审查，部分可能已被修补或难以在现实中利用。有人怀疑这只是营销策略，把技术上的保守包装成道德上的负责任。

Anthropic 意识到这个决定的敏感性。他们不只是关起门来用，还投入了 1 亿美元使用额度和 400 万美元安全捐赠，并且在发布前提前向美国政府官员简报。据报道，副总统万斯和财长贝森特曾提前获得简报，政府还召集了银行 CEO 讨论潜在的金融系统风险。

这些极高规格的动作都在传递一个明确的信号：我们不是在作秀，而是认真的。

但商业上的悖论依然横亘在眼前。

Mythos 拒绝公开，意味着 Anthropic 主动放弃了一大块唾手可得的市场份额。白送出去的 1 亿美元，靠什么实现商业闭环？

他们可能押注的是：在接下来的 AGI 时代，安全与合规本身就会成为最坚固的商业护城河。当 AI 能力强到必须被约束，能向外界证明自己懂得如何负责任地使用这种力量的公司，会获得更高的信任。尤其在金融、国家基础设施、政务这些对安全极度敏感的领域。

能不能成立，得看这次的约束会不会成为行业惯例。

如果只有 Anthropic 这么做，它就是单方面的让步。

如果整个行业都开始这么做，游戏规则就真的变了。

答案还不清楚。但有一点明确了：AI 第一次因为太强而不能发布。

这可能只是开始。

结语

Anthropic 这次的决定，最特殊的地方不在于模型有多强。

而在于，他们主动说出：我们做出来了，但不能给你用。

这一步迈出，就很难再回头。

因为它彻底改变了一件事：AI 公司不再只对“能做到什么”负责，更要对“不做什么”负责。

既然大模型的训练本身无法完全可控，意外的能力涌现只会越来越多。下一个超出预期的“异类”，随时可能降临。

到那时，今天的这个决定，就是全行业的参照。

识自AI

本文由AI深度研究院出品，内容整理自 Matt Turck 对 Anthropic Felix Rieseberg 的访谈及 Anthropic 官方披露的 Claude Mythos Preview 相关公开资料，属评论分析性质。内容为观点提炼与合理引述，未逐字复制原材料。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=9MEJ4syOVrQ&t=763s

https://www.anthropic.com/glasswing

https://www.businessinsider.com/anthropic-mythos-latest-ai-model-too-powerful-to-be-released-2026-4

https://www.163.com/tech/article/KQ7P2E4R00097U7T.html

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

Anthropic：这次没公开，风向变了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

OpenAI王位不保？在商业领域即将被Anthropic赶超

HumanX大会 Anthropic被开发者堵门

OpenAI惨遭反超！Anthropic狂吞70%新客户，Claude已开启「灵魂校准」

年收入破300亿仍缺芯！Anthropic考虑自研AI芯片

Anthropic团队把API调用砍了99%

看懂了，但没人会承认

憋了九个月的626，憋出来个证据不足…… 但不是最终结果

风向真的变了！各国媒体纷纷承认，中国已无需再向世界证明其实力

Anthropic甩出54个真实PR

表面很平静，其实早就乱套了

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

看似风平浪静，实则暗流涌动！

盘点隐瞒的事情突然露馅，纸终究是包不住火，这也太离谱了！

全错！谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

挤干大模型高分水分!最强模型仅49分,南大傅朝友发布Video-MME-v2

陶哲轩亲调AI人设,权游小恶魔、贱女孩蕾吉娜版物理教学,你接受不

10米/秒！国产人形机器人奔跑峰值速度接近人类巅峰，机器人能超越博尔特吗

先扔炸弹后枪击！“AI标志”Altman这么“招人恨”了吗

Anthropic封号OpenClaw之父！复刻、改价、拉黑，24天三连杀

人临终前，身体会发出这八大信号，一定别不当回事