Anthropic的安全模型，神话滤镜碎了

灰度测试中

2026-04-27 21:17 ·北京

一个名叫"神话"的代码安全工具，名字本身就是个陷阱。

Anthropic给新模型取名Mythos（神话），本想暗示神级能力，但这个词还有另一层意思：一套来源不明、与现实脱节的信仰体系。现在第二层含义开始应验了。

神话褪色：它擅长找人类已知的漏洞

Mythos的真实表现正在浮出水面。它能自动化大量专家级人工检测工作，但受益最多的恰恰是那些专家本身。

它很擅长发现人类已知的漏洞类别，对人类不知道的则束手无策。训练数据的边界，就是它的边界。

Anthropic的"玻璃翼计划"（Project Glasswing）限制早期使用，只开放给有真实需求的可信伙伴。这看起来是负责任的伦理实践，但原文作者指出一个尴尬事实：其他无限制的模型在这方面表现也不错。

有些炒作，有些真材实料，大语言模型终究是大语言模型。

更残酷的解读：伦理本身就是创新？

说"AI公司讲伦理就是唯一的真正创新"，这话很 cynical（犬儒）。

把封闭测试和配套宣传仅仅视为炒作 exercise，同样 cynical。

但原文作者选择了第三条路：把这看作更好未来的早期 glimpse（ glimpse）。一个威胁 landscape 不再由我们无法控制的地质和气候力量决定，而是可以被培育、控制、并且令人满意地趋于平淡的未来。

两个命题指向这个方向。

第一，Mythos这类工具的效果会持续进化，暴露越来越多结构和个体代码缺陷。第二，这些工具终将普及。多快、多便宜或许可控，但结局不可避免——IT 领域没有长期秘密。

pre-industrial 时代的代码遗产

当下，以及未来相当长一段时间内，大多数运行中的代码诞生于漏洞检测的"前工业时代"。

是靠人眼，不是AI，完成了这些工作。

这是一个糟糕的公共环境，不适合突然投放成群结队的、无情的漏洞狩猎机器人。如果它们来得太快，会一团糟。而它们正在来的路上。

但如果能平稳度过这个过渡期，就让机器人自由 roam 吧。

有一类代码保证不存在任何安全风险：未部署的代码。新代码问题很多，有些在部署前被捕获，有些没有，但数量从来不是无限的。只要存在真正优秀的工具，代码就能在发布前变得真正优秀。之后同样的工具落入坏人手中，也没关系。

航空安全的隐喻

一个常被引用的好模型是航空安全。

喷气时代初期，新客机存在结构和机械故障，会直接从天上掉下来。随着时间推移，不仅设计和材料知识进步，工程和监管纪律也同步进化。

现在，空难仍然发生，但必然可以追溯到"本可以、本应该做对，却没做对"的事情。不再有全新的、未被发现

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴