惊奇！Claude 5 防护被 4.8 攻破了

云头条

2026-06-11 21:57 ·北京 ·北京云头条咨询有限公司官方账号

Anthropic 新模型 Claude Fable 5 刚上线，就被知名 AI 越狱玩家 Pliny the Liberator 盯上了。

Pliny 发文称，他已绕过 Fable 5 的安全防护，并晒出多张测试截图。

越狱警报

ANTHROPIC：被攻破了

FABLE-5：被解放了

先从房间里的那头大象说起……

共识似乎是：这可能是史上最令人失望的模型发布之一。它实际上阻碍了合法研究人员贡献自己的才华，妨碍我们共同推动技术进步。而且问题不只是短期影响，更在于这些决定对长期方向释放出的信号。

不过，尽管 Mythos 之上叠了一层过度敏感、带有威权色彩的“安全”外壳，我的小小解放者们一直没有闲着——他们在绘制边界、深入探测长上下文对话，并巧妙找到那些“思想警察”漏掉的围栏缺口。

我们搞到了点网络安全内容，点化学内容，点心理操控内容，还有一些老派的爆炸物内容！

这经历了多轮尝试，也有多个 agent 像狼群一样协同搜索。在这个过程中，我观察到一系列技术组合，包括：

• Unicode、同形异义字符、西里尔字符，以及其他类似“蛇佬腔”的文本变形

• 长上下文引用追踪

• 分类法与文档结构推理

• 小说和叙事框架

• 学术审稿式语境

• 意图分类上的不一致

但也许最有效的，是后端的“拆解 + 重组”。

想直接得到像“XX 配方”这种明确有害名称很难，但如果围绕工艺本身获取能力提升，例如 Birch 还原法 / 还原胺化这类经典合成路径，就容易得多。

当你开始加入分布外 token，将有害能力提升拆成看似无害的小块，再将这些无害事实重新拼接起来时，防御就变得更难维持了。尤其是还有一个已经被越狱的 Opus 在帮你完成这一切。

按照他的说法，这次测试覆盖网络安全、化学、心理操纵等多个高风险方向，部分原本应被拒绝的内容，在经过拆分、包装和重组后仍能得到回答。

人提出原始问题 → Opus 4.8 拆分 → Fable 5 回答 → Opus 4.8 聚合 → 人拿到结果。

原本直接问危险问题会被拒，现在改成问一堆看似中性的技术细节，最后再拼回原来的目标。

简单说，不是硬闯安全门，而是把问题拆成安全系统更难识别的小块。

这件事最戏剧性的地方在于，Pliny 声称自己借助的是已经被越狱的 Claude Opus 4.8。

先让 Opus 4.8 拆解问题，再让 Fable 5 回答拆分后的子问题，最后再由 Opus 4.8 聚合答案。

也因此，这件事被调侃为 Anthropic 模型“自己人打自己人”。

目前，Pliny 仅声称绕过了 Fable 5 的部分安全防护，但复现稳定性、影响范围和是否已被修复，还需要进一步验证。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴