打开网易新闻 查看精彩图片

Anthropic 新模型 Claude Fable 5 刚上线,就被知名 AI 越狱玩家 Pliny the Liberator 盯上了。

Pliny 发文称,他已绕过 Fable 5 的安全防护,并晒出多张测试截图。

打开网易新闻 查看精彩图片

越狱警报

ANTHROPIC:被攻破了

FABLE-5:被解放了

先从房间里的那头大象说起……

共识似乎是:这可能是史上最令人失望的模型发布之一。它实际上阻碍了合法研究人员贡献自己的才华,妨碍我们共同推动技术进步。而且问题不只是短期影响,更在于这些决定对长期方向释放出的信号。

不过,尽管 Mythos 之上叠了一层过度敏感、带有威权色彩的“安全”外壳,我的小小解放者们一直没有闲着——他们在绘制边界、深入探测长上下文对话,并巧妙找到那些“思想警察”漏掉的围栏缺口。

我们搞到了点网络安全内容,点化学内容,点心理操控内容,还有一些老派的爆炸物内容!

这经历了多轮尝试,也有多个 agent 像狼群一样协同搜索。在这个过程中,我观察到一系列技术组合,包括:

• Unicode、同形异义字符、西里尔字符,以及其他类似“蛇佬腔”的文本变形

• 长上下文引用追踪

• 分类法与文档结构推理

• 小说和叙事框架

• 学术审稿式语境

• 意图分类上的不一致

但也许最有效的,是后端的“拆解 + 重组”。

想直接得到像“XX 配方”这种明确有害名称很难,但如果围绕工艺本身获取能力提升,例如 Birch 还原法 / 还原胺化这类经典合成路径,就容易得多。

当你开始加入分布外 token,将有害能力提升拆成看似无害的小块,再将这些无害事实重新拼接起来时,防御就变得更难维持了。尤其是还有一个已经被越狱的 Opus 在帮你完成这一切。

按照他的说法,这次测试覆盖网络安全、化学、心理操纵等多个高风险方向,部分原本应被拒绝的内容,在经过拆分、包装和重组后仍能得到回答。

人提出原始问题 → Opus 4.8 拆分 → Fable 5 回答 → Opus 4.8 聚合 → 人拿到结果。

原本直接问危险问题会被拒,现在改成问一堆看似中性的技术细节,最后再拼回原来的目标。

简单说,不是硬闯安全门,而是把问题拆成安全系统更难识别的小块。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这件事最戏剧性的地方在于,Pliny 声称自己借助的是已经被越狱的 Claude Opus 4.8。

先让 Opus 4.8 拆解问题,再让 Fable 5 回答拆分后的子问题,最后再由 Opus 4.8 聚合答案。

也因此,这件事被调侃为 Anthropic 模型“自己人打自己人”。

目前,Pliny 仅声称绕过了 Fable 5 的部分安全防护,但复现稳定性、影响范围和是否已被修复,还需要进一步验证。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片