打开网易新闻 查看精彩图片

编辑|Panda

Fable 5 很强,但它是怎么思考的?

昨天,一条发布于 r/ClaudeAI 的 Reddit 帖文在该平台以及 上引发广泛热议,短短时间内拿下近 1600 个赞。

帖子的主角,是刚刚结束 19 天出口管制风波、于 7 月 1 日重新上线的 Claude Fable 5。不过这一次,人们讨论的不是它能写出多好的代码,而是一份据称来自它「后台」的、未经修饰的内心独白。

打开网易新闻 查看精彩图片

https://www.reddit.com/r/ClaudeAI/comments/1ul1396/fable_5_leaked_chainofthought_in_web_interface/

发帖人 u/No-Head-Royal 说,Fable 5 一回归,自己就迫不及待找了道 Codeforces 竞赛题(2237H)测试它;结果太难,模型第一次尝试就撞上了思考长度上限。于是他把难度降了一档,换成另一道题(2239D)。

这次模型没有直接给出答案,而是转而输出了一长串支离破碎的低语。据其放出的截图,这段文字里出现了反复爆发的「DATA DATA DATA. GO.」、似乎表达烦躁的「GRRRGAAAH」的语气词、找到突破口的「PHEW」、近乎恼羞成怒的「拦住了?!错!(blocked?! WRONG.)」,还有一句读来颇为狼狈的「我要淹死了——实证啊!!!(I'M DROWNING — EMPIRICS!!!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

发帖人自己的评价是,这段内容「读起来不太像人话,但看它努力较劲的样子,还挺可爱」。

帖子很快冲上了 r/ClaudeAI 的热门榜。评论区里,最高赞的一条只有短短四个词:「Data data data go!!!」。

打开网易新闻 查看精彩图片

这直接被玩成了梗,衍生出「data 到起飞」之类的调侃。也有不少人被这种「抓狂感」戳中共鸣,形容它像极了自己赶 due 时脑子里的碎碎念,或是考场上写不出题时的精神状态。

这条帖子也很快被搬运到 上。博主 @om_patel5 在转发帖中说「Fable 5 泄露了它未经过滤的内心声音,而它全程都在自言自语地嘟囔抱怨」,并总结出这份「内心独白」的几个特征:处理问题时的连续爆发、明显烦躁的短促语气词、以及问题解决后如释重负的呼气声……

打开网易新闻 查看精彩图片

用他的话说,模型「读起来根本不像标准英语,倒像是它给自己发明了一门私有语言」。

开发者 @mark_k 也转发评论称,这份看起来「像外星语言」的内容,和平时看到的「精修版」输出完全是两个次元,某些片段甚至让他联想到形式逻辑符号。

打开网易新闻 查看精彩图片

@_NathanCalvin 的评论更是犀利:「Fable 5 的思考链读起来就像一位极其聪明但心理状态有些失常的博士生,因近期严重睡眠不足而草草写下的日记随笔。」

打开网易新闻 查看精彩图片

这场热议背后,藏着一个更值得玩味的问题:我们平时看到的「清爽回答」,到底掩盖了多少东西?

大模型给出最终答案之前,往往要先在内部完成一轮或长或短的「思考」。这被称为思维链(chain-of-thought)推理。对普通用户而言,这个过程通常是不可见的:产品只会展示一份经过整理、乃至精心措辞的摘要,而不是模型脑子里原始、杂乱、甚至语法不通的推演过程。

这次流传的截图之所以让人兴奋,正是因为它似乎撕开了这层「包装纸」,让人窥见一个顶级推理模型思考时到底有多「奇葩」。

但这份「窥见」,经不经得起推敲?

不止一位评论者指出,发帖人所说的「泄露」(leaked)其实用词不准,官方的 Fable 与 Mythos 的系统卡已经指出过这一现象。

打开网易新闻 查看精彩图片

系统卡地址:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

系统卡里有一节专门讨论「不可读推理」(illegible reasoning),并给出了一个官方认定的「极端案例」:模型在训练接近尾声时去解一道纸牌益智题,推理过程会随着思考变长而逐渐从可读的英文滑向高度压缩的私有速记;满屏是扑克花色符号、箭头、代表「此路不通」的骷髅头表情,字里行间甚至蹦出一句德语脏话「verdammt」。

系统卡原文对此的定性是:这类不可读推理在这道纸牌题环境中出现的比例和极端程度都是所有测试场景里最高的。

换句话说,这次 Reddit 帖子里展示的竞赛题「抓狂发言」,很可能不是一次孤立的意外,而是同一种已被官方记录、只是发生在了另一个任务场景(竞赛编程而非纸牌游戏)里的复现。

读不懂的思维链究竟是什么?

那么,这种「读不懂的思维链」,到底是不是什么值得警惕的信号?

这背后其实是 AI 安全研究圈一个存续多年的理论担忧:模型会不会为了效率,自己发展出一套人类读不懂的「私有语言」来思考?

这个现象有个专门的名字,叫「Neuralese」(神经语),最早由 UC 伯克利研究者在 2017 年提出。

打开网易新闻 查看精彩图片

https://arxiv.org/abs/1704.06960

近两年,随着基于结果的强化学习被大规模用于训练推理模型,多篇论文都观察到类似倾向:思维链会随着强化学习的推进逐渐偏离规范语言,变得高度压缩、甚至连研究者都难以直接读懂。

原因很容易理解:语法完整的句子对模型来说是「浪费 token」,压缩后的私有表达在训练目标下反而更高效。这类现象被称为「不透明推理」(opaque reasoning),并被视为可解释性研究里一个正在扩大的隐患:如果思维链本身就读不懂,安全团队用来监控模型是否「说真话」的这层窗口,也就跟着失效了。

Anthropic 自己的对齐科学团队(Alignment Science)也在早前的研究中承认,思维链的表述并不总是忠实反映模型真实的内部计算过程;模型给出的「解释」和它实际依赖的推理线索,有时候根本是两回事。

DeepSeek 和 GPT 也有这个问题

而且,Fable 5 也不是第一个被观察到这种「说胡话」倾向的模型。

2025 年初,DeepSeek 团队在 R1 的技术报告里就主动提到过一个类似的麻烦:直接用纯强化学习训练出来的早期版本 R1-Zero,思维链会出现明显的可读性问题和「语言混杂」。

打开网易新闻 查看精彩图片

截取自 DeepSeek-R1 技术报告,arXiv:2501.12948

同一段推理里中英文来回切换、句子结构支离破碎。为了解决这个问题,DeepSeek 后来专门在强化学习之前加了一轮监督微调(SFT)「热启动」,才让正式发布的 R1 版本重新变得可读。

打开网易新闻 查看精彩图片

DeepSeek 一个中英混杂的思维过程,来源:arXiv:2510.27338

但团队自己也承认,这样做是有代价的:牺牲一部分推理性能

同样的现象也出现在 OpenAI 一侧:据 Apollo Research 和 METR 两家第三方安全评估机构的报告,o3 等模型的思维链里同样会冷不丁地夹杂一些完全不知所云的词语碎片。这里,句子读起来像是把几个毫不相干的词硬凑在一起,却又不是纯粹的乱码。

打开网易新闻 查看精彩图片

来源:arXiv:2509.15541

今年 10 月发表的一项系统性研究更是把 DeepSeek R1、R1-Zero、QwQ、Qwen3、Kimi K2 等 14 个主流推理模型放在一起做了统一评测,结论是:除了 Claude 系列之外,几乎所有靠「结果导向强化学习」(outcome-based RL)训练出来的推理模型,都或多或少表现出了思维链变得难以理解的倾向,而且模型越大、题目越难,这种倾向就越明显。(现在看来,Claude 似乎亦不能幸免……)

打开网易新闻 查看精彩图片

示例来自 https://metr.org/evaluations/gpt-5-report/#gpt-5s-reasoning-traces-were-occasionally-inscrutable

这也从侧面说明,这次 Fable 5 在竞赛编程题上出现的「抓狂式」输出,与其说是 Fable 5 独有的怪癖,不如说是整个行业在追求更强推理能力过程中,一直伴随、只是这次恰好被公开撞见的「副作用」。

一份冷静的分析

不过,也有专业读者对这次的「极端示例」给出了更冷静的解读。

AI 安全社区 LessWrong 上一篇题为《即便是「不可读」的 Mythos 推理痕迹,看起来也相当可读》的文章,逐字拆解了系统卡里那段纸牌题推理,指出它虽然乍看是一堆符号乱码,但只要稍加留意就能看出规律:花色和数字对应具体的扑克牌,大括号表示牌的集合,箭头表示「导致」或「移动到」,骷髅头就是死路一条的标记……本质上只是极度压缩后的英文加游戏记谱法混合体,而不是一门全新的、无法破译的语言。

作者甚至找来体量小得多、分词器也不同的 Claude Haiku 4.5,让它在没有任何提示的情况下解读同一段文字,结果 Haiku 几乎准确复现出了完整的推理逻辑。这项分析认为,这更支持这一假说:「思维链会变得更加稠密,而不是演变成一门全新的、真正意义上不可理解的语言」。

打开网易新闻 查看精彩图片

部分内容截图,详见 https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illegible-mythos-reasoning-traces-seem-pretty-legible

这份分析多少给这场「AI 有了自己的秘密语言」式的恐慌,泼了一盆冷静的水。

当然,讨论区里也不全是轻松的调侃。有人联想到 OpenAI 在保持思维链可读性上投入的专门精力,感慨「这样下去,可解释性怕是永远追不上了」;也有人提到近期讨论度很高的 AI 风险著作《If Anyone Builds It, Everyone Dies》,认为一旦模型开始用自己都未必能解释清楚的语言思考,人类监督它的能力就会被悄悄削弱。

打开网易新闻 查看精彩图片

更多人则站在了「这挺萌的」这一边,把这种抓狂又执着的思考状态,读解成一种意料之外的、笨拙的「类人感」——「就像我们自己」,一条评论这样写道。

打开网易新闻 查看精彩图片

截至发稿,Anthropic 尚未就这条帖子本身公开表态。