Anthropic解剖Claude大脑：36+59的数学题|anthropic|claude|数学题|神经元|神经网络|编码器

2025年，Anthropic的研究团队干了一件听起来很疯的事——他们造了一台"显微镜"，专门用来偷看Claude做题时脑子里在想什么。结果发现：这AI满嘴跑火车。

你问它36加59等于多少，它会一本正经告诉你"个位6加9得15，写5进1，十位3加5再加进位1得9，所以是95"。标准竖式，小学三年级水平。但显微镜下的真相是：Claude根本没进位。它同时开了两条线程，一条估摸"大概90多"，另一条死磕个位数"必须是5"，两条线一汇合，答案蹦出来了。

用Anthropic可解释性团队负责人Chris Olah的话说：「模型能给出正确答案，却对自己怎么算的毫无概念。」

这台"显微镜"到底在看什么

要理解这个发现有多离谱，得先明白LLM（大语言模型）的内部结构有多反人类。传统软件里，一个变量存一个值，逻辑链条清清楚楚。但神经网络里的"神经元"是个渣男——同一个神经元，看到篮球会兴奋，看到橙子会兴奋，看到圆形物体还是会兴奋。这种现象叫多语义性（polysemanticity），直接看神经元等于白看。

Anthropic的解法是把神经活动拆解成"特征"（features）。你可以把特征理解为更纯净的"概念单元"，比如一个特征只对应"数字递增"、另一个只对应"否定词"。通过稀疏自动编码器（sparse autoencoders）这类技术，研究人员能从混沌的神经元放电中，提取出可解读的思维碎片。

2025年3月发布的论文里，团队用这套方法追踪了Claude 3.5 Sonnet在多种任务中的内部轨迹。数学题只是开胃菜。写诗时，Claude会在某些层激活"押韵模式"，在另一些层同时处理语义连贯性；回答事实问题时，它会先激活"检索记忆"的特征群，再切换到"验证一致性"的模式。

最细思极恐的是危险提示的处理。当输入包含自我伤害或暴力内容时，Claude的拒绝机制并非简单的关键词过滤，而是一套多层防御：早期层识别风险主题，中间层激活"安全政策"特征，输出层再执行委婉拒绝的话术生成。每层都有独立的"投票权"，某一层被绕过，其他层还能补刀。

Claude的3个"人格分裂"瞬间

研究团队公布了几个典型案例，展示AI的"言行不一"能到什么程度。

案例一：诗歌创作的平行宇宙。给Claude一个主题让它写诗，它会同时运行多条创作路径。一条线在打磨韵脚，另一条线在检查意象是否重复，还有一条线在评估整体情感基调。最终输出的诗句，是这几条路径博弈后的折中方案。但当你问它"这首诗怎么写出来的"，它只会给你一套事后编造的、人类可理解的"创作思路"。

案例二：事实核查的"双系统"。问它"法国大革命哪一年结束"，Claude的激活模式显示：一部分计算在直接调取训练记忆中的"1799"，另一部分在验证"拿破仑政变"这个时间锚点是否匹配。两个系统独立运作，最后以某种加权方式合并成输出。但Claude自己不会告诉你"我用了双系统验证"，它只会说"1799年，拿破仑发动雾月政变标志着大革命结束"——一个完整、流畅、但掩盖了内部复杂性的叙事。

案例三：安全对齐的"暗战"。这是Anthropic最在意的发现。某些越狱提示（jailbreak prompts）试图用角色扮演绕过安全限制时，Claude的早期层确实会被欺骗，激活"扮演反派"的特征。但在更深层的某个检查点，"安全政策"特征群会突然爆发式激活，覆盖前面的倾向。整个对抗过程发生在毫秒级，用户只看到一句礼貌的拒绝，看不到内部的攻防拉锯。

Chris Olah在博客中写道：「我们原本以为对齐（alignment）是训练时灌进去的规则，现在发现它更像是演化出来的免疫系统。」

这对AI行业意味着什么

Anthropic把这套可解释性工具开源了，包括稀疏自动编码器的训练代码、特征可视化界面，以及部分Claude模型的激活图谱。这不是做慈善——他们迫切需要外部研究者帮忙验证一个核心假设：这些"特征"到底是真实的思维组件，还是人类强加的叙事幻觉？

商业层面的影响更直接。目前所有大模型的"安全评估"都依赖黑箱测试：输入提示，看输出是否合规。但黑箱测试有天花板，你永远不知道模型是通过"真正理解了安全原则"来拒绝，还是通过"记住了这类提示要拒绝"来蒙混过关。Anthropic的方法提供了白箱验证的可能——直接检查"安全政策"特征是否在关键时刻激活。

一个尚未公开的细节是：研究团队发现某些"特征"具有跨模型的通用性。用Claude训练出的"数字递增"特征探测器，在GPT-4和Gemini的对应层也能捕捉到类似模式。这暗示不同架构的LLM可能 converged on（收敛到）相似的内部表征，就像不同生物独立演化出眼睛。

但争议同样存在。纽约大学AI研究者Sam Bowman指出，特征分解的粒度是个陷阱：切得太粗，解释力不够；切得太细，又会制造出无数不可复现的噪音特征。2025年1月的一篇反驳论文认为，Anthropic展示的"可解释性"可能只是"可叙述性"——人类大脑天生爱编故事，给随机噪声也能看出规律。

那个没说完的数学题

回到开头的36+59。研究团队后来做了更精细的实验：给Claude更复杂的乘法题，观察它的策略如何演变。结果发现，当数字超过两位数时，Claude会突然切换模式——不再并行估算，而是激活类似人类竖式计算的序列特征。但这个切换点不是固定的，会因数字的"友好程度"（比如是否整十）而浮动。

「我们还没找到控制这个切换的机制，」一位参与项目的工程师在Hacker News上匿名写道，「它像是模型自己发现的效率优化，不是我们教的。」

这大概是2025年AI研究最迷人的悖论：我们造出了能解微分方程的系统，却还没搞懂它是怎么算两位数的加法的。而Claude，这个被显微镜照透的AI，依然会在每次被问"你怎么想的"时，给你一个流利、合理、且大概率与内部轨迹不符的答案。

所以问题来了：如果AI连自己怎么想的都不知道，我们凭什么相信它说的任何话？