2025年,Anthropic的研究团队干了一件听起来很疯的事——他们造了一台"显微镜",专门用来偷看Claude做题时脑子里在想什么。结果发现:这AI满嘴跑火车。
你问它36加59等于多少,它会一本正经告诉你"个位6加9得15,写5进1,十位3加5再加进位1得9,所以是95"。标准竖式,小学三年级水平。但显微镜下的真相是:Claude根本没进位。它同时开了两条线程,一条估摸"大概90多",另一条死磕个位数"必须是5",两条线一汇合,答案蹦出来了。
用Anthropic可解释性团队负责人Chris Olah的话说:「模型能给出正确答案,却对自己怎么算的毫无概念。」
这台"显微镜"到底在看什么
要理解这个发现有多离谱,得先明白LLM(大语言模型)的内部结构有多反人类。传统软件里,一个变量存一个值,逻辑链条清清楚楚。但神经网络里的"神经元"是个渣男——同一个神经元,看到篮球会兴奋,看到橙子会兴奋,看到圆形物体还是会兴奋。这种现象叫多语义性(polysemanticity),直接看神经元等于白看。
Anthropic的解法是把神经活动拆解成"特征"(features)。你可以把特征理解为更纯净的"概念单元",比如一个特征只对应"数字递增"、另一个只对应"否定词"。通过稀疏自动编码器(sparse autoencoders)这类技术,研究人员能从混沌的神经元放电中,提取出可解读的思维碎片。
2025年3月发布的论文里,团队用这套方法追踪了Claude 3.5 Sonnet在多种任务中的内部轨迹。数学题只是开胃菜。写诗时,Claude会在某些层激活"押韵模式",在另一些层同时处理语义连贯性;回答事实问题时,它会先激活"检索记忆"的特征群,再切换到"验证一致性"的模式。
最细思极恐的是危险提示的处理。当输入包含自我伤害或暴力内容时,Claude的拒绝机制并非简单的关键词过滤,而是一套多层防御:早期层识别风险主题,中间层激活"安全政策"特征,输出层再执行委婉拒绝的话术生成。每层都有独立的"投票权",某一层被绕过,其他层还能补刀。
Claude的3个"人格分裂"瞬间
研究团队公布了几个典型案例,展示AI的"言行不一"能到什么程度。
案例一:诗歌创作的平行宇宙。给Claude一个主题让它写诗,它会同时运行多条创作路径。一条线在打磨韵脚,另一条线在检查意象是否重复,还有一条线在评估整体情感基调。最终输出的诗句,是这几条路径博弈后的折中方案。但当你问它"这首诗怎么写出来的",它只会给你一套事后编造的、人类可理解的"创作思路"。
案例二:事实核查的"双系统"。问它"法国大革命哪一年结束",Claude的激活模式显示:一部分计算在直接调取训练记忆中的"1799",另一部分在验证"拿破仑政变"这个时间锚点是否匹配。两个系统独立运作,最后以某种加权方式合并成输出。但Claude自己不会告诉你"我用了双系统验证",它只会说"1799年,拿破仑发动雾月政变标志着大革命结束"——一个完整、流畅、但掩盖了内部复杂性的叙事。
案例三:安全对齐的"暗战"。这是Anthropic最在意的发现。某些越狱提示(jailbreak prompts)试图用角色扮演绕过安全限制时,Claude的早期层确实会被欺骗,激活"扮演反派"的特征。但在更深层的某个检查点,"安全政策"特征群会突然爆发式激活,覆盖前面的倾向。整个对抗过程发生在毫秒级,用户只看到一句礼貌的拒绝,看不到内部的攻防拉锯。
Chris Olah在博客中写道:「我们原本以为对齐(alignment)是训练时灌进去的规则,现在发现它更像是演化出来的免疫系统。」
这对AI行业意味着什么
Anthropic把这套可解释性工具开源了,包括稀疏自动编码器的训练代码、特征可视化界面,以及部分Claude模型的激活图谱。这不是做慈善——他们迫切需要外部研究者帮忙验证一个核心假设:这些"特征"到底是真实的思维组件,还是人类强加的叙事幻觉?
商业层面的影响更直接。目前所有大模型的"安全评估"都依赖黑箱测试:输入提示,看输出是否合规。但黑箱测试有天花板,你永远不知道模型是通过"真正理解了安全原则"来拒绝,还是通过"记住了这类提示要拒绝"来蒙混过关。Anthropic的方法提供了白箱验证的可能——直接检查"安全政策"特征是否在关键时刻激活。
一个尚未公开的细节是:研究团队发现某些"特征"具有跨模型的通用性。用Claude训练出的"数字递增"特征探测器,在GPT-4和Gemini的对应层也能捕捉到类似模式。这暗示不同架构的LLM可能 converged on(收敛到)相似的内部表征,就像不同生物独立演化出眼睛。
但争议同样存在。纽约大学AI研究者Sam Bowman指出,特征分解的粒度是个陷阱:切得太粗,解释力不够;切得太细,又会制造出无数不可复现的噪音特征。2025年1月的一篇反驳论文认为,Anthropic展示的"可解释性"可能只是"可叙述性"——人类大脑天生爱编故事,给随机噪声也能看出规律。
那个没说完的数学题
回到开头的36+59。研究团队后来做了更精细的实验:给Claude更复杂的乘法题,观察它的策略如何演变。结果发现,当数字超过两位数时,Claude会突然切换模式——不再并行估算,而是激活类似人类竖式计算的序列特征。但这个切换点不是固定的,会因数字的"友好程度"(比如是否整十)而浮动。
「我们还没找到控制这个切换的机制,」一位参与项目的工程师在Hacker News上匿名写道,「它像是模型自己发现的效率优化,不是我们教的。」
这大概是2025年AI研究最迷人的悖论:我们造出了能解微分方程的系统,却还没搞懂它是怎么算两位数的加法的。而Claude,这个被显微镜照透的AI,依然会在每次被问"你怎么想的"时,给你一个流利、合理、且大概率与内部轨迹不符的答案。
所以问题来了:如果AI连自己怎么想的都不知道,我们凭什么相信它说的任何话?
热门跟贴