拆解大模型“黑箱”：Anthropic找到了AI的思维线路图|anthropic|奥运会|神经网络|算法|追踪|黑箱

你能看到AI到底在想什么吗？

过去很多人把大语言模型当成不可解释的“黑箱”——输入问题、输出答案，中间的运算过程一团模糊。但机械解释性研究正在撕开这层包装。这个领域干的事情很直接：钻进神经网络内部，逆向还原它怎么一步步算出结果。Anthropic 2025年发布的《关于一个大语言模型的生物学》算是这项努力里的标志性成果。我们来看看他们到底发现了什么。

想搞清楚大模型在“想”什么，为什么这么难？表层看，似乎盯着每个神经元怎么激活就行了——激活了就说明在参与计算。实际上根本行不通，因为有个叫“叠加”的现象搅乱了局面：单个神经元同时参与几十上百个互不相干的概念，反过来，任何一个概念也会散落在几十上百个神经元上。你没法盯着一个单元读出它代表了什么含义。必须换个思路。

Anthropic走的一条路是：训练第二个模型来识别离散概念，然后追踪这些概念在一个前向传播过程中怎么交互。具体操作叫“电路追踪”——他们训练出一个“替代模型”，这个替代模型能稀疏地复现原模型MLP层的输出。效果相当于把原模型混在一起的激活状态分解成一组稀疏特征。有意思的是，这些特征直接对应人类一看就懂的高层概念，比如“得克萨斯”或“奥运会”。

有了这些人类可解读的特征之后，就可以把它们按前向传播中的因果关系串起来——等于画出一张计算过程的接线图。真正跑起来时，你能亲眼看到模型如何借助中间概念做多步推理。甚至它还会“提前想”：写诗的时候提前规划后面哪些词能押韵。

举个实例。问模型“包含达拉斯的那个州的首府是哪里”，你能依次观察到：它先定位“达拉斯在得克萨斯州”，再关联到“得克萨斯州的首府是奥斯汀”。整个过程明显是在追踪高层概念之间的语义关系，本质上是在做一种近似符号逻辑的推理。用一些哲学家的话说，这已经进入“高阶推理”的地盘了。而且不止语言模型有这现象。DeepMind 2022年就发现，AlphaZero完全没接触人类棋谱知识，自己琢磨出了“被将军”“牵制棋子”这种人类认识的象棋概念。

拆开模型的隐式推理流程还有实用价值——帮我们设计更好的学习算法。比如Anthropic发现Claude 3.5 Haiku做小整数加法时用的算法和人类的脑算方式不大一样。它把问题拆成多条并行通路：一条算大概的数量级，另一条精确算个位数，最后再组合起来，中间大量依赖像“查表”一样的记忆化特征来过活。这听着完全不像人列竖式的方式。

那么接下来很自然的问题就是：既然能看清楚它怎么算的，能不能接着把这套算法往更快、更精准的方向引导？Anthropic的电路追踪已经把这扇门推开了一条缝。