你能看到AI到底在想什么吗?

过去很多人把大语言模型当成不可解释的“黑箱”——输入问题、输出答案,中间的运算过程一团模糊。但机械解释性研究正在撕开这层包装。这个领域干的事情很直接:钻进神经网络内部,逆向还原它怎么一步步算出结果。Anthropic 2025年发布的《关于一个大语言模型的生物学》算是这项努力里的标志性成果。我们来看看他们到底发现了什么。

打开网易新闻 查看精彩图片

想搞清楚大模型在“想”什么,为什么这么难?表层看,似乎盯着每个神经元怎么激活就行了——激活了就说明在参与计算。实际上根本行不通,因为有个叫“叠加”的现象搅乱了局面:单个神经元同时参与几十上百个互不相干的概念,反过来,任何一个概念也会散落在几十上百个神经元上。你没法盯着一个单元读出它代表了什么含义。必须换个思路。

打开网易新闻 查看精彩图片

Anthropic走的一条路是:训练第二个模型来识别离散概念,然后追踪这些概念在一个前向传播过程中怎么交互。具体操作叫“电路追踪”——他们训练出一个“替代模型”,这个替代模型能稀疏地复现原模型MLP层的输出。效果相当于把原模型混在一起的激活状态分解成一组稀疏特征。有意思的是,这些特征直接对应人类一看就懂的高层概念,比如“得克萨斯”或“奥运会”。

有了这些人类可解读的特征之后,就可以把它们按前向传播中的因果关系串起来——等于画出一张计算过程的接线图。真正跑起来时,你能亲眼看到模型如何借助中间概念做多步推理。甚至它还会“提前想”:写诗的时候提前规划后面哪些词能押韵。

举个实例。问模型“包含达拉斯的那个州的首府是哪里”,你能依次观察到:它先定位“达拉斯在得克萨斯州”,再关联到“得克萨斯州的首府是奥斯汀”。整个过程明显是在追踪高层概念之间的语义关系,本质上是在做一种近似符号逻辑的推理。用一些哲学家的话说,这已经进入“高阶推理”的地盘了。而且不止语言模型有这现象。DeepMind 2022年就发现,AlphaZero完全没接触人类棋谱知识,自己琢磨出了“被将军”“牵制棋子”这种人类认识的象棋概念。

打开网易新闻 查看精彩图片

拆开模型的隐式推理流程还有实用价值——帮我们设计更好的学习算法。比如Anthropic发现Claude 3.5 Haiku做小整数加法时用的算法和人类的脑算方式不大一样。它把问题拆成多条并行通路:一条算大概的数量级,另一条精确算个位数,最后再组合起来,中间大量依赖像“查表”一样的记忆化特征来过活。这听着完全不像人列竖式的方式。

那么接下来很自然的问题就是:既然能看清楚它怎么算的,能不能接着把这套算法往更快、更精准的方向引导?Anthropic的电路追踪已经把这扇门推开了一条缝。