长期以来,机制可解释性(mechanistic interpretability)领域有一个几乎从未被明说、却被视为理所当然的前提:模型对于同一种任务的能力或表现,背后对应着一条唯一的、或近乎唯一的内部「电路」(circuit)。该领域的研究者们之所以要做「电路发现」(circuit discovery),是为了要把这些「特定的」电路找出来。
但一篇被 ICML 2026 接收的新论文给出了一个让人不太舒服的答案:「唯一电路」可能从一开始就不存在。 同一个任务,可以由许多结构上几乎完全不重叠、却有着同样高任务能力、稀疏、完备的电路独立完成。论文把这个被长期默认的前提命名为「功能各向异性假说」(Functional Anisotropy Hypothesis),并从实验与理论两种路径,系统性地把它推翻了。
一个被默认了很久,却从未被言明的假设
近几年,circuit 与 sheaf 发现(Circuit and Sheaf Discovery,简称 CSD)成了机制可解释性(Mechanistic Interpretability)里最热门的方向之一。它的目标很直接:把大模型这个「黑盒」打开,找出模型在表现出某种能力时,内部到底是哪些组件(注意力头、MLP)以及它们之间的哪些连接(作为残差流信息传递通道)在真正起作用。
这里有两个相关但不完全相同的概念。circuit 指的是在干预下因果相关的计算子图;而 DiscoGP 提出的 sheaf,要求更严格:它不仅要因果相关,还必须能在独立运行(被剪枝的边只能传递被全部置零的激活值)时独立支撑起任务表现。
本文主要围绕 sheaf 展开,但结论对 circuit 同样成立。无论是哪一种,几乎所有已发表的 CSD 工作都隐式地传达着同一个愿景:每一个能力都对应着一个在结构上被特化的、唯一的内部机制。
- 论文标题:All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
- 作者:Xi Chen*, Mingyu Jin*, Jingcheng Niu*, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue†, Gerald Penn†(* 共同一作,†通讯作者)
- 机构:多伦多大学、香港科技大学(广州)、罗格斯大学、达姆施塔特工业大学、西北大学
- 会议:ICML 2026(韩国,首尔)
- 论文:https://openreview.net/forum?id=3uC9teMlUt
- 代码:https://github.com/TonyXiChen/OASR
这篇论文把这个假设称为功能各向异性假说。它听上去合理,也确实主导了整个领域的评测范式:基于 Tracr 的合成基准,用「发现的 circuit 与预设的 ground-truth 机制有多吻合」来打分;像 MIB(Mechanistic Interpretability Benchmark, 一个机制可解释性评测基准),则奖励那些用最少组件达到高性能的 circuit。两者都隐式地默认「同一模型内,一个任务对应一个机制解释上的正确答案」,并默认进一步压缩终将收敛到一个唯一的、不可或缺的核心机理。
但如果这个前提本身是错的呢?
同一个任务,可以由几乎不重叠的两条电路完成
为了系统性地把「另一条路」找出来,作者提出了重叠感知的 sheaf 排斥(Overlap-Aware Sheaf Repulsion,OASR)。这个思路简单且优雅。
作为 CSD 的框架基底,DiscoGP 把 sheaf 发现通过 Gumbel-Sigmoid 建模成一个可微的「选边」问题:给每条边一个可学习的 logit,再在稀疏、任务性能、完备三个目标下通过 STE(Straight-Through Estimator) 优化一个二值掩码。
在经典的间接宾语识别(IOI) 任务上,作者用这个方法找到了两条 sheaf:A 和 B。结果如下表,两者都在 IOI 上达到 100% 准确率,在完备性准确率、边密度等标准指标上也旗鼓相当。按照现有的一切评判标准,A 和 B 都是「好 sheaf」,都具备充分的解释力。
但真正惊人的是它们的重叠部分:交集只有 96 条边,并集却有 2351 条,交并比(IoU)仅为 4.1%,已经逼近在 DAG (有向无环图)子图限制下随机选边所能产生的重合度。
换句话说,两条几乎完全不同的 sheaf,支撑起了同一个任务、同样的性能。这直接与功能各向异性假说相抵触。
作者进一步排除了「这只是表面差异」的可能:通过逐层分析两条 sheaf 的连边交集,可以看到它们在中间层的边分布有显著不同。这不是简单的重参数化或组件的换位,而是信息的流动与选取方式在层间的真正不同。
而且,这个现象不止 IOI 一个任务。作者在 BLiMP 的子任务:AGA、ANA、一系列 DNA 变体以及 Docstring 等常用基准上重复了同样的流程,每个任务都能稳定地找到两个任务性能相当,但 IoU 极低(普遍在 4%–11% 之间)的 sheaf。
电路越多,「共识」越少
对于一个模型,如果同一任务真有唯一的核心内部机制,那么直觉上,当我们发现的 sheaf 越来越多时,它们的交集应该逐渐收敛到那个核心。作者把这个直觉拿来做了实验:对每个任务,通过 OASR 重复发现 20 次,看这 20 条 sheaf 的累计交集和累计并集如何演化。
结论恰恰相反。随着 sheaf 数量增加,并集稳步增长,交集却持续萎缩。在许多任务上,20 条 sheaf 的全局交集最后只剩下几十条边,对应的互 IoU 远低于 1%(IOI 在 OASR 下仅为 0.15%)。而且,显式地施加 OASR 这种重叠惩罚,会让这个共享交集进一步缩小,同时几乎不损失稀疏性和性能。这意味着:增加发现的 sheaf 数量,并不会让它们收敛到一个共同的核心。更多的 sheaf,不会通向一个共识,它们只是揭示了更多互不相同、却同样可行的实现机制。
作者特别强调,这种「消失的交集」不能用随机初始化的噪声或发现过程的不稳定来解释:在所有运行都产出高质量 sheaf 的前提下,交集结构依然极小,并且在显式惩罚重叠时进一步收缩。
这不是某一种方法的「偏差」
一个自然的质疑是:会不会这只是 DiscoGP + OASR 这一种方法的特性?
作者把同样的分析搬到了另外三种主流电路发现方法上:ACDC(启发式的基于能力阈值的逐边删除),EAP(基于一阶梯度归因),Edge Pruning(EP)(基于梯度优化的剪枝)。尽管设计哲学迥异,三者都被默认是在「逼近那个唯一的解释性子图」。
结果,同样的现象在每一种方法上都复现了:
- ACDC 对遍历顺序敏感。注意力头的索引本无语义优先级可言,但仅仅改变同一层内注意力头的遍历顺序,在完全相同的阈值下,ACDC 就会给出结构差异巨大、IoU 远离 1 的不同电路。
- EAP 对任务无关信息敏感。在 IOI 里,把提示中的 John、Mary 换成 Alice、Bob,本应是完全等价的任务。但仅仅替换这些与任务无关的名字,EAP 找到的电路之间的 IoU 就会随着保留边数 k 系统性地下降:一个真正唯一、被特化的机制,本不该对这种表面改动如此敏感。
- EP 与 DiscoGP 同源。当把 EP 原本的 KL 散度目标换成 DiscoGP 所用的任务特定损失后,EP 同样表现出电路的高度不一致性。原本看似「稳定」的算法行为,其实来自于在输出的整个词表分布上做对齐所带来的假象。
跨越这些方法论上的巨大差异,结论是一致的:功能各向异性的失效,不是 DiscoGP 一家的问题,而是贯穿主流 circuit 与 sheaf 发现范式的普遍现象。
当连「核心」也被证明可有可无:三条边的故事
到这里,一个退而求其次的希望仍然存在:就算电路不唯一,会不会至少有一部分共享组件,构成一个跨所有电路都存在的「不可或缺的核心」?非唯一性也许只发生在外围,而真正关键的计算,集中在一个紧凑、不可替代的子电路里。
为了检验这个更弱的假说,作者做了一件更极端的实验:从多条独立的由 DiscoGP + OASR 发现的 IOI 电路里反复取交集并测试这种交集作为 IOI 电路的性能。这些交集电路在不断缩小的同时竟然依旧高度可用:缩到 11 条边时仍能保持 90% 以上的准确率。再从这 11 条边出发穷举搜索,最终他们分离出了一个超稀疏的三条边的 sheaf:在 zero ablation (零值激活干预) 条件下,仅靠这三条边,IOI 准确率达到 86.7%。
这三条边分别是:
- e₁:初始输入 Embedding → 第 0 层的 MLP
- e₂:第 0 层的 MLP → 第 10 层第 7 个注意力头的 V Node
- e₃:第 10 层第 7 个注意力头 → 最终的残差流表示 Hidden Representation
乍一看,这三条边简直就是「不可或缺的核心」,因为如果把它们从已发现的 IOI 电路中移除,平均准确率会从高位跌到 52.3%;
在发现过程中明令禁止使用它们,DiscoGP 甚至无法再找到达成足够高任务性能的 sheaf。一切都指向:模型确实反复依赖这个收敛到的的核心机制。
然而,这个结论恰恰建立在一个被忽视的前提上:把 IOI 当成一个不可分割的整体任务。
当作者把 IOI 拆解成 ABBA 与 BABA 两个子模板,并要求在「三条边全部禁用」的约束下重新做 sheaf 发现时,模型依然能找到稀疏(边密度低于 3.5%),高度可用的电路,于下表给出。
于是论文确立了「非不可或缺性」:每一条边都能被某条替代 sheaf 绕开。那个看似坚不可摧的「三条边核心」之所以显得不可或缺,仅仅是因为 IOI 被当成了一个聚合任务。一旦把子任务拆开,核心的「必要性」就烟消云散了。
一个理论解释:分布式稠密电路假说
如果非唯一性如此普遍,那它背后是否有更深的原因?这是论文的核心理论贡献:分布式稠密电路假说(Distributive Dense Circuit Hypothesis)。作者证明:电路解释在一般情况下本就是非唯一的,而且这种非唯一性不是偶然,而是高维表示中叠加(superposition)的直接后果。
该直觉的合理化可以由如下步骤得出:
这对可解释性研究意味着什么
需要强调的是,这篇论文并没有否定 CSD 的价值:它发现的机制依然是有意义的、因果相关的。它真正动摇的,是我们解读这些机制的方式。一条被发现的电路,不应再被当作「那个支撑任务的机制」来宣称;它只是一个更大的、由功能等价机制构成的空间里的一种实现而已。
那种朴素的还原论视角,即把一个任务的行为归因于一个唯一、稀疏、不可或缺的子图,已经不足以解释观察到的非唯一性。取而代之的,是一种更分布式的计算机制理解:任务行为,源自一群共存且部分冗余的稠密机制的共同作用。
「条条电路通罗马」这一论文的标题,恰好是它最精炼的注脚。
更多实验细节(各方法随机性来源分析、节点级重叠、逐个 sheaf 的完整统计、各任务的计算图可视化等)与完整证明,可参见原论文及附录。
作者简介
本文由陈熙、金明宇、牛靖程共同作为第一作者完成。陈熙本科毕业于多伦多大学,本科期间师从多伦多大学 Gerald Penn 教授,并将于今年 9 月入学香港中文大学(深圳),师从杜梦楠教授攻读人工智能方向博士学位。金明宇为在读博士生。牛靖程于 2025 年获得多伦多大学计算机科学博士学位,博士导师为 Gerald Penn 教授。完成本工作期间,陈熙在香港科技大学(广州)岳玉涛副教授课题组担任研究助理。尹禹童为西北大学在读博士生;汪昭然为西北大学副教授,同时隶属于西北大学深度学习中心和优化与统计学习中心。尹禹童和汪昭然教授对本文的理论构建给予了大力支持。本工作重点研究的电路发现算法之一为 DiscoGP,牛靖程为 DiscoGP 的共同第一作者。
热门跟贴