条条电路通罗马：大模型可解释性的唯一机制可能从一开始就不存在|假说|唯一|算法|罗马|解释性

长期以来，机制可解释性（mechanistic interpretability）领域有一个几乎从未被明说、却被视为理所当然的前提：模型对于同一种任务的能力或表现，背后对应着一条唯一的、或近乎唯一的内部「电路」（circuit）。该领域的研究者们之所以要做「电路发现」（circuit discovery），是为了要把这些「特定的」电路找出来。
但一篇被 ICML 2026 接收的新论文给出了一个让人不太舒服的答案：「唯一电路」可能从一开始就不存在。同一个任务，可以由许多结构上几乎完全不重叠、却有着同样高任务能力、稀疏、完备的电路独立完成。论文把这个被长期默认的前提命名为「功能各向异性假说」（Functional Anisotropy Hypothesis），并从实验与理论两种路径，系统性地把它推翻了。

一个被默认了很久，却从未被言明的假设

近几年，circuit 与 sheaf 发现（Circuit and Sheaf Discovery，简称 CSD）成了机制可解释性（Mechanistic Interpretability）里最热门的方向之一。它的目标很直接：把大模型这个「黑盒」打开，找出模型在表现出某种能力时，内部到底是哪些组件（注意力头、MLP）以及它们之间的哪些连接（作为残差流信息传递通道）在真正起作用。

这里有两个相关但不完全相同的概念。circuit 指的是在干预下因果相关的计算子图；而 DiscoGP 提出的 sheaf，要求更严格：它不仅要因果相关，还必须能在独立运行（被剪枝的边只能传递被全部置零的激活值）时独立支撑起任务表现。

本文主要围绕 sheaf 展开，但结论对 circuit 同样成立。无论是哪一种，几乎所有已发表的 CSD 工作都隐式地传达着同一个愿景：每一个能力都对应着一个在结构上被特化的、唯一的内部机制。

论文标题：All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs
作者：Xi Chen*, Mingyu Jin*, Jingcheng Niu*, Yutong Yin, Jinman Zhao, Bangwei Guo, Dimitris N. Metaxas, Zhaoran Wang, Yutao Yue†, Gerald Penn†（* 共同一作，†通讯作者）
机构：多伦多大学、香港科技大学（广州）、罗格斯大学、达姆施塔特工业大学、西北大学
会议：ICML 2026（韩国，首尔）
论文：https://openreview.net/forum?id=3uC9teMlUt
代码：https://github.com/TonyXiChen/OASR

这篇论文把这个假设称为功能各向异性假说。它听上去合理，也确实主导了整个领域的评测范式：基于 Tracr 的合成基准，用「发现的 circuit 与预设的 ground-truth 机制有多吻合」来打分；像 MIB（Mechanistic Interpretability Benchmark, 一个机制可解释性评测基准），则奖励那些用最少组件达到高性能的 circuit。两者都隐式地默认「同一模型内，一个任务对应一个机制解释上的正确答案」，并默认进一步压缩终将收敛到一个唯一的、不可或缺的核心机理。

但如果这个前提本身是错的呢？

同一个任务，可以由几乎不重叠的两条电路完成

为了系统性地把「另一条路」找出来，作者提出了重叠感知的 sheaf 排斥（Overlap-Aware Sheaf Repulsion，OASR）。这个思路简单且优雅。

作为 CSD 的框架基底，DiscoGP 把 sheaf 发现通过 Gumbel-Sigmoid 建模成一个可微的「选边」问题：给每条边一个可学习的 logit，再在稀疏、任务性能、完备三个目标下通过 STE（Straight-Through Estimator）优化一个二值掩码。

在经典的间接宾语识别（IOI）任务上，作者用这个方法找到了两条 sheaf：A 和 B。结果如下表，两者都在 IOI 上达到 100% 准确率，在完备性准确率、边密度等标准指标上也旗鼓相当。按照现有的一切评判标准，A 和 B 都是「好 sheaf」，都具备充分的解释力。

但真正惊人的是它们的重叠部分：交集只有 96 条边，并集却有 2351 条，交并比（IoU）仅为 4.1%，已经逼近在 DAG （有向无环图）子图限制下随机选边所能产生的重合度。

换句话说，两条几乎完全不同的 sheaf，支撑起了同一个任务、同样的性能。这直接与功能各向异性假说相抵触。

作者进一步排除了「这只是表面差异」的可能：通过逐层分析两条 sheaf 的连边交集，可以看到它们在中间层的边分布有显著不同。这不是简单的重参数化或组件的换位，而是信息的流动与选取方式在层间的真正不同。

而且，这个现象不止 IOI 一个任务。作者在 BLiMP 的子任务：AGA、ANA、一系列 DNA 变体以及 Docstring 等常用基准上重复了同样的流程，每个任务都能稳定地找到两个任务性能相当，但 IoU 极低（普遍在 4%–11% 之间）的 sheaf。

电路越多，「共识」越少

对于一个模型，如果同一任务真有唯一的核心内部机制，那么直觉上，当我们发现的 sheaf 越来越多时，它们的交集应该逐渐收敛到那个核心。作者把这个直觉拿来做了实验：对每个任务，通过 OASR 重复发现 20 次，看这 20 条 sheaf 的累计交集和累计并集如何演化。

结论恰恰相反。随着 sheaf 数量增加，并集稳步增长，交集却持续萎缩。在许多任务上，20 条 sheaf 的全局交集最后只剩下几十条边，对应的互 IoU 远低于 1%（IOI 在 OASR 下仅为 0.15%）。而且，显式地施加 OASR 这种重叠惩罚，会让这个共享交集进一步缩小，同时几乎不损失稀疏性和性能。这意味着：增加发现的 sheaf 数量，并不会让它们收敛到一个共同的核心。更多的 sheaf，不会通向一个共识，它们只是揭示了更多互不相同、却同样可行的实现机制。

作者特别强调，这种「消失的交集」不能用随机初始化的噪声或发现过程的不稳定来解释：在所有运行都产出高质量 sheaf 的前提下，交集结构依然极小，并且在显式惩罚重叠时进一步收缩。

这不是某一种方法的「偏差」

一个自然的质疑是：会不会这只是 DiscoGP + OASR 这一种方法的特性？

作者把同样的分析搬到了另外三种主流电路发现方法上：ACDC（启发式的基于能力阈值的逐边删除），EAP（基于一阶梯度归因），Edge Pruning（EP）（基于梯度优化的剪枝）。尽管设计哲学迥异，三者都被默认是在「逼近那个唯一的解释性子图」。

结果，同样的现象在每一种方法上都复现了：

ACDC 对遍历顺序敏感。注意力头的索引本无语义优先级可言，但仅仅改变同一层内注意力头的遍历顺序，在完全相同的阈值下，ACDC 就会给出结构差异巨大、IoU 远离 1 的不同电路。
EAP 对任务无关信息敏感。在 IOI 里，把提示中的 John、Mary 换成 Alice、Bob，本应是完全等价的任务。但仅仅替换这些与任务无关的名字，EAP 找到的电路之间的 IoU 就会随着保留边数 k 系统性地下降：一个真正唯一、被特化的机制，本不该对这种表面改动如此敏感。
EP 与 DiscoGP 同源。当把 EP 原本的 KL 散度目标换成 DiscoGP 所用的任务特定损失后，EP 同样表现出电路的高度不一致性。原本看似「稳定」的算法行为，其实来自于在输出的整个词表分布上做对齐所带来的假象。

跨越这些方法论上的巨大差异，结论是一致的：功能各向异性的失效，不是 DiscoGP 一家的问题，而是贯穿主流 circuit 与 sheaf 发现范式的普遍现象。

当连「核心」也被证明可有可无：三条边的故事

到这里，一个退而求其次的希望仍然存在：就算电路不唯一，会不会至少有一部分共享组件，构成一个跨所有电路都存在的「不可或缺的核心」？非唯一性也许只发生在外围，而真正关键的计算，集中在一个紧凑、不可替代的子电路里。

为了检验这个更弱的假说，作者做了一件更极端的实验：从多条独立的由 DiscoGP + OASR 发现的 IOI 电路里反复取交集并测试这种交集作为 IOI 电路的性能。这些交集电路在不断缩小的同时竟然依旧高度可用：缩到 11 条边时仍能保持 90% 以上的准确率。再从这 11 条边出发穷举搜索，最终他们分离出了一个超稀疏的三条边的 sheaf：在 zero ablation (零值激活干预) 条件下，仅靠这三条边，IOI 准确率达到 86.7%。

这三条边分别是：

e₁：初始输入 Embedding → 第 0 层的 MLP
e₂：第 0 层的 MLP → 第 10 层第 7 个注意力头的 V Node
e₃：第 10 层第 7 个注意力头 → 最终的残差流表示 Hidden Representation

乍一看，这三条边简直就是「不可或缺的核心」，因为如果把它们从已发现的 IOI 电路中移除，平均准确率会从高位跌到 52.3%；

在发现过程中明令禁止使用它们，DiscoGP 甚至无法再找到达成足够高任务性能的 sheaf。一切都指向：模型确实反复依赖这个收敛到的的核心机制。

然而，这个结论恰恰建立在一个被忽视的前提上：把 IOI 当成一个不可分割的整体任务。

当作者把 IOI 拆解成 ABBA 与 BABA 两个子模板，并要求在「三条边全部禁用」的约束下重新做 sheaf 发现时，模型依然能找到稀疏（边密度低于 3.5%），高度可用的电路，于下表给出。

于是论文确立了「非不可或缺性」：每一条边都能被某条替代 sheaf 绕开。那个看似坚不可摧的「三条边核心」之所以显得不可或缺，仅仅是因为 IOI 被当成了一个聚合任务。一旦把子任务拆开，核心的「必要性」就烟消云散了。

一个理论解释：分布式稠密电路假说

如果非唯一性如此普遍，那它背后是否有更深的原因？这是论文的核心理论贡献：分布式稠密电路假说（Distributive Dense Circuit Hypothesis）。作者证明：电路解释在一般情况下本就是非唯一的，而且这种非唯一性不是偶然，而是高维表示中叠加（superposition）的直接后果。

该直觉的合理化可以由如下步骤得出：

这对可解释性研究意味着什么

需要强调的是，这篇论文并没有否定 CSD 的价值：它发现的机制依然是有意义的、因果相关的。它真正动摇的，是我们解读这些机制的方式。一条被发现的电路，不应再被当作「那个支撑任务的机制」来宣称；它只是一个更大的、由功能等价机制构成的空间里的一种实现而已。

那种朴素的还原论视角，即把一个任务的行为归因于一个唯一、稀疏、不可或缺的子图，已经不足以解释观察到的非唯一性。取而代之的，是一种更分布式的计算机制理解：任务行为，源自一群共存且部分冗余的稠密机制的共同作用。

「条条电路通罗马」这一论文的标题，恰好是它最精炼的注脚。

更多实验细节（各方法随机性来源分析、节点级重叠、逐个 sheaf 的完整统计、各任务的计算图可视化等）与完整证明，可参见原论文及附录。

作者简介

本文由陈熙、金明宇、牛靖程共同作为第一作者完成。陈熙本科毕业于多伦多大学，本科期间师从多伦多大学 Gerald Penn 教授，并将于今年 9 月入学香港中文大学（深圳），师从杜梦楠教授攻读人工智能方向博士学位。金明宇为在读博士生。牛靖程于 2025 年获得多伦多大学计算机科学博士学位，博士导师为 Gerald Penn 教授。完成本工作期间，陈熙在香港科技大学（广州）岳玉涛副教授课题组担任研究助理。尹禹童为西北大学在读博士生；汪昭然为西北大学副教授，同时隶属于西北大学深度学习中心和优化与统计学习中心。尹禹童和汪昭然教授对本文的理论构建给予了大力支持。本工作重点研究的电路发现算法之一为 DiscoGP，牛靖程为 DiscoGP 的共同第一作者。