近年来,大语言模型展现出了越来越强的能力,从上下文学习(In-Context Learning, ICL)到复杂推理、代码生成,这些能力不断刷新人们对模型能力边界的认知。
然而,对于这些能力究竟从何而来、又是在训练过程中如何形成的,我们仍然知之甚少。
近年来兴起的机理可解释性(Mechanistic Interpretability)研究,开始尝试揭示模型内部的计算机制。例如,「归纳头」(Induction Heads)被广泛认为是大模型涌现上下文学习能力的关键神经机制。这类注意力头能够识别并复制先前出现的模式,从而实现类似「从示例中学习」的行为。相关研究不仅在多个模型中发现了归纳头的存在,也较为清晰地刻画了它们在推理阶段的工作方式。
然而,这类研究大多停留在事后分析(post hoc analysis)层面。我们能够揭示模型内部的计算机制,并把计算机制逆向拆解成可理解的「电路」。我们能描述一个电路在推理时「算什么」,却回答不了它「怎么来」—— 是哪一部分训练数据、以怎样的方式,在预训练过程中把它塑造了出来?例如,我们已经能够观察归纳头在训练完成后的功能,却仍不清楚它们究竟是如何在预训练过程中形成的。
更进一步地,究竟是哪一部分训练数据塑造了这种能力?是结构严谨的教科书文本,还是蕴含大量重复模式与逻辑结构的代码语料?这些问题至今仍缺乏明确答案。
来自北京大学计算机学院和北京智源人工智能研究院的研究者,正是从这个被长期忽视的「数据溯源」维度切入,提出了机理数据归因(Mechanistic Data Attribution, MDA)框架。它第一次把可解释性的提问,从「模型内部有什么机制」,推进到「这些内部机制是被哪些训练数据因果地塑造出来的」—— 并由此打通了一条「训练数据 → 内部机制 → 模型行为」的因果链条。
而沿着这条链条,他们得到了一个相当反直觉的答案:真正催化归纳头形成的,并不是人类眼中「高质量」的优美文本。那些看似杂乱无章、包含大量重复结构的「垃圾数据」(如 XML 标签、乱码般的 Base64 字符串、LaTeX 源代码),才是塑造归纳头的核心动力。
该工作已被机器学习顶级会议ICML 2026 接收为 Oral & Spotlight(168 / 23,918,录用比 Top 0.7%)。
- 论文标题:Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
- 论文链接:https://arxiv.org/pdf/2601.21996
- 代码链接:https://github.com/chenjianhuii/Mechanistic-Data-Attribution
MDA 框架:可解释单元级别的训练数据归因
要理解 MDA 的新意,先要看清它和传统方法的分界。
经典的训练数据归因(Training Data Attribution, TDA)关注的是「某条数据对模型整体 Loss 的影响」。这就像只用一个人的「整体健康状况」,去倒推他某天吃下的一粒维生素起了什么作用。这种方式粒度太粗、计算昂贵,也无法对应到任何一个具体的内部机制。
MDA 的核心转变在于:不再关注全局模型行为,而是通过影响函数(Influence Functions)精确追踪特定「可解释单元」(如归纳头)的形成源头。
图一:MDA 框架总览。从定位可解释单元,到计算数据影响力,再到因果验证与干预。
具体而言,MDA 是一个三阶段框架:
- 定位(Localizing):首先定义可解释单元的监测指标(如针对归纳头的前缀匹配分数),定位那些具备可解释性的关键单元(例如神经元、注意力头等)及其参数子空间;
- 归因(Computing):利用 EK-FAC(特征值校正的 Kronecker 因子近似曲率)技术,高效估算海量训练数据对特定参数子空间的影响分数。这使得在大规模预训练语料中进行归因成为可能;
- 干预(Intervening):通过「数据删除」与「数据增强」实验,因果性地验证被筛出的高影响样本是否真的塑造了目标机制。
值得一提的是,MDA 的计算开销随模型规模呈亚线性增长,作者还在 OLMo-2 1B / 7B 上做了定性验证,表明这套归因方法在更大模型上依然能稳定捕捉到一致的结构模式。
归纳头形成的关键数据:重复的结构,比语义更重要
在 Pythia 模型家族(14M–160M)上的系统分析,揭示了归纳头形成背后一系列令人意外、却又自洽的规律:
1.高影响力样本特征
对于归纳头的形成,在按影响力排序的训练数据中,排名前列的往往不是人类认为「高质量」的自然语言文本,而是充斥着重复结构的数据:
- XML/HTML 代码:充满重复的标签结构;
- LaTeX 源码:包含大量的符号和格式指令;
- UUID 与日志:看似无意义的字符串重复;
- Base64 编码:字符层面的密集重复。
表一:代表性高影响力样本示例
更关键的是,这些影响分数呈现出清晰的幂律分布 —— 约 10% 的样本,贡献了高达 50% 的累计影响力。也就是说,归纳头机制的形成确实被一小撮「高杠杆」信号显著驱动。
结论: 归纳头的形成并不依赖于高深的语义逻辑,而是被这些高频重复的结构模体(Structural Motifs) 所「催化」的。
这背后的解释相当自洽:归纳头的本职工作就是「识别并复制重复模式」,那么真正能高效「训练」它的习题,自然就是这些充满重复结构的数据。
2.因果验证:删除会抑制,增强会催化
从训练数据到内部机制的因果验证:
训练数据的影响分数只能代表「相关性」,因果验证才是 MDA 的核心。作者在 Pythia 全家族、两类注意力头(归纳头与前序词元头)上做了双向干预:
- 删除实验(必要性):剔除 MDA 识别出的高影响样本(≤10%),归纳头的形成被显著抑制或延后;而随机删除等量的其他样本,几乎没有影响;
- 增强实验(充分性):反之,仅重复这一小撮关键样本,就能让归纳头提前涌现;同样地,随机增强无此效果。
从内部机制到模型能力的因果验证:
另外,「归纳头是 ICL 的基础」是领域内长期的核心假设,但此前的证据主要是观测性的。借助 MDA 的精准干预,作者得以从训练动态的视角检验这一因果链:在完全相同的删除 / 增强设置下,归纳头强度与 ICL 得分呈现「同升同降」的紧密耦合。抑制归纳头形成会削弱 ICL,强化则会提升。
图二:因果验证实验(上)归纳头分数(下)ICL 能力分数。红线显示剔除 MDA 识别的数据后,归纳头形成被延后;绿线显示增强这些数据后,归纳头迅速涌现,而 ICL 能力与归纳头变化完全同步。
通过以上两部分的因果干预试验,MDA 打通了一条「训练数据 → 内部机制 → 模型行为」的完整因果链条。
从「事后解释」到「事前干预」:机理数据增强
如果我们已经知道了驱动某个机制形成的数据「配方」,能不能主动合成这类数据,去定向催化模型的特定能力?
论文顺势提出了一种机理数据增强框架(Mechanistic Data Augmentation):
- 小模型「探路」:利用较小的模型(如 Pythia-14M)运行 MDA,挖掘出高影响力样本;
- 大模型总结:让 DeepSeek-V3 等大模型分析这些样本,提取出样本中的共同结构特征;
- 批量合成数据:让大模型编写自动生成符合这些结构特征的合成数据的可执行代码。
图三:合成数据在不同规模模型上的效果。仅用 14M 模型挖掘出的模式生成的合成数据,就能在 160M 模型上显著加速归纳头的形成。
实验结果有两点令人振奋:
- 跨尺度一致提升:这种基于机理的数据增强具有一致的「跨尺度迁移性」。同一套合成数据,在 14M / 31M / 70M / 160M 上分别带来+12.3% / +10.8% / +15.8% / +9.8%的归纳头得分提升。更有意思的是,从 14M 小模型提炼出的模式,迁移到 160M 模型上的效果,甚至超过了直接从 160M 自身提炼的数据—— 说明催化归纳头的结构「配方」在很大程度上是尺度无关的,可以用小模型作为低成本代理来优化大模型训练。
- 不牺牲通用能力:在 Wikitext-103 语言建模与 PopQA 事实问答上,增强后的模型与基线曲线几乎重合,没有出现可统计区分的退化。这一对照排除了使用 MDA 会导致「为催化特定电路而损害整体能力」的担忧。
结语
MDA 的意义远不止「一个更精细的数据归因工具」。它标志着可解释性研究的一次角色转变 ——从只会「解释模型里有什么」,走向能够「回答它从哪来、并动手干预它如何形成」。
更进一步,它为一个更大的愿景提供了一块基石:让大模型的训练,从经验主导的「黑盒炼丹」,走向机理驱动的「白盒构建」。沿着「数据 → 机制 → 行为」这条被 MDA 打通的因果链,至少有三个方向可以被打开:
- 数据治理的新视角:传统「高质量数据清洗」可能会误删那些对底层机制至关重要的「重复性废话」。MDA 提醒我们,数据的价值需要从「对机制的因果贡献」重新评估。
- 更高效的预训练(潜在方向):通过定向合成承载特定机制的结构数据,有望降低能力形成所需的训练成本 —— 本文已给出小规模上的有力证据,更大规模的系统验证则是值得期待的下一步。
- 更本质的机理对齐:当我们能在数据层面精确地催化或抑制某个内部机制,「定向切除有害回路或偏见」这类更深层的对齐与遗忘(unlearning),就从理念变得有了可操作的抓手。
在大模型炼丹术日益精细的今天,MDA 带来的是一把能追溯到数据源头的显微镜 —— 它让我们第一次有机会认真追问:模型的每一项能力,到底是被哪些数据、以怎样的方式塑造出来的。未来,当这个问题能被系统地回答,大模型的「黑盒」,也许就不再那么黑了。
热门跟贴