大模型的能力从哪些训练数据来？北大&智源提出「机理数据归因」|世界模型|大模型|实验|机理数据|训练数据|邰智源

近年来，大语言模型展现出了越来越强的能力，从上下文学习（In-Context Learning, ICL）到复杂推理、代码生成，这些能力不断刷新人们对模型能力边界的认知。

然而，对于这些能力究竟从何而来、又是在训练过程中如何形成的，我们仍然知之甚少。

近年来兴起的机理可解释性（Mechanistic Interpretability）研究，开始尝试揭示模型内部的计算机制。例如，「归纳头」（Induction Heads）被广泛认为是大模型涌现上下文学习能力的关键神经机制。这类注意力头能够识别并复制先前出现的模式，从而实现类似「从示例中学习」的行为。相关研究不仅在多个模型中发现了归纳头的存在，也较为清晰地刻画了它们在推理阶段的工作方式。

然而，这类研究大多停留在事后分析（post hoc analysis）层面。我们能够揭示模型内部的计算机制，并把计算机制逆向拆解成可理解的「电路」。我们能描述一个电路在推理时「算什么」，却回答不了它「怎么来」—— 是哪一部分训练数据、以怎样的方式，在预训练过程中把它塑造了出来？例如，我们已经能够观察归纳头在训练完成后的功能，却仍不清楚它们究竟是如何在预训练过程中形成的。

更进一步地，究竟是哪一部分训练数据塑造了这种能力？是结构严谨的教科书文本，还是蕴含大量重复模式与逻辑结构的代码语料？这些问题至今仍缺乏明确答案。

来自北京大学计算机学院和北京智源人工智能研究院的研究者，正是从这个被长期忽视的「数据溯源」维度切入，提出了机理数据归因（Mechanistic Data Attribution, MDA）框架。它第一次把可解释性的提问，从「模型内部有什么机制」，推进到「这些内部机制是被哪些训练数据因果地塑造出来的」—— 并由此打通了一条「训练数据 → 内部机制 → 模型行为」的因果链条。

而沿着这条链条，他们得到了一个相当反直觉的答案：真正催化归纳头形成的，并不是人类眼中「高质量」的优美文本。那些看似杂乱无章、包含大量重复结构的「垃圾数据」（如 XML 标签、乱码般的 Base64 字符串、LaTeX 源代码），才是塑造归纳头的核心动力。

该工作已被机器学习顶级会议ICML 2026 接收为 Oral & Spotlight（168 / 23,918，录用比 Top 0.7%）。

论文标题：Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
论文链接：https://arxiv.org/pdf/2601.21996
代码链接：https://github.com/chenjianhuii/Mechanistic-Data-Attribution

MDA 框架：可解释单元级别的训练数据归因

要理解 MDA 的新意，先要看清它和传统方法的分界。

经典的训练数据归因（Training Data Attribution, TDA）关注的是「某条数据对模型整体 Loss 的影响」。这就像只用一个人的「整体健康状况」，去倒推他某天吃下的一粒维生素起了什么作用。这种方式粒度太粗、计算昂贵，也无法对应到任何一个具体的内部机制。

MDA 的核心转变在于：不再关注全局模型行为，而是通过影响函数（Influence Functions）精确追踪特定「可解释单元」（如归纳头）的形成源头。

图一：MDA 框架总览。从定位可解释单元，到计算数据影响力，再到因果验证与干预。

具体而言，MDA 是一个三阶段框架：

定位（Localizing）：首先定义可解释单元的监测指标（如针对归纳头的前缀匹配分数），定位那些具备可解释性的关键单元（例如神经元、注意力头等）及其参数子空间；
归因（Computing）：利用 EK-FAC（特征值校正的 Kronecker 因子近似曲率）技术，高效估算海量训练数据对特定参数子空间的影响分数。这使得在大规模预训练语料中进行归因成为可能；
干预（Intervening）：通过「数据删除」与「数据增强」实验，因果性地验证被筛出的高影响样本是否真的塑造了目标机制。

值得一提的是，MDA 的计算开销随模型规模呈亚线性增长，作者还在 OLMo-2 1B / 7B 上做了定性验证，表明这套归因方法在更大模型上依然能稳定捕捉到一致的结构模式。

归纳头形成的关键数据：重复的结构，比语义更重要

在 Pythia 模型家族（14M–160M）上的系统分析，揭示了归纳头形成背后一系列令人意外、却又自洽的规律：

1.高影响力样本特征

对于归纳头的形成，在按影响力排序的训练数据中，排名前列的往往不是人类认为「高质量」的自然语言文本，而是充斥着重复结构的数据：

XML/HTML 代码：充满重复的标签结构；
LaTeX 源码：包含大量的符号和格式指令；
UUID 与日志：看似无意义的字符串重复；
Base64 编码：字符层面的密集重复。

表一：代表性高影响力样本示例

更关键的是，这些影响分数呈现出清晰的幂律分布 —— 约 10% 的样本，贡献了高达 50% 的累计影响力。也就是说，归纳头机制的形成确实被一小撮「高杠杆」信号显著驱动。

结论：归纳头的形成并不依赖于高深的语义逻辑，而是被这些高频重复的结构模体（Structural Motifs）所「催化」的。

这背后的解释相当自洽：归纳头的本职工作就是「识别并复制重复模式」，那么真正能高效「训练」它的习题，自然就是这些充满重复结构的数据。

2.因果验证：删除会抑制，增强会催化

从训练数据到内部机制的因果验证：

训练数据的影响分数只能代表「相关性」，因果验证才是 MDA 的核心。作者在 Pythia 全家族、两类注意力头（归纳头与前序词元头）上做了双向干预：

删除实验（必要性）：剔除 MDA 识别出的高影响样本（≤10%），归纳头的形成被显著抑制或延后；而随机删除等量的其他样本，几乎没有影响；
增强实验（充分性）：反之，仅重复这一小撮关键样本，就能让归纳头提前涌现；同样地，随机增强无此效果。

从内部机制到模型能力的因果验证：

另外，「归纳头是 ICL 的基础」是领域内长期的核心假设，但此前的证据主要是观测性的。借助 MDA 的精准干预，作者得以从训练动态的视角检验这一因果链：在完全相同的删除 / 增强设置下，归纳头强度与 ICL 得分呈现「同升同降」的紧密耦合。抑制归纳头形成会削弱 ICL，强化则会提升。

图二：因果验证实验（上）归纳头分数（下）ICL 能力分数。红线显示剔除 MDA 识别的数据后，归纳头形成被延后；绿线显示增强这些数据后，归纳头迅速涌现，而 ICL 能力与归纳头变化完全同步。

通过以上两部分的因果干预试验，MDA 打通了一条「训练数据 → 内部机制 → 模型行为」的完整因果链条。

从「事后解释」到「事前干预」：机理数据增强

如果我们已经知道了驱动某个机制形成的数据「配方」，能不能主动合成这类数据，去定向催化模型的特定能力？

论文顺势提出了一种机理数据增强框架（Mechanistic Data Augmentation）：

小模型「探路」：利用较小的模型（如 Pythia-14M）运行 MDA，挖掘出高影响力样本；
大模型总结：让 DeepSeek-V3 等大模型分析这些样本，提取出样本中的共同结构特征；
批量合成数据：让大模型编写自动生成符合这些结构特征的合成数据的可执行代码。

图三：合成数据在不同规模模型上的效果。仅用 14M 模型挖掘出的模式生成的合成数据，就能在 160M 模型上显著加速归纳头的形成。

实验结果有两点令人振奋：

跨尺度一致提升：这种基于机理的数据增强具有一致的「跨尺度迁移性」。同一套合成数据，在 14M / 31M / 70M / 160M 上分别带来+12.3% / +10.8% / +15.8% / +9.8%的归纳头得分提升。更有意思的是，从 14M 小模型提炼出的模式，迁移到 160M 模型上的效果，甚至超过了直接从 160M 自身提炼的数据—— 说明催化归纳头的结构「配方」在很大程度上是尺度无关的，可以用小模型作为低成本代理来优化大模型训练。
不牺牲通用能力：在 Wikitext-103 语言建模与 PopQA 事实问答上，增强后的模型与基线曲线几乎重合，没有出现可统计区分的退化。这一对照排除了使用 MDA 会导致「为催化特定电路而损害整体能力」的担忧。

结语

MDA 的意义远不止「一个更精细的数据归因工具」。它标志着可解释性研究的一次角色转变 ——从只会「解释模型里有什么」，走向能够「回答它从哪来、并动手干预它如何形成」。

更进一步，它为一个更大的愿景提供了一块基石：让大模型的训练，从经验主导的「黑盒炼丹」，走向机理驱动的「白盒构建」。沿着「数据 → 机制 → 行为」这条被 MDA 打通的因果链，至少有三个方向可以被打开：

数据治理的新视角：传统「高质量数据清洗」可能会误删那些对底层机制至关重要的「重复性废话」。MDA 提醒我们，数据的价值需要从「对机制的因果贡献」重新评估。
更高效的预训练（潜在方向）：通过定向合成承载特定机制的结构数据，有望降低能力形成所需的训练成本 —— 本文已给出小规模上的有力证据，更大规模的系统验证则是值得期待的下一步。
更本质的机理对齐：当我们能在数据层面精确地催化或抑制某个内部机制，「定向切除有害回路或偏见」这类更深层的对齐与遗忘（unlearning），就从理念变得有了可操作的抓手。

在大模型炼丹术日益精细的今天，MDA 带来的是一把能追溯到数据源头的显微镜 —— 它让我们第一次有机会认真追问：模型的每一项能力，到底是被哪些数据、以怎样的方式塑造出来的。未来，当这个问题能被系统地回答，大模型的「黑盒」，也许就不再那么黑了。