对齐因果变量与神经表示|向量|因果|算法

Finding alignments between interpretable causal variables and distributed neural representations

寻找可解释的因果变量与分布式神经表示之间的对齐

https://arxiv.org/abs/2303.02536v4

摘要

因果抽象是一个有前景的理论框架，用于解释人工智能，它定义了何时一个可解释的高级因果模型是低级深度学习系统的忠实简化。然而，现有的因果抽象方法有两个主要限制：它们需要在高级模型和低级模型之间的对齐上进行蛮力搜索，并且它们假定高级模型中的变量将与低级模型中的不相交的神经元集合对齐。在本文中，我们提出了分布式对齐搜索（DAS），它克服了这些限制。在DAS中，我们使用梯度下降而不是进行蛮力搜索来找到高级和低级模型之间的对齐，我们通过分析非标准基——分布式表示中的表示，允许单个神经元扮演多个不同的角色。我们的实验表明，DAS能够发现先前方法错过的内部结构。总的来说，DAS消除了在训练过的神经网络中揭示概念结构的先前障碍。

1. 引言

是否可以使用可解释的符号算法忠实地解释复杂的神经网络模型？这是可解释性的一个关键问题；肯定的答案可以提供有关模型行为的保证，而否定的答案可能会导致对模型是否安全和可信的基本担忧。

因果抽象提供了一个数学框架，用于精确描述什么意味着任何复杂因果系统（例如，深度学习模型）实现一个更简单的因果系统（例如，符号算法）（Rubenstein等人，2017年；Beckers等人，2019年；Massidda等人，2023年）。对于现代AI模型，评估实践中是否成立这种关系的基石是交换干预（也称为激活修补），在这种干预中，神经网络被提供了一个“基础”输入，并且强制一组神经元采取如果处理不同的“源”输入将具有的值（Geiger等人，2020年；Vig等人，2020年；Finlayson等人，2021年；Meng等人，2022年）。这些干预产生的反事实是关于模型行为因果推断的基础。

Geiger等人（2021年）表明，当对齐的高级变量和低级变量的交换干预具有等效效果时，就获得了相关的因果抽象关系。这种理想关系在实践中很少获得，但是具有相同效果的交换干预的比例（交换干预准确性；IIA）提供了一个分级的概念，Geiger等人（2023年）在近似因果抽象理论中正式确立了这一度量。Geiger等人还使用因果抽象理论作为一个统一框架，用于广泛的基于干预的分析方法（Vig等人，2020年；Csordás等人，2021年；Feder等人，2021年；Ravfogel等人，2020年；Elazar等人，2020年；De Cao等人，2021年；Abraham等人，2022年；Olah等人，2020年；Olsson等人，2022年；Chan等人，2022年）。

因果抽象技术已应用于多种问题（Geiger等人，2019年，2020年；Li等人，2021年；Huang等人，2022年）。然而，以前的应用面临两个中心挑战。首先，因果抽象需要一个计算密集型的蛮力搜索过程，以找到高级模型变量和低级模型状态之间的最佳对齐。如果穷尽搜索是不可行的，我们可能完全错过了最佳对齐。其次，这些先前的方法是局部性的：它们人为地限制了可能对齐的空间，通过假定高级因果变量将与不相交的神经元组对齐。我们没有理由事先这样假设，实际上，最近在模型解释方面的许多工作（特别是Ravfogel等人，2020年，2022年；Elazar等人，2020年；Olah等人，2020年；Olsson等人，2022年）正在汇聚到Smolensky（1986年）、Rumelhart等人（1986年）和McClelland等人（1986年）的洞见上，即单个神经元可以扮演多个概念角色。Smolensky（1986年）将分布式神经表示识别为由单位向量的线性组合组成的“模式”。

在当前的论文中，我们提出了分布式对齐搜索（DAS），它克服了以前因果抽象工作的上述限制。在DAS中，我们通过梯度下降而不是进行蛮力搜索来找到最佳对齐。此外，我们使用分布式交换干预，这是一种“软”干预，其中一群神经元的因果机制被编辑，以便（1）它们的值通过变换矩阵旋转，（2）旋转后的神经表示的目标维度被固定为源输入创建的旋转神经表示中的相应值，（3）表示被旋转回标准神经元对齐的基。关键的洞见是，通过与单个神经元不对齐的替代基来查看神经表示可以揭示可解释的维度（Smolensky，1986年）。

在我们的实验中，我们通过两个具有明显可解释的高级算法解决方案和两个中间变量的任务来评估DAS提供忠实和可解释解释的能力。在这两个任务中，DAS学习到的分布式对齐与最近的局部对齐和蛮力搜索中的最佳局部对齐一样好或更好。

在第一组实验中，我们专注于一个在发展和认知心理学中广泛用作关系推理测试的分层等式任务（Premack，1983年；Thompson等人，1997年；Geiger等人，2022a）：输入是序列rw, x, y,zs，标签由pw “ xq “ py “ zq给出。我们在这项任务上训练了一个简单的前馈神经网络，并显示它完美地解决了这项任务。我们的关键问题：这个模型是否实现了一个程序，计算w “ x和y “ z作为中间值，正如我们可能假设人类所做的那样？使用DAS，我们发现了一个具有100% IIA的分布式对齐。换句话说，网络被高级模型完美抽象；学习到的神经模型和符号算法之间的区别是实现上的。

我们的第二项任务模拟了一个自然语言推理数据集（Geiger等人，2020年），其中输入是前提和假设句子pp,hq，它们除了单词wp和wh之外是相同的；标签是蕴含（p使h为真）或矛盾/中立（p使h为假）。我们微调了一个预训练的语言模型，以完美解决这项任务。使用DAS，我们发现了一个完美的对齐（100% IIA）到一个具有二元变量的因果模型，用于单词和之间的蕴含关系（例如，狗蕴含哺乳动物）。

在我们的两组实验中，DAS分析揭示了完美的抽象关系。然而，我们也发现了它们之间的一个重要区别。在NLI（自然语言推理）案例中，蕴含关系可以分解为wp和wh的表示。在这个案例中，看似是词汇蕴含的表示实际上是一个包含两个词身份表示的“数据结构”，而不是它们蕴含关系的编码。相比之下，分层等式模型学习的w “ x和y “ z的表示不能分解为w、x、y和z的表示。换句话说，这些关系完全从参与关系实体中抽象出来；DAS揭示了神经网络真正实现了一个符号化的、树状结构的算法。

2. 相关工作

因果抽象理论精确地指定了何时可以将“高级因果模型”视为“低级因果模型”的抽象描述（Iwasaki和Simon, 1994; Chalupka等人，2017; Rubenstein等人，2017; Beckers等人，2019）。基本思想是高级变量与低级变量的（可能重叠的）集合相关联，这些集合总结了它们对于一组硬性或软性干预的因果机制（Massidda等人，2023）。在实践中，近似因果抽象的分级概念通常更有用（Beckers等人，2019; Rischel和Weichwald, 2021; Geiger等人，2023）。

Geiger等人（2023）认为因果抽象是一个通用的理论框架，用于为AI模型提供忠实（Jacovi和Goldberg, 2020; Lyu等人，2022）和可解释（Lipton, 2018）的解释，并展示了LIME（Ribeiro等人，2016）、因果效应估计（Abraham等人，2022; Feder等人，2021）、因果中介分析（Vig等人，2020; Csordás等人，2021; De Cao等人，2021）、迭代零空间投影（Ravfogel等人，2020; Elazar等人，2020）和基于电路的解释（Olah等人，2020; Olsson等人，2022; Wang等人，2022; Chan等人，2022）都可以被理解为因果抽象分析。

当高级因果模型在给定对齐下是神经网络的抽象时，交换干预训练（IIT）目标被最小化（Geiger等人，2022b; Wu等人，2022; Huang等人，2022）。在本文中，我们使用IIT目标来学习高级因果模型和深度学习模型之间的对齐。

3. 方法

我们专注于无环因果模型（Pearl, 2001; Spirtes et al., 2000），并试图提供我们方法的直观概述。无环因果模型由输入、中间和输出变量组成，每个变量都有一个与之相关的值集合，以及一个基于其因果父值来确定变量值的因果机制。为了提供一个简单的运行示例，我们修改了Geiger等人（2022b）的布尔合取模型，以揭示DAS的关键属性。对于这个问题，可以定义一个因果模型B，其中输入和输出是布尔值T和F。与B一起，我们还定义了一个线性前馈神经网络的因果模型N，该网络解决了这个任务。这里我们展示了B、N以及N的参数：

模型N在O大于0时预测T，否则预测F。这个网络完美地解决了布尔合取问题，即所有输入布尔值对都映射到预期的输出。

模型M的一个输入x决定了模型中所有变量的唯一总设置Mpxq。输入被固定为x，模型的因果机制决定了其余变量的值。我们表示Mpxq分配给变量Z的值或值集合为GETVALUESZpMpxqq。例如，GETVALUESV3pBprT, Fsqq的值是F。

3.1 干预

干预是因果模型的基础构件，尤其是因果抽象分析的。一个干预I Ð i是对变量I的设置i。干预和模型M的一个输入设置x共同决定了我们表示为MIÐipxq的唯一总设置。输入被固定为x，模型的因果机制决定了未干预变量的值，而干预变量I被固定为i。

我们可以在因果模型B和神经模型N上定义干预。例如，BV1ÐTprF, Tsq是我们布尔模型在处理输入rF, Ts时，但将变量V1设置为T。这会将输出值改为T。类似地，N pr0,1sq导致中间值h1 = -0.34和h2 = 0.94，以及输出值-1.2。如果我们计算Nh1Ð1.34pr0,1sq，那么输出值变为0.48。因为0.48大于0，这将预测值改为T。

3.2 对齐

在因果抽象分析中，我们探讨一个特定的低层次模型，比如N，是否实现了一个高级算法，比如B。这总是相对于两个模型之间变量的特定对齐。一个对齐Π定义为“为每个高级变量X分配一组低级变量ΠX和一个函数τX，该函数将ΠX中的低级变量的值映射到对齐的高级变量X的值。在B和N之间的一种可能的对齐方式在上图中显示为：Π由连接B和N的虚线表示。

我们立即知道高级输入和输出变量的函数是什么。对于输入，T被编码为1，F被编码为0，这意味着τP(1) = τQ(1) = T，τP(0) = τQ(0) = F。

对于输出，网络仅在y大于0时预测T，这意味着τV3(x) = T如果x大于0，否则为F。这只是神经网络使用和训练方式的一个结果。高级中间变量τV1(x)和τV2(x)的函数必须通过实验来发现和验证。

3.3 建设性因果抽象

相对于这样的对齐，我们可以定义抽象性：（此处原文未提供完整段落，

可以将基础输入设置输入到生成的模型中，以计算反事实输出值。考虑以下交换干预：

我们处理一个基础输入和一个源输入，然后我们对目标变量进行干预，用处理源输入得到的值替换它。我们的因果模型是完全已知的，因此我们提前知道这种交换干预会产生结果 T。对于我们的神经网络，对应的行为是事先未知的。与上述对应的交换干预（根据我们正在探索的对齐方式）如下：

确实，模型的反事实行为和网络N的行为是不同的：

在给定的对齐方式下，低层和高层的交换干预产生了不同的效果。因此，我们有一个构造性抽象（如定义1所述）的反例。尽管N具有完美的行为准确性，但在我们通过干预创建的反事实下，其准确性并不完美，因此在这种对齐方式下，B不是N的构造性抽象。

3.4 分布式干预

上述结论是基于迄今为止文献中探索的局部因果抽象得出的。正如第1节所指出的，这一结论有两个风险：(1) 我们可能选择了次优的对齐方式，(2) 我们假设相关结构会被编码在我们一直隐含假设的标准基础中可能是错误的。

如果我们将表示rH1,H2s旋转-20°以获得一个新的表示rY1,Y2s，那么当我们将V1和V2与Y1和Y2对齐时，结果网络具有完美的行为和反事实准确性。这表明存在一个对齐方式，但不在我们选择的基础中。由于基础的选择是任意的，因此我们关于因果抽象关系的负面结论是站不住脚的。

这种旋转将关于第一个和第二个参数的信息本地化到单独的维度中。要理解这一点，可以观察到线性网络的权重矩阵将二维向量旋转20°，而旋转矩阵将表示旋转340°。这两个矩阵是逆矩阵。由于这个网络是线性的，没有激活函数，所以旋转隐藏表示“撤销”了权重矩阵对输入的转换。在这个非标准基础下，第一个隐藏维度等于第一个输入参数，第二个隐藏维度等于第二个输入参数。

这揭示了分布式神经表示的一个本质方面：神经元和概念之间存在多对多的映射，因此多个高层因果变量可能编码在来自重叠神经元组的结构中（参见Rumelhart等，1986年；McClelland等，1986年）。特别是，Smolensky（1986年）提出，在与个别神经元未对齐的基础下查看神经表示可以揭示神经表示的可解释的分布式结构。

为了实现这一直观理解，我们定义了一个分布式干预，首先将一组变量转换为向量空间，然后在正交子空间上进行交换，最后再转换回原始表示空间。

3.5 分布式对齐搜索
接下来问题是如何找到好的旋转。正如我们上面讨论的，之前对神经网络的因果抽象分析已经通过离散空间的手工挑选对齐进行暴力搜索。在分布式对齐搜索（DAS）中，我们在大型神经表示的一个或多个高层变量和不重叠的子空间（但不一定是子集）之间找到对齐。我们定义了一个分布式交换干预训练目标，使用正交矩阵空间的可微分参数化（如 PyTorch 提供的），然后使用随机梯度下降优化目标。关键是，在学习过程中低层和高层模型被冻结，因此我们仅改变对齐方式。

在以下定义中，我们假设一个神经网络为给定输入指定一个输出分布，然后可以通过对齐函数 τ τ 将其推向高层模型的输出值分布。我们可以类似地将即使是确定性的高层模型也解释为在输出值上定义一个（例如，delta）分布。我们利用这些分布，在交换干预之后，定义一个对齐中间变量的旋转矩阵的可微分损失函数。

3.6 近似因果抽象

完美的因果抽象关系在训练用于解决复杂实际任务的神经网络时不太可能出现。我们使用一种分级的准确性概念：

3.7 实验设置概述

我们通过分析训练有素的前馈网络（用于层次性等式任务）和在自然语言推理任务上微调的预训练 Transformer 基础语言模型（Vaswani 等人，2017）来展示 DAS 的价值。我们的评估范式如下：

1. **训练神经网络 N 以解决任务。** 在所有实验中，神经模型在训练和测试数据上都实现了完美的准确性。

2. **使用高层因果模型创建交替干预训练数据集。** 每个示例包含一个基础输入、一个或多个源输入、目标干预的高层因果变量，以及一个反事实的金标准标签，该标签将由网络输出，如果交替干预对模型行为有假设效果的话。这个金标准标签是我们将与网络对齐的高层模型的反事实输出。（详细信息见附录 A.1）

3. **优化正交矩阵以学习每个高层模型的分布式对齐。** 使用定义 4 中的训练目标最大化 IIA。我们实验不同的低层模型的隐藏维度大小和不同的干预位置（低层子空间的维度）和位置（干预发生的层）。（详细信息见附录 A.2）

4. **评估一个基准，该基准通过离散对齐空间的穷举搜索选择具有最高 IIA 的对齐。** 我们通过将每个高层变量与滑动窗口中的神经元组对齐来搜索对齐空间。（详细信息见附录 A.3）

5. **评估与学习的分布式对齐“最接近”的局部对齐。** 局部对齐的旋转矩阵将与标准基准轴对齐，可能会对单位轴进行置换和反射。（详细信息见附录 A.4）

6. **确定每个与高层变量对齐的分布式表示是否可以分解为多个表示。** 这些表示编码变量因果机制的输入值的身份。我们通过学习第二个旋转矩阵来分解学习到的分布式表示，同时固定第一个旋转矩阵。（详细信息见附录 A.5）

用于运行这些实验的代码库可以在找到。我们使用 Pyvene 库复制了层次性等式实验，可以在找到。

4.等级平等实验

我们现在展示 DAS 在分析设计用于解决层次相等任务的网络中的作用。我们重点分析一个经过训练的前馈神经网络。

4.1. 低层神经网络模型

我们训练了一个三层的前馈网络，使用 ReLU 激活函数来执行层次相等任务。每个输入对象由一个随机初始化的向量表示。具体而言，我们的模型具有以下架构，其中 k 是层数。

4.2 高级模型

我们使用DAS来评估训练有素的神经网络是否实现了分层等式任务的自然解决方案，其中左右等式关系被计算并随后用于预测最终标签（见图2）。

然而，仅评估这个高级模型是不足够的，因为显然还有许多其他这个任务的高级模型。为了进一步使我们的结果更有背景意义，我们还考虑了两个替代方案：一个只表示第一对等式关系的高级模型，以及一个高级模型，其中单一的中间变量编码第一个输入对象的身份（将所有计算留给最后一步）。这些替代的高级模型也完美地解决了任务。

4.3.讨论

在表1中可以看到，每个高层模型的最佳对齐的IIA结果。找到的最佳对齐是与认知科学文献中广泛假设的“两个平等关系”模型一致。对于所有因果模型，DAS学到的对齐（IIA较高）比通过局部对齐的暴力搜索更忠实。这个结果在“两个平等关系”模型中最为明显，其中DAS在多个设置下学到了完美或接近完美的对齐，而最佳暴力搜索对齐仅达到0.60，最佳局部对齐仅达到0.73。最后，左平等的分布式表示不能被分解成第一参数身份的表示。我们在“左平等的身份子空间”结果中看到这一点的非常低的表现。这表明模型确实在学习编码抽象的平等关系，而不仅仅是存储输入的身份。

4.4.分析随机初始化的网络

为了校准对我们方法的直觉，我们评估了DAS在冻结的随机初始化网络上的优化能力，这些网络在层级平等任务上达到的准确率是偶然准确率（50%）。这项研究探讨了随机因果结构在多大程度上可以系统地操控网络的反事实行为。我们评估了不同隐藏表示大小的网络，同时将四个输入向量固定在4维，假设更多的隐藏神经元产生更多的随机结构，使DAS能够进行搜索。这些结果总结在表4.4中。观察到，在小型网络中，无法提高干预准确性。然而，当我们将隐藏表示的大小增加到比输入维度16高几个数量级时，干预准确性增加。这证实了我们的假设，并作为一个检查，表明DAS不能从随机结构中构建全新的行为。

5. 单调性自然语言推理实验

在我们的第二个实验中，我们分析了一个在单调性自然语言推理（MoNLI）基准上微调的BERT模型（Geiger et al., 2020）。一个MoNLI示例包括一个前提句子和一个假设句子，输出标签为“entails”（包含在内），当且仅当前提使假设为真，否则为“neutral”（中立）。图4(a)中的两个示例说明了这一点。每个示例中，前提句中的单词wp被替换为一个超词（更一般的术语）或下位词（更具体的术语）wh，以创建假设。当没有否定词时，前提–假设对的标签是词汇关系。当存在否定词时，前提–假设对的标签是词汇关系的反转。

5.1. 低级神经模型

我们对一个未区分大小写的BERT-base模型进行了微调（Devlin et al., 2019），该模型在MultiNLI数据集上进行了训练（Williams et al., 2018）。我们的BERT模型有12层和12个注意力头，隐藏维度为768。我们将前提句子和假设句子的标记序列与一个rSEPs标记连接在一起。由于旋转矩阵的大小，我们不能在所有标记上查找分布式表示；我们仅查看rCLSs标记的表示，因为最终的分类是基于该标记在最后一层中的表示进行的。

5.2. 高级模型

我们使用DAS评估BERT在MoNLI上微调后是否会表示两个布尔中间变量。第一个是一个指示变量，用于表示否定词，该变量仅当前提和假设中存在否定词时才为真。第二个是一个变量，仅当wp蕴含wh时为真。这个模型可能最好表示为一个简单的程序（图4(b)）。此外，我们还考虑了两个替代的高级模型来为我们的结果提供背景。一个模型仅表示词汇蕴含，而不考虑否定。另一个模型表示前提词wp的身份。

5.3. 结果

表2中显示了每个高级模型的最佳对齐所达到的IIA结果。微调后的BERT与一个符号算法之间存在完美对齐，该算法使用变量表示否定的存在以及wp和wh之间的词汇蕴含关系。在表2中，这体现在第9层和干预大小256的完美IIA上，这意味着BERT第9层rCLSs标记表示的256个非标准基维度编码了wp和wh之间的关系，另外256个非标准基维度编码了否定。在所有对齐和干预类型中，DAS学习的对齐比通过对齐进行的穷举搜索更为准确（IIA更高），且没有任何局部对齐在IIA方面接近学习到的分布式对齐。

然而，词汇蕴含关系的分布式表示几乎可以完美地分解为两个表示，分别编码词wp和wh的身份。这个结果在表2的最后一列中显示了接近完美的IIA。这告诉我们，最初看似表示词汇蕴含的表示，实际上是两个词身份表示的“数据结构”。

6. 结论

我们引入了分布式对齐搜索（DAS），一种将可解释的因果变量与分布式神经表示对齐的方法。我们通过基于梯度下降的搜索方法，学习了比局部对齐更具可解释性的分布式对齐，并在此过程中超越了最先进的穷举搜索方法。在我们的两个实验中，我们发现了分布式神经表示与编码简单的平等关系和词汇蕴含关系的二元高级变量之间的完美对齐。然而，当我们调查这些表示的子结构时，我们发现词汇蕴含表示可以分解为词身份的子表示。这突显了调查神经表示的因果子结构的必要性。另一方面，发现无法分解为关系中实体的表示的简单平等关系的完美表示，是一个基础性的结果，应该帮助我们理解符号和连接主义架构如何以及何时共存。