神经概率电路：通过逻辑推理实现组合式与可解释的反事实预测|深度思考模型|神经概率电路|神经网络|算法|逻辑推理|高维

Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning

神经概率电路：通过逻辑推理实现组合式与可解释的预测

https://arxiv.org/html/2501.07021v1

摘要

端到端深度神经网络在多个领域取得了显著成功，但常常因其缺乏可解释性而受到批评。尽管后验解释方法试图解决这一问题，它们往往无法准确表示这些黑盒模型，导致解释误导或不完整。为克服这些挑战，我们提出了一种本质上透明的模型架构，称为“神经概率电路”（Neural Probabilistic Circuits, NPCs），它通过逻辑推理实现组合性和可解释性的预测。具体来说，NPC 由两个模块组成：一个属性识别模型，用于预测各种属性的概率；以及一个建立在概率电路之上的任务预测器，该预测器通过对已识别属性进行逻辑推理来做出类别预测。为了训练 NPCs，我们引入了一个三阶段训练算法，包括属性识别、电路构建和联合优化。此外，我们在理论上证明了 NPC 的误差可以被其各模块误差的线性组合所上界限制。为进一步展示 NPC 的可解释性，我们提供了最可能解释（Most Probable Explanations）和反事实解释（Counterfactual Explanations）。在四个基准数据集上的实证结果表明，NPC 在可解释性与性能之间取得了良好的平衡，其表现甚至可以与端到端黑盒模型相媲美，同时具备更强的可解释性。

1 引言

端到端深度神经网络（DNNs）[Krizhevsky 等人，2012；He 等人，2016；Vaswani 等人，2017；Devlin 等人，2019] 在多个领域中展现出卓越的表现 [Hinton 等人，2012；Sutskever 等人，2014；Long 等人，2015]。然而，许多模型是包含复杂运算符的黑盒模型，难以解释和理解其决策过程。尽管已有大量工作 [Ribeiro 等人，2016；Lundberg 和 Lee，2017；Selvaraju 等人，2017] 尝试以事后方式解释模型的决策，Alvarez-Melis 和 Jaakkola [2018]、Laugel 等人 [2019]、Slack 等人 [2020]、Rudin [2019] 指出，这些解释往往不可靠，因为解释模型可能只是粗略地逼近原始模型。例如，解释模型可能表现出与黑盒模型相似的性能，但却依赖完全不同的特征。这种解释模型与黑盒模型之间的差异可能导致误导性解释，例如将决策归因于无关特征，或遗漏重要特征。在医疗分析 [Hou 等人，2024；Liu 等人，2023] 和法律司法 [Richmond 等人，2024；Deeks，2019] 等高风险应用中，这种误导性解释尤其令人担忧。Rudin [2019] 认为，与其使用事后解释去解释黑盒模型，不如一开始就构建一个可解释的模型，其中每个组件都具有明确的设计目的，从而便于对预测过程的理解。

概念瓶颈模型（Concept Bottleneck Models, CBMs）[Koh 等人，2020] 旨在通过引入高层、人类可理解的概念（如“红色”、“圆形”）作为中间瓶颈来增强模型的可解释性，将模型分解为两个模块：概念识别模型和任务预测器。基于神经网络的概念识别模型将输入图像映射到与各种概念相关的概率。利用这些概率，任务预测器（通常是线性模型）生成各类别的概率。由于最终预测（即概率最高的类别）可以通过这些概念进行解释，因此模型的决策过程更容易被人理解。为了提升下游任务的性能，CEM [Zarlenga 等人，2022]、ProbCBM [Kim 等人，2023] 及其他方法 [Yeh 等人，2020；Kazhdan 等人，2020] 将概念识别模型的输出从概念概率改为概念嵌入。虽然这种方法提升了任务性能，但显著降低了可解释性，因为概念嵌入中的维度缺乏语义含义。另一方面，为了进一步提高可解释性，一些方法 [Barbiero 等人，2023；Rodríguez 等人，2024；Ciravegna 等人，2023] 提出了结合逻辑规则的任务预测器结构，使得任务预测能够通过这些规则显式解释。然而，这些逻辑规则通常是从数据中学习得到的，而非由人类预定义，这限制了我们将先验领域知识融入模型的能力。此外，目前尚无关于整体模型性能的理论保证，使得整体性能与概念识别模型或任务预测器之间的关系模糊不清。

为了解决这些问题，我们提出了一种新颖的模型架构——神经概率电路（Neural Probabilistic Circuits, NPCs），它通过逻辑推理实现组合性和可解释性的预测。NPC 包括两个模块：属性识别模型和任务预测器。不同于现有方法主要关注大量二元概念（如“红色”、“黄色”），我们引入了一种更高层次的类别特征——属性，用于描述概念的类型（如“颜色”）。这种方法减少了额外概念选择或剪枝的需求，提高了模型效率 [Ciravegna 等人，2023；Barbiero 等人，2022；Zarlenga 等人，2023]，同时也实现了更好的概念识别性能。对于给定的输入图像，基于神经网络的属性识别模型会为各个属性生成概率向量，每个向量表示相应属性各取值的可能性。这些概率向量作为输入提供给任务预测器，后者通过概率电路实现。概率电路[Poon 和 Domingos，2011；Zhao 等人，2016b，2015b；Choi 等人，2020] 是一种概率图模型 [Koller 和 Friedman，2009]，旨在学习输入变量（在我们的案例中为属性变量和类别变量）的联合分布。在学习过程中，概率电路在其结构和参数中嵌入了隐式的从数据中学得的逻辑规则或显式的由人类预定义的逻辑规则。这些电路支持可追踪的概率推理任务，如联合推理、边际推理和条件推理，从而揭示属性与类别之间的关系。借助这些关系，NPC 能够对属性识别模型的输出进行推理，推断出最可能的类别。具体而言，某一类别的预测得分是每组属性值的似然加权求和，权重为其对该类的相关性。通常情况下，最终预测对应得分最高的类别。

鉴于NPCs的组合性质，我们提出了一种三阶段训练算法。具体来说，整个训练过程包括以下三个阶段：
1）属性识别：我们首先在多任务学习框架 [Caruana, 1997; Ruder, 2017] 中训练属性识别模型。
2）电路构建：接下来，我们采用两种不同的方法来构建概率电路：
i）数据驱动方法：基于数据学习电路的结构并优化其参数，使得潜在的逻辑规则能够嵌入到电路中。
ii）知识注入方法：通过人工设计电路的结构，并设定其参数，以确保由人类预定义的逻辑规则被显式编码进电路中。
3）联合优化：最后，对两个模块进行端到端的联合优化，以进一步提升整体模型在下游任务上的性能。

为了对整体模型的性能提供理论保障，我们展示了由于NPCs具有组合性以及使用了概率电路，因此它具备一种组合误差界（compositional error bound）——即整体模型的误差可以被其各个模块误差的线性组合所上界限制。

此外，我们还提供了多种类型的解释，以帮助人类更容易理解NPC的预测结果：
1）最可能解释（Most Probable Explanation, MPE）：找出对预测类别贡献最大的那一组属性值组合。
2）反事实解释（Counterfactual Explanation, CE）：回答这样一个问题：“如果某些属性值的可能性被调整后，模型是否会做出正确的预测？”

在四个图像分类数据集上的实证结果表明，NPC在下游任务的可解释性与性能之间实现了令人印象深刻的平衡。特别是，NPC优于三种代表性基于概念的模型，并且其表现甚至可以与端到端深度神经网络相媲美。此外，我们进行了广泛的消融实验，研究了使用属性而非概念的优势，以及属性选择、预测器设计方式和联合优化对模型性能的影响。

我们的主要贡献如下：

我们提出了神经概率电路（Neural Probabilistic Circuits, NPCs），这是一种新颖的模型架构，结合了基于神经网络的属性识别模型和基于概率电路的任务预测器，能够通过逻辑推理实现组合性和可解释性的预测。
我们开发了一个用于NPCs的三阶段训练算法，包括：
1）通过多任务学习进行属性识别；
2）通过数据驱动和知识注入两种方式构建电路；
3）端到端的联合优化。
据我们所知，我们是首次为组合型瓶颈模型的性能提供理论保证的研究，证明了NPC的误差可以被其各模块误差的线性组合所上界限制。
我们提供了多种类型的解释，以促进人类对NPC预测结果的理解，包括最可能解释和反事实解释。
我们通过实验验证了NPC在图像分类任务中表现出具有竞争力的性能，同时具备更强的可解释性。

2 预备知识

3 神经概率电路（Neural Probabilistic Circuits）

在本节中，我们介绍神经概率电路（Neural Probabilistic Circuits, NPCs）。我们首先描述模型架构和推理过程，说明NPC如何通过逻辑推理实现组合性与可解释性的预测（第3.1节）。接着，我们详细阐述用于训练NPC的三阶段训练算法。特别是，我们提出了两种不同的构建概率电路的方法：一种是数据驱动方法，另一种是知识注入方法（第3.2节）。最后，我们进行了理论分析，建立了整体模型误差与其各个模块误差之间的关系（第3.3节）。

3.1 模型架构与推理

图1展示了NPC的整体结构，它由两个模块组成：属性识别模型（attribute recognition model）和任务预测器（task predictor）。

属性识别模型
是一个神经网络，用于处理输入图像，识别其高层视觉属性（如颜色、形状等）。
任务预测器
是一个（归一化的）概率电路，建模属性与类别之间的联合分布，并在其结构和参数中嵌入隐式的或显式的逻辑规则。该电路支持高效的概率推理，包括联合推理、边缘推理和条件推理。

具体来说，给定一组特定的属性赋值，电路可以推断出某一类别的概率。通过结合这些条件依赖关系以及各种属性的概率分布（即属性识别模型的输出），NPC能够计算图像属于各个类别的概率。其中概率最高的类别被认定为最终预测类别。

备注。第一个假设本质上是假设这些属性足以推断出我们感兴趣的类别标签。第二个假设则认为输入中包含了关于这些属性的完整信息，使得它们在给定输入下是条件独立的。这些假设是温和的，并且在实际中常常成立。

例如，在交通标志识别的背景下，如果所选属性包括标志的形状（如圆形）、颜色（如红色）和符号（如斜杠），那么这些属性共同提供了足够的信息来推断出类别标签（如“禁止进入”），而无需依赖原始图像中的其他细节。另一方面，原始图像也完整地编码了这些属性（如形状、颜色和符号）。一旦观察到输入图像，这些属性就可以被独立地确定。

在假设1和假设2下，NPC输出输入 x 属于类别 y 的概率如下：

公式（1）是在上述假设下推导得出的，其中两个内部项分别由基于电路的任务预测器和属性识别模型给出。随后，预测的类别即为概率最大的类别，即：

总之，我们提出了一种用于图像识别任务的新型模型架构。该架构在设计上具有可解释性，这得益于属性瓶颈（attribute bottleneck）的引入以及概率电路所具有的概率语义。这两个模块共同使得模型的预测可以通过不同属性的可能性以及属性与类别之间的条件依赖关系来进行解释。

3.2 三阶段训练算法

在本节中，我们将提出一个用于神经概率电路（NPCs）的三阶段训练算法，具体包括以下三个阶段：
1）通过多任务学习进行属性识别（第3.2.1节），
2）通过数据驱动方法和知识注入方法构建概率电路（第3.2.2节），
3）进行联合优化（第3.2.3节）。

3.2.1 属性识别

我们的目标是训练属性识别模型 f(X;θ)，使得每个属性都能被准确识别。为此，我们采用了一个多任务学习框架[Zhang 和 Yang, 2021]，其中每个任务对应于识别一个特定的属性。

具体来说，我们为每个任务使用交叉熵损失函数，并根据相应属性空间的大小为各个任务的损失分配权重。这些权重对任务损失进行了归一化处理，防止某些任务在训练过程中占据主导地位 [Kendall 等人, 2018；Grégoire 等人, 2024；Wang 和 Chen, 2020]。

属性识别阶段的整体训练损失定义如下：

1）结构学习：
LearnSPN（Gens 和 Domingos, 2013）是一种从数据中学习概率电路结构的主流算法。该算法递归地识别独立的变量组以创建积节点（product nodes），对数据进行聚类以生成和节点（sum nodes），并将单个变量作为叶节点。在我们的方法中，我们在数据集 Dˉ 上应用 LearnSPN 算法，从而获得一个针对观测数据定制的电路结构。

2）参数学习：
在结构已知的前提下，优化电路的权重（即从和节点出发的边的权重）被形式化为一个最大似然估计（MLE）问题，对应的损失函数如下：

我们采用了广泛使用的CCCP 算法（Zhao 等人，2016b），该算法通过迭代对参数 w 进行乘法权重更新来最小化损失函数 LMLE(w;Dˉ)。CCCP 算法能够保证单调收敛。总体而言，在学习得到的结构和优化后的参数基础上，该电路能够捕捉观测数据中潜藏的逻辑规则，从而有效地建模属性与类别之间的联合分布。

知识注入方法

将领域知识融入模型有助于确保其行为符合人类对相关领域的理解。在实践中，领域知识可以表示为一组带权重的逻辑规则。这些规则通常通过对已有样本中的模式进行观察得出，每条规则的权重反映了该规则在观测数据中成立的频率。

例如，在交通标志识别任务中，可能存在如下规则：

2）参数设定：
电路中的参数指的是连接积节点与和节点的边的权重。第 l 条边的权重被设为规则出现的频率。

图2展示了使用此方法构建的一个电路示例。通过这两个步骤，人类预定义的逻辑规则被手动编码进电路的结构和参数中。

命题1（Proposition 1）保证了电路根节点的输出表示了属性与类别上的经验联合概率。

3.2.3 联合优化

得益于概率电路的可微性，NPCs 可以通过端到端的方式进行微调，从而进一步提升整体模型在下游任务上的性能。具体来说，损失函数定义如下：

为了优化该损失函数，我们简单地采用随机梯度下降算法（SGD）来更新参数 θ，而使用投影梯度下降算法（projected gradient descent）来更新参数 w，以确保电路权重的非负性。详细的优化过程见附录 A。

3.3 理论分析

在本节中，我们对神经概率电路（NPCs）进行误差分析，以理解各个模块的性能如何影响整体模型的表现。由于整体模型和属性识别模型是判别模型，而概率电路是一个生成模型，我们定义如下的误差：

定理2（组合误差界）

在假设1和假设2成立的前提下，NPC的整体误差被属性识别模型误差和基于电路的任务预测器误差的线性组合所上界限制。特别地，所有属性上的属性识别模型误差被各个属性误差之和所上界限制，即：

完整证明见附录 B。

定理2 表明，降低任意单个属性的误差有助于减少属性识别模型的整体误差。更重要的是，NPC 的误差界可以分解为各个模块误差的贡献，这归功于 NPC 的组合性以及概率电路的引入。因此，降低任何一个模块的误差都有助于提升 NPC 的整体性能。

4 模型解释

如第3.1节所述，模型的预测可以通过属性识别结果以及类别与属性之间的条件依赖关系来进行解释。为了进一步增强人类对模型预测的理解，我们提供了多种类型的解释，用于回答以下问题：

1）哪一组属性赋值对模型的预测贡献最大？
2）在模型预测错误的情况下，调整属性识别的结果是否可能导致正确的预测？

在不引起混淆的前提下，我们稍作符号上的简化：用 θ 表示训练好的属性识别模型的参数，用 S,w 分别表示构建好的概率电路的结构和参数。

4.1 最可能解释（Most Probable Explanations）

为了解答第一个问题，我们为NPCs定义了最可能解释（Most Probable Explanations, MPEs），用于识别对预测结果贡献最高的属性赋值组合。

MPE（最可能解释）推理对于概率电路来说通常具有挑战性。虽然选择性电路（selective circuits）可以有效地进行MPE推理 [Sánchez-Cauce 等人, 2021]，但这类电路在表达能力上相对受限。由于在我们的实验设置中属性数量较少，我们直接采用穷举法（brute-force algorithm）来推断MPE。开发更高效的MPE推理启发式方法仍然是一个开放性问题，并非本文的重点，因此我们将其留作未来工作。

MPE为模型如何得出某一具体类别预测提供了具体的解释。具体而言，模型之所以预测某一类别，主要是因为输入图像的属性被识别为。这些解释从属性层面揭示了模型的预测逻辑，从而增强了模型的可解释性以及人类对其预测的理解。

为了更深入地了解这些解释如何反映模型的行为，我们定义了一个MPE的性质，称为对齐性（alignment），并引入相应的度量标准来刻画模型的行为表现。

较高的对齐率反映了模型具有较强的可靠性，因为这表明在预测过程中，真实属性的赋值对预测结果贡献最大。换句话说，模型在进行预测时，与人类的理解高度一致。

4.2 反事实解释（Counterfactual Explanations）

为了解答第二个问题，我们为NPCs定义了反事实解释（Counterfactual Explanations, CEs）[Wachter 等人，2017]，用于探索在属性识别结果中哪些可接受的修改可以纠正任何预测错误的类别。

我们采用投影梯度上升算法（projected gradient ascent）来生成反事实解释（CEs），具体过程详见算法1。

反事实解释（CEs）通过识别为纠正错误预测所需的属性识别结果的修改，揭示了模型的内部运作机制。与最可能解释（MPEs）类似，这些解释从属性层面提供了对模型决策过程的深入理解，从而提升了模型的可解释性。

接下来，我们引入一个指标来评估反事实解释在纠正模型预测方面的有效性。

定义4（修正率）：修正率定义为在所有最初预测错误的样本中，被反事实解释成功纠正的比例。

较高的修正率表明生成的反事实解释能够通过调整属性识别结果，有效地纠正模型的预测错误。

5 实验 5.1 实验设置

数据集
我们在多个基准数据集上评估模型的性能：

1）MNIST-Addition：我们通过按照 [Manhaeve 等人, 2018] 中详述的通用预处理步骤和流程，从原始 MNIST 数据集 [LeCun 等人, 1998] 衍生出该数据集。每个 MNIST-Addition 样本由两个从原始 MNIST 中随机选取的图像组成。图像中的数字范围为 0 到 9，代表两个属性，它们的和作为类别标签。总共生成了 35,000 个 MNIST-Addition 样本。

2）GTSRB：GTSRB 数据集 [Stallkamp 等人, 2012] 包含 39,209 张德国交通标志图像，类别标签表示标志类型。此外，我们为每个样本标注了四个属性：“颜色”（color）、“形状”（shape）、“符号”（symbol）和“文字”（text）。这些属性的具体取值见附录 D。

3）CelebA：CelebA 数据集 [Liu 等人, 2015] 包含 202,599 张名人面部图像，并用 40 个二元概念进行标注。我们从中选择 8 个最平衡的二元概念，并将它们分组为 5 个属性：“嘴巴”（mouth）、“脸部”（face）、“化妆品”（cosmetic）、“头发”（hair）和“外貌”（appearance）。参考 Zarlenga 等人 [2022] 的方法，我们将每种概念组合视为一个组。为了平衡数据集并增加其复杂性，我们根据每组所含图像数量进行排序并战略性地配对：最多的一组与最少的一组合并，第二多的与第二少的合并，依此类推。最终得到 127 个类别。

4）AwA2：AwA2 数据集 [Xian 等人, 2018] 包含 37,322 张 50 种动物的图像，每张图像标注有 85 个二元概念。我们排除了一些描述非视觉属性（如“快速”、“家养”）或不显著特征（如“咬牙”），以及表示背景信息（如“沙漠”、“森林”）的概念。最终保留 29 个概念，并将其归类为 4 个属性：“颜色”（color）、“表面”（surface）、“身体”（body）和“四肢”（limb）。这些属性的具体取值见附录 D。

对于所有数据集，我们将样本按 8:1:1 的比例划分为训练集、验证集和测试集。

基线模型
我们选择 CBM [Koh 等人, 2020] 及其若干代表性变体作为基线模型。具体包括：

CEM
[Zarlenga 等人, 2022]：该方法使用高维概念嵌入向量作为瓶颈层，而非概念概率。
DCR
[Barbiero 等人, 2023]：该方法使用深度概念推理器作为任务预测器，而非简单的线性层。
端到端 DNN
[He 等人, 2016]：作为一个额外的基线模型。

需要注意的是，CEM 和端到端 DNN 并不可解释，因为它们的组件无法被人类直观理解，尽管它们在下游任务中可能具有竞争力的表现。模型属性比较总结于表1中。模型架构和训练细节的详细描述见附录 C。

评估指标

考虑到 NPCs 的组合性质，我们为各个模块及整体模型引入了不同的评估指标：

1）属性识别模型：
我们采用两个指标来评估属性识别模型：

第一个是输出概率向量与真实概率向量之间的平均总变差距离（mean total variation distance），定义如下：

5.2 NPCs 与基线模型的对比

我们在四个基准数据集上将 NPCs 与基线模型进行了比较，结果总结在表2中。具体来说：

我们将使用数据驱动方法构建电路的 NPC 称为 “NPC(Data)”；
将使用知识注入方法构建电路的 NPC 称为 “NPC(Knowledge)”。

表2中的结果显示，NPCs 在所有基于概念的基线模型中表现最优。

NPC(Knowledge)
在 MNIST-Addition 和 GTSRB 数据集上表现最佳；
NPC(Data)
在 CelebA 和 AwA2 数据集上领先。

值得注意的是，即使与依赖高维概念嵌入、不可解释的 CEM 模型相比，NPCs 也展现出更优性能，这突显了 NPCs 在利用可解释的概念概率进行下游分类任务时的有效性。

更令人印象深刻的是，NPCs 的表现甚至优于端到端 DNN，在 MNIST-Addition 和 GTSRB 数据集上的分类准确率超过了后者。尽管在 CelebA 和 AwA2 等更复杂的任务上，与端到端 DNN 之间仍存在小幅差距，但上述发现表明：虽然相比黑盒模型仍有提升空间，但 NPCs 成功在可解释性与任务性能之间取得了令人信服的平衡。

总体而言，实验结果强调了可解释模型的巨大潜力，证明它们在下游任务中的表现可以与基线模型乃至端到端黑盒 DNN 相媲美。

5.3 消融实验

在本节中，我们将从更多角度深入分析 NPCs 的特性。具体包括：

1）属性（attributes）与概念（concepts）的整合优势；
2）属性选择的影响；
3）不同任务预测器构建方式的效果；
4）联合优化对整体性能的影响。

5.3.1 属性 vs. 概念

不同于现有基于概念的模型通常使用单个二元概念（如“红色”、“黄色”），NPCs 使用的是概念组，即属性（如“颜色”）。在此，我们旨在探讨使用属性相较于单个概念的优势。

为此，我们将 CBM [Koh et al., 2020] 中的概念识别模型替换为属性识别模型，从而得到一个新模型，称为属性瓶颈模型（Attribute Bottleneck Model, ABM）。ABM 包括一个属性识别模型和一个作为任务预测器的线性层。

我们采用 CBM 的训练损失函数，并将其中的概念损失替换为式 (2) 中定义的属性损失。CBM 与 ABM 的性能对比见表3。

表3的结果显示：

在平均总变差距离（mean TV distance）方面，ABM 在 MNIST-Addition 和 GTSRB 数据集上优于 CBM；
在 CelebA 和 AwA2 上表现略有下降；
在平均概念准确率（mean concept accuracy）方面，ABM 在所有数据集上均一致优于 CBM。

这些结果强调了属性识别模型的有效性，说明属性能够捕捉到更细致的信息。

我们推测，每个属性内部的不同取值之间以及不同属性之间可能存在内在关系。若将所有取值视为独立的概念，则忽略了这些相互依赖关系，可能导致性能下降。

总体而言，这些结果表明：通过使用属性，可以在预测中保留关系约束，从而提升模型性能。

5.3.2 属性选择的影响

在推理过程中，NPC 利用足够的属性来生成最终的预测结果。在此，我们旨在探讨以下问题：

在推理过程中排除某一特定属性会对 NPC 在下游任务中的表现产生怎样的影响？
排除不同的属性时，其对性能的影响是否会有所不同？

我们观察到，当 NPC 在推理过程中缺少一个属性时，分类准确率会下降。这是因为此时不再满足“属性足够性”假设（即假设1），导致公式 (1) 中的等式被破坏。因此，上述公式无法正确表示 Prθ,w(Y=y∣X)。依赖该公式进行推理会对预测结果产生不利影响。

另一方面，我们发现排除不同的属性对任务性能的影响也有所不同：

排除“颜色”（color）或“形状”（shape）属性只会导致准确率轻微下降；
而排除“符号”（symbol）或“文字”（text）属性则会导致显著的性能下降。

我们将这种差异归因于这些属性本身的性质不同。更具体地说：

“颜色”和“形状”这类属性通常不是决定性的，也就是说它们并不直接决定最终类别，其缺失可以通过其他属性的信息进行一定程度的补偿。例如，即使没有“红色”或“八边形”的提示，只要“文字”属性显示为“stop”，仍然可以推断出这是一个停车标志。因此，排除非决定性属性对性能影响较小。
相比之下，“符号”和“文字”属性在许多样本中是决定性的，对于区分某些类别至关重要。例如，如果没有“文字”属性，就无法区分代表不同限速值的交通标志；同样，如果没有“符号”属性，也就无法区分左弯与右弯标志。因此，排除决定性属性会严重损害预测性能。

对于MNIST-Addition 数据集，图3（右）展示了类似的结果。特别地，由于两个属性（即两个数字）对于确定最终类别（即它们的和）都是必不可少的，因此任一属性的缺失都会导致性能大幅下降。

总结：使用不充分的属性会损害 NPC 在下游任务中的表现，而排除不同属性所带来的影响取决于属性本身的性质。

5.3.3 任务预测器构建方法的影响
在第3.2.2节中，我们介绍了两种构建概率电路的不同方法：数据驱动方法和知识注入方法。在这里，我们的目标是研究这些构建方法的影响。具体来说，我们希望解决以下问题：
哪种方法构建的电路能更好地捕捉数据分布？
哪种方法构建的电路作为任务预测器表现更有效？

我们首先比较两种电路的平均似然（mean likelihood）。然后，我们考察由训练良好的属性识别模型与任一电路（数据驱动或知识注入）组成的整体模型的分类准确率。结果汇总在表4中。

在分类准确率方面，结合不同电路的模型在MNIST-Addition、GTSRB和CelebA数据集上表现出相似的性能。这种相似性表明，使用知识注入方法构建的两层电路足以为较简单的数据集提供准确的属性与类别之间的关系信息。

相比之下，在更为复杂的AwA2数据集中，Model (Data)明显优于Model (Knowledge)，这是由于 AwA2 中存在多值属性，导致属性值的组合数量庞大。因此，每种组合可能对应的联合概率非常小。在这种情况下，即使平均似然（mean likelihood）存在微小差异，也可能显著影响电路捕捉数据分布的能力。例如，哪怕平均似然略低，也可能意味着电路未能正确捕捉大量组合的联合概率。

如表4所示，在 AwA2 数据集上，Circuit (Knowledge)的平均似然略低于Circuit (Data)，这表明在这种情况下，知识注入电路可能未能充分捕捉属性与类别之间的细微关系，而数据驱动电路更适合表示数据的联合分布，从而在下游任务中表现更优。

5.3.4 联合优化的影响

在训练NPCs（神经概率电路）时，我们采用了一个三阶段的训练算法：首先独立地训练属性识别模型和任务预测器，然后对整个模型进行联合优化。在此，我们的目标是研究第三阶段（即联合优化）如何影响NPCs的性能。为此，我们比较了在应用联合优化之前和之后NPCs的性能。比较结果如图4所示。

总体而言，联合优化在各个数据集上均提升了模型性能。
具体来说，对于AwA2数据集，联合优化显著提升了NPC(Data)和NPC(Knowledge)的性能，体现了其有效性。
相比之下，在CelebA数据集上，应用联合优化后性能基本保持不变，其中NPC(Data)有轻微提升，而NPC(Knowledge)则略有下降。
尽管如此，在GTSRB和MNIST-Addition数据集上，两种NPC模型也都表现出小幅的性能提升。

总体来看，这些结果表明联合优化在下游任务方面为NPCs带来了额外的收益。
特别是，对于初始训练后性能已经较好的数据集，联合优化带来了进一步但较为有限的提升；
而对于初始训练后性能中等的数据集，联合优化则起到了关键作用，显著提升了整体性能。

5.4 模型解释
在本节中，我们探讨了两种类型的解释，并通过示例说明这些解释如何帮助人类理解NPC（神经概率电路）的内部工作机制，并解释模型的行为。

5.4.1 最可能解释（Most Probable Explanations, MPE）
图5展示了来自四个基准数据集的NPC(Data)的一些示例。具体而言，每个示例包括：一张图像、类别和属性的真实标签、NPC(Data)预测的类别，以及最后对应的最可能解释（MPE），该解释揭示了对预测结果贡献最大的属性赋值。

在这些示例中，NPC(Data)提供了正确的类别预测，并且其MPE与真实属性标签一致。例如，GTSRB 数据集中一个示例的 MPE 为 {颜色：红色；形状：圆形；符号：文字；文字内容：30}，这与真实的属性标签完全匹配。

这种 MPE 与属性标签之间的一致性表明，模型采用了类似人类的推理方式，并做出了可靠的决策。关于NPC(Knowledge)的示例请参见附录 F。

MPE 对齐率如图6（左）所示。我们观察到，NPC(Knowledge)在AwA2数据集上的对齐率相对较低，这表明在某些样本中，真实属性赋值并非对正确预测贡献最大的因素。

这种不对齐可能是由于知识注入方法未能捕捉该数据集中类别与属性之间相对更复杂的条件依赖关系，从而影响了模型的预测过程。另一方面，在其他场景中，MPE 的对齐率接近 100%，表明模型在做出正确预测时，主要依赖于与真实标签相匹配的属性赋值。

因此，可以认为该模型是可靠的，因为其预测过程与人类的决策过程高度一致。

5.4.2 反事实解释（Counterfactual Explanations, CE）

图7展示了来自四个基准数据集的NPC(Data)的一些示例。每个样本包括：一张图像、属性和类别的预测结果、生成的反事实解释（CE），以及最后由该CE修正后的类别预测。

在这些示例中，NPC(Data)错误地预测了类别，而反事实解释通过最小调整属性预测，有效地纠正了这些错误。例如：

在MNIST-Addition数据集中，将“第二个数字”属性从“4”改为“9”，就将类别预测从“11”更正为“16”。
在GTSRB数据集中，通过调整“文字内容（Text）”属性的预测，成功修正了类别预测。
在CelebA数据集中，反事实解释主要通过提高“外貌（Appearance）”属性中“有吸引力（Attractive）”的概率，从而得到正确的类别预测。
最后，在AwA2数据集中，反事实解释通过提高“颜色（Color）”属性中“棕色（Brown）”的概率，将类别预测从“马（Horse）”更正为“鹿（Deer）”。

关于NPC(Knowledge)的示例详见附录F。

反事实解释（CE）的修正率如图6（右）所示。
对于像MNIST-Addition和GTSRB这样的简单数据集，生成的CEs表现出较高的修正率，表明它们在纠正预测方面的有效性。
然而，对于更复杂的数据集，如CelebA和AwA2，修正率则较低，这凸显了在复杂数据集上生成有效CEs的局限性。
这一局限性突显了未来研究的必要性——需要开发更先进的CE生成算法，即使面对复杂数据集，也能以高修正率有效地纠正分类错误。

6 局限性与讨论

在本节中，我们从多个角度探讨NPCs（神经概率电路）的局限性，并指出未来可能的改进方向。

模型架构与端到端深度神经网络（DNNs）相比，NPCs 通过将模型分解为具有语义意义的模块，提供了更优的可解释性，使人类能够综合各模块的输出来理解最终决策。然而，属性识别模型本身仍然是一个“黑箱”，其内部机制不透明，这使得很难确保它的输出真正代表了各个属性的概率。例如，该模型可能会学习到虚假的相关性，错误地将背景特征而非真实属性映射到输出。未来的研究可以关注于提高属性识别模型内部的透明度，从而增强其可解释性。概率电路结构在 NPCs 中，任务预测器是使用概率电路实现的，该电路要么通过LearnSPN [Gens and Domingos, 2013]学习得到，要么基于人工预定义规则手动构建。然而，由 LearnSPN 生成的电路可能包含过多的节点和边，导致推理速度变慢。可以探索其他方法 [Vergari et al., 2015; Mauro et al., 2017] 来构建更加紧凑的电路，以提升推理效率。

另一方面，手工构建的电路采用仅包含两层的简单结构。虽然这种简化有助于提升效率，但也会限制电路的表达能力，可能导致其在如 AwA2 这类复杂数据集上的性能下降。未来的研究可以聚焦于在电路表达能力与结构复杂度之间取得更好的平衡。

更具挑战性场景下的误差分析我们对 NPCs 的误差分析基于假设1和假设2，这些假设在一般情况下是适用的。但在某些特定场景下，这些假设可能过于严格。例如，在医学分析中，由于记录保存或采集过程中数据获取的限制，属性往往是不完整的，关键信息可能缺失或被隐藏。此外，在图像质量较差的情况下（如低光照环境下拍摄的图像），模型可能难以可靠地从图像中推断出各种属性值。在这种情况下，属性之间的条件相互独立性假设可能不再成立。

未来，我们计划在这些更具挑战性的条件下开展针对 NPCs 的误差分析，研究各个模块的性能如何影响整体模型的表现。

减少可解释性与任务性能之间的权衡本文展示了通过整合属性识别与概率电路，NPC 能够在下游任务中生成可解释的预测结果，同时实现优越的性能。展望未来，我们认为，通过引入更多细粒度、多样化的、具有语义意义的属性，并结合使用更复杂的逻辑规则对这些属性进行推理的结构，我们可以设计出更具组合性的模型架构，从而进一步减少可解释性与下游任务性能之间的权衡。

7 相关工作

在本节中，我们讨论与本文提出的方法相关的若干研究领域。

一概念瓶颈模型及其变体（Concept Bottleneck Models and Variants）

概念瓶颈模型（CBMs）及其变体是一类将决策过程建立在高层、人类可理解概念之上的机器学习模型，具有更高的透明度。该模型最早由 Koh 等人 [2020] 提出，其结构将一个黑箱深度神经网络分解为两个模块：

概念识别模型
：负责预测各种由人类指定的概念；
任务预测器
：基于这些预测出的概念进行分类任务。

后续研究主要集中在改进这两个模块。Zarlenga 等人 [2022]、Yeh 等人 [2020]、Kazhdan 等人 [2020] 通过将概念表示为高维嵌入而非简单的概率值，扩展了概念识别模型的表达能力。此外，Mahinpei 等人 [2021]、Sawada 和 Nakamura [2022]、Sarkar 等人 [2022]、Marconato 等人 [2022] 在瓶颈层中引入了无监督神经元，以增强模型的学习能力。尽管这些扩展提升了下游任务的性能，但也牺牲了可解释性，因为概念嵌入中的维度和无监督神经元缺乏明确的语义含义。相比之下，使用预测的概念概率可以提供更好的可解释性。

另一方面，也有研究致力于提升任务预测器的可解释性。不同于传统的线性层，一些方法 [Barbiero et al., 2023; Ciravegna et al., 2023; Rodríguez et al., 2024] 设计了新的架构来嵌入逻辑规则，并通过推理实现分类。例如，Barbiero 等人 [2023] 提出了深度概念推理器（deep concept reasoner），而 Rodríguez 等人 [2024] 引入了软决策树作为任务预测器。这些方法利用观测数据优化参数，从而提取数据中隐含的逻辑规则。相较之下，那些直接通过结构和参数编码人工预定义逻辑规则的模型，则提供了显式表达领域知识的方式。

二概率电路（Probabilistic Circuits）

概率电路[Sánchez-Cauce et al., 2022] 是一种有根的有向无环图，用于表示一组变量的联合分布。电路包含三种类型的节点：

叶节点
：对应输入变量；
求和节点（sum nodes）
：计算子节点的加权和；
乘积节点（product nodes）
：计算子节点的乘积。

当满足可分解性（decomposability）和平滑性（smoothness）属性时，概率电路成为一种可高效推理的概率模型，可以在各种分布上进行高效的推断 [Poon and Domingos, 2011]。具体而言，输入变量的联合概率、边缘概率和条件概率最多只需两次遍历（从叶节点到根节点）即可计算，其计算复杂度与电路规模成线性关系。因此，概率电路结合了传统概率图模型的表达能力和现代深度学习框架的可扩展性。

概率电路的结构学习旨在设计在表达能力和计算效率之间取得平衡的结构。Xia 等人 [2023] 将现有的结构学习方法分为四类：

手工设计结构学习
：由人工为特定数据集手动设计结构 [Gens and Domingos, 2012; Poon and Domingos, 2011]；
基于数据的结构学习
：使用启发式算法 [Adel et al., 2015; Dennis and Ventura, 2012; Gens and Domingos, 2013; Krakovna and Looks, 2016; Molina et al., 2018; Rahman and Gogate, 2016; Rooshenas and Lowd, 2014; Vergari et al., 2015] 或非启发式算法 [Peharz et al., 2014; Lee et al., 2014; Trapp et al., 2016; Peharz et al., 2019] 从数据中学习结构；
随机结构学习
：随机生成结构作为灵活的起点 [Peharz et al., 2019; Rashwan et al., 2016; Trapp et al., 2019]；
集成结构学习
：通过组合多个结构提升对高维数据的泛化能力 [Ventola et al., 2020]。

在本文中，我们分别使用了第一类和第二类结构学习方法，以分别嵌入显式的和隐式的逻辑规则。

概率电路的参数学习旨在为给定结构寻找最优参数，使电路能够准确捕捉观测数据中的潜在概率分布。参数学习大致可分为两类：

生成式参数学习
[Poon and Domingos, 2011; Peharz, 2015; Rashwan et al., 2016; Zhao et al., 2016a,b]：最常见的范式，目标是最大化所有变量的联合概率。该方法特别适用于密度估计、生成建模和概率推理等任务。
判别式参数学习
[Gens and Domingos, 2012; Adel et al., 2015; Rashwan et al., 2018]：专注于最大化给定其他变量下类别变量的条件概率，更适合分类和回归任务。

在本文中，我们采用CCCP [Zhao et al., 2016b]，这是一种生成式参数学习方法，其优势在于支持乘法参数更新，能够单调增加对数似然，并带来更快更稳定的收敛。

三概率图模型的整合（Integration of Probabilistic Graphical Models）

概率图模型（PGMs）是一种使用图结构表示变量之间条件依赖关系并描述其联合概率分布的框架。凭借其强大的表达能力，PGMs 可以从多个角度增强模型的决策过程。我们的工作展示了一种将 PGMs（即概率电路）整合进模型的方法，用以提升模型预测过程的透明性和可解释性。

相比之下，Yang 等人 [2022]、Gürel 等人 [2021]、Zhang 等人 [2023]、Kang 等人 [2024] 的研究则侧重于通过整合 PGMs 来增强深度分类模型的对抗鲁棒性。

四神经符号学习（Neuro-Symbolic Learning）

神经符号学习将神经网络与符号表示相结合，融合数据驱动学习与符号推理的优势。将固有规则嵌入任务预测器的 CBM 变体是神经符号学习的一个典型应用。除了 CBM 外，这一范式还可以以多种形式实现。

一类研究聚焦于设计基于符号的目标函数。例如，Badreddine 等人 [2022] 提出了最大化神经网络输出满足预定义符号规则的目标函数。同样地，Xu 等人 [2018]、Ahmed 等人 [2023] 定义了最大化生成符合符号规则输出概率的目标函数。这些目标函数也可以作为正则项与标准分类损失函数一起使用，通过优化参数促使神经网络遵循特定规则。

另一类研究强调模型架构的设计。例如，Ahmed 等人 [2022] 提出了一种语义概率层（semantic probabilistic layer），这是一种专为结构化输出预测设计的预测层，可无缝集成到神经网络中，确保预测结果符合某些符号约束。

总体而言，这些研究通过目标函数设计或模型架构修改，确保学习到的模型遵循特定的符号规则。然而，虽然这些方法实现了规则合规性，但模型各组件的显式语义往往仍不清晰，引发了关于其透明性和可解释性的担忧。

8 结论

在本文中，我们提出了神经概率电路（Neural Probabilistic Circuits, NPCs），这是一种将决策过程分解为属性识别和逻辑推理的新架构，能够实现组合式且可解释的预测。

在四个图像分类数据集上的实验结果表明，NPC 在与四种基线模型的对比中表现出具有竞争力的性能。此外，我们进行了一系列消融实验，并得出了以下发现：