HDC关联表示实现系统的溯因推理|代数|向量|溯因推理|高维

Systematic Abductive Reasoning via DiverseRelation Representations in Vector-symbolicArchitecture

通过向量符号架构中多样化的关联表示实现系统的溯因推理

https://arxiv.org/pdf/2501.11896

摘要

在抽象视觉推理中，单一的深度学习模型存在可解释性和泛化能力有限的问题，而现有的神经符号方法在捕捉属性和关系表示的多样性和系统性方面存在不足。为解决这些挑战，我们提出了一种基于向量符号架构（VSA）的系统化溯因推理模型，该模型具有多样化的关联表示（Rel-SAR Systematic Abductive Reasoning），用于解决瑞文渐进矩阵（RPM）问题。为了推导出具有符号推理潜力的属性表示，我们不仅引入了多种类型的原子向量，用于表示数值、周期性和逻辑语义，还引入了整体网格组件的结构化高维表示（SHDR structured highdimentional representatio）。为了实现系统化的推理，我们提出了新颖的数值和逻辑关系函数，并在一个统一的框架中执行规则的溯因和执行，整合了这些关系表示。实验结果表明，Rel-SAR在RPM任务上取得了显著的改进，并展现出强大的分布外泛化能力。Rel-SAR利用高维属性表示与符号推理之间的协同作用，实现了具有可解释性和可计算语义的系统化溯因推理。

索引词——抽象视觉推理，关系表示，向量符号架构。

I. 引言

瑞文渐进矩阵（RPM）是一类广泛用于评估抽象推理能力的心理智力测试 [1], [2]。从认知心理学的角度来看，RPM测试中的抽象视觉推理涉及从图像中构建高级表示，并从这些表示中推导出潜在的关系[1], [3]。赋予人工智能这种能力现在被认为是实现人类水平智能的关键一步。

然而，许多最近的单一深度学习模型并未明确区分感知和推理[4]–[9]，因此面临固有挑战，例如可解释性差、鲁棒性和泛化能力有限，以及模块复用困难 [10]。神经符号架构（NSA），它将神经视觉感知与符号推理相结合，为克服这些挑战并实现人类水平的可解释性和泛化能力提供了一种有前景的方法 [10]–[12]。

在神经符号架构（NSA）中，Marcus认为认知中的符号操作涉及变量之间的关系表示[11]。对于RPM测试，对象属性作为变量，而潜在规则涉及这些关系。然而，由于属性和关系表示不完整，NSA在执行RPM测试时实现系统化溯因和执行仍然是一个关键挑战。从属性的角度来看，最近的模型，如PrAE [10]、ALANS学习器 [13] 和NVSA（神经向量符号架构）[12]，通过神经感知前端构建属性表示。值得注意的是，NVSA模型实现了图像面板的分层结构化VSA表示，捕捉了多个对象的多个属性[12]。在关系表示方面，PrAE和NVSA分别通过概率溯因和执行 [10] 以及分布式向量符号架构（VSA）[12] 实现抽象推理。这两种模型都依赖于预定义的多种规则模板，每种模板专门用于不同的RPM规则。为了解决规则表达能力的限制，ALANS学习器利用抽象代数结构中的可学习规则操作符，无需为每条规则手动定义 [13]。此外，ARLC模型采用了一种更具表达力的基于VSA的规则模板，在规则参数空间中运行 [14]。这两种模型都提高了可解释性和泛化能力。尽管取得了进展，但以往的模型在捕捉属性和关系表示的多样性和系统性方面仍存在不足。相比之下，人类认知表现出丰富且灵活的内部表示 [15], [16]，包括算术和逻辑，认知中的基于规则的推理系统是富有成效且系统的 [17]。因此，这些模型的抽象视觉推理性能仍有进一步改进的空间。

先前的研究表明，向量符号架构（VSA）是一种高维（HD）分布式表示形式，具有用于数学运算的代数属性，并且可以实现数据的结构化符号表示 [18]–[20]。在本工作中，为了实现全面的关系表示，我们引入了各种基于VSA的原子HD向量，具有不同的语义表示，包括数值、周期值和逻辑值。鉴于RPM问题中的推理涉及多个对象的整体属性，我们进一步引入了用于n×n网格的结构化HD表示（SHDR）。它们作为溯因推理所需的属性表示。同时，我们提出了数值和逻辑关系函数作为关系表示，这些函数以多个HD属性表示为输入，并定义它们之间的关系。与为个别规则设计的规则模板不同，这两种提出的关系函数专门针对数值和逻辑类型，提供了强大的规则表达能力。

在此，我们提出了一种用于解决RPM的具有多样化关系表示的系统化溯因推理模型（Rel-SAR），该模型受到原始NVSA模型 [12] 的启发。在Rel-SAR模型中，视觉属性提取和规则推理在一个完全统一的VSA计算框架内实现。该模型包括一个用于感知RPM问题中所有原始图像的对象属性的神经向量前端，以及一个用于实现符号推理的通用向量符号后端。感知前端基于每个图像面板的场景级SHDR运行，其中包含多个对象，每个对象都有各种属性，并通过基于VSA的符号操作预测HD属性表示。推理后端实现了系统化溯因推理的核心思想：如果RPM中给定的属性遵循特定的数值或逻辑规则，则所有属性对的关系表示可以使用具有相同参数的相应关系函数来定义。这些多样化的关系表示既参与规则的溯因阶段，也参与执行阶段，增强了可解释性并提高了系统化溯因推理的能力。

II. 相关工作

瑞文渐进矩阵（RPM）是一种广泛使用的非语言智力测试，旨在评估抽象推理能力。为了探索当前机器学习方法在解决抽象推理任务方面的局限性，已经引入了两个基于RPM的自动生成数据集——RAVEN [21] 和 IRAVEN [8]（见图1）。早期对RPM的研究主要使用关系网络（Relation Network, RN）[22]及其变体 [4], [7], [9], [23] 来提取上下文面板之间的关系。同时，CoPINet [6]、MLCL [24] 和 DCNet [25] 在其模型中整合了对比学习。MRNet [9] 和 DRNet [26] 等方法旨在增强感知能力，而SRAN [8] 和 PredRNet [27] 分别通过分层模型和预测误差来抽象关系。此外，一些方法专注于场景分解和特征解耦 [28]–[30]。尽管这些单一的深度学习模型能够取得高准确率，但它们通常存在可解释性和系统化泛化能力有限的问题。

解决RPM的另一种方法是基于神经符号架构，该架构明确区分感知和推理。PrAE [10] 使用对象卷积神经网络（CNN）生成概率场景表示，并利用预定义的规则模板进行概率溯因和执行。受抽象代数和表示论的启发，ALANS[13]（与PrAE共享相同的感知前端）将概率场景分布转换为基于矩阵的代数表示。ALANS的代数推理后端通过可训练的操作矩阵诱导潜在规则，从而消除了手动定义规则的需要。

在抽象推理中，向量符号架构（Vector Symbolic Architectures, VSA）通过利用其结构化的分布式表示和代数特性，作为感知模块和推理模块之间的桥梁。NVSA [12] 使用可训练的卷积神经网络（CNN）将每个RPM面板映射到高维向量，并通过查询外部码本生成概率质量函数（Probability Mass Functions, PMFs）。其推理后端将这些PMFs嵌入到分布式的VSA表示中，并利用基于VSA代数运算的模板进行规则的溯因和执行。NVSA通过利用VSA表示和操作符，提供了一种可微分且透明的概率溯因推理实现。然而，其感知前端需要在庞大的外部码本中进行搜索，而其推理后端仍然依赖于预定义的规则模板。相比之下，Learn-VRF [31] 专注于通过学习VSA规则公式来进行推理，从而消除了对预定义模板的需求。ARLC [14] 进一步通过引入上下文增强和扩展规则模板来容纳更多样化的规则，从而增强了推理能力。尽管ARLC和Learn-VRF实现了系统的规则学习，但由于属性表示的限制，它们仍然难以处理所有RPM规则。最近，一类被称为关系瓶颈的方法被提出，以实现高效的抽象化，但它们处理复杂关系的能力仍然不确定 [32]–[35]。为解决这一限制，Rel-SAR将感知输入转化为具有符号推理潜力的高维属性表示，并在一个统一框架内对逻辑和数值规则进行溯因。

III. 预备知识

A. 本研究中使用的VSA模型

VSA（矢量符号架构）是一类利用高维分布式表示的计算模型。本研究中使用的VSA模型是全息降维表示（Holographic Reduced Representations，HRR）及其在频域中的形式，称为傅里叶全息降维表示（Fourier Holographic Reduced Representations，FHRR）。

一个随机的FHRR原子向量，记作θ := {θi}i=1...d，其元素θi是从均匀分布中独立采样的，具体为θi ∼ U(−π, π)。相应的HRR原子向量x是通过对θ应用逆快速傅里叶变换（Inverse Fast Fourier Transform，IFFT）得到的。

在这里，F 和分别表示快速傅里叶变换（FFT）和逆快速傅里叶变换（IFFT）。当维度 d 足够大时，这些随机生成的向量表现出伪正交性，这使得它们适合用于表示不同的符号或概念。

在 FHRR 和 HRR 中，任意两个向量之间的相似性是评估 VSA 中分布式表示的一个关键指标。FHRR 和 HRR 使用余弦相似度来衡量两个向量之间的相似性：

B. 基本运算和结构化符号表示

IV. 方法论

A. 具有语义表示的原子高维向量

在神经向量符号系统中，具有有意义语义的原子高维向量表示对于感知和推理至关重要。我们引入了模型中使用的四种类型的原子高维向量（见图2）：随机向量（RVs）、数值向量（NVs）、循环向量（CVs）和布尔向量（BVs）。这些向量的定义和属性在VSA框架内是通用的。

1) 随机向量：随机向量（RVs）是根据VSA模型从特定分布中采样的，如预备知识部分所述。由于RVs之间不存在数值或逻辑关系，并且它们在高维向量空间中表现出伪正交性（见图2a），因此它们通常用于表示假定为独立且不相似的符号和概念。

B. 基于原子高维表示的关系函数

RPM中用于演绎推理的规则涉及每行三个面板中对应对象属性之间的二元和三元关系（图2e和图1a），以及数值和逻辑关系。在本工作中，我们基于VSA代数设计了通用的关系函数，利用上述原子向量表示，用于规则的演绎。

1) 关系函数：关系函数用于描述多个高维向量表示之间的关系，分为两种类型：数值关系和逻辑关系。在原子高维表示中，数值向量（NVs）和循环向量（CVs）参与数值关系，而布尔向量（BVs）参与逻辑关系。数值关系函数RNum定义如下（图2f）：

2) 逆关系函数：在RPM中，规则执行需要根据已知关系，通过一行面板中的前两个属性值推断第三个属性值。这代表了一个规则演绎的逆问题。在向量符号方法中，给定操作算子的幂 OP1:M 和输出 r，可以通过逆关系函数从最初的 N - 1 个输入 v1:N-1 推断出最后一个向量表示 vN（图2g）。根据公式（6），逆数值关系函数定义如下：

C. 结构化高维表示及其属性分解

VSA可以利用原子高维向量表示创建结构化的符号表示，并通过代数运算直接从这些结构中解耦它们。本小节介绍了为图像面板构建结构化高维表示（SHDR）的过程，以及其分解以检索单个属性表示的过程。此外，还介绍了在组件级别上为n×n网格（n = 2, 3）的SHDR。

1) 图像面板的SHDR：在RAVEN数据集中，每个图像面板由多个对象组成，每个对象由多个属性特征。因此，每个图像面板的结构化高维表示（SHDR）可以通过两层角色-填充绑定来获得（见图3a）。首先，使用捆绑操作在实体级别为每个对象构建一个SHDR，通过组合其属性来实现。然后，另一层捆绑操作将这些对象级别的表示聚合起来，构建图像面板的场景级SHDR。因此，每个图像面板（分辨率为r×r）可以通过一个SHDR 来表示，如下所示：

D. 从关系函数的视角看待规则

RAVEN数据集包含4种规则——恒定（Constant）、渐进（Progression）、算术（Arithmetic）和三分法（Distribute Three），这些规则作用于5种规则控制属性。这5种属性包括3种实体级属性：类型（Type）、大小（Size）和颜色（Color），以及2种布局级属性：数量（Number）和位置（Position）。在本研究中，规则推理过程中这些属性值的高维表示以及规则与关系函数之间的关系如表III所示。

对于属性类型（Type）、大小（Size）、颜色（Color）和数量（Number），涉及的四种规则遵循加法算术运算，即属性值（attr ∈ {type, size, color, number}）使用数值向量（NVs）表示。因此，这些规则可以通过数值关系函数（公式6）来定义：恒定和渐进对应于二元关系函数，而算术和三分法对应于三元关系函数。每条规则都与特定的OP1:M和rNum组合相关，具体细节如表IV所示。

E. 系统化演绎推理模型

在本节中，我们介绍了具有多样化关系表示的系统化演绎推理模型（Rel-SAR），该模型受到NVSA的启发[12]。Rel-SAR的概述如图4a所示。与以往用于抽象视觉推理的神经符号模型类似，Rel-SAR结合了一个神经视觉感知前端和一个符号推理后端，两者都利用具有语义意义的VSA表示以促进系统化的推理。感知前端使用神经网络提取RPM中每个图像面板X的结构化高维表示（SHDR）S，并通过表示分解从SHDR中实现特征解耦，以获得后端推理所需的属性的高维表示（v、p和C：表III）。推理后端由三个主要模块组成：规则演绎模块、规则执行模块和答案选择模块。规则演绎模块根据适当的关系函数（公式6和7，表III）为每个属性表示提取相应的规则（OP1:M和r：表IV）。随后，规则执行模块使用这些规则，根据相应的逆关系函数（公式8和9）预测缺失面板属性的表示。最后，答案选择模块将缺失面板的预测属性表示与答案面板中的可用选项进行比较，并选择答案。

2) 端到端训练与辅助属性标签：

B. 端到端学习结果

首先，我们在RAVEN[21]和I-RAVEN[8]数据集上对Rel-SAR模型进行了端到端学习的评估。结果总结于表VI，将我们的模型与深度神经网络方法和神经符号AI方法进行了比较。Rel-SAR在RAVEN上实现了96.5%的平均准确率，在I-RAVEN上实现了98.0%的平均准确率，与之前表现最佳的深度网络DRNet（RAVEN上为96.9%，I-RAVEN上为97.6%）相当。与之前的神经符号方法NVSA相比，Rel-SAR在涉及基于位置属性规则的配置中表现出显著的准确率提升，包括2x2网格（+2.2%）、3x3网格（+39.1%）和内外网格（+20.8%）。这使得Rel-SAR在RAVEN上的平均准确率提升了8.8%，在I-RAVEN上提升了9.9%。这些提升归功于我们针对位置属性的循环和逻辑高维表示的有效性，以及在规则演绎和执行中使用的数值和逻辑关系函数。此外，Rel-SAR在训练过程中仅使用答案面板，而没有利用其他候选面板的信息。这确保了Rel-SAR不会利用RAVEN数据集中的潜在缺陷进行捷径学习[8]，从而在RAVEN和I-RAVEN数据集上实现了相似的准确率（96.5%对比98.0%）。

此外，由于神经符号模型是分离感知和推理的混合架构，它们通常会使用辅助属性标签进行训练。因此，我们还在使用额外属性标签训练的情况下，对Rel-SAR模型在两个数据集上的表现进行了评估。结果展示在表VI的底部部分，表明我们的模型在RAVEN上实现了96.6%的平均准确率，在I-RAVEN上实现了98.1%的平均准确率。在比较的神经符号模型中，ALANS Learner与Rel-SAR最为相似，因为这两种模型都在其推理后端中引入了可学习参数。与ALANS相比，我们的模型在RAVEN上平均准确率提升了2.2%，在I-RAVEN上提升了4.6%。相比之下，NVSA和Xu模型的推理后端依赖于预设计的规则模板或代数不变性模块，而没有可学习参数。NVSA凭借其全面的规则模板库，在使用辅助属性标签训练时能够实现近乎完美的准确率。尽管我们的模型在使用辅助属性标签训练时略微逊色于NVSA，但它展现了一个重要的优势：在不使用属性标签训练时，NVSA和ALANS Learner的性能显著下降，而我们的模型则保持了几乎相同的性能。这种一致性突显了我们模型中感知模块和推理模块之间稳健的协同作用。

C. 使用属性标签学习的感知结果

与其它神经符号方法类似，Rel-SAR中的感知前端也可以使用感知损失函数（公式26）和属性标签进行独立训练。通过查询与前端代码本中属性向量具有最高相似度的估计高维属性表示，我们可以检索出预测的实体级属性。只有当面板中所有对象的属性与数据集提供的属性完全匹配时，才认为该面板的特征被正确提取。如表VII所示，评估结果表明，我们模型中的感知前端在RAVEN数据集上实现了99.99%的平均面板准确率，保持了近乎完美的性能，与NVSA一致。值得注意的是，NVSA报告了RAVEN数据集中存在一个分辨率问题，即在内外网格（O-InGrid）配置中，某些内部区域的对象具有不同的大小属性，但图像表示相同[12]。为了解决这一问题，我们采用了与NVSA类似的解决方案，将具有不同大小但相同面板表示的类别合并。

为了评估我们模型感知前端的泛化能力，我们采用了[12]中概述的实验设置，以测试模型在未见属性值组合上的表现。具体来说，我们关注2x2网格配置中的单对象情况。如表VIII所示，我们选择两个属性（例如位置和类型）以及每个属性的部分值集（例如位置 ∈ {0, 3}，类型 ∈ {0, 2}）作为目标属性。包含这些目标属性值的面板被纳入训练集，而缺少它们的面板则被指定为测试集。这种方法确保了训练和测试数据集的属性集完全不重叠，从而能够严格评估模块在超出观测数据之外的泛化能力。

在本实验中，我们观察到，当公式10中的值向量 v 为随机向量（RVs）时，我们的感知前端在识别未见属性值组合时存在困难。我们将这一问题归因于RVs的正交性，这阻碍了模型识别邻近概念的能力。为了解决这一问题，我们将RVs替换为基于高斯核的分数次幂编码（FPE）向量，从而引入向量之间的渐进相似性[18]，[19]。如表VIII所示，当使用具有渐进相似性的FPE向量（NVs）时，我们的模型相比NVSA[12]在未见属性组合上表现出更好的泛化能力。然而，类型-大小组合的准确率仍然较低，可能是因为类型相邻属性值（例如三角形和正方形）之间没有明确的连续渐进关系。

D. 使用属性标签的推理结果

我们分析了我们的模型在I-RAVEN数据集上的推理后端的性能。遵循以往工作[14]，[31]中关于完美感知的假设，我们也利用I-RAVEN数据集提供的真实属性标签来生成高维属性表示。模型使用推理损失函数（公式27）进行训练，相应的评估结果如表X所示。我们将我们的模型与基于LLM的GPT-3[41]、深度神经网络SCL[28]、基于神经符号的方法PrAE[10]和NVSA[12]、基于VSA的方法LearnVRF[31]和ARLC[14]进行了比较。GPT-3的性能在[31]中有所报告。我们的方法实现了99.2%的准确率，比之前的最佳模型ARLC提高了6.8%。值得注意的是，我们的方法在涉及位置属性规则的2x2网格（+14.9%）、3x3网格（+17.7%）和内外网格（+9.4%）配置中显著优于之前的VSA方法ARLC。这一改进表明，位置的循环和逻辑高维表示及其对应的关系函数有效地处理了位置的算术和渐进规则的推理。

我们还按照[31]中描述的实验设置评估了我们推理后端的分布外（OOD）泛化能力。在此评估中，特定属性（例如类型）的特定规则（例如恒定）被指定为目标规则。模型使用排除目标规则的样本进行训练和验证，然后在仅包含目标规则的样本上进行测试。此实验在中心配置上进行，而训练、验证和测试集是从I-RAVEN数据集中筛选出来的。相应的评估结果如表XI所示。对于类型和大小属性，我们的模型与Learn-VRF[31]和ARLC[14]一样，展现出近乎完美的对未见属性规则的泛化能力。这种能力源于使用统一的高维向量来表示不同属性的值，从而促进属性之间的规则迁移。然而，我们的模型在颜色属性上的表现相对有限。这可能是因为颜色属性具有更广泛的值范围，使得从值范围较窄的属性（例如类型0-4和大小0-5）学到的规则难以迁移到颜色（0-9）属性。

VI. CONCLUSION AND FUTURE DIRECTIONS

与其它神经符号方法一致，我们在训练中也引入了辅助规则标签。这是因为，在没有精确规则驱动的指导下，模型难以学习到属性的有意义的结构化高维表示（SHDR）。我们注意到，槽注意力（slot attention）[42]能够实现无监督的场景分解，而VQ-VAE[43]则学习离散的潜在表示，从原始图像中解耦不同的概念（即RPM中的属性）。因此，我们建议在未来的研究中使用可学习的前端代码本，并结合槽注意力，以实现从原始图像中无监督地提取SHDR。

Rel-SAR的推理后端基于多样化的高维属性表示和关系函数实现系统化的演绎推理。我们的模型在涉及位置属性规则的配置中表现出显著的改进，这证明了位置属性的循环和逻辑表示的有效性。然而，Rel-SAR的推理后端展现出有限的分布外（OOD）泛化能力。这种局限性可能源于规则学习器——一个多层全连接神经网络，它缺乏泛化到OOD属性值的能力。越来越多的最新工作强调基于感知输入之间的关系进行推理，而不是基于单个输入的特征[32]–[34]。这一趋势被“关系瓶颈”原则[35]所概括，该原则旨在减轻属性值的绝对大小对关系推理的影响。然而，关系瓶颈可能在处理更复杂的关系时遇到困难。未来的研究可以专注于将关系瓶颈与VSA代数结合起来，以处理复杂的关系，同时保持强大的分布外泛化能力。

原文链接：https://arxiv.org/pdf/2501.11896