Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution通过概率推理和执行进行抽象时空推理

https://arxiv.org/abs/2103.14230

https://github.com/WellyZhang/PrAE

后续改进:

打开网易新闻 查看精彩图片

摘要(谷歌翻译快速参考)

时空推理是人工智能(AI)中一项具有挑战性的任务,因为它具有要求高但又独特的性质:基于时空知识的表示和推理的理论要求,以及对具有高级认知系统能力的应用要求在空间和时间中导航和行动。最近的工作集中在这种抽象推理任务上——Raven 的渐进矩阵(RPM)。尽管 RPM 在准确性方面取得了令人鼓舞的进展,达到了人类水平的性能,但现代方法既不能处理类人的泛化推理,也没有产生答案的潜力。为了填补这一空白,我们提出了一种神经符号概率绑架和执行(PrAE)学习器;PrAE 学习器的核心是概率溯因和执行概率场景表示的过程,类似于对物体的心理操纵。具体来说,我们将感知和推理从单一模型中分离出来。

神经视觉感知前端预测对象的属性,随后由场景推理引擎聚合以生成概率场景表示。在符号逻辑推理后端,PrAE 学习器使用表示来推断隐藏规则。通过对概率表示执行规则来预测答案。整个系统以分析综合的方式进行端到端训练,没有任何视觉属性注释。大量实验表明,PrAE 学习器提高了跨配置泛化能力,并且能够给出答案,这与之前仅从候选者中做出分类选择的工作形成鲜明对比。

1简介

虽然“用图片思考”[13],即时空推理,对于人类来说是毫不费力且即时的,但事实证明,这种重要的能力对于当前的机器视觉系统来说尤其具有挑战性[27]。有希望的结果[13]表明这种能力与一个人的逻辑归纳表现密切相关,并且是技术发展智力史的关键因素,最近对该问题的计算研究集中在抽象推理任务上,该任务严重依赖于“思考”图片”——Raven 的渐进矩阵 (RPM) [3,24,51,52]。在此任务中,要求受试者选择最适合不完整图形矩阵的正确答案,以满足隐藏的管理规则。解决类似 RPM 的问题的能力被认为对于生成和概念化多步骤问题的解决方案至关重要,这需要在按时间排序的空间变换序列上对给定图像进行心理操作。这样的任务也被认为是关系和类比推理的特征,也是一个人流体智力的指标[6,18,26,55]。

结合对比机制和感知推理的最先进算法 [17, 72] 在准确性方面取得了不错的性能。然而,随着深度模型准确性的提高,对其透明度、可解释性、泛化性和整合知识难度的批评也随之而来。在没有明确区分感知和推理的情况下,现有方法使用整体模型来学习相关性,牺牲透明度和可解释性以换取性能的提高[17,20,53,59,70,72,75]。此外,如实验所示,深度模型几乎总是过度适应训练机制,并且无法正确泛化。这一发现与 Fodor [11] 和 Marcus [43, 44] 的假设一致,即人类水平的系统泛化性很难与经典神经网络兼容;马库斯假设应该招募神经符号架构来实现人类水平的泛化[7,8,9,41,42,66]。

现有方法的另一个缺陷是缺乏自上而下和自下而上的推理[72]:人类推理应用生成过程来推断规则并执行它们以合成心中可能的解决方案,并有区别地从选择中选择最相似的答案[19]。这种双向推理与仅能够做出分类选择的仅判别模型形成鲜明对比。

心理学家还呼吁RPM中的弱属性监督。由于孤立的亚马逊人缺乏原始属性的教育,仍然可以正确地解决 RPM[5, 25],理想的计算对应物应该能够在没有视觉属性注释的情况下学习它。这种弱监督的设置带来了独特的挑战:如何在仅给出真实图像的情况下共同学习这些视觉属性?感知存在不确定性,如何从中推断出隐藏的逻辑关系?对不准确的感知执行符号逻辑来得出答案怎么样?

为了支持跨配置泛化和答案生成,我们在应对挑战的同时,进一步朝着具有明确逻辑推理和类人生成问题解决能力的神经符号模型迈进。具体来说,我们提出了概率绑架和执行(PrAE)学习器;其核心是概率场景表示的绑架和执行过程。受到 Fodor、Marcus 和神经符号推理 [15,40,67,68] 的启发,PrAE 学习器将之前的整体过程分解为两个独立的模块:神经视觉感知前端和符号逻辑推理后端。神经视觉前端在基于对象的表示上运行[15,29,40,67,68]并预测其属性的条件概率分布。然后,场景推理引擎聚合所有对象属性分布,为后端生成概率场景表示。符号逻辑后端从表示中推断出通过逆动态控制时间排序序列的隐藏规则。执行引擎执行规则以概率规划方式生成答案表示[12,21,31],而不是直接在候选者中进行分类选择。最终选择是根据生成的预测与给定候选之间的差异来选择的。整个系统通过交叉熵损失和课程辅助损失进行端到端训练[53,70,72],没有任何视觉属性注释。图 1 将所提出的 PrAE 学习器与现有方法进行了比较。

打开网易新闻 查看精彩图片

PrAE 的独特设计将感知和推理联系起来,并具有以下几个优点:(i)通过中间概率场景表示,神经视觉感知前端和符号逻辑推理后端可以针对不同的任务域进行交换,从而实现更大程度的模块重用和组合泛化。(ii) 概率溯因不是将感知和推理混合到一个没有任何明确推理的整体模型中,而是为逻辑表示的推理提供了一种更可解释的解释。它还提供了对感知和推理的更详细的分析。(iii) 概率执行允许将生成过程集成到系统中。执行引擎可以将符号逻辑约束转换为正向模型[28],并以概率方式应用来预测最终的场景表示,从而可以通过综合分析来训练整个系统[4,14,16] 、22、23、36、62、63、64、65、69、77]。(iv) 维护概率分布不是做出确定性决策或抽取有限样本,而是带来额外的鲁棒性和容错性,并允许梯度轻松传播。

本文做出了三个主要贡献:(i)我们提出了概率绑架和执行(PrAE)学习器。与以前的方法不同,PrAE 学习器将感知和推理从整体模型中分离出来,推理过程通过概率场景表示的推导和执行来实现。溯因过程对感知结果进行可解释的推理。

执行过程为学习者添加了生成风味,使得系统可以以分析综合的方式进行训练,而无需任何视觉属性注释。(ii) 我们的实验表明,与 RPM 的跨配置泛化任务中的现有方法相比,PrAE 学习器取得了更好的泛化结果。我们还表明,PrAE 学习器能够通过渲染器生成 RPM 问题的答案。(iii) 我们对感知和推理的内部功能进行了分析,为 PrAE 提供了可解释的解释。

2相关工作
神经符号视觉推理

神经符号方法在涉及视觉与语言、视觉与因果关系之间相互作用的任务中显示出了巨大的潜力。Qi等人[49, 50]表明,借助语法解析可以显着提高动作识别,Li等人[33]将感知、解析和逻辑集成到一个统一的框架中。特别相关的是,Yi 等人[68]首先展示了一个神经符号系统的原型来解决视觉问答(VQA)[1],其中视觉系统和语言解析系统分别使用最终的符号逻辑进行训练系统应用解析后的程序来提供答案。Mao等人[40]通过使符号组件连续且端到端可训练来改进这样的系统,尽管牺牲了逻辑的语义和可解释性。Han等人[15]建立在[40]的基础上,通过学习概念嵌入来研究元概念问题。最近的一项工作研究了碰撞事件中的时间和因果关系[67],并以类似于[68]的方式解决了这个问题。所提出的 PrAE 学习器与现有的神经符号方法相似,但有根本区别。与 Yi 等人提出的方法不同[67, 68],我们的方法是端到端可训练的,并且不需要中间视觉注释,例如真实属性。与[40]相比,我们的方法通过显式逻辑推理保留了逻辑语义和可解释性,其中涉及概率推理和以概率规划方式执行[12,21,31]。

RPM 的计算方法

Raven 渐进矩阵 (RPM) 最初被提出作为一般智力和流体智力的智商测试 [51, 52],现已受到认知科学研究界的显着关注。心理学家提出了基于符号表示和离散逻辑的推理系统[3,37,38,39]。然而,这样的逻辑系统无法处理由于不完美的感知而产生的视觉不确定性。类似的问题也对基于图像相似性的方法提出了挑战[35,45,46,47,54]。最近的工作以数据驱动的方式解决这个问题。Wang 和 Su 提出了第一个自动 RPM 生成方法[60]。Santoro 等人[53]使用程序生成对其进行了扩展,并引入了狂野关系网络(WReN)来解决该问题。张等人[70]和胡等人[20]使用随机图像语法[76]并为数据集提供结构注释。一致认为,现有方法没有明确区分感知和推理;相反,他们使用一种单一的神经模型,牺牲可解释性来换取更好的性能。

之前方法的差异在于如何操作特征:Santoro 等人[53]使用关系模块来提取最终特征,Zhang 等人[70]将所有面板堆叠到通道维度中并将它们输入残差网络, Hill 等人[17]以对比方式准备数据,Zhang 等人[72]为每个候选者构建上下文并比较其潜力,Wang 等人[59]通过多重图对特征进行建模,Hu等人[20]集成了层次特征。Cheng 等人[75]研究了 RPM 中的师生环境,而 Steenbrugge 等人[57]则专注于改进学习的生成方法。在我们工作的同时,Spratley 等人[56]无监督地提取了对象嵌入并通过 ResNet 进行推理。相比之下,PrAE 旨在解决跨配置泛化问题,并将感知和推理与整体模型分离,将符号逻辑推理实现为概率溯因和执行。

3PrAE 学习者

打开网易新闻 查看精彩图片

问题设置

在本节中,我们将解释解决 RPM 问题的方法。每个 RPM 实例由 16 面板组成: 8 上下文面板形成一个不完整的 3 × 3 矩阵,其中缺少第 9 个条目,并且 8 候选小组可供选择。目标是选择一位最能完成矩阵以满足潜在管理规则的候选人。现有数据集[20,53,60,70]假设一组固定的对象属性、面板属性和规则,每个面板属性由一个规则控制。面板属性的值约束其中每个对象的相应对象属性的值。

概述

所提出的神经符号 PrAE 学习器将之前的整体视觉推理分解为两个模块:神经视觉感知前端和符号逻辑推理后端。

前端使用 CNN 提取对象属性分布,随后由场景推理引擎聚合以生成面板属性分布。面板中所有面板属性分布的集合称为其概率场景表示。后端检索这个紧凑的场景表示并执行逻辑溯因和执行,以便以生成方式预测答案表示。根据预测与每个候选者之间的差异做出最终选择。使用REINFORCE [61],整个系统以课程方式在没有属性注释的情况下进行训练;PrAE 概述见图 2。

3.1神经视觉感知

神经视觉感知前端独立地在每个 16 面板上运行,以产生概率场景表示。它有两个子模块:对象CNN和场景推理引擎。

对象CNN

给定图像面板 ,滑动窗口遍历其空间域并将每个图像区域馈送到 4 分支 CNN 中。 4 CNN分支使用相同的类似LeNet的架构[32]并产生对象属性的概率分布,包括客观性(图像区域是否有对象)、类型、大小和颜色。值得注意的是,类型、大小和颜色的分布取决于客观性的真实性。

每个图像区域的属性分布被保存并发送到场景推理引擎以产生面板属性分布。

场景推理引擎

场景推理引擎接收对象 CNN 的输出,并通过边缘化对象属性分布集(针对客观性、类型、大小和颜色)来生成面板属性分布(针对位置、数量、类型、大小和颜色)。

以 的面板属性为例:给定对象CNN为 图像区域产生的 客观性概率分布,面板具有 <的概率b3> 对象可以计算为

打开网易新闻 查看精彩图片

其中 是与 区域的客观性相对应的有序二进制序列, | ⋅ | 是序列中 1 的数量,< b4>第 区域的客观性分布。我们假设每个 RPM 面板中都有 ≥ 1 ,保留 ( = 0 ) ,并将概率重新归一化为总和 1 。可以类似地计算位置、类型、大小和颜色的面板属性分布。

我们将面板中所有面板属性分布的集合称为其概率场景表示,表示为 ,面板属性分布 表示为 ( ) 。

3.2符号逻辑推理

符号逻辑推理后端从 8 上下文面板收集概率场景表示,推断每个面板属性上隐藏规则的概率分布,并在上下文的相应面板上执行它们。基于先前的研究[3],我们假设一组描述规则的符号逻辑约束是可用的。例如, 上的 规则可以表示为:对于每一行(列), ∀ , ≥ 1

其中 表示行(列)中第 个面板中的对象数量。通过访问此类约束,我们可以使用逆动力学来推断实例中的规则。它们还可以转换为正向模型并在离散符号上执行:例如, 确定性地在前两个面板中添加 以获得 <最后一个面板的 b5> 。

概率溯因

给定 8 上下文面板的概率场景表示,概率溯因引擎通过逆动态计算每个面板属性的规则概率。形式上,对于面板属性 上的每个规则 ,

其中 表示第 个上下文面板, 表示与 对应的上下文面板 的组件。注意方程。与传统的 MDP 相比,图 3 将逆动力学 [28] 推广到 8 状态。

为了建模 ( ∣ 1 , … , 8 ) ,我们利用关于属性 和逻辑约束的紧凑概率场景表示:

打开网易新闻 查看精彩图片

其中 ( ⋅ ) 返回满足 逻辑约束的上下文面板的一组属性值分配,以及上下文面板中的 索引。通过检查所有面板属性,我们得到了每个属性的隐藏规则的分布。

以 上的 为例。上下文面板的行主分配可以是 [ 1 , 2 , 3 , 1 , 3 , 4 , 1 , 2 ] (如图 2 所示),其概率计算为具有 对象的每个面板的乘积,如方程式 1 所示。1. 将其与其他分配概率相加得出非标准化规则概率。

我们注意到每个 的有效状态集合是每行(列)上的有效状态的乘积空间。因此,我们可以先对每一行(列)进行部分边缘化,然后再进行聚合,以避免直接对整个空间进行边缘化。

这种分解将有助于减少计算量并减轻数值不稳定性。

概率执行

对于每个面板属性 ,概率执行引擎从推断的规则分布中选择一个规则,并在相应的上下文面板上执行它,以生成方式预测答案的面板属性分布。

虽然传统上,逻辑前向模型仅适用于离散符号,但我们遵循概率规划中所做的概率执行的广义概念 [21, 31]。概率执行可以被视为基于逻辑规则重新分配概率质量的分布变换。对于 上的二元规则 ,

打开网易新闻 查看精彩图片

其中 是由逻辑约束转换而来的正向模型, ( ⋅ ) 是规则前提条件集。面板属性的预测分布构成了最终的概率场景表示 。

作为 上 的示例, 4 对象是由 ( 1 , 3 ) 、 ( 2 , 2 ) 和 ( 3 , 1 ) 。答案具有 4 对象的概率是实例概率的总和。

在训练期间,执行引擎从推断的概率中采样规则。在测试过程中,选择最可能的规则。

候选人遴选

通过一组预测的面板属性分布,我们将其与每个候选答案的分布进行比较。我们使用 Jensen–Shannon Divergence (JSD) [34] 来量化预测和候选之间的差异,即

打开网易新闻 查看精彩图片

其中求和是针对面板属性和候选面板中的 索引进行的。分歧最小的候选者将被选为最终答案。

作为概率溯因和执行的推理设计是 RPM 中类人推理的计算和可解释对应物[3]。通过溯因推理,人们可以从上下文面板中推断出隐藏的规则。通过执行所导出的规则,可以获得概率答案表示。

将这种概率表示与所有可用的候选进行比较;选择分歧最相似的答案作为最终答案。请注意,概率执行将生成风味添加到推理中:eq5描绘了预测的面板属性分布,其可以被采样并发送到渲染引擎以用于面板生成。整个过程类似于双向推理,结合了先前作品中缺失的自上而下和自下而上的推理。

与此同时,该设计通过边缘化感知以及概率性地推断和执行规则来解决第 1 节中提到的挑战。

3.3学习目标

打开网易新闻 查看精彩图片

并最小化交叉熵损失。请注意,学习过程遵循综合分析的一般范式 [4, 14, 16, 22, 23, 36, 62, 63, 64, 65, 69, 77]:学习者综合结果并分析测量差异。

由于推理过程涉及规则选择,我们使用REINFORCE[61]进行优化:

打开网易新闻 查看精彩图片

其中 表示对象 CNN 中的可训练参数, ( ) 打包所有面板属性上的规则分布, ℓ 是交叉熵损失, 是真实答案。请注意,这里我们明确了答案分布对规则的依赖性,因为预测的概率场景表示 取决于所选的规则。

在实践中,PrAE 学习器仅在交叉熵损失的情况下会遇到收敛困难,因为对象 CNN 在训练的早期阶段无法产生有意义的对象属性预测。为了解决这个问题,我们联合训练 PrAE 学习器来优化辅助损失,正如最近的文献 [53,70,72] 中所讨论的。辅助损失对感知模块进行正则化,使得学习器产生正确的规则预测。最终目标是

打开网易新闻 查看精彩图片

其中 是权重系数, ( ) 是导出规则在 上的分布, 是真实规则。在强化学习术语中,可以将交叉熵损失视为负奖励,将辅助损失视为行为克隆[58]。

3.4课程学习

在初步实验中,我们注意到,早期准确的客观性预测对于学习者的成功至关重要,而当对象 CNN 的所有分支都在后期阶段时,无辅助学习将增强感知系统以产生更准确的对象属性预测。已经热启动。

这一观察结果与人类学习是一致的:只有在能够正确区分场景中的物体后,人们才能学习物体属性,并且他们的感知会因任务中的积极信号而增强。

基于这一观察,我们在 3 阶段课程中训练 PrAE 学习者 [2]。在第一阶段,仅训练与客观性相对应的参数。在第二阶段,客观性参数被冻结,同时学习负责类型、大小和颜色预测的权重。

在第三阶段,我们通过REINFORCE对整个模型进行联合微调[61]。

打开网易新闻 查看精彩图片

4实验

我们证明了所提出的 PrAE 学习器在 RPM 中的功效。特别是,我们表明 PrAE 学习器在 RPM 的跨配置泛化任务中实现了所有基线中的最佳性能。此外,模块化的感知和推理过程使我们能够探究每个模块在RPM任务中的表现,并分析PrAE学习者的优势和劣势。此外,我们还表明,当配备渲染引擎时,PrAE 学习器学习的概率场景表示可用于生成答案。

4.1 实验设置

我们在 RAVEN [70] 和 I-RAVEN [20] 上评估了所提出的 PrAE 学习器。两个数据集均由 7 个不同的 RPM 配置组成,每个配置均包含 10 , 000 个样本,均分为用于训练的 6 个折叠、 2 个折叠用于验证, 2 折叠用于测试。我们将 PrAE 学习器与 LSTM、CNN 和 ResNet 的简单基线以及 WReN[53]、ResNet+DRT[70]、LEN[75]、CoPINet[72]、MXGNet[59] 和 SRAN[ 20]。为了测量跨配置泛化,我们使用 2x2Grid 配置来训练所有模型,因为它具有适当的概率边缘化复杂性以及每个面板属性上足够数量的规则。我们在所有其他配置上测试模型。所有模型均在 PyTorch [48] 中实现,并在 Nvidia Titan Xp GPU 上使用 ADAM [30] 进行优化。为了数值稳定性,我们在 PrAE 中使用对数概率。

4.2 跨配置泛化

表1显示了不同模型的跨配置泛化性能。虽然 WReN、LEN、MXGNet 和 SRAN 等先进模型在训练体系上具有相当好的拟合性能,但这些模型无法学习其他配置的可转移表示,这表明它们不学习逻辑或任何形式的抽象,而只学习视觉外观。

LSTM、CNN、ResNet 和 ResNet+DRT 等更简单的基线显示出不太严重的过拟合,但它们也没有表现出令人满意的性能。

这种效应表明,在抽象视觉推理中仅使用深层模型很难获得内部机制相似但外观不同的情况所需的泛化能力。

通过利用对比的概念,CoPINet 显着提高了泛化性能。

配备符号推理和神经感知的 PrAE 学习器不仅在所有模型中实现了最佳性能,而且在三种配置上都表现出了优于人类的性能。与在完整数据集上训练的基线相比(请参阅补充材料),PrAE 学习器超越了 2x2Grid 域上的所有其他模型,尽管其他模型看到的数据多 6 倍。PrAE 学习器也没有表现出强烈的过度拟合,在 Center、L-R 和 U-D 上实现了相当的、有时甚至更好的性能。然而,PrAE 学习器的局限性确实存在。在重叠的情况下(O-IC 和 O-IG),性能会下降,并且在 3x3Grid 上观察到毁灭性的结果。

第一个失败是由于神经模型无法处理的区域外观的域偏移,第二个失败可能归因于 3x3Grid 中多个对象的概率分布的边缘化,其中所有对象的不确定性都会累积,导致导出的规则分布不准确。

这些观察结果在我们接下来的分析中得到了呼应。

4.3感知与推理分析

RAVEN 和 I-RAVEN 为我们提供了多个级别的注释来分析我们的模块化 PrAE 学习器。具体来说,我们使用基于区域的属性注释来评估我们的对象 CNN 的感知。请注意,对象 CNN 未使用任何属性注释进行训练。

我们还使用真实规则注释来评估概率溯因引擎的准确性。

表 2 详细介绍了使用对象 CNN 进行的感知分析:尽管未使用任何视觉属性注释进行训练,但它在对象属性预测方面取得了合理的性能。该模型显示了对解决 RPM 实例的客观性相对准确的预测。与尺寸预测精度相比,对象 CNN 更擅长预测类型和颜色等纹理相关属性。对象 CNN 在 2x2Grid、L-R 和 U-D 上有类似的结果。然而,参考表 1,我们注意到 2x2Grid 需要对更多对象进行边缘化,从而导致性能较差。重叠配置的精度进一步下降,导致 O-IC 和 O-IG 的结果不令人满意。

对于 3x3Grid,由于多个对象的概率会累积不确定性,因此需要更准确的预测。

表3详细介绍了推理分析,展示了概率溯因引擎如何在不同配置下对每个属性进行规则预测。由于位置和数量的规则是互斥的,因此我们将它们的性能合并为 Pos/Num。

由于 Center、L-R、U-D 和 O-IC 不涉及 Pos/Num 规则,因此我们不测量它们的绑架性能。我们注意到,总的来说,溯因引擎在所有面板属性上都表现出良好的性能,并且在某些配置中对类型进行了完美的预测。

然而,将溯因作为概率边缘化的设计是一把双刃剑。虽然 RAVEN 中 CNN 在大小预测上的性能在 2x2Grid 和 3x3Grid 上仅略有不同,但它们的推断精度却相差很大。

之所以会出现这种差异,是因为随着对象数量的增加,对象属性的不确定性在边缘化过程中不断累积,最终导致规则预测和答案选择的性能较差。

然而,在对象较少的配置上,不令人满意的对象属性预测仍然可以产生准确的规则预测。

请注意,不能保证正确的规则一定会导致正确的最终选择,因为所选规则仍然对从对象属性分布推断的面板属性分布进行操作。

4.4生成能力

打开网易新闻 查看精彩图片

所提出的 PrAE 学习器的一个独特属性是,当给定渲染引擎时,它能够直接从预测表示生成面板。这种能力类似于双向自上而下和自下而上的推理,增加了一种在先前的仅判别性方法中通常被忽略的生成风味[17,20,53,59,70,72,75]。当 PrAE 学习器预测最终面板属性分布并以综合分析方式进行训练时,我们可以从预测分布中采样面板属性值,并使用渲染引擎渲染最终答案。

在这里,我们使用RAVEN [70]发布的渲染程序来展示PrAE学习器的生成能力。图3显示了生成结果的示例。请注意,由于渲染过程中旋转的随机采样,我们的一代与真实答案略有不同。但是,它仍然遵循问题中的规则,应该被视为正确答案。

5结论与讨论

我们提出了概率溯因与执行(PrAE)学习器,用于 Raven 渐进矩阵(RPM)中的时空推理,将问题解决过程分解为神经感知和逻辑推理。虽然现有的 RPM 方法仅仅是判别性的,但所提出的 PrAE 学习器是生成模型和判别模型的混合体,在类人、自上而下、自下而上的双向推理过程中闭合循环。在实验中,我们表明 PrAE 学习器在 RAVEN 和 I-RAVEN 上的跨配置泛化任务中取得了最佳性能。PrAE 学习器的模块化设计还允许我们探讨感知和推理在解决问题过程中如何独立工作。最后,我们通过用从概率场景表示中采样的值生成的图像填充缺失的面板,展示了 PrAE 学习器的独特生成属性。

然而,所提出的 PrAE 学习器也有局限性。正如我们的实验所示,概率溯因可能是一把双刃剑,因为当对象数量增加时,多个对象的不确定性会累积,使得整个过程对感知性能敏感。

此外,完全概率边缘化给计算可扩展性带来了挑战;它阻止我们在更复杂的配置(例如 3x3Grid)上训练 PrAE 学习器。一种可能的解决方案可能是离散的绑架过程。然而,共同学习这样一个系统并非易事。

学习者也很难基于较低级别的基元(例如线和角)进行感知和推理。

虽然从理论上讲,线条和角点的通用检测器应该能够解决这个问题,但实际上不存在性能良好的系统,除了那些具有严格的手工检测规则的系统,这会错过整个框架中的关键概率解释。

PrAE 学习器还需要有关底层逻辑关系的强大先验知识才能工作,而理想的方法应该能够自行归纳隐藏规则。

尽管精确的归纳机制对人类来说仍然未知,但一种新兴的双层优化计算技术 [10, 73] 可能能够将感知和归纳整合到一个通用的优化框架中。

当我们回答有关 RPM 中的泛化和生成的问题时,仍有一个关键问题需要解决:如何将从其他领域学到的感知转移并用于解决这一抽象推理任务。与人类可以应用从其他地方学到的知识来解决 RPM 不同,当前的系统仍然需要针对同一任务进行培训才能获得该功能。虽然特征迁移对于计算机视觉仍然具有挑战性,但我们预计在回答 RPM 中的可迁移性方面取得的进展将有助于解决类似的问题 [71,74,78] 并进一步推动该领域的发展。