计算意象中的视觉抽象推理：4个研究问题|人工智能|推理|视觉

Visual Abstract Reasoning in Computational Imagery

计算图像中的视觉抽象推理

https://ojs.aaai.org/index.php/AAAI/article/view/30416/32483

摘要

尽管当前的人工智能表现出类似人类的行为、极高的效率以及处理复杂游戏的惊人能力，我们仍然抱怨它在其训练集之外没有显示出任何创造力、独创性或新颖性，并且它无法从旧经验中发展出新的见解，也无法建立对新经验的理解。简而言之，它从其训练集中生成内容，但不会创造内容。其根本原因是当前的人工智能无法以一种抽象、可泛化和系统化的方式进行抽象和推理。试想一下，如果我们有一个能够回答这样一个简单问题的基础系统——“两件事物何时相同”——我们可以构建什么样的人工智能系统。

与其研究这些高层次的问题，我将我的论文置于视觉抽象推理（VAR）的背景下，这是一种在人类智力测试中广泛使用的任务。这类任务的一个经典例子是瑞文渐进矩阵（RPM，见图1），这是一系列旨在测量教育能力的智力测试，即从混乱中提炼意义并生成易于处理复杂性的高级、通常是非语言的模式的能力。与教育能力类似的概念是流体智力，即在没有现成答案存储在记忆中时，能够辨别和感知复杂关系的能力。无论是教育能力还是流体智力，RPM都指向了人工智能所缺乏的品质。为了探索人工智能中的这些品质，我提出了以下研究问题。

研究问题

RQ1 在构建任何人工智能系统、解决瑞文渐进矩阵（RPM）并宣称胜利之前，或许值得探究RPM是如何衡量教育能力或流体智力的，这显然并不像测量一个人的体重和身高那样简单。此外，现有的解决RPM的计算模型（包括认知系统和人工智能系统）的相关研究可以为设置相关研究问题提供有益的指导。因此，我的论文的第一组研究问题是：

RPM究竟衡量了什么？它是如何衡量这些内容的？
RPM所代表的完整任务领域是什么？也就是说，该任务领域中还有哪些其他任务？
当前的人工智能系统是如何解决RPM以及类似RPM的任务的？

为了回答这些问题，我对瑞文渐进矩阵（RPM）的心理测量学起源、用于人类和人工智能测试的其他类似RPM的任务，以及自20世纪60年代以来解决这些问题的计算模型进行了全面的综述（Yang and Kunda 2023 上面的目录）。这次综述的主要收获是，测试这种无形的认知能力归结为测试受试者在陌生环境中实时的学习潜力。例如，给定一个陌生的视觉谜题，受试者需要提取高级模式（即抽象概念）来解释和解决谜题；然后呈现第二个视觉谜题，基于在第一个谜题中获得的知识，但需要更多的智力努力来学习更复杂的高级模式；接着呈现一个更复杂的第三个谜题，基于在第二个谜题中获得的知识；这个过程不断重复，直到涵盖人类能够处理的所有难度级别。整个测试是一个谜题阶梯，每一级都使受试者能够迈向下一个阶梯，而受试者能够达到的最大高度则是衡量其认知能力的指标。

RQ2 很难想象我们如何能够构建或训练一个人工智能来解决完全未知的智力测试，就像人类受试者在标准测试中解决它们一样。然而，这次综述确实揭示了一个与我们当前人工智能范式相匹配的关键信息——学习潜力。在许多人工智能研究中，研究人员构建学习模型并测试它们的学习能力，但测试环境远比人类智力测试简单得多。似乎不可能直接构建一个能够像人类一样攀登RPM阶梯的人类水平的人工智能。因此，我专注于一个单独的阶梯，并将我们的人工智能学习范式融入其中。这种阶梯的典型构建方式是通过视觉抽象推理（VAR）中的非平凡泛化。

图2展示了一个如何将人工智能的学习范式融入非平凡泛化的阶梯的示意图。这是一个序列补全任务。学习模型将在绿色方框中的序列上进行训练，并在红色方框中的序列上进行测试。每个序列都以视觉形式呈现，并由一个抽象概念和一个感知元素特征化。训练集包含了解决测试集所需的所有必要的抽象概念和感知元素，但它们在测试集中的组合方式与训练集中不同。解决测试集需要额外的智力努力，而不仅仅是简单地应用已有的知识。这种泛化是非平凡的，因为测试集实际上需要对已学习的感知元素赋予新的含义，并对已学习的抽象概念进行新的解释——这对当前的训练-测试范式来说显然是一个明显的挑战。目前没有任何学习模型在基准数据集上展示了这种泛化能力（Barrett et al. 2018）。

一个可能的解决方案是实现感知处理和概念处理之间的动态互动。通过这种互动，感知和概念处理能够编码将抽象概念应用于感知刺激以及从抽象概念中推导感知刺激的底层过程。我们最初实现了这一解决方案，并在平凡泛化的基准数据集上取得了令人满意的性能（Yang et al. 2023）。因此，第二个研究问题是：感知处理和概念处理之间的互动机制能够在多大程度上帮助人工智能在视觉抽象推理中实现非平凡泛化。

RQ3 对人类解决瑞文渐进矩阵（RPM）的方式进行反思，可以说我们是通过视觉来解决这个视觉抽象推理任务的。用认知心理学的术语来说，我们可以利用心理意象来解决RPM。心理意象是一种可以通过心理操作的图像化表征。心理意象的支持者认为，心理意象在人脑中的运作方式是其他更高层次认知能力所依赖的生物学/神经基础。它对人类认知以及构建人工智能系统都很重要，因为它允许抽象概念被具象化并应用于视觉刺激以生成心理意象。即使在现实中这种抽象概念的应用是不可能的或尚未存在的，这也是可能的。因此，心理意象对于在陌生情境中的灵活性和泛化能力以及创造力来说是一种重要的认知能力。鉴于意象的这些优势，第三个研究问题是：当在人工智能中计算地实现意象时，它是否足以解决视觉抽象推理任务。已经有初步的研究探索了这一方向（Yang, McGregor, and Kunda 2020; Yang et al. 2022）。

RQ4 然而，心理意象可能并非人类认知的唯一基础。在认知科学中，关于意象的争论已经持续了数十年，但仍未得到解决，另一个主要竞争者是命题表征。除了认知科学之外，人工智能研究人员也面临着类似的关于不同表征的争论。无论人类认知使用哪种表征（意象或命题，或两者兼有），它都能在所有情境中支持强大的认知能力，但在人工智能中选择一种表征而放弃另一种通常意味着在某些场景中存在显著的局限性。因此，使用意象的人工智能系统的棘手之处在于如何实现人类水平的鲁棒性。一个可能的解决方案是将纯基于意象的系统扩展为基于意象的生成系统。这种解决方案的一个非常原型的例子是生成模型，例如自编码器和生成对抗网络（GAN）。这些模型之所以是原型，是因为它们是扁平和静态的，不涉及抽象概念的复杂结构、动态的感知和感知过程，或者多步推理能力。考虑一个人类通过视觉解决RPM的情况：她会逐行逐列地检查矩阵条目，应用图像操作，并生成许多中间结果；她还会在行和列之间进行类比，这种类比高于行和列所体现的概念；当涉及多个概念和感知元素时，她会迭代处理每一个，可能撤销先前的结果并重新进行。当前的生成模型无法实现所有这些程序并将它们有效地协调起来。因此，最后一个研究问题是：如何将生成模型扩展为能够产生灵活的意象推理过程的生成系统。到目前为止，还没有人对这一研究问题进行过研究。

原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/30416/32483