代数机器推理（代码实现），打破人类认知的最大堡垒|代数|代码实现|多项式|定理|机器推理|集合论

Abstract Visual Reasoning: An Algebraic Approach for Solving Raven’s Progressive Matrices

抽象视觉推理：解决Raven渐进矩阵的代数方法

原文链接：https://arxiv.org/pdf/2303.11730

https://github.com/Xu-Jingyi/AlgebraicMR

摘要

我们引入了代数机器推理，这是一种适合抽象推理的新型推理框架。代数机器推理有效地将新颖问题求解的复杂过程转化为常规的代数计算。我们关注的基本代数对象是某个适当初始化的多项式环的理想。我们将解释如何将解决乌鸦渐进矩阵（RPMs）的问题实现为代数中的计算问题，这些问题结合了各种众所周知的代数子程序，包括：计算理想的格罗布纳基（Gröbner basis）、检查理想包含等。至关重要的是，理想所满足的额外代数结构允许对理想进行超出集合论操作的更多操作。

我们的代数机器推理框架不仅能够从给定的答案集中选择正确答案，还能够在仅提供问题矩阵的情况下生成正确答案。在I-RAVEN数据集上的实验结果达到了93.2%的准确率，显著优于当前最先进的77.0%的准确率，并超过了人类84.4%的准确率表现。

1. 引言

当我们想到机器推理时，没有什么比机器最终在智力测试和一般推理任务中超越人类的可能性更能激发我们的想象力。即使对于人类来说，在智商测试（如著名的Raven渐进矩阵，RPMs）[8]中表现出色已经是一项非凡的成就。一个典型的RPM实例由问题矩阵和答案集组成；参见图1。问题矩阵是一个 3 × 3 的面板网格，满足某些隐藏规则，前8个面板填充有几何实体，第9个面板是“缺失”的。目标是从给定的答案集中的8个面板中推断出最后一个面板的正确答案。

解决RPMs的能力被认知科学家称为流体智力的典型展示。“流体”一词暗示发现新关系和抽象的心理敏捷性[56]，特别是对于解决以前未遇到的新问题。因此，抽象推理在解决新问题方面被广泛誉为人类智能的标志[9]。

尽管机器推理最近取得了许多进展[29, 32, 59, 60, 62, 63, 73, 75, 83, 84]，但一个常见的批评[13, 49, 50]是，现有的推理框架专注于涉及广泛训练的方法，即使是在解决像RPMs这样已建立的推理测试时。或许最相关的是，如[13]所述，诸如RPMs的推理任务不应需要针对任务特定的性能优化。毕竟，如果机器通过在任务特定数据上训练来优化性能，那么该任务对机器来说不可能是新颖的。

为了更好地模拟人类推理，我们提出了所谓的“代数机器推理”，一个非常适合抽象推理的新推理框架。我们的框架无需针对任务特定数据优化性能即可解决RPMs，类似于一个天才儿童无需练习RPMs即可解决RPMs。我们的关键起点是将概念定义为一些适当初始化的多项式环的理想。这些理想被视为代数机器推理中的“实际研究对象”，无需为其分配任何数值。我们将阐述RPM任务如何被实现为涉及理想的代数计算问题。

我们的推理框架大致可分为两个阶段：(1) 代数表征，和 (2) 代数机器推理；参见图2。在第一阶段，我们基于从对象检测模型提取的感知属性值，将RPM面板表示为理想。在第二阶段，我们提出了4个不变性模块，从RPM问题矩阵中提取模式。

总结来说，我们的主要贡献如下：

• 我们将“解决RPM任务”简化为“解决代数中的计算问题”。具体来说，我们展示了抽象模式的发现如何可以非常具体地被实现为代数计算，即理想的主分解。

• 在我们的代数机器推理框架中，我们引入了4个不变性模块，用于提取对人类有意义的内容。

• 我们的框架不仅能够从给定的答案集中选择正确答案，还能无需任何给定答案集生成答案。

• 在RAVEN和I-RAVEN数据集上进行的实验表明，我们的推理框架显著优于最先进的方法。

2. 相关工作

RPM求解器 最近对使用基于深度学习的方法解决RPMs（Raven渐进矩阵）表现出浓厚兴趣[29, 43, 62, 84, 85, 88–91]。大多数方法使用神经网络从原始RPM图像中提取特征，并通过测量面板相似性选择答案。一些研究则专注于在无需答案集的情况下生成正确答案[55, 64]。为了评估这些方法的推理能力，提出了类似RPM的数据集，如PGM[62]和RAVEN[83]。随后，I-RAVEN[26]和RAVEN-FAIR[5]被引入，以克服RAVEN答案集生成中的捷径缺陷。

AI中的代数方法 在AI中使用代数方法并不新鲜。多项式方程系统常见于计算机视觉[57]和机器人学[12]中，通过Grobner基计算进行代数求解。在统计学习理论中，代数几何[78]和代数统计[15]的方法被用来研究统计模型中的奇点[40, 79, 80, 82]，分析分层模型中的泛化误差[76, 77]，学习概率分布的不变子空间[34, 38]，以及建模贝叶斯网络[16, 70]。这些工作的共同主题是研究适当定义的代数簇。在深度学习中，代数方法被用来研究神经网络的表达能力[11, 31, 45, 87]。在自动定理证明中，Grobner基计算被用于证明检查[68]。最近，一种一阶逻辑的矩阵表示被应用于RPM任务[86]，其中关系由矩阵近似，推理被框架化为找最佳拟合矩阵算子的双层优化任务。据我们所知，交换代数的方法尚未用于机器推理。

4. 讨论

代数机器推理为超越数值计算的机器推理提供了一个全新的范式。推理任务中的抽象概念被非常具体地编码为理想，这些是可计算的代数对象。我们将理想视为“实际研究对象”，并不需要为它们分配数值。这意味着我们的框架能够推理更多定性或抽象的概念，这些概念自然上不具有相关的数值。新颖的问题解决，例如从观察中发现新的抽象模式，被具体实现为对理想的计算（例如，计算理想的主分解）。特别是，我们并不是在求解多项式方程组，这与AI中代数的现有应用（参见第2节）形成对比。变量（或原始实例）未被赋值。我们不以输入值评估多项式。

从理论的角度看，我们提出的方法开辟了新天地。我们建立了机器推理和交换代数之间的新的联系，这两个领域此前完全无关。交换代数已有超过一个世纪的非常深厚的研究成果尚未被利用。代数方法可能是解决机器推理中长期存在的基本问题的关键吗？直到2014年，Leon Bottou[6]才建议人类应该“从头开始构建推理能力”，他推测缺失的成分可能是一种代数方法。

为什么使用理想来表示概念？为什么不使用集合？为什么不使用符号表达式，例如多项式？直观上，我们认为一个概念是一个“总括术语”，包含多个（可能无限多个）概念实例。将概念仅仅视为实例的集合不足以捕捉人类推理的表达力。一个仅具有有限“原始集合”的集合论表征系统总共只能有有限个可能的集合。相比之下，我们证明仅从有限个原始概念中可以构造出无限多个概念（定理3.1）。这与我们的直觉一致，即人类能够仅从有限个原始概念中表达无限多个概念。主要原因是理想的“更丰富”的代数结构允许对理想执行远超集合论运算的更多操作。有关进一步讨论，参见附录A.4。

为什么我们的代数方法从根本上不同于基于逻辑的方法，例如基于逻辑编程的方法？基于逻辑的推理的核心思想是将推理具体实现为逻辑表达式的解析（或逆解析）。这一思想中固有的概念是可满足性；参见[28]。直观上，我们有一个逻辑表达式，通常以规范形式表示，我们希望为逻辑表达式中的字面量分配真值（真或假），以使整个表达式得到满足（即真值为“真”）；有关更多讨论，参见附录C.1。事实上，自动定理证明[2, 27, 36, 39, 81, 92]的许多激动人心的进展都基于逻辑推理。

相比之下，代数机器推理建立在计算代数和计算机代数系统之上。我们代数方法的核心思想是将推理具体实现为解决代学中的计算问题。关键是，没有可满足性的概念。我们不对 R = k[x1, ..., xn] 中的概念分配真值（或数值）。特别是，尽管 R 中的原始概念 h x1i, ..., h xni 对应于变量 x1, ..., xn，我们不对原始概念赋值。相反，理想被视为“实际研究对象”，我们将“解决推理任务”简化为“解决涉及理想的非数值计算问题”。此外，我们的框架可以发现超出RPM任务实际规则的新模式；参见第5.2节。

在RPM任务中，我们有表示“位置”、“数量”、“类型”、“大小”和“颜色”的属性概念；这些概念根据它们的语义将原始实例分类为人类称为属性的类别。直观上，一个属性概念以对任务“有意义”的方式将某些原始概念组合在一起。例如，作为一个“更简单”或“更广义”的概念比更有意义，因为我们会将视为单一更广泛的“颜色”概念的实例。

请注意，原始概念精确对应于我们对象检测模型的预测类别。这些预测类别已经由现有数据隐式识别。因此，我们的方法受到我们的感知模块所能感知的限制。对于其他任务，例如可以获取文本数据的情况，可以使用实体提取方法来识别原始概念。另请注意，我们的方法需要先验知识，因为推理模块没有训练步骤。如果我们用通过深度学习优化的可训练函数替换用户定义的概念函数，可以缓解这一限制。一般来说，属性概念的识别是任务特定的，推理性能将很大程度上依赖于这些识别出的属性概念。实际上，我们选择属性概念将决定我们推理框架的归纳偏见：当我们将概念 J 分解为“更简单”的概念（即 pd(J) 中的初级成分）时，仅那些包含在属性概念中的“更简单”概念被视为“有意义的”。具体来说，设 J, J' ⊆ R 是概念，使得 pd(J) = {J1, ..., Jk} 和 pd(J') = {J1', ..., J'`'}，即 J, J' 分别具有最小主分解 J = J1 ∩ · · · ∩ Jk 和 J' = J1' ∩ · · · ∩ J`'`。我们可以检查它们的初级成分，并提取出（在两个主分解之间）包含在某些共同属性概念中的初级成分。例如，如果 A 是 R 的一个属性概念，使得 J1 ⊆ A 且 J1' ⊆ A，那么 J 和 J' 共享一个“共同模式”，由属性概念 A 表示。

3. 提议的代数框架

在抽象推理中，一个关键的认知步骤是从观察中“发现模式”，这可以具体表述为“在观察中寻找不变性”。在本节中，我们描述了如何使用被称为理想的代数对象来表示RPM实例，如何从这些代数表征中提取模式，以及如何将RPMs作为代数中的计算问题解决，既适用于答案选择，也适用于答案生成。

3.1. 预备知识

大多数涉及理想的代数计算，特别是“高级”操作（例如主分解），都需要计算它们的Grobner基作为关键的初始步骤。更广泛地说，Grobner基计算构成了代数中大多数算法的支柱；参见附录A.2。

主分解 在交换代数中，理想的主分解是整数质因分解概念的远大概括。其对代数学家的重要性不言而喻。非正式地，每个理想 J 都可以分解为有限多个初级理想的交集 J = J1 ∩ · · · ∩ Js。这种交集被称为 J 的主分解，每个 Jj 被称为分解的初级成分。在 J 是一个单项式理想的特殊情况下，存在一个具有最大单项式初级成分的唯一最小主分解[4]；我们用 pd(J) 表示这组唯一的初级成分。有关详情，参见附录A.3。

3.1.2 概念作为单项式理想

我们将一个概念定义为 R 的单项式理想。特别是，零理想 h0i ⊆ R 是“空”概念，可以解释为“不可能”或“无”，而理想 h1i = R 是“可想”概念，可以解释为“可能”或“一切”。给定一个概念 J ⊆ R，J 中的单项式被称为该概念的实例。例如，xblackxsquare 是 h xsquarei（“正方形”概念）的实例。对于每个 xi，我们说 h xii ⊆ R 是一个原始概念，而 xi 是一个原始实例。

定理 3.1. R 中有无限多个概念，尽管 R 中只有有限多个原始概念。此外，如果 J ⊆ R 是一个概念，则以下情况成立：

(i) J 有无限多个实例，除非 J = h0i。

(ii) J 有一个由有限多个实例组成的唯一最小生成集，我们用 mingen(J) 表示。

(iii) 如果 J = h1i，则 J 有一个关联概念的唯一集合 {P1, ..., Pk}，以及一个唯一的最小主分解 J = J1 ∩ · · · ∩ Jk，使得每个 Ji 是一个包含在 Pi 中的概念，即在所有可能包含在 Pi 中的初级成分中是最大的概念。

有关定理 3.1 的证明以及为什么将概念定义为单项式理想能够捕捉人类推理中概念的表达力，参见附录 A.4 及更多详情。

3.2. 第一阶段：代数表征

我们将使用图1中描绘的RPM实例作为贯穿始终的示例，以展示整个代数推理过程：(1) 代数表征；和 (2) 代数机器推理。在本小节中，我们关注第一阶段。回想一下，每个RPM实例由填充有几何实体的16个面板组成。对于我们的运行示例，每个实体可以使用4个属性描述：“颜色”、“大小”、“类型”和“位置”。我们还需要一个额外的属性来表示面板中实体的“数量”。

3.2.1 属性概念

在人类认知中，某些语义上相似的概念自然会被分组形成一个更加通用的概念。例如，“红”、“绿”、“蓝”、“黄”等概念可以被分组形成一个代表“颜色”的新概念。直观上，我们可以将“颜色”视为一个属性，而“红”、“绿”、“蓝”、“黄”视为属性值。

对于我们的运行示例，5个属性由5个概念（单项式理想）表示。通常，每个属性的所有可能值都被编码为代表该属性的概念的生成元。然而，为了便于解释，我们仅考虑图1中涉及的属性值来解释我们的示例：

3.2.2 RPM面板的表征

为了代数地编码RPM图像，我们首先需要训练感知模块直接从原始图像中提取属性信息。在我们的实验中，一种可能的感知方法是分别训练4个RetinaNet模型（每个模型具有ResNet-50骨干网络），用于除“数量”外的所有4个属性，“数量”可以通过直接计数边界框的数量来推断。

在提取实体的属性值后，我们可以将每个面板表示为一个概念。例如，图1中RPM的左上角面板可以编码为多项式环 R 中的概念。这里，J1,1 表示一个包含两个实体的面板，左边是一个平均大小的黑色正方形，右边是一个平均大小的灰色三角形。J1,1 中的索引告诉我们该面板位于第1行，第1列。类似地，我们可以将问题矩阵的其余7个面板编码为概念，并将8个答案选项编码为概念 Jans1、...、Jans8。通常，每个概念的单项式生成元描述相关面板中的一个实体。

由8个概念 J = [J1,1, ..., J3,2] 组成的列表将被称为概念矩阵；这表示带有缺失第9个面板的RPM问题矩阵。令 Ji := [Ji,1, Ji,2, Ji,3]（对于 i = 1, 2）表示问题矩阵中的第 i 行。

3.3. 第二阶段：代数机器推理

在第3.2节中，我们已经将RPM实例中的问题矩阵编码为概念矩阵 J = [J1,1, ..., J3,2]。在本小节中，我们将介绍我们代数框架的推理过程。

我们提取 J 某一行模式的目標可以数学上表述为“在代表该行面板的概念之间寻找不变性”。（相同的过程可以应用于列。）这个看似不精确的“寻找不变性”概念可以通过主分解的计算非常具体地实现。理想情况下，我们希望提取对人类有意义的内容。因此，我们设计了4个不变性模块，以模仿人类在模式识别中的认知。

3.3.1 先验知识

为了使用代数机器推理，我们采纳：

J∩ 是以两种不同方式捕获整个序列 J1, ..., Jk 信息的概念。接下来，我们计算 J+ 和 J∩ 的公共初级成分，这些成分包含在属性概念中。最后，我们返回与这些公共初级成分相关的属性：

2. 互不变性模块提取 pd(J∩) 和 pd(J+) 之间集合差引起的模式。之后，我们检查这些提取的模式在多个序列中的不变性。提取的模式集为：

其中 I 是一组概念，“−”指集合差。我们省略 pd(J+)，以避免重复计算前一模块已提取的模式。非正式地，对于每对 (attr, I)，I 中的概念可以解释为那些至少对应于中的一个、但不对应于的所有概念，并且包含在中的“主要”概念。

3.4. 解决RPMs

3.4.1 答案选择

在第3.3.4节中，我们描述了如何使用4个不变性模块提取逐行的模式。因此，答案选择的一个自然方法是确定哪一个答案选项，当替换缺失面板时，能最大化所有三行共有的模式数量。因此，答案选择简化为一个简单的优化问题；参见算法1。

3.4.2 答案生成

由于我们的代数机器推理框架能够提取隐藏在原始RPM图像中的对人类有意义共有的模式，它提供了一种无需给定答案集就能生成答案的新方法。这类似于一个天才人类能够通过首先识别前两行的模式，然后推断缺失面板应该是什么来解决RPM任务。直观上，我们应用4个不变性模块的“逆”操作来生成代表缺失面板的概念；有关概述，参见算法2。

简而言之，对于给定的RPM概念矩阵 J，我们首先通过计算前两行之间的共同模式；参见(1)。P1,2(J) 中的每个元素是一个对 (K, Jˇ)，其中 K 是一个特定于单一属性的共同模式（针对第1行和第2行），Jˇ 是相应的概念矩阵。（这代表天才人类进行模式发现的困难步骤。）然后，我们遍历所有共同模式，计算缺失第9个面板的属性值。（这代表对发现的模式进行常规一致性检查；有关完整的算法细节，参见附录B.2，以及附录B.3的示例。）

通常，在整合 P1,2(J) 中模式的属性值以得出 J3,3 时，可能会出现以下情况：(i) 实体对于单一属性有多个可能的值；或 (ii) 实体缺少属性值。情况 (i) 发生在为单一属性提取多个模式时，而情况 (ii) 发生在该属性没有非冲突模式时。对于这两种情况，我们从可能的值中随机选择一个属性值。

5. 实验结果

为了展示我们框架的有效性，我们在RAVEN[83]和I-RAVEN数据集上进行了实验。在两个数据集中，RPMs根据7种配置生成。我们在I-RAVEN[26]的4200张图像上训练了我们的感知模块（每种配置600张），并使用它们预测实体的属性值。我们的感知模块的平均准确率为96.24%。对于两个数据集，我们对每种配置的2000个实例进行了测试。总体而言，我们的推理框架速度很快（在16核Gen11 Intel i7 CPU处理器上处理14000个实例仅需7小时）。有关完整的实验细节，参见附录B。

5.1. 与其他基线的比较

表1比较了我们方法与10个其他基线方法的表现。我们使用[26, 89]中报告的I-RAVEN上的准确率作为方法1-7的结果，使用[83, 89]中报告的RAVEN上的准确率作为方法1-5的结果。其余的准确率均来自原始论文。作为参考，我们还包括[83]中报告的RAVEN数据集（即非I-RAVEN）上的人类表现。

5.2. 模糊实例和新模式

尽管我们的方法优于所有基线，但有些实例在我们的框架中被分配了相等最高分数的多个答案选项。这些情况大多因发现(i) “偶然”的非预期规则（例如图3）；或(ii) 数据集中实际规则之外的新模式（例如图4）而发生。情况(i) 发生的原因是，在I-RAVEN的设计中，每个属性最多分配一个规则。有趣的是，情况(ii) 揭示了我们的框架能够发现完全不在I-RAVEN原始设计规则中的新模式。在图4中，发现的新模式对于人类来说显然非常自然。

5.3. 答案生成的评估

假设每个RPM实例在给定的答案集中有一个正确答案。然而，还有多个其他可能的图像也可以被接受为正确答案。例如，通过随机扰动不涉及任何规则的属性（例如I-RAVEN数据集中实体的角度）修改的给定正确答案图像也是正确的。所有这些不同的正确答案（图像）可以根据RPM任务相关原始感知属性的先验知识，代数地编码为相同的概念。因此，为了评估第3.4.2节中提出的答案生成过程，我们将直接评估生成的概念。

设分别表示真实答案和我们生成的答案的概念。这里，每个是形式为的单项式，表示由4个属性描述的实体。受众所周知的交并比（IoU）思想的启发，我们提出了一种新的 J 和 J' 之间的相似性度量。为了定义类似“交集”和“并集”的概念，我们首先将 ei 与 e'j 配对，如果 x^(i_pos) = x'^(j_pos)（即相同的“位置”值）。这种配对是定义良好的，因为任何面板中实体的“位置”值是唯一确定的。因此，我们可以将 J 和 J' 中的所有实体分组为3个集合：

在公式 (3) 中， a 表示 4 个属性集合 { pos, type, color, size } 中的一个。这里， φ ( e i , e j ′ ) 表示元素 e i 和 e j ′ 之间的相似度分数，以公共变量的比例来衡量。

生成答案的整体平均相似度得分为 67.7%。需要注意的是，在某些面板中，比如 2x2 网格、3x3 网格、内外网格（例如图 3 所示），某些属性值（如“大小”“颜色”“位置”）可能是完全随机的。因此，在这些情况下获得较高的相似度分数本质上需要特定任务的优化和对数据生成方式的了解，但我们并未假设这些知识。这可能解释了为什么整体相似度得分低于答案选择的准确率。

有关生成图像的示例，请参见附录 B.5。

6. 结论

代数机器推理是一种非常适用于抽象推理的推理框架。在目前的形式中，我们利用主分解作为关键代数操作，通过专门设计的“不变模块”来模拟人类推理，从而在 RPM 任务中发现抽象模式。将“发现共同模式”的思想具体实现为“计算主分解”是一个非常广泛的思路，可能也适用于其他推理任务。

更广泛地说，我们的代数方法为利用庞大的交换代数和计算代数文献开辟了新可能。关于理想的众多代数操作（如理想商、根、饱和等）和代数不变量（如深度、高度等），在机器推理甚至整个 AI 领域中都尚未被充分探索。我们能否利用这些工具来解决其他推理任务？

附C：

C. 进一步讨论 C.1. 为什么代数机器推理与基于逻辑的推理不同？

逻辑是推理的基础。逻辑编程[3, 28, 41]是一种基于逻辑的编程范式，作为基于逻辑的推理方法的基础计算框架。在基于逻辑的推理方法中，核心思想是推理可以非常具体地实现为逻辑表达式的消解（或逆向消解）。这一思想内在地包含了可满足性的概念；参见[28]。直观上，我们有一个逻辑表达式，通常以某种标准范式表达，我们希望为逻辑表达式中的文字（true或false）分配真值，使得整个逻辑表达式得到满足（即真值为“true”）。事实上，当今自动定理证明领域[2, 27, 36, 39, 54, 74, 81, 92]中许多令人兴奋的进展都基于基于逻辑的推理。

相比之下，代数机器推理本质上不是基于搜索的。在解决RPM（关系推理矩阵）任务时，发现的新模式是通过代数计算得出的。对于RPM答案生成任务，我们不是在所有候选答案的（庞大）空间中搜索有效答案，而是直接计算出我们的答案。模式发现变成了计算：我们在计算各种初级分解，并计算哪些初级分量包含在属性概念中。对于RPM答案选择任务，我们将其作为“计算并选择”问题来解决。对于RPM答案生成任务，我们在可能的情况下从提取的模式中计算属性值，并为未参与提取模式的实体的属性随机选择属性值。

C.2. 代数机器推理的潜在社会影响

代数机器推理有可能帮助自动化目前人类执行的“较容易”的推理任务。在教育领域，代数机器推理可以帮助设计更好的智力测试。在金融领域，我们的框架可以帮助处理个人银行贷款申请或检测欺诈行为，基于这些案例的不变特征。然而，也可能存在负面的影响。我们的推理过程是基于从少量示例中提取模式（如在RPM任务中）并进行泛化。如果银行贷款申请或欺诈案例已经被不公平地与某些社会经济群体相关联，那么这种不平等也会在我们的推理框架中被传播。

我们框架的另一个潜在下游应用是在医学诊断中。基于患者报告的症状和过去的病史进行的诊断决策可以被建模为推理任务。具体症状和医疗状况可以被编码为概念，最终的医学诊断有可能被计算出来。如果得到适当实施，用于医学诊断的代数机器推理框架将显著加快诊断决策过程，并降低医学诊断的成本。不幸的是，尽管这种应用带来了明显的益处，但也伴随着伦理问题。如果医生使用代数机器推理来辅助诊断决策时做出了错误的医学诊断，谁应该承担责任？推理框架的创造者是否需要承担法律责任？

偏见也可能存在于机器推理框架的人类编码过程中。如果编码的概念反映了现有的人类偏见，那么推理输出可能是有缺陷的，但看起来似乎“合理”。对于任何将代数机器推理应用于法律或刑事案件的未来应用，必须在评估和处理与每一方相关的信息（概念）时格外小心。尽管公平性超出了我们框架的范围，但我们的方法可能会揭示潜在的误用。

最后，由于代数机器推理能够在RPM任务（最初设计用于评估一般人类智力和抽象推理的智力测试）上超越人类表现，我们的工作实际上正在打破人类认知的一个最大堡垒。

原文链接：https://arxiv.org/pdf/2303.11730