抽象与推理语料库发展之策|推理|示例|神经网络|语料库

https://arxiv.org/pdf/2505.08778

ARC-NCA: Towards Developmental Solutions to theAbstraction and Reasoning Corpus

ARC-NCA：抽象与推理语料库发展之策

摘要

最初命名为ARC，后更名为ARC-AGI的抽象与推理语料库 （Abstraction and Reasoning Corpus）在通用人工智能（AGI）领域提出了一个根本性的挑战。它要求解决方案能够在多样化的任务中展现出强大的抽象和推理能力，而每项任务仅提供少量正确示例（中位数为三个）。虽然ARC-AGI对人工智能系统来说仍然极具挑战性，但人类却相对容易解决。

本文介绍了ARC-NCA ，这是一种基于发育式方法 （developmental approach）的模型，利用标准的神经细胞自动机（Neural Cellular Automata, NCA）以及增强型NCA——带隐藏记忆的EngramNCA （EngramNCA）来应对ARC-AGI基准测试。选择NCA是因为它们天生具备模拟复杂动态和涌现模式的能力，能够模仿生物系统中观察到的发育过程。

采用发育式解决方案可能为提升AI的问题解决能力提供一条有前景的道路，使其超越单纯依赖训练数据进行外推的传统方式。ARC-NCA展示了如何将“发育原理”整合进计算模型，从而促进自适应的推理与抽象能力的发展。

我们表明，ARC-NCA的概念验证结果可以与甚至有时超过ChatGPT 4.5的表现相当，而所需成本却低得多。

引言

通往通用人工智能 （AGI）的发展道路，需要一些能够严格评估智能体在抽象、泛化和推理方面能力的基准测试。由（Chollet，2019）提出的抽象与推理语料库 （Abstraction and Reasoning Corpus, ARC）就是这样一个基准之一。它包含了一系列视觉模式转换任务，每个任务仅通过少量输入-输出示例定义，挑战AI模型推断出其中隐藏的转换规则，并将其应用于新的实例。

测试对由两个部分组成：一个“输入网格”（input grid），这是一个矩形细胞阵列，尺寸各异（最多30行×30列），每个单元格中包含十个不同“值”中的一个；以及一个“输出网格”（output grid），其完全由输入网格的属性和结构决定。图1展示了一个这样的任务。目标是通过观察示例对来理解问题的本质，并利用这种理解为每一个给定的测试输入生成相应的输出网格。对于每个输入网格可以尝试两次。

每一项任务都是由人类设计者手工制作的，具有独特的逻辑结构，因此很难提前为每一项任务做准备。这种对少样本学习 的强调以及对广泛泛化能力的需求，使得ARC-AGI对于当前的人工智能系统来说极具挑战性。

相比之下，人类在这些任务上表现出色，他们依靠先天的认知能力，在极少数例子下就能识别模式并进行抽象推理。这种差异突显了当前AI方法的一个根本性缺陷，并表明我们需要新的解决思路。

一个有前景的方向是发育式计算 （developmental computation），其灵感来自生物系统中观察到的发育过程。神经细胞自动机 （Neural Cellular Automata, NCA）（Gilpin, 2019；Mordvintsev等，2020；Nichele等，2017）正是这一方向的代表。NCA是一种计算模型，其中网格上的每个单元根据由神经网络控制的局部交互来更新自身状态，从而涌现出复杂的全局模式。因此，NCA被用作生物形态发生 （biological morphogenesis）的模型（Ranazzo和Mordvintsev，2023；Stovold，2023；Pontes-Filho等，2022；Sudhakaran等，2021），即在发育过程中局部细胞相互作用形成有序结构（如身体和大脑）。此外，生物大脑还使用一些可能模仿发育过程的认知机制，通过动态、迭代和自组织的过程来促进推理、抽象和问题解决。例如：通过与环境互动不断迭代优化心理图式（McVee等，2005；Neumann和Kopcha，2018）；通过层级结构分解任务为子任务（Botvinick等，2009；Meunier等，2009）；以及通过预测建模来预判结果并主动调整解决方案（Friston，2003；Seth，2014；Millidge等，2021）。

本研究检验的核心假设是：NCA的发育特性是否特别适合处理类似ARC-AGI基准中的任务。

在过去几年中，大多数针对ARC-AGI的方法依赖于离散程序搜索 （discrete program search），这是一种暴力枚举的方法。最近，大型语言模型 （LLMs）以多种方式被用于该任务，包括用于优化特定领域语言（Chollet等，2024）。此外，LLMs也被用于程序合成（program synthesis），旨在生成通用编程语言（如Python）的程序来解决问题。测试时训练 （test-time training），也称为推理时微调 （inference-time fine-tuning），在过去几个月中变得相当流行，目的是基于未见过的测试样本来进行推理阶段的适应。通常，混合方法，包括程序合成与变换（transductions，即直接提示LLM）被结合起来使用。然而，解决ARC仍然是一个开放性问题，真正的解决方案可能仍存在于尚未探索的模型选择领域中。

本文提出ARC-NCA ，一种新颖的方法，利用标准神经细胞自动机 （Mordvintsev等，2020）的发育动力学及其增强版——带有隐藏记忆状态的EngramNCA （Guichard等，2025）来应对ARC-AGI基准测试。据我们所知，这是首次将NCA应用于二维的ARC-AGI基准测试。除了标准NCA外，我们还选择了EngramNCA，因为它依赖于先学习低层次形态和操作机制，然后通过调控机制决定何时何地激活和传播这些原始操作，这种机制被认为非常适合抽象和推理任务。

通过模拟生物发育和认知发展的原理，我们的模型旨在捕捉类人抽象与推理的关键方面。我们的ARC-NCA方法可被视为一种程序合成方法 ，其中为特定任务生成定制化的NCA（即“程序”），并通过类似于测试时训练的微调过程实现。我们的概念验证结果显示，ARC-NCA的表现可以达到甚至超过现有模型（包括ChatGPT 4.5，详见结果与讨论章节），但所需的计算资源却显著减少。我们希望这项工作能激发人工生命社区对抽象与推理新方法的兴趣。

相关工作

将细胞自动机 （CA）模型，以及广义上的形态发生模型 （Wolfram, 1997）应用于ARC-AGI基准测试（Chollet, 2019）仍然是一个尚未被充分探索的领域。然而，CA研究中的一些进展表明，将CA方法应用于ARC任务具有潜在的可能性。

特别是，一种为学习CA规则开辟新机会的架构选择是神经细胞自动机 （Neural Cellular Automata, NCA）（Gilpin, 2019；Mordvintsev等，2020；Nichele等，2017），其中用神经网络取代了传统的CA查找表。NCA曾被（Variengien等，2021）提出作为可能的具身控制器，他们将NCA与强化学习环境闭环连接，从而展示了一个自组织的“大脑”。

另一个有趣的研究方向是临界NCA （critical NCAs）（Pontes-Filho等，2023；Guichard, 2024），即运行在混沌边缘 （edge-of-chaos）（Langton, 1990）状态下的CA模型，这可能是一种强大的预训练策略。

在图像处理方面，（Tesfaldet等，2022）提出了一个名为视觉Transformer细胞自动机 （Vision Transformer Cellular Automata, ViTCA）的模型，其灵感来自Transformer架构（Vaswani等，2017），并在模型中引入了注意力头（attention heads）。(Reimers等，2023) 提出了带有局部自注意力机制的变体，而 (Kvalsund等，2024) 则介绍了一种进化出的类注意力机制。

总体而言，Transformer可以学习基本的CA规则（Burtsev, 2024），这为未来将CA与大型语言模型（LLMs）结合用于ARC-AGI提供了令人兴奋的可能性。

一项采用进化方法的工作是（Fischer等，2020），其中使用了语法进化 （grammatical evolution）来优化一种特定领域语言中的表达式，以实现逐层递进的图像变换。

(Faldor和Cully, 2024) 提出了一种加速的JAX实现方式，涵盖了包括NCA在内的CA模型，并尝试使用1D-NCA来解决更简单的1D-ARC数据集（Xu等，2023）——这是ARC-AGI的一个非正式简化版本，由一维像素行组成，显著降低了任务复杂度。

关于目前主流解决ARC-AGI挑战的方法综述，包括结合深度学习技术的程序合成方法，可参考（Chollet等，2024）。

就在最近的2025年4月，OpenAI宣布其当时最强大的两个模型——o3 和 o4 mini （两种推理模型，使用支持token进行规划，并在给出答案前调用内部token执行Python代码）在ARC-AGI中取得了有希望的成绩（Chollet, 2025；Kamradt, 2025）。具体来说，在半私有评估集上，o3-low得分为41%，o3-medium为53%，o4-mini-low为21%，o4-mini-medium为41%。此外，两个使用高计算资源的o3版本（分别使用6次和1024次独立推理样本）得分分别为75.7%和87.5%，消耗的token数量分别为3350万和57亿个。据报道，使用6次推理样本的版本每样本成本为201美元，而使用1024次的版本则贵了172倍。

如此惊人的成本或许可以通过替代架构大幅降低。

模型与方法

本节详细介绍了用于获得抽象与推理语料库 （ARC）发育式解决方案所使用的模型。我们主要探索了神经细胞自动机（NCA）模型及其变体，包括标准NCA和EngramNCA（以及对其的改进版本）。

NCA模型

我们选择测试由（Mordvintsev等，2020）提出的Growing NCA ，以及由（Guichard等，2025）提出的四种版本的EngramNCA：EngramNCA v1（未经修改的标准版EngramNCA）、EngramNCA v2、v3 和 v4（经过针对ARC任务增强改进的版本）。

我们认为标准NCA模型无需过多介绍。简而言之，它被实现为一个嵌入在细胞自动机框架 中的可微神经网络 ，其中每个单元格维护一个连续状态向量，并通过卷积神经网络（CNN）根据学习到的局部更新规则进行更新。其架构如图2所示。

然而，EngramNCA是一个相对较新的模型，因此值得简要介绍。该模型的NCA具有双状态单元格 ，分别包含公开状态（基于交互）和私有状态 （基于记忆）。该模型是一个集成系统，包括：

GeneCA ：一种NCA，从编码遗传原语的种子单元格生成形态模式（见图3）；
GenePropCA ：一种NCA，负责在整个细胞网络中传播并激活这些遗传原语（见图4），类似于基于RNA的通信（Shomrat和Levin，2013）。

EngramNCA的训练分为两个阶段：

首先训练GeneCA，使其从仅使用公开可见通道进行协调的情况下，生长出包含不可更改私有记忆编码的原始形态；
然后训练GenePropCA，在不改变单元格可见状态的前提下调节其私有记忆，从而实现遗传信息在整个网格中的传递。

有关该模型的更多细节，请参见（Guichard等，2025）。

表1展示了不同的CA架构。这些增强机制的细节分别在以下章节中进行了说明：局部与全局解决方案（Local versus Global Solutions）、环形与非环形问题（Toroidal versus Non-Toroidal Problems）以及不恰当感知（Inappropriate Sensing）。

从ARC空间到NCA空间的转换

ARC数据集主要由二维整数网格组成。每个网格的尺寸可以从1×1到30×30不等，其中每个单元格的数值范围在0到9之间。

我们将ARC网格转换为适用于NCA（神经细胞自动机）格式的过程中，面临两个主要问题：

从二维整数网格到三维实数值格点的转换
NCA主要运行在一个三维格点上，其维度为 H、W、C，其中 H 表示高度，W 表示宽度，C 表示通道数。通常图像使用四个通道表示RGB−α（红、绿、蓝和透明度），也可以包含任意数量的隐藏通道。

为了将ARC网格转换为NCA可用的格点形式，我们首先假设以下两个条件：

恒定的α值 ：所有由10个整数表示的颜色都具有相同的α值1（完全不透明）
等间距颜色 ：这10种颜色（0到9）在HSL颜色空间（色相、饱和度、亮度）中是等距分布的，从0开始对应黑色。

随后，我们通过一个整数→HSL→RGB−α 的转换公式，将ARC问题转换为RGB−α格式的三维格点表示：

这里，v 是该网格位置上的整数值，n 是颜色的总数。

我们通过基于颜色的二进制编码来扩展RGB−α格点的通道维度 ，为每个像素添加额外的信息。最后，我们在通道维度上用数值“1”进行填充，以达到所需的隐藏通道数量。

处理变化的网格尺寸问题
某些ARC问题的解决方案网格尺寸与输入网格不同。这带来了一个棘手的问题，因为NCA无法修改其网格尺寸 。为了解决这个问题，我们尝试了两种方法：

忽略有问题的网格 ：在训练过程中直接移除这些样本。
最大尺寸填充法 ：将所有问题填充至最大的30×30尺寸，使用一个特殊的填充值（该值仅出现在填充区域中），并允许NCA修改填充部分的内容。

由于计算资源的限制，我们主要选择忽略有问题的网格 这一策略。不过，在“进一步实验”（Further Experiments）部分会详细说明我们使用最大尺寸填充法 所进行的实验。本文报告的所有结果均基于262个无需调整尺寸的问题 。

针对ARC任务的增强机制

ARC数据集带来了一些NCA在处理时可能遇到的特定挑战，其中一项已在“从ARC空间到NCA空间”部分中讨论过。除此之外，我们还识别出另外三项挑战：

环形与非环形问题（Toroidal versus Non-Toroidal Problems）

通常情况下，NCA是在一个环形格点 （toroidal lattice）上运行的。对于形态生成等任务来说，这种特性是有益的，因为它使得生成的形态具有位置不变性。然而，在ARC-AGI任务中，某些问题依赖于绝对位置和网格边界 进行推理，这就会造成问题。

当然，完全禁用环形行为也不是一个合理的选择，因为在某些ARC-AGI问题中，信息以环形方式传播反而有助于问题求解。

为了解决这个问题，我们在EngramNCA v3 和 EngramNCA v4 中采用了两种方法进行改进：我们将GeneCA和GenePropCA的功能进行了拆分——前者在一个非环形格点 上运行，而后者在一个环形格点 上运行，并且为每个单元格引入了按通道的局部自注意力机制 （channel-wise local self-attention）。

我们的假设是，通过功能拆分并引入注意力机制，EngramNCA可以自主选择是否启用环形功能。

局部与全局解决方案（Local versus Global Solutions）

另一个问题是：在解决ARC任务时，NCA应该关注全局信息 、局部信息 ，还是两者结合？理论上这不应成为问题，但我们通过定性观察发现，某些任务在处理细粒度的局部信息 时存在困难。

为此，我们引入了一种局部块训练策略 （patch training scheme），迫使NCA专注于局部信息。该方法的基本原理与标准的NCA训练方式一致，关键区别在于：NCA是在3×3的小块区域 （patch）上进行训练的，并在这些小块上累积损失函数，而不是在整个网格上一次性完成。

由于这是一种对NCA训练过程的增强机制，因此会显著增加训练成本。因此，我们仅将此增强机制应用于EngramNCA v4 。

不恰当感知问题（Inappropriate Sensing）

由于NCA最初的应用场景是模拟生物体的生长过程，其感知机制 在一定程度上模仿了生物细胞的化学感应机制 ，具体表现为梯度感知核（gradient sensing kernels）。虽然这一类比很有帮助，但在处理ARC任务时可能会成为一种根本性的限制。

为了应对这一问题，我们在EngramNCA v3 和 EngramNCA v4 中使用了完全可学习的感知滤波器 （fully learnable sensing filters），替代原本使用的Sobel和Laplacian滤波器。滤波器的数量保持与标准EngramNCA一致。

训练

确定解的质量

在训练过程中，NCA实质上生成一张图像。我们表面上并不考虑NCA到达最终解所经历的发育步骤。因此，我们采用与（Mordvintsev等，2020）中相同的像素级均方误差损失 （MSEPixelWiseLoss）。

为了判断一个问题是否被解决，我们观察NCA生成结果的平均像素误差 。实验表明，当评估损失为 log(MSEPixelWiseLoss) ≤ −7 ，并且该损失在所有像素之间均匀分布时，可以认为NCA已经生成了ARC问题的精确解。

模型训练

我们选择通过测试时训练 （test-time training）的方式来解决ARC问题。正如（Chollet, 2019；Chollet等，2024）所指出的那样，程序生成器必须具备从新信息中学习的能力。我们将其理解为：我们的程序生成器——即用于训练NCA的系统——能够为每个问题训练一个新的细胞自动机（CA）。

对于每一个ARC问题，我们都从头开始，基于2到3个训练样例训练一个新的CA，并在未见过的测试样本上评估其性能。我们所有的实验都在ARC-AGI公开评估集 上进行。

图5展示了EngramNCA各版本训练过程中的一个训练迭代。该训练流程与（Guichard等，2025）中描述的方法相似，但有一个关键修改：由于我们在每个问题中都从头开始训练GeneCA和GenePropCA ，因此GeneCA的权重不再被冻结，而是与GenePropCA的权重一起进行联合优化。

而标准NCA的训练则采用了（Mordvintsev等，2020）中所描述的相同训练流程。

其中，H、W、C 分别表示图像的高度、宽度和通道数，I 是参考图像，Î 是NCA的最终状态。

我们使用 AdamW 作为优化器，学习率（LR）设为 1×10⁻³（1e-3） 。对于每个问题，细胞自动机（CA）总共训练 3000次迭代 ，并在 第2000次迭代时 将学习率降低 66% （即降至原来的1/3）。

结果

总体结果

在本节中，我们以平均log(损失) 和 CA解题率 的形式展示每种CA模型的结果。此外，我们还报告了不同CA模型联合使用 后的结果。

需要提醒读者的是，在解决ARC问题时，每个问题可以提交两个答案 。因此，通过将不同模型的结果进行联合（即每个模型各生成一个输出），我们仍然可以生成有效的提交结果。

表2 显示了每种CA模型的平均损失（log值） 和 解题率 。其中，EngramNCA v3 在两项指标中表现最佳，解题率接近 13% 。相比之下，EngramNCA v1 在所有指标中表现最差，解题率为 6.5% 。

表3 展示了我们实验的CA模型与 ChatGPT 4.5 之间的成本对比 。我们选择与ChatGPT 4.5进行比较，因为它的解题率与我们的相近，并且是目前最受欢迎的大型语言模型之一。在性能大致相同的情况下，我们的方法在成本上减少了约 1000倍 。

表4 显示了六种不同CA模型组合（union） 的平均log(损失) 和解题率。在这些组合中，EngramNCA v1 与 EngramNCA v3的联合使用 在解题率方面表现最佳，达到了 15.3% 。

实际上，EngramNCA v1 中有一半的解题结果是 EngramNCA v3 所未能找到的。所有模型组合的表现大致等于或优于表现最好的单一模型，这表明每种模型都能解决一些彼此无法覆盖的问题。

在平均log损失方面，NCA 和 EngramNCA v3 表现最好，这也在预期之中，因为它们原本就具有最低的平均损失值。而 EngramNCA v1 和 EngramNCA v4 在这两项指标中表现最差。

已解决问题展示

在本节中，我们为每种CA模型展示一个已解决的ARC问题示例，以说明CA模型在解决ARC任务时所经历的发育过程 。更多视频示例可在此处查看。

图6a 展示了一个由标准NCA模型生成的解决方案示例；图6b 展示了该问题的两个训练示例。
在这个问题中，输入是一条位于随机y坐标位置的线段，正确的解法是在其上方添加长度递增的绿色线段，下方添加长度递减的橙色线段。NCA能够逐步地、增量式地生成正确的结构，并能泛化到未见过的y坐标位置。
图7 展示了由标准版EngramNCA（即EngramNCA v1）生成的一个解决方案示例。
此问题中包含水平和垂直线条（在不同示例中颜色不同），它们相交从而在中间形成封闭空间，外部则为开放空间。正确解法是用指定颜色填充这些区域。CA通过生长绿色单元格填满整个空间，当被边界包围时，能够转变为正确的颜色。
图8 展示了EngramNCA v3生成的一个解决方案示例。
该测试问题中输入为若干孤立的像素点，正确解法是将同一水平或垂直线上的像素连接起来。CA从像素点开始“生长”线条，有时会略微超出目标像素，但最终能够删除延伸到边界外的多余部分。

图9 展示了EngramNCA v4生成的一个解决方案示例。

该问题中左侧网格上有一条垂直线。正确解法是在底部生成一条水平线，并从左下角到右上角生成一条对角线。CA生成的结构穿越了环形边界，并从两个角落同时生长，最终在中间连接。该解法可以泛化到不同尺寸的网格。

几乎解决的问题（Almost Solved Problems）

ARC-NCA 具备生成部分正确解 或称为“接近解决 ”问题的能力。这些解通常只有少数几个像素错误 （或略微错误），但可以作为进一步优化的基础。也有可能，通过改进模型架构，或简单地增加NCA的规模，这些小错误就可以被消除。

为了评估如果我们专注于这些“部分解”能获得怎样的性能表现，我们将损失阈值放宽到 −6 。表5 显示了在放宽损失阈值后各模型的解题率。结果显示，各模型能够多解决 2% 到 6% 的问题，表明通过相对较小的调整，模型性能具有显著提升的潜力。

表6 展示了不同CA模型结果的组合情况。

接下来我们进一步分析一些仅有少量错误 的案例：

图10 展示了由 EngramNCA v3 生成的一个接近解决的示例。我们可以看到，模型已经掌握了正确解题的基本概念，但在某些开放空间区域中，有三个像素颜色错误 。这说明模型可能遇到了训练集中未出现的边缘情况。
图11 展示了由 EngramNCA v1 生成的一个接近解决的示例。在这个例子中，模型在某一时刻已经生成了完全正确的解。但由于NCA本身具有异步运行的特性，我们让模型继续运行直到达到稳定状态，而最终的稳定状态偏离了正确解一个像素。

推理误区（Reasoning Pitfalls）

有时我们会观察到这样的问题：模型在某种程度上完成了必要的推理步骤，但未能完全正确完成任务 。在本节中，我们展示了一些模型与问题的配对案例，并尝试分析它们可能遇到的推理误区 。

图12展示了由 EngramNCA v4 生成的一个 部分推理成功 的解决方案示例。我们可以看到，模型学会了其中一个关键推理步骤——即在橙色点上生长出形状正确的图案；
然而，它未能将该模式推广到左侧区域，并且在像素颜色上出现了明显错误。这表明模型在抽象泛化和细节精确性方面仍存在不足。

进一步实验

在本节中，我们详细介绍了两个进一步实验 的结果：

增加 EngramNCA v3 隐藏层的维度
使用“最大填充法”来解决所有 ARC-AGI 问题
（如“处理变化的网格尺寸”部分所述）
表8 显示了 EngramNCA v3 及其采用最大填充法 处理后的版本与 ChatGPT 4.5 的结果对比。
通过增加隐藏层维度 ，我们可以观察到所解决问题的数量有所增加。而使用最大填充法 虽然增加了CA需要处理的问题数量，但我们并未发现CA可解决问题的百分比下降，这表明：
不过，使用最大填充法确实带来了代价：由于NCA的内存使用量和运行时间会随着格点尺寸的增大而显著上升，因此效率变差。
尽管如此，这两种版本的表现仍然都优于 ChatGPT 4.5 。
在允许部分解的情况下，我们看到采用最大填充法的版本其解题率有了显著提升 （从 16% 提升至 27% ）。
- 要么CA对自身尺寸的调整是相对容易实现的，
- 要么填充标记（padding tokens）所提供的额外信息帮助解决了部分问题。

总结与讨论

本研究提出了 ARC-NCA ，这是一种基于神经细胞自动机 （NCA）的发育式框架 ，旨在应对抽象与推理语料库 （ARC）基准测试所带来的挑战。该基准要求模型仅凭极少量的示例就能展现出强大的抽象与推理能力。

我们的 ARC-NCA 模型利用了 NCA 的内在特性，模拟出类似生物发育过程中的复杂、涌现式行为。我们评估了标准NCA以及多个改进版本的 EngramNCA 模型，这些模型经过增强以更好地适应 ARC 任务的特定特征。所引入的改进包括：

增强的感知机制，
局部与全局信息处理的调整，
以及对环形格点行为的管理策略。

实验结果表明，ARC-NCA 模型在解题率上可与当前主流的大型语言模型（如 ChatGPT 4.5）相媲美，甚至在某些情况下表现更优，且计算成本显著降低。

当我们将“部分正确解”也纳入考量时，模型的成功率出现了明显提升，这表明通过架构改进和参数规模扩展，还有进一步提升性能的空间。

对已解决问题和接近解决的问题的分析揭示了 NCA 的发育特性，展现了其在迭代优化和涌现式推理方面的能力。然而，一些“推理误区”的案例也暴露了 NCA 在泛化能力方面的局限，尤其是在处理训练集中未充分覆盖的细粒度细节或边缘情况时。

鉴于近期推出的更具挑战性的基准测试集 ARC-AGI-2 （Chollet 等，2025），它被设计用于评估人工智能系统在获取新技能（如符号理解、组合推理和上下文规则应用）方面的适应性与效率，我们的研究发现具有特别重要的意义。ARC-AGI-2 中的任务人类可在不到两次尝试内解决，而目前的AI系统成功率仅为个位数。

ARC-NCA 所提出的发育式方法，可能为通过局部交互驱动的发育过程 ，或与大型语言模型结合 来解决人工智能系统的抽象与推理问题提供新的思路。因此，我们鼓励人工生命研究社区积极参与到人工智能领域尚未解决的重要问题中来。

未来工作

除了作为自然延伸的 ARC-AGI-2 之外，我们在下文中还列出了几个值得进一步研究的方向。

一种预训练机制 将非常有帮助，它可以使模型从每个任务仅有的少量示例中有效学习。这种预训练机制应在适合ARC所需视觉推理类型的抽象层次上传递知识。例如，可以先学习在多个任务间通用的基本变换模式，再通过任务特定的微调进行适配。另一种可能的方向是临界性预训练 （criticality pre-training）。所谓“临界性”是一种已知对多种计算形式都非常理想的运行状态。一个假设是：处于临界状态下的NCA可能比随机初始化的NCA更适合学习ARC任务。

目前我们的结果基于单次实验，因为ARC官方只允许提交两个候选解。然而，为了进行更严谨的研究，应进一步探索多次运行的结果及其稳定性 。此外，若要参与官方ARC-AGI排行榜 的竞争，还需要向半私有和完全私有评估集 提交解决方案。

在NCA与大型语言模型 （LLM）结合的方向上，也存在许多有前景的研究路径。例如，LLM可以用于推荐优化后的NCA架构设计和超参数设置。此外，具备推理能力的LLM还可以作为NCA所生成的“几乎正确”发育式解的纠错机制 。当然，也可以考虑其他纠错机制，例如基于NCA自身或其他计算机视觉技术的方法。

最后，一些在抽象潜空间中运行的NCA模型 （如 Menta等，2024 所提出的）可能通过将计算从输入空间转移到潜空间，从而捕捉对推理有益的基础原语（primitives）。这对于像 EngramNCA 这类试图先捕获基础操作原语，再建立调控机制来激活与通信 的架构来说，尤其具有相关性和启发意义。

原文链接：https://arxiv.org/pdf/2505.08778