A Neuroscience-Inspired Dual-Process Model of Compositional Generalization
受神经科学启发的组合泛化双过程模型
https://arxiv.org/pdf/2507.18868
摘要
系统性组合泛化——构造并理解已知基本单元的新组合——仍是人工智能系统面临的核心挑战。人类认知通过海马体(HPC)与前额叶皮层(PFC)的协同作用实现这种灵活性:海马体快速编码具体事件,而前额叶皮层则将其整合为可重复使用的图式以支持推理。受此启发,我们提出了MIRAGE(基于广义经验的规则与抽象元推理)框架,可在组合性任务中实现系统性泛化。MIRAGE包含两个相互作用的模块,分别模拟大脑中用于深思熟虑的HPC–PFC回路和用于直觉性新皮层模式识别的机制。(1)元训练的Transformer神经分解器,类比新皮层的“系统1”计算,接受来自随机采样、任务无关的组合语法流的训练,每次传递执行一步分解,并通过多次迭代逐步优化序列表示。(2)图式引擎,类似于HPC–PFC的“系统2”回路,能够动态提取、排序并应用可重用的图式,将变量绑定存储在情景记忆中,并在需要时进行扩展。通过为MIRAGE中的Transformer组件显式配备可主动管理的图式结构,我们的模型能够通过显式的图式应用与变换执行系统性组合操作,在解决全新任务时仅依赖于冻结的权重。该方法在SCAN基准测试中实现了系统性组合泛化,在所有任务划分上准确率超过99%,且Transformer模块仅含119万参数。消融实验表明,MIRAGE的系统性表现关键依赖于所提取图式的质量以及模型的迭代优化过程。
1 引言
人类能够通过以新方式组合熟悉的概念,系统性地泛化到新情境中[1–3]。这种组合灵活性在自然语言中最明显,但也广泛存在于抽象推理乃至日常思维中,并在生命早期就已显现[4–6]。一个具体例子是:知道如何“跳跃”、“向左转”以及“做两次”某事,就能理解“跳跃两次”或“跳跃后再向左转”。这种组合泛化能力是人类智能的标志,但在人工系统中却难以复制[7, 8]。尽管大语言模型(LLMs)在多种自然语言处理任务中取得了显著成功,但其系统性泛化能力,特别是在需要强组合推理的任务上,仍然有限[9, 10]。
在复杂环境中生存,恰恰需要这两种互补的认知能力:快速识别熟悉模式的能力,以及将已知概念灵活重组为新结构的能力。哺乳动物大脑通过进化出的专门神经系统实现了这种平衡,这些系统分别处理信息加工的不同方面。海马体能够快速编码情景经历,而新皮层则通过大量经验逐渐提取统计规律,形成神经科学家所称的“互补学习系统”(Complementary Learning Systems, CLS)[11, 12]。这种分工使得大脑既能快速适应新情境,又能稳定地积累可泛化的知识。
在认知加工过程中,这些系统之间存在精细的互动。新皮层、基底神经节及相关结构支持直觉性、自动化的处理(系统1),而海马体(HPC)与前额叶皮层(PFC)之间的专用回路则支持深思熟虑、结构化的推理(系统2)(见图1)。HPC-PFC复合体在组合性思维中尤为关键:海马体快速绑定情景元素,形成对特定环境的认知地图[13–16];而前额叶皮层通过与这些情景表征的迭代交互,提取跨经验的规律,生成抽象图式[17]。这种互补过程使HPC-PFC回路能够通过逐步推理,系统性地应用所学知识[18–21]。这些从经验中整合而成的抽象图式,提供了可重复使用的构建模块,能够被重新组合以解决新问题。
受这些神经科学见解的启发,我们提出了MIRAGE(基于广义经验的规则与抽象元推理),一种旨在实现强健组合泛化的双过程计算框架。MIRAGE模拟大脑的功能组织,包含两个互补的系统:
(1)系统1:基于元Transformer的分解器——采用标准的Transformer架构[22],执行快速、并行的模式识别,类似于新皮层的信息处理。
(2)系统2:受HPC-PFC启发的图式引擎——一个用于深思熟虑推理的组件,能够提取可重用的图式,通过优先级排序解决歧义,为图式参数创建临时绑定,并执行结构化变换,模拟HPC-PFC的功能。
这两个系统以协调迭代的方式运行:系统2识别相关图式及其优先级,并将这些结构化信息注入系统1的上下文窗口;Transformer则利用这种图式增强的输入,将复杂问题分解为可管理的子问题。在系统1每一步处理之后,系统2管理图式的应用和占位符替换,进一步优化表征,供下一轮Transformer处理使用。这种迭代的、图式引导的优化过程,使MIRAGE能够系统性地应对原本难以解决的组合性任务。
我们在SCAN基准测试[8]上评估了MIRAGE,该测试专门用于检验组合泛化能力。我们的主要贡献包括:(1)提出MIRAGE框架,该框架在一个受神经科学启发的架构中,整合了一个快速、直觉式的基于Transformer的处理器与一个深思熟虑的、基于规则的图式机制;(2)在SCAN任务上实现了强大的组合泛化能力,在所有数据划分上准确率均超过99%;(3)通过消融实验验证,MIRAGE的组合能力关键依赖于图式优先级管理、迭代优化过程以及所提取图式的质量。
2 方法论
直觉。MIRAGE由两个互补的组件构成:一个显式的、基于规则的图式管理器(系统2)和一个元学习的Transformer分解器(系统1),二者通过紧密的反馈循环协同工作,模拟HPC-PFC的功能分工:即快速的情景绑定与深思熟虑的图式层级操作。图2勾勒了该框架的流程;以下我们将对其各组成部分及交互机制进行形式化描述。
2.1 问题设定
我们考虑从输入空间X到输出空间Y的监督式序列到序列学习任务,其中X和Y均为符号序列。每个训练样本 (x, y) ∈ X × Y 由一个项重写系统G(即“语法”)生成。项重写系统由重写规则 x → y 构成,表示字符串x可重写为y,其中每个字符串可包含变量。当这些规则可循环地应用于其自身输出时,该形式系统具有图灵完备性,因此成为一种强大且通用的建模范式。我们可以通过一组有限的图式(schemas)完整地描述此类项重写系统。一个图式是一个r元函数:
2.2 系统1:元学习的Transformer分解器
2.3 训练算法:元学习可泛化的单步分解
具有组合结构的序列可以用组合树(composition tree)表示。由序列构建的组合树中,每个非叶节点必须对应一个修饰符或动作,每个叶节点必须对应一个基本原语。每个SCAN序列对应一棵唯一的组合树。对一个组合序列进行单步分解,等价于在解析完所有延伸至最深层的子树后,将组合树的深度减少一层。
2.4 推理算法:迭代替换与优化
2.5 系统2细节:互补的图式提取器
图式提取被视为一个模块化组件,其内部策略可在不改变MIRAGE其余部分的情况下进行替换。目前我们提供了两种截然不同的实现方式:一种是符号搜索程序,另一种是基于最近提出的海马体计算模型[15]构建的可学习图模型。由于二者采用不同策略,因此不太可能在相同输入上同时失败,且任一方法均可随着更优算法或神经科学新见解的出现而被替换。
提取器选项一:受CSCG启发的提取器
遵循双组件模型的神经科学启发,我们采用“克隆结构因果图”(Clone-Structured Causal Graph, CSCG)[15],该方法在建模小鼠认知地图方面表现出色[14]。CSCG源自“克隆隐马尔可夫模型”(Cloned Hidden Markov Models, CHMM)[24],通过离散隐状态模型高效表示复杂序列。CSCG进一步限制每个隐状态确定性地发射一个唯一符号,从而将每个符号“克隆”为大量隐状态。关键的是,CSCG能够重新绑定这些发射矩阵,从而泛化到与训练模式相似的新模式,使其能够学习简单的算法[25]。我们的方法正是在此重绑定能力的基础上进行扩展。
原始的重绑定机制在遇到意外符号时被触发,并依赖于很少被重绑定的稳定“锚点”符号。我们将其扩展至双向上下文,即新的基本符号可能出现在锚点之前。因此,我们引入了一种改进的重绑定算法,能够在此类上下文中显式识别锚点和重绑定槽位,其形式化定义如下。
通过优先级学习,我们的系统能够:(i)发现具有变量绑定的重写规则,(ii)对这些规则进行组合最小化剪枝,以及(iii)对重叠的操作符图式进行排序,从而使后续的Transformer模型能够在之前未见过的指令上利用确定性的图式信息。
提取器选项二:枚举式规则挖掘器
为了与CSCG路径形成互补,我们引入了一种轻量级的符号“规则挖掘器”,其灵感来自枚举式程序合成方法[26]。该方法仅从演示数据出发,将每个输入-输出对视为一段情景记忆,并枚举简单的字符串重写模板(如片段到符号的替换、片段重排序以及包装符插入)。只有当某个模板加入当前规则库后,能够修复其所有匹配项并提升整个语料库的精确匹配准确率时,才被接受;接受的规则随后被重新应用,以揭示新的残差错误,该循环持续进行,直到覆盖范围趋于稳定。该挖掘器还会记录重叠规则之间的“先触发”关系,并返回一个拓扑排序后的优先级调度表,以及最终的基本原语、修饰符和图式规则库。生成的语法可直接输入图式引擎,其性能与CSCG变体无显著差异,进一步凸显了系统2的模块化特性。
3 结果
3.1 MIRAGE在SCAN任务上的性能与基线对比
我们按照Lake和Baroni[8]所定义的标准数据划分方式,在经典的SCAN基准上对MIRAGE及各类基线模型进行了评估。除非另有说明,所有数值均为4次独立运行结果的均值±标准误差(SEM)。训练过程、硬件配置和超参数设置均与第2节所述一致。
表1总结了我们的主要结果。MIRAGE在整体任务上达到了99.59 ± 0.24%的准确率,而其训练方式是任务无关的,即在随机生成的语法数据上进行训练,而非使用SCAN特定的示例。此外,MIRAGE在每一个数据划分上均实现了接近完美的性能。或许更为重要的是,一个经过训练的MIRAGE模型能够泛化到任意组合语法(只要提供其语法定义),前提是目标语法的词汇规模适配于该模型(即修饰符符号、基本原语以及每个图式的参数数量不超过训练时所设定的对应参数上限)。
相比之下,直接在SCAN数据上训练的Transformer模型虽然能有效解决常规划分任务,但在处理长度外推和新模板时无法泛化,表现出明显的过拟合,未能学习到任何可泛化的组合结构或组合推理概念。Transformer+SC_Library基线模型表示一个标准的Transformer,其被训练用于执行SCAN任务,并在上下文中加入了SCAN图式库(即在Transformer的训练序列前添加MIRAGE在推理时所使用的SCAN图式库符号)。
我们还对比了一个简单基线:将图式库直接前置到输入序列中,以测试Transformer能否在无显式引导的情况下理解这些信息。有趣的是,如表1所示,结果恰恰相反:额外的上下文信息在基于标记的划分任务上反而降低了性能,在长度划分上也仅带来微小提升。这表明,若无专门的训练目标,模型无法有效利用图式信息;而在长度划分上的改进似乎仅源于输入长度的增加,而非对图式的有意义使用。
3.2 消融分析研究
为了识别MIRAGE中哪些设计选择是关键的,我们进行了四项消融实验:(1)移除优先级标记;(2)禁用迭代优化,强制进行单次分解;(3)在具有无界组合深度的序列上进行训练;(4)使用提取不完整的语法进行评估。每一项改动都显著降低了模型准确率,突显了显式优先级提示、逐步分解、有限深度的元训练以及正确图式定义的重要性。我们得到以下关键观察:
优先级标记至关重要:移除显式的优先级调度机制后,整体任务准确率从 99.59 ± 0.24% 下降至 71.92 ± 0.72%。尽管模型仍能解决大多数指令,但28个百分点的下降表明,当多个图式发生重叠时,模型常常选择错误的图式。实际上,Transformer会退化为依赖脆弱的位置线索,仅当这些线索与预期的层级结构一致时才能成功。在开发过程中尝试使用固定顺序排列图式但不使用专用的 PRIORITY_ 标记,结果证明是不够的,这表明网络需要显式的嵌入来内化优先级关系。因此,优先级判断是单步分解中最困难的部分;为模型提供独立的优先级标记嵌入空间,对于实现可靠的泛化至关重要。
迭代优化过程促进泛化:我们曾尝试在切换到上述迭代优化算法之前,直接参数化完整的单次分解过程。然而实验表明,即使在包含k层深度组合的示例序列上训练,也无法让Transformer系统性地学习或泛化完整的单次分解算法(即使是2层深度的训练序列也失败)。而迭代优化算法使Transformer模型能够专注于学习更具泛化性的规则——即优先级图式识别,而非完整分解。从这个角度看,迭代优化算法对于实现广义推理至关重要。
使用无限深度组合序列训练会失败:虽然我们无法提供具体机制解释其原因,但多次实验反复表明,在包含k层深度组合(仅受限于序列上下文长度)的序列上训练的模型(尤其是较大模型)在SCAN任务上的表现更差,最高准确率甚至不足50%。相比之下,即使在处理如SCAN这类深度组合序列时,使用仅2层深度的序列进行训练反而更具泛化能力。这可能是因为在更深序列上训练的模型试图更紧密地建模组合结构,反而忽略了更一般的模式,最终适得其反。相比之下,仅专注于优先级模式匹配的更聚焦的学习范式被证明更有效且更具泛化性。
正确的语法库是必要的:引入随机边界噪声,即对每个图式的 num_args_before 或 num_args_after 随机偏移一到两个位置,会使整体任务准确率从 99.59 ± 0.24% 骤降至 0.065 ± 0.021%。在四次不同随机种子的实验中,准确率从未超过0.11%。这一急剧下降表明,精确的图式提取至关重要;即使语法中存在微小错误,也会导致模型的组合推理完全失效。
3.3 实验结论
我们的研究结果支持这样一个假设:将显式的图式提取系统与快速神经处理器相结合,对于实现系统性组合能力是必要且(经验上)充分的。我们的贡献可总结为以下几点:(1)一个受HPC-PFC启发的模型,若包含对应的组件,并在给定完整语法定义的前提下,能够以零样本方式有效解决组合泛化任务。(2)HPC-PFC复合体(即系统2)可以通过多种不同的图式提取方法进行建模。我们提出了两种方法,分别基于程序合成和受神经科学启发的CSCG模型。(3)通过对无限随机语法流进行元学习,即使训练样本仅包含两层深度的组合结构,也足以使模型在任意k层深度组合场景下执行广义的单步分解。通过迭代优化过程,训练好的模型 Tθ能够在 O(logN)的推理步数内有效分解长度为 N的组合序列。(4)我们提供了消融实验结果,验证了双系统设计及其他核心组件的重要性。我们认为,这些贡献——特别是整体系统设计框架,以及将Transformer用于迭代推理与优化过程——为未来研究提供了富有吸引力的方向。我们相信,发展基于神经科学原理的人工智能系统,可能是实现人类擅长的、在新情境和新场景中进行系统性泛化的最切实可行的路径,而这一点即便是大规模AI系统至今尚未真正实现。
4 相关工作
关于组合性的相关研究 多个研究方向致力于解决组合性生成问题,涵盖辅助目标、神经符号模型、提示策略以及对Transformer的机制性分析。Jiang和Bansal [27] 通过引入鼓励结构理解的序列预测任务,利用辅助监督来提升Transformer的组合泛化能力,发现较弱上下文化的表征反而能提高在SCAN任务上的表现。另一种策略LANE [28] 学习解析表达式,并借鉴认知科学中变量槽推理的思想进行记忆增强。尽管与我们的提取器组件相关,但LANE不基于Transformer,且采用不同的训练范式,却仍取得了优异的SCAN结果。神经符号方法将神经与符号推理相结合以实现组合性。组合程序生成器(Compositional Program Generator, CPG)[29] 融合了基于语法的模块化与抽象机制,与MIRAGE基于图式的提取策略高度一致。类似地,神经符号递归机(Neural-Symbolic Recursive Machine, NSR)[30] 通过“具象符号系统”联合学习语法与语义,其使用的树结构与我们基于Transformer的神经处理器有相似之处。
深度学习结构中的组合性 最后,理解现有架构(尤其是Transformer)的能力与局限,对于开发更有效的模型至关重要。[31] 综述了近年来关于深度神经网络(DNNs)中组合性的研究,探讨了DNN(特别是大语言模型LLMs)如何通过架构的归纳偏置和元学习在一定程度上实现组合泛化。[10] 研究了Transformer执行隐式推理的能力,发现它们只能通过“顿悟”(grokking)方式学习此类技能,在组合任务中仍难以实现系统性泛化。[32] 对一个在合成推理任务上训练的Transformer进行了机制性分析,识别出诸如“反向链式推理”等可解释的机制。总体而言,这些研究突显了在标准Transformer中实现鲁棒组合推理的挑战,进一步说明了像MIRAGE这类专用架构的必要性。
神经科学启发 我们还希望回顾一些神经科学与认知领域的研究,以阐明MIRAGE所依赖的灵感来源。[33] 提出,海马体的回放机制通过将实体组合成关系绑定的结构,实现了组合性计算,这与MIRAGE中图式的应用与变换机制相一致。该假说通过将MIRAGE与大脑中回放的组合性作用联系起来,增强了其神经科学基础。HPC-PFC回路在哺乳动物进化中高度保守[34],代表了自然界经长期验证的组合推理解决方案,为神经科学与人工智能之间架起桥梁,可能为实现更类人智能开辟新的路径。
5 结论
我们提出了MIRAGE,一种受神经科学启发的双过程框架,明确将快速模式匹配与深思熟虑的图式操作分离开来。通过对随机语法流进行元学习,训练一个单步Transformer分解器,并结合具备优先级感知能力的图式管理器,在给定完整语法的前提下,MIRAGE实现了当前最优的零样本组合泛化性能:在完整的SCAN任务上达到99.6%的准确率,在其他数据划分上表现同样优异,且Transformer本身从未接触过SCAN的训练数据。
除了在性能上超越强基线模型,我们的消融研究进一步证实,(i)优先级调度和(ii)迭代优化各自都至关重要:移除其中任一组件都会导致系统性泛化能力的崩溃。
从当前推理模型的发展格局来看,主流方法依赖于训练大型同质化神经网络来执行逐步推理[35–37]。而我们的模型提供了一条替代路径:我们训练一个小型的逐步推理器,并通过一个受大脑模块化结构启发的外部模块对其进行增强。我们的模型也契合“将知识与推理分离”的经典逻辑推理范式。展望未来,我们希望,合理地应用模块化设计——特别是受大脑架构启发的模块化——可能成为学习推理能力的一条有前景的补充路径。
局限性:我们最初考虑了一种高度通用的知识表示形式——项重写系统,但为了使模型具备可操作性,我们迅速对其进行了限制。我们乐观地认为,以图灵完备的表示作为起点,未来可能具有重要价值。由于我们的建模目标主要受神经科学启发,因此对于学习或提取图式的最优算法,我们持开放态度,并提供了两种不同的算法。对于CSCG图式提取,我们进一步假设存在原子级的演示数据。最后,我们仅在SCAN任务上进行了评估,因为它是检验组合性的标准基准[23],但我们希望,随着图式表示形式向更具表达力的计算范式发展,本架构有望获得更广泛的应用。
未来方向与更广泛的影响:我们计划(i)将MIRAGE嵌入为大语言模型(LLMs)的插件式推理/规划模块,以增强其构建和使用世界模型的能力;(ii)分析其内部状态,以检验关于HPC–PFC交互的神经科学假说。更广泛的影响:通过引入一个可检查的图式层,MIRAGE可使神经推理过程更加透明和可审计。然而,在部署时,尤其是在安全关键场景中,应制定明确的使用政策并进行常规监控。
A.2 训练算法
在Transformer的训练过程中,会以固定的时间间隔生成新的随机语法。这些语法被添加到一个“语法缓冲区”(Grammar Buffer)中,该缓冲区在训练过程中保存所有先前生成的语法的完整集合。在每一步训练中,Transformer从该缓冲区中采样语法,并委托生成相应的随机的两层深度组合输入序列及其对应的输出序列。这些组件的拼接结果随后被输入模型。通常,每个批次中会包含多个不同的语法。
在方法部分中,我们提到了Transformer在元学习训练过程中需要调用的若干小型子算法。这些算法包括:定期(由超参数定义)生成新的随机语法并添加到缓冲区中、根据给定语法生成输入/输出序列对,以及在每个批次中实际从语法缓冲区中进行采样。以下将详细说明这些算法。
C CSCG application on SCAN
为了进一步展示纯Transformer模型在第3节中无法独立解决不同SCAN数据划分的问题,我们尝试将CSCG直接应用于拼接的SCAN序列。然而,由于模型架构本身的特性,以及SCAN或其他组合性任务的特点,很快就会达到结构克隆瓶颈的极限。具体而言,由于每个输入与输出之间都包含一个分隔符(Separator)标记,模型无法区分超过n个序列。当模型遇到该标记时,必须固定选择某一个特定的克隆分支,从而导致先前信息的丢失。我们还尝试了其他变体,通过考虑单个发射对应的所有克隆状态来增加状态可能呈现的配置数量,但这些修改仍未能有效解决任何SCAN数据划分任务。
D 计算资源
实验在可便捷获取的研究硬件上进行:校园集群中的单个较新的GPU(例如A100或H100),偶尔也使用云服务。Transformer的元训练在单张GPU上仅需数小时,每次额外运行随机种子或进行消融实验的计算开销与此相当。两种图式提取器在CPU上均能在一分钟内完成,而在单个GPU上评估完整的SCAN测试集耗时不到五分钟。
E CSCG提取器生成的图式
CSCG提取器不仅生成所提取图式的文本表示,还提供基于图的可视化,清晰展示输入与输出变量之间的直接对应关系。这种可视化方法揭示了通过图结构表示进行图式比较的潜力,因为原子级图式演示共享一致的结构组件。
此外,该提取器还能正确识别“turn”和“around”图式中的特殊情况,识别出当它们与“turn”基本原语组合时不会产生额外输出,而与其他基本原语(如“jump”或“run”)组合时则不同。
原文链接:https://arxiv.org/pdf/2507.18868
热门跟贴