Concept Emergence from Complex Sensory Data: A Connectionist Model

从复杂感官数据中涌现概念:一个连接主义模型

https://files.osf.io/v1/resources/z47jb/providers/osfstorage/654fa6959a300900caedfe1b?format=pdf&action=download&direct&version=1

摘要:

本文提出了对之前由 de-Miguel & Sancho 引入的受贝特森(Bateson)启发的概念生成模型的第一个近似连接主义实现

1. 引言

人工智能(AI)中的感知问题关键在于如何通过连续数据的感知构建世界的内部模型或表征。在人类中,这些模型在区分和同化它们所感知的现实方面非常复杂。此外,它们极其灵活、可组合,并具有类似逻辑的操作。因此,将连续的传感器数据与可组合的、“符号化”的世界内部模型之间的桥梁是 AI 的关键。在文献中,一些模型依赖于某种神经符号混合方法的神经网络,而另一些则直接从原始数据中实现符号引擎。但在后者的案例中,这些数据通常是简单且离散的。在其他一些方法中,该问题通过构建一种预建模的本体论接口,或者通过将符号学习拟合到已知有解的数学问题中来解决。这些方法将在后续章节中详细讨论。然而,除了这个核心问题之外,还有一个额外的挑战早在 1988 年就被福多(Fodor)和皮利辛(Pylyshyn)识别出来。问题是,符号化的结构和过程是如何实际产生的——不是在理论逻辑框架或图灵机的实现中,而是如何在类脑或连接主义系统中实际发生。显然,人类可以在连接主义架构(大脑)内实现基于符号逻辑的思维,但理解如何人工复现这一过程是一个巨大的挑战。尽管有一些早期的提议,其中讨论了潜在的研究途径,但这个问题的大部分仍然悬而未决。

本文介绍了一个新的模型,同时解决了这两个挑战。这一方法的核心是将概念或“共相”视为知识的基本单位,这或许与传统文献相反,可以不加区分地表达为符号系统或连接主义系统中的一个节点。所提出的模型由两部分组成:(i)一个受贝特森启发的模块,用于无监督地对感官数据进行锚定或涌现(ii)在连接主义架构内从这些数据中获取概念和概念结构的符号系统的实现。符号 AI 模型通常实现在计算机或图灵机中,这些机器能够在非常高的抽象层次上计算符号值。然而,本文提出的一个简单模型可以从原始感官数据中实现类似形式概念分析(FCA)概念格的分层概念结构,但不是在计算机内,而是在类似于人工神经网络的连接主义模型中(尽管其动态过程略有不同)。这是一个同时具有连接主义和符号特征的模型,与神经符号研究中流行的混合方法不同。这种模型的物理实现(众所周知,FCA 模型需要大量内存)对于类脑计算和工程可能具有巨大潜力。本文的范围仍限于 AI 领域,尚未进行任何物理实现。本文的贡献仅限于理论模型层面。然而,该模型已在计算机中进行了模拟,并以符号系统的形式进行了形式化,取得了令人鼓舞的结果。

人类从感官知觉中学习和生成概念的能力至少可以追溯到柏拉图时代,几个世纪以来一直吸引着科学和哲学的关注。认知科学作为一个跨学科领域,旨在探索这些现象,围绕它产生了极其丰富的文献。在许多情况下,人工智能(AI)的努力与认知科学的路径相结合,将技术应用于生物启发的神经和感知系统。这一研究领域的早期里程碑是 1947 年的《我们如何知道共相:听觉和视觉形式的感知》,它几乎与早期控制论学者的工作同时推进,并为今天认知科学中的连接主义方法铺平了道路。但在许多情况下,AI 也停留在更理论的层面,探索抽象的非具身模型,这些模型可以在不承担生物学严谨性负担的同时,以数学上的稳健性揭示人类智能过程。这一研究方向的一个重要支柱集中在符号和基于逻辑的 AI 系统上,这些系统能够模仿人类思维的一些非常重要的特征,如组合性、因果性或推理能力。这一方向的一些后续工作专注于概念和概念结构,例如形式概念分析(FCA)和概念空间的发展。1990 年,符号和连接主义方法在 AI 研究中的优势和不足被著名地总结在《符号接地问题》中。这篇经典文献强调了符号模型在以智能方式处理复杂现实世界数据时的失败,并指出需要一种混合方法,利用连接主义模型将符号“锚定”在感官数据中,然后在抽象层通过符号 AI 技术进行操作。

1.1 符号接地问题
自符号接地问题(SGP symbol grounding problem)被提出以来,已有许多尝试开发能够解决该问题的模型,包括哈纳德(Harnad)自身的混合模型。许多这些努力被塔德奥(Taddeo)和弗洛里迪(Floridi)在早期收集并讨论过,在其中,作者们还引入了“零语义承诺条件”或“Z条件”的概念,作为对SGP任何有效解决方案的最终要求的总结。尽管本研究并不旨在以任何绝对的方式解决这一问题,但它肯定与SGP的许多方面是一致的。因此,值得在高层次上讨论一些围绕SGP的观点。在上述研究中提出的Z条件,进一步阐述了SGP,试图为潜在解决方案设定更明确的标准以判定其是否合格。用作者的话来说,a) “不应预设人工代理已经安装了某些语义资源(某种语义能力)”,b) “不应通过某种已经具备语义能力的‘外部力量’将语义资源上传到代理中”。这一条件的含义是深远的。符号不仅需要从感官数据中涌现(SGP的“第一部分”),而且人工代理还需要自主学习如何识别这些符号作为具有某种感知现实的图标,并理解如何操作它们。否则,就会假设语义能力已经存在于代理中,从而未能满足Z条件。正是基于这一点,这些作者拒绝了(作为SGP的有效解决方案)例如沃格特(Vogt)的工作。在沃格特的研究中,他提出了一种方法,其中符号基于感观运动活动进行接地,然后通过斯蒂尔斯(Steels)引入的“猜测游戏”实现代理之间的互动,从而产生意义。

如果可以讨论的话,人类学习符号与感知现实之间联系的过程并不是自主的。实际上,人类通过一个明确的训练过程来学习“A”是一个符号,以及“DAD”是一组与它亲生父亲现实相关的符号序列。因此,SGP(符号接地问题)在文献中所表述的方式,对于理解人类数千年前是如何发展出基于听觉或视觉符号的语义系统可能是至关重要的。然而,仅就符号在感官数据中的无监督锚定本身而言,它对于人工智能和认知科学领域具有巨大的应用价值——即使代理在没有监督学习过程的情况下,无法解释这些符号,如果它们被展示或提供给它。也许为了避免术语上的混淆,一些学者在提到SGP的第一部分时,使用了“锚定”而不是更具争议性和煽动性的“接地”(Coradeschi和Saffiotti,2000)。然而,这些论文没有区分监督方法和自发的或无监督的方法,这在研究自主智能行为时是一个重要的潜在方面。尽管存在这种区别,“接地”一词似乎比“锚定”在当前文献中更受欢迎。因此,如今“接地”可能指任何试图解决SGP第一部分的方法,或多或少成功地将符号“锚定”在感官数据中,或多或少需要监督,但不一定以完整的形式讨论或解决它。

本研究提出了一种从原始感官数据中生成形式概念和概念网络的新方法。虽然可以说本文提出的模型可能使解决接地问题(在其完整形式)更近了一步,但这将是未来讨论的内容。相应地,以下小节提供了与本文目标一致的不同类型方法的多样化总结,而这些方法并没有明确地解决SGP。特别是,概念涌现、符号涌现和无监督符号接地(或锚定)是本研究所在领域的研究方向。

1.2 概念涌现与符号涌现

“概念”这一术语在众多学科中有着多种定义。多年来,计算机科学领域提出了许多概念理论。与前面提到的皮茨(Pitts)和麦卡洛克(McCulloch)的工作一致,早期的控制论学者,如维纳(Wiener),提出了“共相”(universals)的概念,用以捕捉“是什么使一个正方形成为正方形”(Wiener, 1948b)。这一方向最终导向了连接主义方法,总体上更倾向于将概念或“共相”理解为模式。模式识别取得了巨大的进展,展现出非常强大的结果,但其受限于训练数据的分布,并且在可解释性和组合性方面面临着重要的挑战。然而,除了连接主义角度外,大多数概念学习方法都是从符号 AI 的角度提出的,并且强调语义。Goguen(2005)的工作对这些方法进行了很好的综述,其中包括 Gärdenfors 的几何概念空间、Fauconnier 的符号概念空间、Barwise 和 Seligman 的信息流、Wille 的形式概念分析(FCA)、Sowa 的理论格以及 Fauconnier 和 Turner 的概念整合。尽管在这些理论中,概念可以被视为模式(与连接主义方法类似),但它们具有内在的符号结构,这使得它们具有很强的组合性(甚至可以创造虚构内容)、超出分布的学习能力和可解释性(因此也具有语义和可沟通性)。因此,符号 AI 中的概念不仅是一个模式,而是一个泛化(可以说是最重要的特征),包含对组成它的各个部分的规则和关系的一定量推理。例如,当回答“是什么使一个正方形成为正方形”这一问题时,答案不可避免地会涉及对角度或其他几何属性的推理。此外,它应该是一个可以由其他模式组成的模式,所有这些模式都可以以有意义的方式进行解释和沟通(例如,允许对尚未见过的其他样本进行泛化),就像人类的概念一样。

因此,当处理原始数据时,许多概念学习的工作,包括神经符号方法,首先专注于使用连接主义或其他机器学习模型到达一个符号层。只有这样,才能从获得的符号中构建概念和概念结构(Dai et al., 2018; Evans et al., 2021a)。换句话说,从文献来看,符号涌现似乎是一个先于概念涌现的问题,因为一旦从数据中提取出符号层,那么将基于符号的方法应用于概念学习(如 FCA)就变得微不足道了。然而,与现状相反,组合性和可解释性似乎仅属于符号方法,本研究提出的模型挑战了这样一种观点,即像 FCA 这样的符号模型生成的概念结构不能自然地通过连接主义模型实现。换句话说,这项工作表明,符号涌现并不一定先于概念涌现。此外,它还表明,从感官数据中构建丰富概念和概念结构时,根本不需要符号结构。这一观点与概念的“类模式”性质是一致的。就像人类可以思考没有符号或语义标签的概念(比如某些语言中有而其他语言中没有的词汇),本论文提出的连接主义或亚符号模型可能完全有能力生成概念和概念结构。此外,这些结构还将展现出组合性、可解释性和超出分布的学习能力,同时在模式识别方面也具备相当的技能。最后,需要指出的是,在本研究提出的模型中,符号结构已经以隐含的形式存在,但除非明确需要展开,否则无需展开,这将在方法部分进行解释。这种同时具有符号性和亚符号性的系统具有巨大优势——在任何时候都可以通过实现符号操作来增强模型,而在连接主义模型中设计这些操作则要困难得多。需要强调的是,本论文提出的模型模糊了连接主义和符号结构之间的区别,因为它们可以相互直接映射。

由于本研究在符号和连接主义观点之间来回切换,接下来的段落将回顾从这两个角度出发的近期工作,这些工作试图从感官数据中“涌现”出概念以及符号结构。

1.3 文献综述

近年来,神经符号研究投入了大量精力,将神经或连接主义模型的优势与符号和基于逻辑的人工智能的优势相结合。这一领域一个非常近期且杰出的工作是 SATNet(Wang et al., 2019)。SATNet 通过为深度学习模型配备可微分的最大可满足性求解器(MAXSAT),实现了逻辑推理。在该模型中,从数据中学习逻辑结构的问题被转化为为问题的一个明确定义的实例学习 MAXSAT 解决方案。这非常有趣,因为可以简化为 MAXSAT 问题的逻辑结构领域涵盖了符号 AI 的很大一部分。借助 SATNet,深度学习的强大能力被用来以逻辑模式的形式提取知识。该模型的重要性不仅在于它为连接主义模型提供了推理或基于逻辑的学习等关键特性——这些特性传统上被认为仅属于符号模型,还在于它证明了许多具有挑战性的逻辑结构可以通过最小监督而非通常所需的大型数据集来学习。在处理原始感官数据(如数字像素图像)时,模型需要先将其转换为符号值,然后将其整合到网络中。这一过程大致如下:(i)读取传感器数据,(ii)转换为符号(例如,使用监督神经网络分类器),(iii)将问题表达为 MAXSAT,以及(iv)通过优化深度学习模型中 MAXSAT 实例的可微分实现,以误差最小化的方式近似求解。这一框架在“使用 SATNet 的符号接地技术”(Topan et al., 2021)中得到了进一步改进。在这种情况下,MNIST 数据集中的数字分类任务被端到端地整合到 SATNet 中,无需显式监督,同时学习数独的规则并解决棋盘。通过这种方式,作者声称解决了符号接地问题,尽管模型需要大量内部的符号和逻辑知识来解决 MAXSAT 问题。此外,模型“知道”有十个可能的数字。这些数字通过聚类算法识别,但未被标记,因为没有显式监督。然后,模型在学习数独游戏的规则和解决方案的同时,揭示了数字的值,就好像模型在解一个方程组一样。在揭示这些值的过程中,引入了隐式监督,因为展示给网络的多个解决方案提供了足够的信息来识别每个数字。尽管取得了巨大成就,但符号从感官数据中的涌现似乎在这种方法中显得有些牵强且特定于应用。另一个需要提及的方面是,尽管基于 SATNet 的模型可以通过连接主义架构成功地学习逻辑结构,但到目前为止,它们仍需要将输入数据表达为 MAXSAT 问题。在大多数情况下,这需要大量的符号预处理,从而在连接感官数据和基于连接主义的逻辑结构学习之间造成了不连续性。换句话说,借助 SATNet,目前还无法实现一个仅基于连接主义的模型,用于从连续感官数据中获取符号知识,且适用于广泛领域。

比 Topan 等人讨论的最后一篇工作稍早且有些类似的方法是“通过归纳学习连接机器学习与逻辑推理”(Dai et al., 2019)。该工作提出了一种神经网络架构,用于感知图像中的像素数据,以及一个基于逻辑的推理引擎,用于从前者中提取规则和知识。为了将网络学到的模式转换为推理引擎可以操作的符号,该模型(i)为这些模式分配了作者所称的“伪标签”,然后(ii)着手解决一种逻辑谜题,以发现标签的正确分配。与前面讨论的工作一样,它建立在一个特定问题陈述的基础上,已知该问题存在解决方案。这种谜题式的方法与 Asai 和 Fukunaga(Asai 和 Fukunaga,2017)的工作也并不十分不同,在他们的工作中,实际的谜题正在被解决。另一个非常有趣的混合方法是“迈向深度符号强化学习”(Garnelo et al., 2016),这次借鉴了强化学习。他们的方法也包含了一个神经感知模块,模型的另一端是一个符号引擎。然而,在这种情况下,两者之间的接口是一个特定于学习代理上下文的符号本体论。这个本体论是根据代理所学习的世界的特征,按设计外部上传到代理中的。因此,该模型依赖于对世界的预建模知识。然而,与本文中介绍的工作相比,这是一个特别令人兴奋的模型。这里出现的概念结构或许可以作为 Garnelo 等人提出的本体论层,从而避免了预建模的需要。文献中还有许多其他例子,它们以某种方式依赖于神经网络,从原始数据中涌现符号。在(Higgins et al., 2016)中,使用变分自编码器(VAE)神经网络学习视觉感官数据的“解耦”表示。在(Santoro et al., 2017)中,提出了一种用于关系推理的神经网络架构。该网络在 CLEVR 数据集(Johnson et al., 2017)上进行了测试,并取得了非常好的结果。该模型以与卷积网络自然适合捕捉空间关系或循环网络能够提取序列依赖性相同的方式,纳入了关系推理学习能力。

在“理解感官输入”(Evans et al., 2021b)中,作者探讨了“理解”一连串感官输入的含义。他们认为,预测、回溯预测以及填补缺失值,并不足以证明对感官输入的真正理解。他们进一步论证,为了真正理解感官输入,必须构建一个能够解释数据的符号理论。正如他们在研究中提到的,这种观点与先前的研究一致,后者提出常识的一个关键组成部分是构建解释性理论的能力。基于这一问题背景,作者着手探索当人们理解感官输入时所构建的潜在心理模型的可能定义,并展示构建这种心理模型本身如何自然地使人能够进行预测、回溯预测和填补缺失值。需要注意的是,正如在本文提出的模型中一样,他们的方法并不直接针对预测或模式识别等任务,而是这些能力自然地从模型中产生,因为模型解决了一个更宏观的问题。然而,正如他们在研究中提到的,模型处理的感官数据的离散性和范围相当有限。他们提供的示例包括基本的元胞自动机、鼓点节奏以及其他相对简单的数据流。因此,在后续论文“理解原始输入”(Evans et al., 2021a)中,作者引入了神经网络来扩展他们的模型,使其能够处理连续和更复杂的数据。

尽管这种方法允许处理从神经网络单元获得的符号中的潜在歧义,但在感知过程中引入了监督。因此,尽管这种特定的神经符号方法在处理复杂感官数据方面更为有效,但它将重点从无监督符号涌现的原则上转移开。在这种背景下,本文的一个重要贡献是表明,简单且离散的传感器实际上(或许有些出人意料)能够独立地很好地编码复杂的连续数据流,这将在方法部分进行解释。这一贡献可能会为上述讨论的方法开辟更广泛的应用范围,而无需依赖于监督感知。

从神经符号模型中可以得到的一个重要启示是,基于逻辑的规则可以在没有大量训练的情况下被学习。这一特性相当有趣,尤其是与现实世界数据中的模式识别任务形成对比,后者需要大量的监督,这在本文提出的方法中也很明显。在另一条研究路径上,还有一项非常重要的工作需要讨论,即“通过概率程序归纳实现人类水平的概念学习”(Lake et al., 2015)。这项研究旨在阐明两个基本问题:(i)人们如何从一个或几个例子中学习新概念?以及(ii)人们如何学习如此抽象、丰富且灵活的表征?这两个问题都是本文动机的关键。第一个问题涉及无监督(或弱监督)概念涌现和超出分布的学习,而第二个问题则涉及概念结构中自然组合性的需求。他们的方法引入了贝叶斯程序学习框架(BPL),该框架学习简单的随机程序来表示概念。这些程序是概率生成子模型,整个模型通过将它们拟合到背景数据集上,利用每个类别仅有的几个样本进行学习。在这个过程中,特征为弱监督,学习通过构建最能解释观察结果的程序进行,基于贝叶斯标准。在提供的实现中,背景数据集由 Omniglot 数据集中的手写字符组成(包括像素和笔画数据),该数据集是作为工作的一部分创建的。正如上述更近期的工作一样,BPL 框架也包含一种程序合成(具有重要的生成成分),并使用归纳偏差。这种偏差允许通过在先前概念的层次结构上构建(贝叶斯层次先验)来学习新概念,作者称之为“学会学习”。需要注意的是,在模型中,这些概念的构建块被定义为子部分、部分和空间关系。子部分是笔画之间由短暂停顿分隔的笔画。部分则是通过按下或抬起笔定义的笔画。这些可以根据以下四种空间关系中的任何一种进行组合:独立开始、在开始处、在结束处或沿着先前部分。尽管该方法的一般方法相当通用,但其实现强烈依赖于数据集的特定性质。例如,子部分原语以库的形式提供给模型,而不是像本文讨论的其他工作那样从原始传感器数据中涌现。此外,模型者在某些方面(例如“短暂停顿”的阈值)也做出了一些决策。尽管如此,这种方法与本文中介绍的方法有一些重要的共同点。一个重要的方面是,为了实现从稀疏数据中学习,同时发展丰富且灵活的概念表征,似乎模型必须同时具备生成和学习能力,并且以无缝的方式结合。这种双向特性在本文中也是一个强有力的主张。正如他们在论文开头所说,最初的两个问题在这里同样重要。尽管解决这些问题的方法不同,但在这两种模型中,学习都是在没有或非常弱的监督下实现的。此外,这些模型能够构建丰富且灵活的表征,允许高度的组合性,并以直接且自然的方式创造虚构样本。

当然,在这个领域也有大量专门针对概念的研究。一个重要的贡献是“迈向概念逻辑张量网络”(Bechberger, 2021),它基于 Gärdenfors 提出的概念空间的先前工作(Bechberger 和 Kühnberger, 2018)。逻辑张量网络是一种使用模糊隶属函数的神经网络。概念空间则提供了一种将概念知识作为特征空间中的区域的几何表示。由于概念空间的向量性质,这种方法更自然地适合于感官数据的接地。通过引入逻辑张量网络,得到的模型能够从感官数据中涌现概念结构,同时受益于神经网络提供的强大学习引擎。该方法依赖于将符号知识映射到基于向量的空间,这使得提取的知识比形式化方法(如 FCA)更间接且更难以操作。最后,在“从连续观察到符号概念:一种基于区分的策略用于接地概念学习”(Nevens et al., 2020)中,作者致力于在“接地”学习的背景下,弥合从连续观察到符号概念之间的差距。这项工作是在 CLEVR 数据集(Johnson et al., 2017)的体积原语分类的背景下进行的。使用计算机视觉库提取形状的角点数量等属性,包括颜色等连续值属性,其中提取了每个色调-饱和度-值空间通道的区域颜色的均值和标准差。其他提取的属性更为复杂,例如对象区域与旋转边界框面积的比率,以及对象区域与整个图像面积的比率。为了区分颜色(例如红色),使用数据集原始渲染的红-绿-蓝(RGB)值,并添加随机抖动。最后,模型使用概念相关性在导师-学习者场景中的加权方案进行训练。

2. 方法

2.1 传感器

感知是世界与认知之间的接口。由于现实是无限复杂的,很明显没有任何传感器能够完全捕捉到它。因此,我们对环境的知识总是有限的或部分的,这不仅是因为人类和动物的心理表征存在局限性,而且首先是因为感知阶段所施加的约束;感知的最前沿。然而,这些约束不应被视为局限性,而应被视为生成我们所居住世界的高效模型的机会。

人类和动物的一些感知器官,例如眼睛,也非常复杂,似乎挑战了任何感知约束。但当然,即使是眼睛也无法完全捕捉到世界的全部复杂性。也许正是这种感知器官的壮丽,常常使人们将注意力从感知模型中感知约束的有意设计和实现上转移开。相反,在许多情况下,从原始数据中感知的观念伴随着一个不言而喻的假设:进入模型的数据越详细越好。然后,复杂性降低的任务发生在模型的“认知”部分,错过了在感知时刻预先调节数据的机会。尽管在人工模型中感知和认知之间的这种区分可能有些任意,并且在某些模型中并不完全适用(在这些模型中,感知和认知是同时发生的),但将过程划分为这两个独立阶段可能是有用的,因为一方面,它类似于容易理解的生物模型,另一方面,它有助于更好地理解这些模型执行的不同功能。

为这个模型设计的传感器灵感来源于我们的触觉。尽管这种感觉本质上仍然相当复杂,但它肯定比视觉更有限。同时,它仍然能够进行高级感知,作为人类,我们能够仅从触觉体验中推导出丰富的概念结构。因此,受触觉启发的传感器可以成为人工模型的一个很好的起点。此外,该模型在很大程度上借鉴了贝特森(Bateson)的建议,即一个观念本质上不过是一个差异:“一个产生差异的差异”(Bateson, 1999)。这一说法非常有趣,因为确实,人类和动物非常善于检测差异,但在测量大小方面却相当笨拙,正是因为这个原因,我们人类开发了实际为我们测量它们的工具。因此,自然中的认知可能根本不用到大小。然而,当今许多最突出的机器学习模型都需要通过大量的数值来进行训练过程。包括形式概念分析(FCA)在内的基于逻辑的方法是一个例外,因为它们直接处理定性数据。然而,当处理原始数据时,它们的方法又退回到之前讨论过的统计模型中。例如,当我们看到一种颜色时,除了进行一些粗略估计外,我们对它的 RGB 值并没有太多可以说的。但当面对两种略有不同的色调并排展示时,我们非常容易就能区分它们,并且甚至能够推理这种差异,例如:一个比另一个更亮,或者它稍微更黄一些,等等。同样的道理也适用于单独一根棍子的长度与两根不同的棍子并排放置时的长度比较。换句话说,人类和动物更适合从定性信息而不是定量数据中构建其环境模型。此外,本文将讨论我们的定量观念是否实际上可以从定性感知中推导出来,而不是直接从我们的感官中获得(当没有测量工具时)。这意味着,例如,我们只知道一个物体的大小是与其他物体的一组定性关系(比例),例如“这根棍子比另外两根加起来还要长”。由此可以推断,贝特森关于差异是概念或观念的关键生成器的观点与自然中认知的工作方式相当一致。无论如何,它们肯定为人工认知模型的设计提供了一个非常有趣的方法,这也是本研究的目标。

2.2 传感器结构

与 Cárdenas-García 和 Ireland 提出的方法类似(Burgin 和 Cárdenas-García, 2020; Cárdenas-García, 2022; Cárdenas-García 和 Ireland, 2020),这里提出的传感器通过比较器元件将信号的定量方面编码为定性信息。正如前面讨论的,与后者的观点一致,感知行为对数量的理解并不多,而是更多地理解差异。因此,比较器元件成为感知过程中的关键组件。然而,上述工作实现了一种传感器,其中这些比较发生在某一时刻被感知的信号与自身产生的携带反馈信息的信号之间,以优化特定任务。在本文提出的实现中,所讨论的比较本质上是基于时间的;某一时刻 t1 的信号与下一时刻 t2 的信号进行比较。在未来的研究中,这种方案甚至可以扩展到非连续时刻,以考虑记忆在认知过程中的作用。需要指出的是,尽管 Cárdenas-García 和 Ireland 的工作中比较器的具体实现并未涉及两个连续时刻输入信号之间的比较,但他们确实在更一般的讨论中特别提到了时空差异的概念。

在本文提出的方法中,传感器通过沿着物体表面以恒定速度移动,并在恒定的时间间隔(ti)接收来自物体的输入信号来感知物体,如图 1 所示。该方法允许任意数量的传感器同时工作。然而,至少目前要求所有这些传感器在感知过程中保持它们在时间和空间中的精确相对位置。传感器接收的输入或信号的性质也应保持不变,例如,传感器 s1 只能感知角度,传感器 s2 只能感知颜色,传感器 s3 不能在某一时刻感知角度,然后切换到感知颜色。

此外,根据所需的实现方式,传感器可以具有不同级别的复杂性。在本文中,将考虑两种轻微的变化:a) 单输入通道的传感器;b) 两个输入通道之间有设计距离的传感器。在本文的范围内,最简单的传感器版本将是一个有线的机电实现,具有四个输出节点,如图 2 所示。

两种方案的工作原理非常相似,唯一的区别在于基于时间的模型通过单一通道接收输入信号,而在基于距离的模型中,有两个输入通道且它们之间存在一定距离。但在两种版本中,传感器沿着物体轮廓的轨迹移动时,都会对连续的输入信号进行比较。输入信号应为一致的数据类型,其值属于实数集 {R} 。然而需要注意的是,布尔值(True,False)也是兼容的信号数据类型,尽管在这种情况下,传感器方案会有一些细微的变化。

基于时间的模型中,一旦信号到达输入节点,它会被分成三路,分别到达以下元件:(i) 一个保持器 ( R ),(ii) 一个比较器 ( C1 ),以及一个第二比较器 ( C2 )。保持器是一种机制,它会持续保持接收到的信号,直到新的信号到来,然后在那一刻,旧信号被释放到存储节点。换句话说,保持器会创建一个信号延迟。当信号被释放时,它会被分成两路,分别到达比较器 ( C1 ) 和 ( C2 )。需要注意的是,在这种设计中,无需存储数据;信号以导体允许的速度传输,一旦被触发就无法停止。因此,保持器可能会通过让信号通过一段较长的导体或类似技术来延迟信号,而不是通过物理存储信号的值来实现期望的时间跨度。这是一种有意的设计选择,旨在使未来在生物技术方面的实施更加容易。

基于距离的模型通过一个更简单的过程实现了相同的效果。在每个时间间隔,会同时接收到两个信号,这些信号分别属于被感知物体上的两个不同位置。这种解决方案避免了使用保持器,但缺点是两个信号之间的距离是固定的,这限制了感知物体的分辨率。此外,它还限制了传感器沿轨迹移动的速度或信号流的时间间隔,因为它们的比例必须与分离距离相匹配。尽管如此,这是一个更简单的设计,因此在某些情况下可能很有用。在本文的其余部分中,将使用基于时间的传感器。

一旦信号到达比较器 ( C1 ),该元件会根据信号强度是否相等,将信号传递到两个输出节点( o1 ),( o2 )中的一个。如果比较结果是信号强度相等,则感知过程以激活相应的输出节点结束。相反,当比较结果是信号强度存在差异时,被激活的输出节点会发送信号,同时激活也接收到这两个输入信号的比较器 ( C2 )。然后,该元件会比较两个信号的强度,判断哪一个更强。因此,当信号强度存在相对增加或减少时,会激活两个输出节点(o3 ),( o4 )中的一个。因此,在任何给定的信号输入下,传感器都有三种“紧密”的可能输出组合:(i) [o1],(ii) [o2, o3] 和 (iii) [o2, o4],从而形成一种“精简”的组合方案。除了这些组合外,还可以提取另外三种“松散”的组合:(iv) [o2],(v) [o3] 和 (vi) [o4]。实际上,这三种松散组合在没有其他两个相关组合同时为真时,都不可能为真。但启用 [o2] 作为独立的输出组合可能是有用的,因为有时用较少的细节来描述一个概念可能更简单,例如:“厚度变化”(而不具体说明厚度是变薄还是变厚)。相反,[o3] 和 [o4] 作为独立组合没有任何优势,因为如果其中任何一个为真,那么 [o2] 也必定为真(不存在歧义)。因此,与模型相关的总共有四种可能的输出组合:(i) [o1],(ii) [o2, o3],(iii) [o2, o4] 和 (iv) [o2]。任何传感器输出发生变化的瞬间,此后将被称为“关键瞬间”。

这种“贪婪”的组合方案体现在四个节点中,它们构成了认知模型的输入层,如图3所示。输入层的节点是模型生成的最初概念。当有多个传感器协同工作时,该方案保持不变:输入层收集每个传感器的所有设计组合输出,如下一节中的例子所示。

2.3 多个传感器

当整合多个传感器时,该模型的工作方式就像只有一个传感器,但输出数量增加了一样。在这种方案中,组合“松散”和“紧密”组合的概念尤其相关,并且在更广泛的范围内展开。不仅每个传感器可以采用精简或贪婪的组合方案,而且进一步地,每个传感器的输出也可以根据设计的便利性“松散”或“紧密”地组合。为了说明这一想法,图4展示了一个例子,其中两个传感器采用精简组合方案,它们各自的输出又紧密地组合成一个精简的多传感器配置。这种排列产生的输入层节点数量为:3×3=9,如例子所示。然而,在每个单独的传感器都呈现贪婪方案,但传感器之间的连接仍然遵循精简方案的情况下,输入节点的数量将是:4×4=16。如果在传感器内部和传感器之间都采用完全贪婪的方案,那么输入节点的数量将是:4×4+4+4=24。

2.3. 认知模型(序列形式概念分析作为一种连接主义结构)

一旦信号按照上述过程确定了传感器的输出,它将继续沿着上游方向进入一个被称为“认知模型”的互联结构。该模型负责:(i) 形成对被感知世界的概念性表征;(ii) 通过重新组合已有的概念,从先前的感知经验中构建新的概念;(iii) 将信号从概念传回传感器,以便任何概念(无论是之前获得的还是新构建的)都可以被还原到其对应的基于感官的经验。图5展示了一个简化的认知模型图。这种结构可以被视为一个基于来自传感器的定性(且是序列的)数据构建的序列形式概念分析(FCA)模型的物理(有线)连接主义概念格。它与常规的FCA模型的不同之处在于,并非所有对象或感知记录都被同时考虑,而是每次仅考虑两个记录,直到所有记录都被计算完毕。另一个重要区别是,由于这是一个有线模型,所有可能的概念都必须预先存在于结构中。相比之下,代数实现只会计算由被感知对象触发的概念。正如在传统的FCA中一样,所有由被感知对象衍生的概念组合都会被计算和创建。同样地,就像在FCA中一样,初始的对象集合和属性决定了最终的概念格。然而,在这个有线模型中,概念的外延并没有存储在内存中(这将是未来的发展方向)。相反,它是通过在传感器中重现导致该概念形成的相同序列感知记录(对象)来表达的。在本文中,这种下游过程被称为“解码”,而“编码”一词则用于指代从感官数据形成概念的上游过程。图5展示了这两个过程的有线结构,它们作为两个平行结构,共享相同的形态。然而,当仔细观察时,这两个结构之间存在重要的差异,如图7所示,尽管它们仍然共享主要的组成部分。

在图示的结构中,输入层之上的概念层收集了信号流下传感器输出的差异。类似于传感器捕捉两个信号之间的定性差异,概念层以定性转变的形式捕捉“这些差异的差异”。为了说明这一观点,如果信号流表示物体曲率的角度,那么第一层中的一个概念可以是,例如,从角度值增加到减少的变化(α:(sn-1 > sn) → (sn-1 < sn)),或者用更紧凑的符号表示(α > → α <)。基本上,这一层中的概念节点将捕捉两个连续时刻[tn, tn+1]之间传感器输出转变的所有可能组合。每个附加层依次从其前一层的概念的所有可能组合中形成新的概念。因此,概念层中的节点数量由其前一层的节点数量决定,遵循公式:节点数 = 2 · m! / (n! · (m-n)!)。其中,m是每层前一层节点的总数,n=2,因为组合总是成对进行。公式前面的乘数(2x)反映了在这种模型中,从A到B的转变(A → B)与(B → A)是不同的,因此每个单独的节点组合都有一对潜在的概念。由于这个值可能会迅速增长,可以通过设计选择将前一层的数量(p)限制为除零以外的任何数字。例如,当p=1时,仅使用紧前一层的节点进行组合,这正是图5中展示的情况。当这个数字大于1时,新的概念节点则是通过跨层组合节点形成的。在图6中,层n中有一对这样的节点是从CLn-1和CLn-2层构建的(用黑色突出显示)。

在所提出的方法中,概念层的数量在理论上是无限的,尽管可以通过设计选择进行限制。模型中的概念层越多,嵌入到相应概念节点中的关键时刻或关键感知记录就越多。当不限制概念层的数量时,概念节点的结构将包含所有可能的概念转变组合,且随着每一层的增加呈指数增长,形成一种组合爆炸。因此,复杂性曲线会像前面讨论的FCA模型中的复杂性问题一样迅速增长。然而,所提出的方法具有重要的优势:(i)可以在有线系统中实现该模型,从而绕过代数复杂性;(ii)模型的顺序性极大地限制了生成的信息和概念的数量。

继续描述图5中的元素,配对激活层是一个简单的中间节点集合,其唯一作用是将每对连续的前一层活跃节点的信号统一起来。例如,如果输入层在时间tn活跃的节点是o1,而在tn+1活跃的节点是o2,或者反过来(因此称为“配对”),那么o1和o2的信号将在它们共享的配对激活层节点中合并。紧接着,这个节点变得活跃,并将信号向上传递到上一层的概念层。从传感器的输出一直到最后一层的概念层,这些配对构成了模型的基本单元(图中用以参考的方式突出了配对1,4和配对n,2)。它们负责正确激活概念转变,并为每个转变分配方向。为了实现这些功能,它们的结构需要比简化图中所示的结构更复杂的方案,如图7中所解释的那样。最后,输入/输出层在输入模式下收集前面提到的传感器输出组合,而在输出模式下,它将这些值发送回执行器,以重新产生或执行概念的感知记录(外延)。

2.4 配对解剖学

配对是该模型的基本构建模块,其详细结构如图7所示。每个配对展开为两个平行电路,其中一个负责从传感器传输的信号中编码或形成概念(在左侧),另一个(在右侧)则负责解码或重建这一信号流,将其一路向下还原至传感器。如图所示,配对由五个不同的元素组成。连接是单向的边,信号通过这些边进行传输。在此模型中,假设信号沿边传输的时间不会因其长度而显著变化。模型的一个重要约束是输入信号流的时间间隔(ti)必须至少是信号沿连接传输时间的两倍。在此模型中,节点可以有输入和输出连接。类似于生物神经元,输入连接在某一时刻可能携带信号,也可能不携带信号,但只有一种选择(有信号或无信号)会被传递到所有输出连接。可操作节点和虚拟节点都可以从多个连接收集信号,并且反之亦然(将信号分叉到多个连接)。然而,虽然虚拟节点会自动传递信号,但可操作节点是否会传递信号则取决于某一时刻接收到的信号数量。如果这个数量是奇数,则信号不会继续传播;如果是偶数,则信号会被传递到其所有输出连接。

2.4. 信号流向(上游) (大概是原文排版错误)

在信号流的驱动下,模型通过构成认知结构的配对将信号向上游传递。当传感器输出没有变化时,模型表现出稳定的信号流行为,如图8所示。当一个概念节点在t1被激活(在图的左侧),它的所有三个输出连接也会被激活,分别到达R2、a3和b。然而,重要的是要注意,这三条连接将在该概念节点所属的多个配对中分别被激活,而不仅仅是图中展示的那一对。尽管如此,每个配对中的行为将以完全相同的方式展开,因此,为了便于视觉理解,只展示了一个配对。正如前面解释的,虚拟节点a3将在t1+1被激活,因为这些节点必须始终传递它们接收到的信号。相反,可操作节点b将保持不活跃,因为它需要偶数个活跃的输入连接才能被激活。最后,R2将被抑制,但这没有效果,因为保持器没有被充电。在下一个瞬间t1+1,a3被激活,并激活a1,同时为R1充电。配对激活层的节点P1,2也被到达,但由于可操作节点需要偶数个活跃的输入连接才能被激活,因此它不会被激活。需要注意的是,在这个瞬间,信号流无法通过配对的底部传递其他信号。这是因为,如前面提到的,信号流的时间间隔必须至少是信号沿连接传输时间的两倍。相反,在接下来的瞬间t1+2,信号可以通过配对底部的概念节点再次进入电路。由于传感器输出没有变化(为了更好地解释信号通过模型的稳定流动),新的信号将通过t1时相同的概念节点进入。当这个节点被激活时,a3将在下一个瞬间被激活,b被到达但仍然保持不活跃,R2将再次被抑制且没有效果。在顶部,由于前一个信号的影响,a1瞄准了配对的左上角概念节点,但由于它只接收到一个活跃的连接(奇数),因此它不会被激活。

最后,在时间点t1+3,可以观察到与t1+1相同的状态,唯一的区别是,在后者中,R1没有被充电,但在两种情况下,R1都会在各自的下一个瞬间被充电。因此,可以确保t1+2将与t1+4完全相同,随后,t1+2·x的状态将与t1+2·x+2的状态完全相同。因此,证明了模型中达到了信号的稳定流动。

在一个稳定的信号流动中,当传感器向认知模型发送单一恒定输出时,在输入层的水平上只有一个概念被触发。然而,当感觉输出发生变化时,更多的概念开始在输入层上方的连续层中出现。这种概念形成的过程有效地将输入流编码(并在稍后解码)为一个概念的层次化网络;其中,对(pairs)是促进这些过程的基本结构单元。对在各层中(包括输入层)以一致的方式处理编码和解码。在本节和下一节中,将分别使用两个通用且连续的层,逐步解释这两种过程。

2.5 概念形成(编码)

模型中最初可能形成的概念是输入层的概念,这些概念要么直接来自感觉输出,要么由这些感觉输出的组合形成。在所有其他层中,当现有概念之间发生转换时,会创建新的概念。因此,概念形成的第一步是激活概念层中的一个节点,第二步是在与前者共享一对的另一个概念节点中进行激活。继续使用上面提到的相同对和时间间隔,在t1+2的第一步中,概念C1,1被激活,正如前面提到的,这导致了t1+3的状态。第二步是在t1+2·x+2中激活一个不同的概念节点。在这种情况下,节点标记为C1,3,并在图9的左侧显示,为了清晰起见,t1+2·x+2被重新命名为t2。在这个瞬间,有三个传出连接被激活,分别指向R1、b和a4。在下一个瞬间(t2+1),保持器R1被释放,将信号传递给P1,2,而b保持不活跃,a4变得活跃,将信号传递给R2、P1,2和a2。在这个点(t2+2),P1,2接收到两个连接:一个来自保持器R1,另一个来自a4。由于它接收到偶数个传入信号,这个节点变得活跃,将信号分叉到顶层概念节点C2,1和C2,6。与此同时,a2将连接向上传递,到达C2,6,该节点将在t2+3变得活跃,因为它接收到偶数个同时活跃的信号:两个,一个来自P1,2,另一个来自a2。这个节点(C2,6)的激活完成了新概念的创建,该概念捕捉了从前面的概念C1,1到同样前面的概念C1,3的定性转换(C1,1→C1,3)。在这个瞬间之后,如果没有来自感觉输出的进一步变化,对将恢复到前面描述的稳定信号流动。为了支持这一说法,可以注意到t2+3的状态反映了t1+3,除了在前者中,概念节点C2,6是活跃的。然而,很容易看出,在t2+4,这个节点将把信号向上传递并变得不活跃。因此,t2+4将是t1+4的精确镜像,证明了这个过程是连续的。

2.6 解码

当系统不处于感知状态时,任何概念节点都可以被外部代理刺激,以解码该概念中编码的信息。解码的过程意味着,构成一个概念的所有层次化信息将以相同的顺序逐层复制,一直传递到执行器。在这一过程的最后阶段,执行器应该能够在环境中产生一组动作,将解码后的概念转化为某种物质形式或“打印”。这些“打印”反过来可以通过模型的传感器被吸收,从而为模拟人工代理之间通信的出现提供了一条有希望的途径。任何希望在符号接地问题方向上取得进展的模型,都需要解决符号及其含义在一个代理群体中的出现。将概念解码为物质“打印”完全绕开了符号计算或任何需要使用符号(如数字,例如人工神经网络)的计算机计算。事实上,它完全依赖于一个物理连接主义模型,该模型实现了许多传统上分配给符号计算模型以及最近的神经符号架构的功能。此外,由于在这个模型中符号计算是通过连接主义架构实现的,该系统也可以用作传统的符号模型,其中概念在计算机内部进行计算。简而言之,本文提出的模型不仅同时是符号的和连接主义的,而且它在连接主义方面不需要任何基于计算机的操作。与编码过程不同,解码过程不会收敛为一个稳定的信号传输流。相反,每次刺激一个概念节点时,整个概念转换链都会完整地回放。因此,随着时间的推移重复刺激一个概念节点,只会多次回放概念结构,而不会在其被刺激的时间跨度内逐渐表达该概念。尽管这可能是可取的,但超出了本工作的范围。当解码电路中的一个概念节点被刺激时,它会变得活跃。正如前面部分所看到的,尽管概念节点与其他概念节点共享多个上游对,但每个概念节点只有一个下游对。因此,当概念层n中的一个节点变得活跃时,信号只能通过一个可能的对向下传递。

概念 C 3 , 7 通过 C 2 , 9 到 C 2 , 6 的转换形成,现在在解码过程中以相同顺序复制,首先激活 C 2 , 9 ,随后激活 C 2 , 6 。

解码过程的一个重要限制是:在编码过程中,时间间隔 t i 至少需要是信号通过连接所需时间的 2 倍,而在解码过程中,这个时间还需要包括调制器的延迟时间。因此,两个外部刺激概念节点之间的最小时间需求是:

2 ⋅ ( t connection ) + t modulator

为了直观展示编码和解码的动态,图 14 描绘了信号在认知模型的多层结构中向上和向下传播的路径。

2.7. 执行器

当信号返回到原始传感器输出的执行器对应部分时,需要恢复两个方面的内容。一方面,每个传感器的输出都是由两个信号计算得出的,因此返回的信号也应相应展开,在执行器的输出信号流中生成两个连续的信号。另一方面,认知模型中的信号值是二进制的(要么有信号,要么没有信号,即 [0,1]),而传入传感器的输入信号流具有连续的强度值。因此,执行器无法获取信号强度信息,也无法定义具体的真实世界数值来打印或重建某个特定概念。从哲学角度来看,这非常合理:一个概念本身应该包含所有满足其定义的可能实例。因此,概念本质上是生成性的,但生成具体实例的过程需要额外的信息,以便从概念下降到具体实例。就像“三角形”这一概念包含了所有可能的三角形一样,要生成一个特定的三角形,就需要定义两个角的度数和一条边的长度。

在这种情况下,从概念中重建特定实例的问题可以通过为执行器的输出强度设置一个固定值,以最简单的方式解决。然而,这种方法可能对代理的感知体验相当不敏感。如果代理正在感知具有一定大小或颜色的物体,那么执行器能够以至少基于这些物体的大小或颜色范围来复制具有相应大小或颜色范围的印记,这是合理的。为此,模型中引入了一个调节器机制。该组件的作用是将信号强度体验输入到执行器中,以便它可以基于先前的感知记录重建相应范围内的强度。图15中的调节器方案展示了这种实现方式。

当传感器接收到信号sn和sn-1时,这些信号被传递到调节器,分别到达节点r1和r2。从那里,这两个信号在减法器S1中合并,输出这两个值的强度差。在第二步中,所有三个值(两个信号及其差值)分别输入到三个平均组件(Av)中。这些组件沿时间轴输出强度的加权平均值(最近的信号权重更大),遵循公式:输出 = Σ(i·ti) / Σ(i)。最后,来自sn的平均值进入另一个减法器(S2),在那里从它中减去平均差值。因此,调节器模块产生了三个重要的值,这些值将被执行器用于以物理印记的形式重建和生成概念。这些值是:(i) sn的平均值,(ii) sn-1的平均值,以及(iii) sn与sn和sn-1的平均差值之间的差值。

在执行器中,信号首先被受体((==),(≠),(>),(<))接收,然后立即分叉为两个并行连接。这样做的目的是为了重建传感器比较器处理的初始信号对(sn, sn-1)。需要注意的是,两个受体可能同时被激活。例如,很容易理解(≠)可能与(>)或(<)同时激活。然而,同样可以理解的是,在任何给定时间,可能只有一对信号从执行器输出。因此,当两个兼容的受体共存时,其中一个应该抑制另一个。这一约束在图中通过为受体(≠)提供一个中间节点“a”来实现,该节点被(>)和(<)抑制。尽管如此,最终执行器中的每个受体都通向一对节点。在这些节点中,信号从调节器的输出中被赋予一个强度值,如图所示。一旦强度被分配,信号就会进入入口i1和i2,然后在C处依次整理,最终将重建的信号对释放到外部世界。

2.8. Magnitudes

正如前一节所述,通过传感器接收到的信号强度在到达认知模块时已经丢失;剩下的是一种简化的编码,根据成对顺序比较中的差异来表示这些强度。然而,这种方法可能会过于局限,遗漏了被感知物体的重要特征。幸运的是,信号流的大小可以进一步编码,以捕捉这些物体的更多信息。这将使认知模块能够形成更精细的概念,或者以更精确的方式区分物体。正如前面提到的,与其关注我们通常只能通过测量工具获得的大小值,这个模型的精神是通过建立与其他物体或记录的关系(比例)来形成类似大小的概念。

作为对这些方面的初步尝试,图16提出了对初始传感器方案的两种不同扩展。第一种(在左侧),跟踪新传入信号的强度是否是前一个信号强度的两倍以上(或少于一半)。它通过将其中一个信号分成两个并通过加法组件将它们相加来实现。这些新的比较产生了两个新的输出[o5, o6],分别标记为“>>”(多于两倍)和“<<”(少于一半)。

第二种传感器扩展(右侧)实现了差异的比较。通过使用减法器和一个额外的保持器,该方案允许将当前强度差异与前一个进行比较。因此,从这种扩展派生出的新输出[o5, o6]表明信号强度差异的大小是否在传感器的轨迹上增加(>’)或减少(<’)。当与比较器中的某个阈值结合使用时,忽略信号强度差异的小值,这种信息尤其有用。

需要注意的是,这两种传感器扩展并不是相互排斥的,相反,它们可以根据目标以各种方式重新组合。例如,从图中可以很容易地推断出,就像获得(>>)和(<<)一样,也可以实现一种扩展,产生(>>>) 和 (<<<) 或 (>>>>) 和 (<<<<) 等输出。

另一种直接的选择是通过结合图中左侧和右侧的方案,跟踪信号强度差异是否是前一个的两倍或一半。这样,就可以得到诸如 (>>') 和 (<<') 之类的传感器输出,从而捕捉信号流的突变。图 17 展示了本节建议的扩展方案中两个传感器输出组合的示例。第一个示例 (a) 对应于前面提到的图 16 的左侧方案,引入了量化符号 (>>) 和 (<<)。在此示例中,导入输入层的传感器输出遵循了一种简化方案。第二个示例 (b) 则展示了模型的广泛可能性,它采用了一种特殊的传感器设计,可以根据特定目标进行调整。该传感器设计结合了上述两个扩展方案的元素,包含了示例 (a) 的所有六个输出,以及刚刚描述的两个附加输出 (>>') 和 (<<'),但没有包括它们的自然前驱 (>') 和 (<')。此外,这八个输出遵循一种“非完整”的简化方案,其中某些组合(如被有意省略。

最后,大小也可以从一个完全不同的角度来理解。作为人类,我们常常需要将两个物体放在一起,以便更好地欣赏它们之间的差异。例如,当单独观察时,两条曲线可能看起来呈现出类似的凸起,但当它们并排放置或叠放在一起时,可能会发现实际上一条曲线的凸起比另一条要大得多。同样,这个模型允许使用这种技术,通过某些特征的大小来进一步阐明概念并区分物体。这是通过在被比较的不同物体上并行运行传感器,并将输出信号输入到同一个认知模型中来实现的,这将在后面的示例部分中进一步详细解释。

2.9 动态概念分配

如同大多数认知模型和系统一样,其架构的规模可能会迅速膨胀。例如,人们普遍认为人类大脑包含数十亿个神经元,因此可以合理假设系统的规模与其能力之间存在某种相关性。然而,本文提出的模型在仅几层深度的情况下,其规模就可能远远超过数十亿个节点。对于一个输入层有4个节点的模型,即使没有跨层连接(p=1),第5层的概念层已经包含2.98亿个节点。而第6层则需要惊人的89千万亿个节点,这已经超过了人类大脑的规模。

尽管人类的概念在抽象层次上可能非常复杂,但这些概念,尤其是本文所涉及的空间概念,可能并不在组成它们的部件数量上表现出如此巨大的复杂性。人类对空间形式的概念性知识通常集中在描述能够在许多物体中具有代表性的短序列空间特征上。当需要描述或识别特定物体时,概念性知识可以转化为一系列概念和其他特征的记忆。

这意味着,一般来说,创建涉及非常深层认知架构的长序列概念可能并不高效。相反,为了实现物体描述和识别的目的,实施一个与短序列概念的认知架构相结合的记忆模型可能更为合适,也更符合人类的认知方式。

尽管如此,当然希望在实际应用中最大化本文提出的认知模型能够达到的深度。因此,图18展示了一个启发式方案,允许以一定的代价减少层的规模。

这种策略通过在概念节点中实现“动态概念分配”来降低复杂性。这种方法与前面讨论的形式概念分析(FCA)模型的第三种策略一致(Dias和Vieira,2015):基于相关性选择概念、对象或属性。具体方法是强制一组概念共享一个节点,而不是为每个概念都分配一个节点。当模型对某个概念的需求较高时,会为该概念分配一个节点。在稍后的时间点,如果该概念的需求被另一个概念取代,则将节点从前者移除并重新分配给后者。需要注意的是,这只是探索复杂性降低的多种途径中的一种策略,并被纳入此处以提供并测试至少一种这样的方法。

动态分配方案围绕“捆绑”(bundle)的概念构建。捆绑是一组被汇聚到一个称为“捆绑节点”(bundle node)的概念节点(见图中标注)。这个节点是一个特殊节点,可以接收捆绑中任何一个概念节点的信号,但一次只能传递一个节点的信号。在某一时刻有权通过捆绑传递其信号的概念节点被称为“捆绑所有者”(bundle owner)。原则上,概念节点的捆绑并没有特定的顺序,但在提出的方案中,有意将成对的概念节点分配到不同的捆绑中。一个概念节点在其捆绑中的优先级高于其兄弟节点的机制基于“累加器节点”(accumulator node)的作用。累加器是计数组件,用于统计传入连接的次数,并且只有在达到某个设计阈值(k)时才会触发。如果传入连接是抑制信号(inhibitor),则计数会减少,信号也会停滞。然而,计数器的值不能无限增加或减少,存在一个最大值(Kmax)和一个最小值(Kmin),限制了累加器的范围。此外,所有计数器必须从最小值开始,并且阈值k应位于范围的上四分位数。设置这些条件的原因是确保在任何给定时刻,只有一个节点的计数超过阈值,并且有足够的差距。换句话说,如果有一个计数器的值超过k,则排名第二的计数器必须至少比k低两个单位。捆绑的详细配置在图19中展示,包括编码和解码电路。

与保持器和调制器节点类似,累加器和捆绑节点只需要一个连接即可运行。但如前所述,累加器仅在计数器值大于某个阈值时才传递信号。而捆绑节点基本上是传递任何输入信号的虚拟节点,只是它们每次只能接收一个信号。捆绑的大小是底层概念节点汇聚到单个捆绑节点的数量。尽管图中显示底部有三个概念节点,但这个值是模型的设计参数,可以从 1(无捆绑)到底层的全部大小(完全捆绑)不等。

当捆绑底部的某个概念节点被激活时,它会激活自己的累加器,并抑制捆绑中其他累加器的活动(图 20 的 t1)。在 t1+1 时,累加器 A6 达到阈值(≥k),而累加器 A2 和 A4 的计数器值下降。因此,信号从 A6 传递到捆绑节点 B2,同时传递到节点 a3。最终,在 t1+2 时,捆绑的顶层概念节点被激活,有效地接收来自捆绑底部原始概念节点(Cn,6)的信号。

如果另一个尚未达到阈值的概念节点尝试通过(如 Cn,4),其累加器的计数器会增加,并减少其兄弟节点的计数器,但同时会阻止信号前进,直到阈值被满足。

从图中可以推断,如果两个或更多底部节点同时激活,则它们都无法穿越累加器层,因为它们会互相抑制。尽管它们每次触发都会增加计数器,但在下一时刻会因抑制器的作用而减少计数器。为了避免这种多个概念节点同时激活但无法进入捆绑的情况,可以在设计时将这些可能同时触发的概念节点分配到不同的捆绑中。识别这些节点并适当引导的具体方法超出了本文的讨论范围,将在未来的研究中进一步探讨。

相反,当捆绑顶层的概念节点受到刺激时,信号需要在解码过程中向下传播(图 21)。与编码过程类似,累加器的计数器也会受到触发或抑制连接的影响。当信号到达 B2 时,它会分叉传递到捆绑中的所有累加器,增加它们的计数值。如前所述,当存在一个捆绑所有者时,候选节点的计数器不可能接近阈值 k。因此,尽管整个捆绑的计数器值都增加,但不会激活超过一个累加器,也就不会激活超过一个底部概念节点。于是,由于只有的计数器超过阈值,信号最终在时刻通过被引导至概念节点。同时,的所有兄弟累加器都会在 t2+3 时刻收到来自的抑制信号,从而降低它们的计数器值,并在时间点(顶层概念节点 BC受到刺激的时刻)恢复到最初的状态。

总之,这种复杂性降低的方法具有强大的灵活性,因为它可以根据需要限制模型的规模。然而,在这样做的过程中,每次有多个概念争夺节点分配的特权时,认知能力都会有所损失。正如已经提到的,这仅仅是探索可能的方法以限制本文模型所产生架构规模的初步尝试。还有许多其他途径有待探索,它们可能会提供更好且更有效的选择。

2.10 示例 1

示例 1a

在第一个示例中,如图 22 所示,搭建了一个简单的设置。所选的目标形状由三条直线和两条曲线组成。方案中仅有一个传感器。该传感器在每次读取时比较形状的连续角度对。例如,在比较 时,角度差为 ,依此类推。传感器的四个输出按照一个简洁的方案组合,形成一个包含三个节点的输入层。认知模型的架构设计为包含四个层加上输入层(4 + 1),并且用于生成每层概念的前一层数量设置为一层(p = 1)。每层的大小已在图中标明。

认知模型能够从一般化到区分化之间来回转换是非常重要的。这个例子的目的仅仅是为了提供一个清晰、简单且易于理解的解释。尽管如此,即使它提供了对输入形状的非常一般化和灵活的概念化,理想情况下,它也应该能够提供更具区分性的定义。幸运的是,可以为这一目的设计更具区分性的传感器和认知模型架构。例如,接下来是对同一目标形状的一个变体,使用了三个传感器和一个更大的认知架构。

示例1b。采用前一个例子(1a)中的相同目标形状,现在提出了一种不同的传感方案,并结合了一个更深的层级结构,利用了前面提出的动态分配策略。除了角度传感器外,这次还引入了两个额外的传感器:一个X轴传感器和一个Y轴传感器。这些坐标反映了传感器在每个传感瞬间的位置。因此,它们的差值捕捉了两个连续记录之间的X和Y的增量。相应地,认知模型包含多达八层。从第2层开始,所有概念层在其各自的捆绑概念层中均减少到702个节点。这使得模型能够在保持稳定层大小的同时增加深度。

当然,动态分配方案意味着有些概念可能不会立即在结构中向上发展。因此,那些其概念未能传递到更高层次的目标形状部分,需要被足够多次地感知。通过这种方式,作为把关者的累加器可以达到阈值之上,从而使这些概念能够通过层级向上传递。在完成这一迭代感知过程后,获得了一个完整的概念结构(表1、表2和图27),确定了关键瞬间的集合,并得到了一个重建的图形(图26)。可以观察到,在这种情况下,重建的图形与原始对象要接近得多。然而,一些方面已经被牺牲了,例如,对旋转的独立性现在已经丧失。在某种程度上,似乎在这种设置下,结果略微倾向于目标识别,而不是其概念化。这两方面的界限可能有些模糊,但重要的是要展示,这里介绍的模型能够相当自然地沿着这种身份或概念化谱系的轴线滑动。

为了总结这个例子,图28中挑选了来自第4层的概念C28,以提供其层级结构的视觉呈现,一直到传感器。在表3中,这个层级结构以树形图的形式进行了总结。回到用自然语言解释这一概念序列的练习中,这次的结果更为复杂,且远不那么模糊:从一条直线到一个在X和Y方向上减小的、角度逐渐增加的曲线,到一个在X方向上增加而在Y方向上减小的、角度逐渐增加的曲线,再到一个在X和Y方向上都增加的、角度逐渐增加的曲线,最后到一条在X和Y方向上都增加的直线。

正如可以注意到的,使用额外的两个X轴和Y轴传感器,导致了高度具体的概念的生成,这些概念在区分相似对象,或辨别它们各自的位置和方向时非常有用。

然而,需要注意的是,随着这些序列化描述变得越来越长,它们从人类语言的角度来看就显得越不直观或“自然”。正如之前讨论的,可能需要在概念的深度和其传达的简洁性之间找到一个平衡。因此,在尝试创建复杂定义时,或许可以借助一个由记忆模块通过并置排列的更简单概念的方案。正如前面提到的,这个模块的开发超出了本文的范围,但应该在未来某个阶段加以考虑。

原文链接:https://files.osf.io/v1/resources/z47jb/providers/osfstorage/654fa6959a300900caedfe1b?format=pdf&action=download&direct&version=1