生物人工智能 - 从具身认知到具身机器人
Editorial: Bio A.I. - from embodied cognition to enactive robotics
https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2023.1301993/full
引言
如果将人脑的连接解开并按顺序排列,它们确实会比天空更宽广,因为它们长达数百公里,可能能够延伸到月球再返回。如果我们考虑由脑-身体-环境系统产生的智能类型,那么这种涌现的心智可能在复杂组合学方面更为广阔,其表达能力的顶峰可能存在于语言中,语言以其“有限手段的无限使用”著称。人工智能和机器学习(AI/ML)领域试图复制生物学习者的能力,我们努力重现即使是所谓的简单动物也能灵活应对各种情况的能力。在这个研究主题中,我们很高兴收到一系列多样化的文章,这些文章探讨了具身认知和具身智能原则如何可能促进AI/ML的进步,而无需明确的表征、预设的算法或集中控制结构。在接下来的内容中,我们简要总结这些贡献,突出一些潜在的影响,并以对AI/ML和更广泛的认知科学未来可能的发展方向的讨论结束。
贡献总结与评论
请注意,尽管我们尽可能使用作者的原话,但我们强烈鼓励感兴趣的读者参考原始文章。
在《基于主动推理的文化模式注意力风格的习得》中,Constant等人展示了基于主动推理的视觉觅食模拟,证明了根据驱动感知、行动和学习的文化遗产而形成的注意力风格的习得。本文有力地展示了物质文化如何既能驱动人类思维,又能被人类思维以及注意力模式的建立和重建所驱动。
在《实施植物启发的机器人学》中,Lee和Calvo建议将植物作为软体机器人学的全面灵感来源,因为它们具有非中心化、模块化的结构和高度可塑的表型。与基于系统在观察窗口内的独立可操作性的概念不同,植物和其他生物体在支持自我生产动态方面表现出更强的自主功能形式,这创造了它们与“维持系统生存条件的相互作用领域”之间的区别。他们进一步建议,如果这些系统在获取物质和能量以自我保存方面发挥更积极的作用,那么“生长机器人”领域可能会得到推进。
在《划分参与:人工心智的感知意义和社会形态化》中,Zebrowski和McGraw认为,正确理解社会认知需要更深刻地理解涉及参与性感知意义(PSM)的互动的性质。“社会形态化”被提出作为一种区分生物感知者和人工系统的方法,可能允许逐渐将人工智能纳入最初具有不对称社会程度的情境中。PSM和社会形态化不仅被建议为社会机器人学的基础,而且可能是开发具有通用智能的日益先进的人工智能的潜在强大框架。
在《具身对象表征学习与识别》中,Van de Maele等人展示了如何通过考虑生物体如何实现场景理解,以适应性地操纵和导航对象,并通过利用与世界的主动互动,从他们第一次遇到新情况开始,来为机器人学提供信息。受到神经科学理论的启发,其中新皮质柱在以自我为中心的参考框架内构建关于对象的预测模型,作者引入了一种皮层柱网络(CCN)架构。在CCN中,每个对象类别都通过学习在给定动作的情况下像素空间中预期/预测的转换的生成模型,在自己的参考框架中表示。
在“基于候选对象类别的各自信念进行投票的CCN集成”,这导致在分类可能性过低时创建新的CCN。这种架构在模拟环境中得到了进一步验证,随着代理收集更多证据(通过自监督主动学习)并以有利于达到首选观察/目的地的方式选择行动,分类得到了改善。
在“具身认知机器人中的情境基础”,Valenzo等人描述了如何通过为系统提供整合代理相关、环境和任务相关信息的“全局情境”来增强自主机器的行为灵活性。通过这些核心元素的互动,代理能够(1)基于当前和预期的未来需求(为了学习和掌握偶然性)选择自我相关的任务,(2)执行任务并持续监控性能,以及(3)根据情境行动周期中的总体预测误差放弃不成功的任务。关于预测误差监控,减少的速率被视为整体性能成功的指标,唤起的情绪既作为自主行为的驱动元素,也由全局情境处理的核心元素的互动所塑造。
在“意义问题:自由能原理和人工代理”,Kiverstein等人描述了生物代理如何解决“意义问题”,通过以表达对情境依赖相关性的敏感性的方式行动。借鉴心智-生命连续性和具身认知科学的共同原则,作者认为,强大的自主代理需要稳定的、自我维持的感观运动互动模式,以便在遇到不同(和不同地)有意义环境时为基础价值、规范和目标。作者进一步讨论了具身认知和自由能原理(FEP)之间的关系,包括这些观点在根本上不兼容的挑战,生物系统表现出历史路径依赖学习,但自由能最小化代理切断了这种历史性。这些FEP代理还显示出缺乏具身认知自主性解释中存在的“互动不对称性”。除了解决这些挑战外,建议FEP需要具身认知来解决意义问题,而具身认知需要FEP来进行实现代理所必需的组成因素的精确形式建模。
在“避免灾难:主动树突使多任务学习在动态环境中成为可能”,Iyer等人介绍了一种神经网络架构,以增强具身系统在动态环境中操作的能力,同时灵活适应变化的任务环境,并在没有灾难性遗忘/干扰的情况下持续学习。这是通过结合主动树突和促进稀疏性的局部抑制系统实现的,因此以特定情境的方式动态限制和路由信息。该架构在几个基准上进行了测试,包括一个多任务强化学习环境,其中代理必须解决各种操作任务(参见元学习),以及一个任务预测在训练过程中变化的持续学习设置(参见逆转学习)。在两种模拟中,架构都开发了重叠但不同的稀疏子网络,这些子网络介导了对多个任务的流畅适应,几乎不会遗忘,首次展示了在多任务和持续学习方面的高性能。
在“社交神经AI:社交互动作为AI的‘暗物质’”,Bolotta和Dumas引入了一个三轴框架,用于受FEP-AI启发的生物启发式AI中的社交学习:(1)受大脑启发的认知架构模型,如全局工作空间和注意力图式理论,这些模型连接个体和社会智能;(2)处理认知固有的时间依赖性的动态系统视角;(3)作为复杂交流信号来源的具身性。这些社交互动是高级认知能力的基本元素,但在AI中仍然未被充分探索,构成了理解类人智能的“暗物质”。鉴于我们理解中的这一空白,作者回顾了社交学习在认知发展中的作用以及新兴的“社交神经AI”领域。
在“基于习惯的适应性感观运动图网络的目标导向行为”,Woolford和Egbert提出了一个基于习惯的机器人控制器模型,该模型利用具身认知原则通过适应性感观运动图(ASM)网络架构实现代理性。ASM网络为实验调查提供了平台,这些平台结合了(1)作为历史轨迹函数生成连续运动活动的机制,以及(2)作为支持更高阶感观运动协调结构的评估机制,这些机制根据其支持强化或削弱这些轨迹。作者在涉及物体辨别的最小认知任务中部署了这些自适应网络,展示了单个机器人如何通过探索/随机运动和重复成功的感观运动协调历史轨迹(参见运动咿呀学语)来学习。这些机器人展示了学习,而无需明确的表征机制或额外的适应变量,而是根据动作生成机制本身的内部要求进行适应。
在“具身智能:学习智能决策代理认知架构中的平滑应对”,Kronsted等人描述了熟练的动作如何通过经验变得习惯化和根深蒂固,从而相对于深思熟虑的思想和行动(例如,走路、开车、滑雪、演奏音乐、快餐烹饪)减轻认知负荷。平滑应对行为似乎是自动化的,因为它们是快速的,缺乏反思,对应于Hurbert Dreyfus对海德格尔现象学的描述,涉及“心无旁骛”地吸收在行动中,并处于流动状态。然而,像John Dewey这样的实用主义者建议,智能灵活性内置于平滑应对中,使其与自动化不同。作者详细描述了使用学习智能决策代理(LIDA)系统的概念模型平滑应对,该系统受到意识的全局工作空间理论的启发,并认为自动化动作序列间歇性地与通过意识介导的动作选择(通过背侧流过程)进行熟练和灵活的调整。为了在混合架构中展示这些原则,引入了自动化动作选择子模块,该架构允许具身认知耦合和明确表征的协同组合,以实现更熟练的有意识行为控制。
在“情境神经表征:解决内容问题”,Piccinini认为,基于具身性、嵌入性、具身性和情感(扩展与他们的讨论无关)的情境心智方法与神经表征深深交织在一起,这种计算方法“[需要]在其核心具有具身性、嵌入性、具身性和情感。”此外,情境性被认为是描述计算以适应性方式塑造的必然性,这些方式(1)构建具有原始语义内容的表征,(2)自动协调神经载体与表征内容,(3)允许内容具有因果效力,(4)允许内容足够确定,对系统有意义/有用,(5)允许远端刺激的表征,以及(6)允许错误表征的可能性。
在“受具身认知启发的数学认知模型”,Weinstein等人概述了一个符合具身认知的数学框架,用于自然和人工认知系统,这些系统不将内容丰富的符号表征归因于代理,而是将神经系统、身体和环境建模为“更大整体不可分割的一部分”。感观运动系统被视为(可能标记的)“过渡系统”的特例,与确定性自动机有关。还建议了“充分性”属性的最小充分要求,包括生物体与其环境的最佳调谐,具有足够的历史信息空间。
在“使用具身机器人跳出问题解决框架:感观运动偶然性如何限制新兴自主习惯的形式”,Egbert和Barandiaran建议AI应该从“生命系统的不稳定、自我维持的组织”中汲取灵感。他们展示了如何由迭代可变形感观运动介质控制的机器人能够实现有组织的习惯生态的自发出现,这些习惯能够重演适应性行为,习惯在具有相对更大相似性的模态内形成(类似于生物系统的观察)。这些发现进一步讨论了它们与感观运动偶然性理论、生物学中的适应主义和结构主义解释的相关性,以及功能主义问题解决方法对AI的潜在局限性。
在“基线差分外在可塑性[(DEP)]控制的可达空间分析”,Birrell等人介绍了一种学习规则,该规则在无目标模拟代理的背景下进行研究,这些代理产生环境意识行为。他们进一步将这种机制扩展到有意行为,以确定“短路DEP”是否可以通过简单的开环控制在机械臂中生成期望的轨迹,实验涉及目标到达和圆形运动的瞬态和极限周期动态。
在“AI和社会机器人的设计策略:共振”,Lomas等人探讨了共振的物理机制与人类经验之间的关系,考虑在人机交互中增强这些(可能高度影响)经验。作者讨论了共振作为文化和科学隐喻,并回顾了“同情共振”作为物理机制(包括同步和节奏性锁定)以及塑造人与非人系统之间互动的“设计策略”。
在“跨尺度的自我关注:具身人工智能的生物启发方向”,Sims专注于所有生物系统的智能基础,反映了持续可行性的存在任务。自我关注被引入为“复杂系统的属性,描述其倾向于带来与其持续自我维持兼容的状态”,并且是重述人工系统中类似人类智能的力量(和原则)的潜在手段。
在“注意物质:活性物质、软体机器人和生物启发式人工智能的创造”,Harrison等人认为认知现象如记忆、学习、目标导向和决策的实现存在局限性。也就是说,作者描述了认知与其物质性和身体性深深交织在一起,并建议AI的进步可能需要将潜在的物质、生命过程视为不仅仅是可以抽象的“硬件”,而不考虑特定机械实现者的柔软、活性和可塑细节。简而言之,“物质对认知形式和功能很重要。”在“多重实现2.0”中,物质性使认知成为可能、介导和限制认知,存在条件对理解自主系统如何基于生存、持久和繁殖的存在需求,以目标导向的方式评价、参与和与其环境互动至关重要。
在“重新定义显著性:节奏精确调制的行动和感知”,Anil Meera等人描述了视觉注意力和显著性的本质,以及基于当前视觉信息和估计原因之间的互信息的标准解释如何未能考虑将感知和行动(包括决定下一步在哪里采样,给定当前信念)联系起来的循环因果关系。从这个角度来看,显著性被定义为依赖于不确定性最小化和节奏调度和注意力的基本原则的主动推理过程:精确控制,或给定采样感觉数据时可以更新信念的信心。换句话说,显著性与不确定性最小化有关,支持选择未来的感觉数据,而注意力与节奏精确调制有关。提供了数值实验来展示状态和噪声估计的优势,以及系统识别和为信息路径规划选择行动。
在“具身性使应对自我引起的感觉刺激的非预测方式成为可能”,Garner和Egbert展示了如何通过具身认知来解释自我(相对于外部)引起的感觉刺激的感觉减弱。这与基于efference copies的经典解释形成对比,其中运动命令伴随着预测该活动可能感觉后果的信号副本,然后从实际感觉输入中减去。在这项工作中使用遗传算法来研究非预测解决方案可能可行的情况,在测试的简单系统中涉及修改纸张以形成或避免自我引起的感觉输入(而不是预测和过滤它们),有时利用这些自我引起的感觉输入以获得更大的控制,所有这些都不需要明确的内部模型。
在“我是(深)蓝吗?音乐制作AI和情感意识”,Novelli和Proksch回顾了AI在创造性和情感艺术努力中的应用,重点是音乐作曲。作者建议,基于当前AI的系统存在局限性,这些系统缺乏“与音乐感知和生产的情感组成部分相关联的彻底具身、内感受过程”。作者的回顾提出了将现代生成模型的强大能力与更类似人类的情感/内感受处理相结合的尝试。
在“将自由能原理与量子认知联系起来”,Gunji等人概述了FEPAI和量子认知之间潜在的冲突。虽然自由能最小化导致经典逻辑命题的布尔格,但量子认知导致量子逻辑命题的正交模格。引入了过量贝叶斯推理,通过粗糙集格技术将二元关系从联合概率分布中转换。
在“人类迈出的一小步:从联合主动推理通信模拟累积文化的出现”,Kastel等人提供了一个引人注目且可测试的深度主动推理社会行为公式和累积文化模拟。文化传播被描绘为一种双向通信过程,通过广义同步在对话者的信念状态之间引起特定的收敛。社会/文化交流进一步被描绘为主动推理过程,为代理提供了关于与谁进行通信伙伴选择的选项,从而在确认当前信念和探索社会环境之间引入权衡。累积文化从信念更新的动态中出现,平衡表现为通过选择性、不确定性最小化的成对交换积极维持信念系统的群体隔离。最后,这些新兴平衡的性质(s)在很大程度上取决于每个人的生成模型对其文化生态位的精确加权。
结论
在这段内容中,我们可以看到对于“一个系统如何被认为是受生物学启发”的定义存在广泛的视角,其中许多观点在机器学习中仍然被忽视。例如,人们越来越关注通过模拟环境增强大型语言模型的“多模态”能力以及潜在的“接地”(Driess等人,2023年;Yin等人,2023年)。然而,尝试借鉴具身认知观点的方法却很少见,通常情况下人们假设我们可能能够依靠足够规模的扩展来实现新的涌现能力(Silver等人,2021年)。这与诸如发展型社交机器人学等领域的观点形成对比,这些领域强调为启动(以及“接地”)系统提供条件,这些系统能够“把握”生物体与环境之间有意义的互动,并且能够生成稳健且灵活的模型(Dreyfus,2007年;Tani,2016年;Kolchinsky和Wolpert,2018年;Linson等人,2018年;Bisk等人,2020年;Safron,2021年;Hipólito等人,2023年)。
从激进的具身认知角度出发,有人可能会认为,整个认知主义深度学习领域由于不必要地诉诸于心智-机器隐喻的字面意义,即心智作为字面意义上的信息处理器(van Gelder,1990年;Van Gelder,1995年;Hutto和Hipólito,2021年;Beckmann等人,2023年),其基础是不稳固的。在他们看来,由于计算和信息过程在独立于人类(科学)实践的情况下并不存在于“野外”,这种类比的字面意义推动了一种对自然智能的原始观点(即使在某些情况下具有操作上的实用性)。然而,我们相信,如果放宽一些通常伴随这些认知主义观念的假设,可能会需要一种更具包容性的方法,这些观念在以更具具身认知的术语重新表述时,可能会变得更加强大(和灵活)。例如,人们可以思考一系列多样的科学表征来理解生物智能,而不必一定认同被表征的目标具有模型的本体论属性(Candadai和Izquierdo,2020年;Constant等人,2020年)。这些包括(但不限于)以下表征/建模现象的模型:
通过分布式吸引子动态对行动-感知循环进行隐含的“表征”和广义的蚁群算法自编码,这些动态在可能的行动模式上发挥作用,信息以扩展心智意义上的方式持续地与/卸载到环境中(Clark和Chalmers,1998年;Pfeifer和Bongard,2006年;Heylighen,2016年)。
在共享的潜在工作空间中部分解耦的特征(Bengio,2017年;Thomas等人,2017年,2018年)——可能集中在后内侧和顶叶皮层(Safron,2021a年)——可以被描述为神经活动在其上演变的降维流形(Ji等人,2023年)。
通过皮下结构对不同系统-世界状态可能的稳态后果进行预测建模,这些结构将所有认知扎根于成功生命管理和繁殖的先决条件中(Damasio,2012年;Safron,2021b年;Solms,2021年),从而将个体与系统进化(元)学习联系起来(Campbell,2016年;Ramstead等人,2018年;Botvinick等人,2019年;Safron,2019年;Wang,2021年)。
通过价值导向的纹状体-皮层环路对这些系统-世界的估计进行预测建模(从而控制),可以被理解为根据可能的行动模式对这些感知/概念进行条件化。在层次结构的较低层次,这些可能表现为软组装的前馈模型联盟(参考,摊销和规划作为推理)(Botvinick和Toussaint,2012年;Kaplan和Friston,2018年)。在中间层次的抽象中,这些可能表现为(可体验的)具身模拟的模式以及通过相关可供性对感知的结构化(Cisek,2007年)。在更高层次,这些可能表现为(不可直接体验的)循环活动(或水库)的模式,其分叉/张量可以灵活地参数化可能的行动模式,并具有评估多种策略的能力(Tani,2016年)。
在海马体/内嗅皮层系统的时空轨迹中重新表征这些特征(Blouw等人,2016年;Whittington等人,2020年;George等人,2021年;Safron等人,2021年;Bengio等人,2022年;Dumont等人,2023年),从而允许通过可能的状态转换在时空上协调大规模动态,为整个代理系统提供服务,可能赋予与“传统人工智能”和符号认知科学相关的某种图形表征(Gentner,2010年;Crouse等人,2020年)。
局部对象模型(Kosiorek等人,2019年;Van de Maele等人),这与将皮层柱描述为某种类型的变换器或Numenta的“一千个大脑理论”(Hawkins,2021年)是一致的。尽管尚不清楚每个皮层柱是否都具有完整的以他为中心的对象建模能力(Safron等人,2021年),但这可能是对于能够在形成时间尺度上告知并被行动-感知循环告知的局部“模块”而言的,这些模块能够实现足够程度的功能闭合(例如,触须桶,而不是眼优势柱)。这是如何通过理解具身认知原则来准确描述涉及“表征”的心智现象的具身认知模型的一个例子。
通过符号/语言能力重新表征这些特征(这些能力本身被实现为部分表达的运动序列/语法的可能行动模式),从而允许根据句法语言的组合性来结构化/稳定/扩展认知,其具有“用有限的手段进行无限使用”的能力。通过提供多级递归自指的自我建模,一组额外的涉及“怪圈”的虚拟机(Hofstadter,2007年)被放置在“认知”层次结构之上,从而扩展“认知光锥”,使其确实“比天空更宽”。——初步讨论见Friston等人(2023年)。
在这份非穷尽的方法论清单中,可能可以找到一个包容的、潜在的协同的、科学上有价值的折中方案,以调和那些看似不兼容的关于心智理解的理论。这一努力在本系列文章中得到了体现,这些文章的范围从讨论形态计算的中心性和力量,到展示生物启发神经架构的前景。
值得注意的是,这种更具包容性的立场仍然需要批判性思维,因为我们也会警告不要假设在系统中添加看似生物学特征就必然会改善其智能/适应性功能。鉴于人工智能/机器学习领域中的一些趋势,这种警告可能特别及时,这些趋势试图根据计算能力与能力的“定律”相结合来预测未来的性能增长,尤其是当与将人脑视为“神经网络”的类比相结合时。当然,大脑确实是神经网络的一种类型,但它们也有多个异质子系统,这些子系统共同构成了一个控制架构,用于嵌入环境中的具身代理,这些代理在追求有价值的目标时,通常是在智能结构化的社会情感学习课程的背景下发展(或训练)的(Tomasello,2014年;Veissière等人,2019年;Safron,2021年)。因此,试图将认知的复杂性简化为一个“主算法”的尝试很可能会失败。
此外,通过智能设计的身体结构及其物理反应倾向所实现的形态“计算”,可能能够实现大量的智能功能。事实上,这种将计算挑战“卸载”到身体和环境中的做法,正是我们期望预测处理系统在尝试以最大效率实现适应性功能时所采取的方式。尽管通过更接近原始感觉模态的动态“解释掉”预测误差所需的神经元交易比利用更复杂的模型要少,但如果预测误差根本就没有进入神经系统,因为它们已经通过(具身)主动推断被消除(Ramstead等人,2019年),那么(通过最小化控制论熵)节省的能量就更大了。因此,我们认为,对于具身认知科学而言,最具成果的元先验/超假设是,当试图理解生物智能的来源时,应该从观察行为入手,以及认知是如何从一个系统与其情境敏感的环境的互动中产生的。
我们很荣幸有机会帮助汇集了这一系列关于具身性和环境互动如何在多个层面上为认知提供基础的多样化方式。尽管关于系统必须如何具身化才能实现何种程度(和种类)的智能,可能仍存在争议,但我们甚至可以以这样的格言作为总结:“没有身体,就没有心智。”或者,用已故的伟大诗人玛丽·奥利弗的话来说:“精神喜欢这样装扮:十个手指,十个脚趾,肩膀,以及所有其他部分……它当然可以漂浮,但宁愿深入粗糙的物质。这种空灵而无形的东西,需要身体的隐喻……它需要身体的世界……才能被理解,才能不仅仅是无人之地燃烧的纯粹光芒——因此它进入我们……像一颗星星一样照亮身体深处奇妙的淹没”(奥利弗,1986年)。
https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2023.1301993/full
热门跟贴