具身智能：形态、行动、感知与学习的协同作用|具身智能|大模型|感知|智能体|模态|神经网络

Embodied Intelligence: A Synergy of Morphology,Action, Perception and Learning

具身智能：形态、行动、感知与学习的协同作用

https://dl.acm.org/doi/pdf/10.1145/3717059

具身智能强调智能受到大脑、身体与环境紧密耦合的影响。它通过信息感知和与环境的物理交互过程持续且动态地生成。在过去的几年中，具身智能的研究范围也在不断扩大，并受到了来自不同领域的广泛关注。与此同时，大量与具身智能相关的研究成果被提出，尤其是在最近几年。在本文中，我们从具身智能是形态、行动、感知与学习四者协同作用的视角出发，对其进行了全面综述，并对现有研究进行了系统的总结与分类。具体而言，由于具身智能是所有这些组成部分协同作用的结果，而非各自独立发挥作用，我们主要关注形态、行动、感知与学习这四个组成部分之间的关联，并指出未来研究可以从它们的内在联系中获益的领域。

CCS概念：• 计算机系统组织 → 机器人自主性；
附加关键词与短语：具身智能，形态，行动，感知，学习

1 引言

具身智能是一种计算方法，用于通过考虑智能体与其环境之间的严格耦合（这种耦合受到智能体自身身体、感知与运动系统以及大脑的限制的调节），来设计和理解具身且处于情境中的智能体的智能行为[23]。具身智能强调智能受到大脑、身体与环境紧密耦合的影响。它通过信息感知和与环境的物理交互过程持续且动态地生成。具身智能是生物体在复杂环境中生存的基础，广泛存在于植物、动物及其他生物有机体中。Held 和 Hein [70] 通过著名的“小猫实验”验证了视觉、发育与运动之间的关系。在该实验中，两只新生小猫被放在同一个房间里。一只可以主动自由移动，另一只则通过特殊设计的装置被动地执行相同的运动。尽管两只小猫接收到相同的视觉刺激，但一段时间后观察到，主动小猫发育出了正常的感官-运动系统，而被动小猫则表现出严重的感官-运动障碍。该实验有力地证明了具身学习的重要性。

在本文中，我们讨论具身人工智能，这并非一个新概念。早在 20 世纪 50 年代，艾伦·图灵就指出，构建智能机器的一种方法是赋予它感知世界的能力，并让它自行发展[184]。在经典的人工智能书籍和教科书中，智能体的定义是通过传感器感知环境，并通过执行器作用于该环境[159]。因此，身体-环境交互一直是研究、模拟和扩展智能的重要途径。当前，由大数据、深度学习及图形处理器支持的人工智能技术在视觉感知、语言处理和语音处理等领域取得了前所未有的成功。然而，更侧重于动作执行的机器人领域尚未取得同样成功的成果。此外，即使在前述取得巨大成功的领域中，大多也是在受限环境的假设下实现的。一旦面向开放环境，当前的人工智能技术仍面临巨大挑战。造成这一问题的核心原因在于，我们更多地关注了智能体的感知和学习能力，而未充分挖掘其动作和行为能力。具身人工智能的提出正是为了强调身体的作用，特别是其对智能行为的影响。相反，忽略身体影响的智能技术被称为离身智能。需要注意的是，在离身智能研究中，动作并非完全被忽略，但通常更侧重于模拟大脑活动以做出决策并实现动作，例如下棋和玩电脑游戏。此外，在离身智能研究中身体也并非完全被忽略，但身体通常仅被用来被动执行指令。

在过去的几年中，出现了一些从不同角度探讨具身智能的教程和综述论文。我们在此进行简要分析并阐明本文的动机。参考文献[153]最初揭示了一个事实，即更高层次的认知和智能行为需要从自下而上的方式来理解，并建立了一个具身智能架构。自此，具身智能引起了越来越多的关注。尤其是在最近几年，具身智能在机器人学、计算机视觉和机器学习等领域变得相当热门。当前的综述论文主要分为两类。第一类紧密沿袭参考文献[152, 153]的研究路线。参考文献[79]从时间尺度的角度对具身智能进行了综述，并讨论了在复杂的自主与自适应系统中交互如何起作用。参考文献[173]讨论了编码在身体中的物理智能。然而，具身智能关注的是智能体的身体、大脑与环境之间的紧密耦合。需要指出的是，物理智能也支持利用身体产生动作、进行感知和学习，但它并未考虑其与大脑及环境的关系。第二类综述更关注与机器学习、计算机视觉及基础模型高度相关的最新进展，其中总结了一些更具体的研究课题，如视觉语言导航、基础模型及模拟器[47, 53, 122]。参考文献[116]对具身人工智能进行了较为全面的综述，但忽略了形态与动作之间的联系。与上述两类不同，参考文献[157]系统讨论了具身智能的归纳偏置，分析了形态、表示与学习的作用，并描述了智能体与环境之间的能量交换。然而，参考文献[157]的目标是强调具身智能中的挑战与机遇，并提出可能显著推动机器人学习领域当前技术发展水平的研究方向。在本文中，我们将具身智能视为形态、行动、感知与学习的协同作用，并对现有研究进行了全面综述与分类。我们主要关注形态、行动、感知与学习这四个组成部分之间的联系，并基于身体、大脑与环境的紧密耦合，提供了一个统一的具身智能框架。

本文组织如下：第2节简要介绍发展历史；第3节聚焦于所提出的具身智能架构；第4节介绍一些研究前沿；第5节给出结论。

2 漫长的过去与短暂的历史

具身智能拥有漫长的过去，却只有短暂的历史。亚里士多德、查尔斯·达尔文、莫里斯·梅洛-庞蒂、克洛德·贝尔纳、沃尔特·坎农、马丁·海德格尔、诺伯特·维纳、让·皮亚杰、詹姆斯·吉布森等人的一系列工作，为具身智能在哲学、生理学、心理学和认知科学领域的研究奠定了坚实的基础。当前最具代表性的观点是：大脑在具身智能中发挥着重要作用，但它并非认知的起源。由于感知与行动之间存在一个动态循环，感知与认知通过身体-环境交互建立起一种相互依存的关系。因此，感知-行动循环实际上是认知的核心。这一框架模糊了感知与认知之间的界限。这与参考文献[8]中所提到的内容是一致的：一旦我们开始探究动物在实际世界中所使用的机制，就很难判断感知在哪里结束，认知又从哪里开始。

然而，现代人工智能起源于1950年代的达特茅斯会议，此后相当长一段时期内，人工智能研究主要局限于符号处理范式（亦称符号主义）。这种方法在实际应用中的局限性很快显现出来，从而催生了联结主义的发展。联结主义包括多层感知机、前馈神经网络、循环神经网络，以及当前在学术界和工业界广泛流行的深度神经网络方法。这种利用神经网络模拟认知科学的方法在适应性、泛化性和学习等方面确实取得了巨大进展，但并未解决智能体与真实物理世界交互中的挑战性问题，并且在可解释性等方面也表现出很大的局限性。

事实上，符号主义和联结主义的根本问题在于它们忽视了与物理世界的交互。莫拉维克悖论最初于20世纪80年代提出，该悖论指出：计算机像成年人一样下棋相对容易，但要像一岁儿童一样具备感知和行动能力却相当困难甚至不可能。有趣的是，当我们审视当今人工智能蓬勃发展的成就时，确实仍然难以找到解决这一问题的根本性突破。罗德尼·布鲁克斯曾提出，智能需要身体，强调智能是具身的且与环境密切相关。这一观点推动了以具身人工智能为代表的行为主义的诞生。需要注意的是，本文所指的“EAI”是利用人工智能方法对具身智能进行的模拟，它不同于生物体固有的具身智能。本文聚焦于具身人工智能。除非另有说明，本文后续内容中提到的“具身智能”和“离身智能”分别指代“具身人工智能”和“离身人工智能”。

具身智能与离身智能并非相互排斥。在符号主义、联结主义和行为主义中都可以找到具身智能和离身智能的影子，只是各有侧重。它们也共享相同的目标，包括理解生物系统、模仿智能行为以及设计人工智能体。在大数据、深度学习及图形处理器的驱动下，离身智能在以互联网信息处理为代表的领域取得了巨大成功，而与机制和材料高度相关的具身智能则已成为智能机器人的核心基础。

在探索智能的过程中，具身智能与离身智能应当相互补充、协同发展，共同促进对智能的理解、模拟与扩展。具身智能与离身智能的紧密结合，是实现通用人工智能的必要条件。

3 具身智能架构

在本节中，我们构建了一个统一的具身智能框架，该框架由形态、行动、感知和学习四个模块组成（图1）。由于具身智能是所有这些模块协同作用的结果，我们更多地关注它们之间的连接（图1中的连线），而非模块本身。为此，本节将介绍与图1中连线相对应的八个子节。由于图1中的连线8©（从学习到行动）实际上是许多现有研究的基础，我们首先介绍它，然后再依次介绍其他连线。

3.1 基于学习的行动生成（L → A）

本子节对应于图1中从学习到行动的连线8©，聚焦于利用机器学习方法生成行动。实际上，行动生成问题在经典控制理论和现代控制理论中已有数百年的广泛研究。在经典控制领域，应用最广泛的PID控制器通过调节比例项、积分项和微分项这三个参数来工作，相当方便且有效。然而，参数调整需要丰富的工程经验，这限制了此类方法在更复杂场景中的应用。随后，在20世纪50年代，基于状态空间模型的现代控制理论得以建立。这类方法高度依赖白箱模型来获取控制器参数，并能够完成完整的稳定性分析。然而，对于复杂的机器人和过程控制系统，难以获得精确的模型，数学计算与实际应用之间始终存在较大差距。所有这些局限性促使人们考虑引入人工智能技术来开发新的智能控制方法，其中强化学习方法变得越来越受欢迎。

强化学习的基本思想应归功于20世纪50年代由理查德·贝尔曼建立的马尔可夫决策过程[9]，智能体基于当前状态选择最优行动。在此基础上，克里斯·沃特金斯于1989年提出的Q-learning算法[196]为强化学习奠定了基础。然而，强化学习也存在收敛困难、泛化能力差等局限性。随着深度学习的发展，深度Q网络[127]将卷积神经网络的特征提取能力与强化学习的行动学习能力无缝结合，在人机棋类对弈中取得了巨大成功，再次激发了强化学习领域的新一轮研究热潮。近期研究表明，强化学习也广泛应用于生物智能[134]。

目前，强化学习方法已成为具身智能的重要方法。需要注意的是，强化学习算法的设计是机器学习领域关注的问题[187]。我们可以直接使用现成的强化学习算法，如PPO [167]和SAC [66]，这些算法被最广泛地用于为智能体生成行动。需要做的是确定状态空间、行动空间和奖励函数，这些都与具体任务密切相关。从这个意义上说，L → A是图1中其他连线的基础。

3.2 基于形态的行动生成（M → A）

本子节对应于图1中从形态到行动的连线1©，强调形态计算。通过形态计算，在与环境交互时，原本需要由大脑完成的部分计算可以卸载到身体上。身体被用来提高计算效率并进一步控制自身的行为。这种现象在日常生活中相当普遍。例如，一个人可以轻松地抓取一个物体，而无需仔细计算运动轨迹和接触力。近年来，随着机构学、软体机器人等领域的发展，形态计算正迎来新的机遇[72, 138]，并在Sim2Real迁移和低功耗计算方面已经展现出巨大优势[23]。

3.2.1 典型示例。利用形态计算实现对更复杂行为控制的一个典型例子是20世纪90年代研发的被动行走机器人（图2）[37, 125]。通过设计特殊的形态结构，该机器人无需主动控制输入即可在缓坡上实现稳定的步态。这项工作摒弃了动力学建模与控制中对机器人关节控制的严格要求，使机器人能够完全依赖自身的形态来控制其行为。

近年来，更多新颖的形态结构不断涌现。参考文献[52]探索了利用形态计算实现四足机器人快速奔跑的方法。参考文献[103]利用动态形态计算为蛇形机器人生成周期性步态。参考文献[10]从自然系统和人工系统中的显示、感知和交互等方面阐述了形态计算在触觉感知中的应用。受沙漠蝗虫的启发，参考文献[201]研究了动物腿部适应不同地面的控制方法，并在玻璃、砂岩、木材和网格等表面上进行了机器人动态粘附实验。

然而，由于增加机器人系统的形态计算可能会降低总体能量需求和控制器的复杂度，因此建立了一个能量视角，将机器人表征为机器与其环境之间为实现特定目标集而进行的能量与信息交换[95]。这反过来促使我们开发用于能量收集及其他益处的形态计算。例如，参考文献[59]评估了跳跃运动中肌肉的形态计算，参考文献[92]利用机器人自适应形态、控制及后续行为之间的相互联系，验证了大脑与身体之间的紧密耦合可以通过能量收集来提高能效[170]，这一点值得进一步研究。

总体而言，该领域的研究工作主要与机构设计密切相关，且大多涉及人工干预。参考文献[54]从可编程动态系统的角度提出了形态计算的形式化分析方法，并指出形态计算不仅适用于机器人，还可以广泛应用于化学系统、统计物理等科学领域。然而，目前仍缺乏从人工智能技术角度对形态计算进行系统性的指导。由于形态计算的巨大潜力，许多学者一直在积极探索该领域。尽管形态计算的完整理论模型尚未建立，但已经出现了两类相对成熟的方法：储层计算和信息论。

3.2.2 用于形态计算的物理储层计算。储层计算是形态计算中最常用的方法[81]，属于动态系统分析方法。在储层计算模型中，物理形态被视为一个物理储层计算设备[131]。储层计算模型的计算机制是一种神经网络结构，其中中间层的参数随机固定，仅需训练输出层的参数。因此，由于只需解决一个线性优化问题，网络训练变得非常方便。由于储层计算具有强大的动态系统描述能力，它已成为分析形态计算的有力工具。

然而，由于储层内部参数不需要显式学习，因此可以利用物理身体的动力学来实现储层计算。参考文献[68]利用质量-弹簧系统构建了一个储层计算模型，并详细分析了其动态特性，为形态计算提供了一个通用的储层计算模型（图3(a)）。因此，后续工作主要是构建不同的物理储层计算模型来实现形态计算。从这个意义上说，对储层计算模型的研究可以有效指导形态计算设备的设计。一个典型的例子是，如果前述质量改为刚性杆，就可以形成张拉整体结构（见图3(b)）。这是一种由受拉构件连接刚性元件的稳定结构。参考文献[148]使用四个执行器控制一个具有24个自由度的张拉整体机器人，展示了张拉整体的计算能力。最近，参考文献[149]提出了一个用于张拉整体机器人力学建模与控制的统一框架。

在四足机器人步态控制任务中（图4(a)），研究者发现直接使用传统储层计算模型中的简单线性层难以实现复杂的形态控制，因此引入了非线性层以进一步提升储层计算模型的性能[42]。参考文献[74]验证了仿生鱼机器人系统也满足储层计算模型中的回声状态特性，并且利用鱼形机器人的游动动作可以显著提升其形态计算能力（见图4(b)）。参考文献[12]指出，折纸结构也能具备足够的动态性能，从而拥有足够的形态计算能力来模拟高阶非线性系统，并以此实现了一种新颖的机器人爬行策略（见图4(c)）。此外，参考文献[130]利用储层计算模拟了人类皮肤的形态计算能力，参考文献[182]则利用机器人的自然动力学来识别风向。近年来，储层计算，特别是物理储层计算发展迅速，其通过物理设备实现储层计算，与具身形态计算高度相关。参考文献[131]对物理储层计算的最新进展进行了详细综述。除了物理储层计算之外，当前利用各种物理形态实现神经网络学习的方法也引起了不同领域研究者的极大关注。

此外，软体机器人近年来受到越来越多的关注，并取得了巨大进展。与刚性机器人相比，软体机器人在可变形性、灵活性、安全性等方面具有更好的特性，更适合在复杂路面上驱动以及操纵未知物体[89]。需要指出的是，由于软体机器人身体动力学复杂，其控制非常具有挑战性，但从具身形态计算的角度来看，这种复杂的动力学反而是一种有价值的计算资源[109]，因此软体机器人成为储层计算的理想工具。受章鱼的启发，参考文献[132]将章鱼臂用作储层计算设备，通过从其物理身体读取线性和静态输出，能够模拟复杂的非线性行为，并且无需外部控制器，通过收敛到极限环即可实现闭环控制。基于这项工作，参考文献[133]展示了这类软体机器人对非线性连续函数的逼近和控制能力。参考文献[90]进一步利用这一机制实现了水中的物体定位（图5）。此外，参考文献[48]用软体手扩展了具身形态计算的范围，并开发了一种用于气动驱动软体手的储层模型。参考文献[208]指出，软体材料长时间浸泡在水中后产生的褶皱有助于实现某些计算任务，并将其应用于主动触觉感知。参考文献[137]利用软体触须传感器进行形态计算，实现了主动距离估计。参考文献[46]研究了调节软体硅胶夹持器阻尼特性的方法，实现了动态形态计算。可以看出，软体机器人作为一种非常有前途的机器人形态，已成为具身形态计算的重要发展方向。相信软体机器人的发展必将推动新一轮具身形态计算的热潮。

3.2.3 形态计算的信息论方法。尽管基于动态系统的方法，特别是储层计算模型，已经取得了巨大成功，但这类方法主要旨在定性模拟具身形态计算，缺乏定量评估能力，这限制了对形态计算机制的进一步深入分析，而信息论方法在这方面具有明显优势。实际上，评估形态计算系统性能最重要的事情是分析原本应由“大脑”承担的计算中有多少被卸载到了“身体”。受此想法的启发，参考文献[58]指出，对形态计算进行定量分析需要建立一个包含大脑、执行器、传感器和环境的认知系统因果模型。

此外，一些工作从分析控制复杂度的角度来评估形态智能。例如，参考文献[158]利用概率最优控制方法，通过优化控制器复杂度来分析机器人的形态能够承担多少计算工作。参考文献[38]比较了不同形态对应的控制器的熵，以分析形态如何影响行为。参考文献[150]研究了在微观尺度上使用熵来表征机器人具身性的方法。“廉价控制”也为形态智能提供了另一种途径，即系统必须充分利用具身智能的作用来追求廉价控制。参考文献[155]进一步将此思想引入强化学习，建立了一个鼓励形态计算的新的优化目标。与参考文献[58]的框架相比，这些工作通过间接分析控制器的复杂度来分析形态的作用。最近，参考文献[49]指出，简单性通常是在逐个行动的基础上量化的，通过约束状态与行动之间的互信息可以获得简单行动，这满足了策略的复杂度要求。需要注意的是，这些定量分析工作大多是与实际物理形态无关的理论研究。如何结合具体的物理形态实现对形态计算的定量分析，仍然存在巨大挑战。

3.2.4 小结。总的来说，该领域的研究工作主要探讨如何将“大脑”负责的计算任务卸载到“身体”，以及如何准确评估“身体”所承担的形态计算。这是一个融合了机构学、材料学和控制技术的新型交叉学科方向。除了人工设计形态结构之外，形态计算的理论也取得了长足的进步，包括储层计算模型和信息论分析方法。高维机器人控制领域中常见的“维度灾难”问题，有望通过形态带来的优势得到有效克服，我们也将此称为“形态的祝福”。

3.3 基于行动的形态控制（A → M）

本子节对应于图1中从行动到形态的连线2©。形态结构被用来简化对特定行动的控制。对于具身智能体而言，无论其形态多么复杂，都具有某种“结构性”特征。这种结构信息有助于减小行动生成的优化空间，保证解的可行性和可解释性。

在为具有复杂形态的智能体设计控制器时，传统的强化学习并未利用智能体的形态特征，而仅仅是将来自智能体不同部位的观测简单拼接起来，并直接输出所有控制变量。这导致控制变量的搜索空间很大，并且学习到的控制变量难以在不同形态之间迁移。基于行动的形态控制的主要任务是如何有效地将形态信息整合到行动控制器的学习过程中。最直接的想法是对智能体的形态信息进行编码以解决形态控制问题。参考文献[31]提出了显式编码和隐式编码两种方法。对于显式编码，不同关节的相对位姿被拼接成一个向量，这有助于对机器人的运动学结构进行建模。这种编码方法利用了一些先验信息，但仅限于简单的拼接操作，仅适用于某些机械臂，而不适用于更复杂的形态。对于隐式编码，形态的编码是在迭代优化学习策略的过程中进行优化的，这意味着算法不仅搜索从状态到行动的最优映射，同时还发现形态的最优编码。尽管该方法在具有不同自由度的同类型机械臂之间的迁移能力上表现出良好性能，但它给优化带来了新的困难，并且机器人的先验形态信息没有得到充分利用。

目前，更先进的技术，如图神经网络和Transformer [185]，被广泛用于高效地表示形态信息，并直接用于提高强化学习的效率。更重要的是，直接考虑形态信息的控制器在跨平台迁移中表现出良好的性能，并且在控制新型具身智能体时具有显著优势。

3.3.1 用于形态控制的图神经网络。在强化学习领域，许多工作引入图结构来提高学习效率。但其中大多数仅限于使用图结构来描述智能体所处的环境，而非智能体自身的形态结构[161, 169]。参考文献[192]建立了一种基本的形态图模型方法，其中节点代表不同的关节，边代表关节之间的依赖关系。利用该图模型，可以直接使用图神经网络的消息传递机制来处理各个关节之间的关系。在每个学习迭代中，每个节点可以将其状态信息分发给相邻节点，每个节点综合其他节点发送的状态信息来更新自身状态。通过这种方式，形态信息被有效地纳入学习过程中，有助于控制器更快地学习。在此基础上，参考文献[16]引入了参数冻结技术来训练图神经网络，以解决高维连续控制问题。尽管参考文献[192]提出的方法有效利用了形态信息，但需要为图结构中对应于智能体不同部分的不同节点设计不同的策略。参考文献[78]提出了一种使用图结构针对不同形态智能体的统一控制策略。其核心思想是将智能体的形态分解为不同的独立模块，但其实质仍然依赖于相邻节点的消息来影响策略。这样，可以为不同模块独立设计控制策略，并针对不同形态实现统一的控制器。这也为控制器设计的预训练模型提供了启示。最近，参考文献[199]使用图神经网络来描述智能体各模块之间的结构信息，指出结构相似的模块可以共享控制策略。通过将此结构信息融入基于模型的强化学习中，显著缩小了搜索空间，并在物理实验中验证了结果（图6）。

总的来说，使用图神经网络进行形态控制的初衷在于：形态信息能够产生有利于学习控制器的归纳偏置。然而，目前能够处理的机器人的自由度和类型仍然相对有限。需要进一步的研究来适应形态差异显著的情况下的高效迁移。一般而言，对于形态结构简单的智能体，不同的形态描述方法之间差异不大。对于形态复杂的智能体，图结构方法相比简单形态的方法表现出更优越的性能。在实际使用中，需要利用图模型准确捕捉智能体的形态特征。

3.3.2 用于形态控制的Transformer。尽管图模型在形态控制中发挥着积极作用，但机器人的形态通常是一种稀疏图结构，经过多轮消息传递后关键信息可能会消失，这就是所谓的“过度平滑”问题。近年来，Transformer作为一种基于自注意力机制的模型受到了广泛关注[185]。如果将注意力设计为“边到顶点”的聚合单元，Transformer可以被视为全连接图上的图神经网络。参考文献[101]直接使用Transformer实现不同组件之间的消息传递，而编码器和解码器可以分别作用于不同的组件。尽管这种方法展示了Transformer的潜力，但它忽略了机器人真实的物理形态。参考文献[73]进一步揭示了节点位置信息对自注意力机制的作用，并将形态信息嵌入到Transformer模型中，用于异构形态的联合策略学习。它克服了传统图神经网络中稀疏结构导致的过度平滑问题。此外，针对大规模机器人形态控制问题，参考文献[62]将机器人形态作为Transformer的输入，通过构建“Metamorph”来学习通用策略，以同时控制大量不同的机器人，为具身形态学习的大规模预训练模型奠定了基础（图7）。

3.3.3 形态迁移。对于不同形态之间的形态控制迁移，由于图神经网络及类似方法直接描述了形态的特征，因此在形态相似的智能体之间观察到了良好的迁移性能。然而，当形态差异较大时，迁移性能会下降，因为不同形态之间对应的状态空间和行动空间存在显著差异。

为此，参考文献[69]提出了一种对策略进行分层解耦的方法，其中仅迁移高层策略，而低层策略仍独立学习。由于高层策略与低层策略之间存在耦合，如果不同形态智能体的低层策略差异显著，高层策略的迁移也难以成功。因此，引入互信息来最小化形态与低层行动之间的差异，从而实现不同智能体低层策略的对齐。总体而言，当前大多数工作仍处于仿真阶段，如何在真实机器人（尤其是仿生机器人和人形机器人）上实现这些方法，仍然是一个极具挑战性的问题。

3.3.4 小结。由于高维度、非线性和强耦合等因素，使用强化学习方法实现对复杂智能体的形态控制极具挑战性。然而，形态信息提供了非常重要且有用的先验信息，能够显著约束搜索空间。因此，以适当的方式将形态信息引入学习算法中，以提高控制器的学习效率，并在将控制策略迁移到其他未知形态时保证性能，这一点至关重要，这也体现了“形态的祝福”。当前，图神经网络和Transformer是用于描述形态结构的代表性方法。这些工作仍然主要在仿真环境中进行，所学策略在迁移到物理系统时会遇到许多困难。尽管为不同机器人设计统一的形态控制器非常有吸引力，但仍存在诸多困难。受近年来自然语言和计算机视觉等领域预训练模型的启发，针对不同形态的统一预训练大模型也是未来的一个重要研究方向。

3.4 感知驱动的形态变换（P → M）

本子节对应于图1中从感知到形态的连线3©，其中智能体根据环境感知信息在线变换形态。形态变换在我们的生活中相当常见。例如，当人们在冰面上快速滑行时，会本能地降低身体以保持平衡；鸟类受惊后会快速扇动翅膀飞走。这种形态变换在机器人领域也经常出现，特别是对于两栖机器人和可变形机器人而言，它们能够通过适应环境和任务，在感知驱动下改变自身的身体结构或参数。由于在线形态变换与感知信息相耦合，因此需要较高的实时性。最近，参考文献[171]报道了一种多模态移动机器人，它通过改变附属部件来增强其运动能力（图8(a)）。在变换其轮子、腿和螺旋桨之后，它可以切换为无人地面车辆、移动倒立摆、无人机系统等。它依靠形态变换在不同地形间穿行。此外，参考文献[140]提出的四足机器人可以在不同地面上行走时动态调整腿长以适应不同地形（见图8(b)）。另一个典型例子是参考文献[177]报道的两栖飞行-驱动车辆。参考文献[94]提出了一种变色龙软体机器人，可以模仿变色龙根据环境改变自身颜色。参考文献[202]利用热、化学或电刺激持续驱动液态金属液滴运动，并使轮式机器人改变重心以产生滚动力矩。

3.4.1 小结。感知驱动的形态变换与硬件高度相关。尽管有许多相关的工作，但仍然缺乏标准化的设计原则。此外，由于形态变换高度依赖于材料和机构领域，其实际实现仍然面临巨大挑战。

3.5 学习驱动的形态优化（L → M）

本子节对应于图1中从学习到形态的连线4©，聚焦于利用学习技术实现形态优化。在生物学中，形态优化现象很常见。生物体的形态在进化过程中被优化以适应环境。例如，四肢是从鱼鳍进化而来的，在形态进化趋于稳定之后，学习到了更好的直立行走行为。此外，形态参数还可以通过后天运动进一步优化。受此启发，我们可以通过协同优化来搜索更适用于控制策略学习的形态。对具身智能体的形态和控制策略进行联合优化，有助于更高效地完成任务。如图9所示，智能体在学习跨越障碍物行走的同时，其腿部形态也得到了优化。

参考文献[135]指出，人类更擅长设计物理系统而非智能控制系统。基于学习的大脑-身体协同进化思想在具身智能领域早期就受到了广泛关注[151]，有时也被称为发育机器人和人工生命等。参考文献[172]首次使用进化学习框架在仿真中实现了形态与控制器的协同优化。一个3D刚体机器人被表示为有向图基因型，并使用图上的进化算法来优化机器人的形态。这些工作受到了广泛关注，因为它们有助于设计出更好适应环境和任务的机器人形态[4, 19, 76, 107, 119, 124, 174]。参考文献[5]指出，形态与控制的协同进化类似于大脑-身体的协同作用，但忽略了环境的影响。该研究验证了环境复杂性对形态复杂性的影响。尽管自本世纪初以来，形态与控制的协同优化已经取得了一些进展，但优化过程受限于软件和硬件仿真条件，并未取得重大突破。在过去十年中，随着制造技术、图形仿真与渲染技术以及计算技术的快速发展，形态与控制协同优化方法取得了巨大成就。

目前，该领域的工作主要包括形态参数和结构的优化，使用的方法主要包括强化学习[63, 65]和遗传优化[71]。近年来，也有仅使用强化学习同时优化结构和参数的工作。该领域需要解决的问题不仅包括形态的高效表示，还包括算法的高效优化。

3.5.1 进化强化学习方法。早期的形态与控制协同优化问题主要基于进化搜索方法，其中进化搜索空间很大（包括形态参数和控制器参数的搜索）。近年来，该领域的工作主要集中在针对特定任务需求的不同编码方法的研究上[34, 97, 142]。尽管形态和控制应该联合优化，但它们实际上是在不同的尺度上优化的。以生物为例，形态的变化更像是一个进化过程，而控制器的设计在给定特定形态后更像是一个后天学习过程。因此，一个很自然的想法是使用进化优化方法来优化形态结构和参数，并使用强化学习方法来实现控制器参数的优化。基于参考文献[192]提出的图神经网络控制器，参考文献[193]将机器人形态设计描述为一个图搜索问题。它引入了物种的概念，并设计了添加和删除节点的突变操作，从而在图结构上实现进化搜索。为了使用图神经网络作为控制器，参数可以在控制器之间共享，从而大大减少了控制器的学习时间。参考文献[63]开发了一个进化环境和一个称为“深度进化强化学习”的计算框架，用于探索具身智能与环境之间的关系。该论文还通过形态进化学习机制验证了进化生物学中的“鲍德温效应”，即生物体习得的行为会影响物种的进化。这种方法相当高效，因为进化算法本质上等价于零阶优化。

3.5.2 直接强化学习方法。随着强化学习的快速发展，一些工作尝试直接使用强化学习来协同优化形态和控制[65]。参考文献[165]使用PPO联合计算形态参数和控制参数（图10）。这对于学习来说是困难的，因为形态搜索空间很大，并且形态与控制相互耦合。为此，作者通过仅优化指定机器人组件的参数（而非机器人的结构）来限制形态搜索空间。在此基础上，参考文献[164]使用强化学习实现了腿式软体机器人的形态搜索和控制策略学习，并进一步实现了从仿真到真实的迁移。针对自组装智能体，参考文献[146]将形态和控制统一在行动空间中。形态搜索和控制设计被描述为一个强化学习问题，并设计了相应的动态图网络控制器，使其形态与机器人形态对齐。参考文献[65]使用强化学习联合学习形态和控制策略以跨越障碍物行走。参考文献[214]在学习过程中将形态变换和控制优化分为两个阶段，并使用策略梯度方法联合优化形态和控制行动。最近，参考文献[117, 118]将图神经网络引入形态与控制协同优化的强化学习框架中，为形态学习中的仿真到真实迁移提供了一条可行途径。

3.5.3 物理实现。尽管形态与控制协同优化的学习过程通常在仿真环境中进行，但人们一直试图在物理世界中实现学习到的形态。早在2000年，参考文献[107]就使用3D打印技术实现了进化得到的形态。然而，人们也发现仿真环境与物理环境之间存在巨大差异。在仿真中表现良好的形态，在物理制造出来后无法达到预期的性能[75]。为了解决这个问题，参考文献[18]提出了一种连续形态建模方法。参考文献[96]研究了如何将仿真到真实的迁移效果也纳入优化过程中。参考文献[156]进一步针对扑翼研究了这种仿真与真实的差异与形态复杂度之间的关系，结果表明仿真到真实的差距实际上是非单调的。对于不同类型的机器人，一些工作首先在仿真中进行形态进化，然后利用迁移技术在物理机器人上实现它们。例如，关于腿式机器人[141, 160]、软体机器人[98]和模块化机器人[6]的工作主要遵循仿真到真实的迁移途径。随着机器人组件种类日益丰富和成本降低，直接在物理系统中优化智能体形态成为可能。参考文献[20]使用机械臂操作不同的立方体模块，通过对模块进行编码并对组装后形态的性能进行物理评估，实现了进化优化（图11）。最近，参考文献[139]设计了一种四足机器人，其股骨和胫骨上安装了线性执行器，允许改变腿长。基于这些优化，获得了一种直接进行物理形态进化的学习方法，并在不同地形上进行了实验。总体而言，直接应用于物理系统的形态优化研究仍处于起步阶段，可优化的参数非常有限。到目前为止，形态优化已相对成功地应用于软体机器人和机器人手的结构设计中。

过去几年，机器人形态进化的进展相对缓慢。一个重要的原因是人们只关注了刚性元件的有限组合。针对这个问题，参考文献[71]利用遗传算法实现了包含多种材料属性的体素化软体机器人的形态优化。参考文献[34]研究了不同材料的体素模型形态，这些材料大致模拟了骨骼、组织、肌肉等。参考文献[33]进一步将控制系统嵌入到机器人形态的物理仿真中，提出了所谓的“进化电生理软体机器人”。最近，参考文献[97]使用直接编码方法实现了3D体素软体机器人的形态进化，并将其应用于生物体实现（图12）。由于3D体素软体机器人的形态优化、控制和制造都非常困难，一些工作开始转向2D体素软体机器人的进化学习[126]。参考文献[88]研究了软体机器人中的“变态”现象。这些工作大多主要考虑形态进化本身，较少考虑环境交互过程中的控制优化。为此，参考文献[11]提出将进化优化与强化学习技术相结合，实现软体机器人形态与控制的协同设计。针对基于2D体素的软体机器人，开发了一个Evolution Gym环境（图13）。Evolution Gym中的机器人由许多“细胞”作为基本单元组成，包括软细胞、刚性细胞和能够主动收缩或扩张的执行器细胞。这使得机器人可以在形状上自由进化，最终完成在不同地形上移动和操纵物体等一系列任务。

另一个典型的形态与控制协同优化应用是机器人手形态优化。优化后的形态应该能够适应需要操纵和抓取的物体。参考文献[1]应用进化策略来优化机器人夹持器的形态，并引入图元网络来提高搜索效率。此外，还实现了对定制化两指夹持器形态的微调。针对强力抓取、捏取抓取和侧向抓取，参考文献[144]将手的形态和控制参数投影到共同的潜在空间中，并提出了一种贝叶斯优化算法来搜索最佳的手部形态（图14）。最近，参考文献[206]从计算机图形学的角度，基于笼状变形模型设计了一种通用的形态表示方法。这种方法的优点在于可以用更少的参数描述丰富的形态。通过将该模型与可微分模拟器相结合，形成了一种端到端的学习方法。

3.5.4 小结。当前大多数研究工作都在仿真环境中得到验证。如何将仿真器中的形态进化结果迁移到物理系统，或者直接在物理系统中进行进化，是一个值得进一步探讨的前沿研究方向。此外，值得注意的是，在机械领域已经有许多成熟的形态设计方法。如何将这些经验性信息，以及相关的物理约束和外部知识，与数据驱动的学习方法相结合，以协同优化形态和控制，将是提高学习效率的有效工具。

3.6 感知驱动的行动生成（P → A）

本子节对应于图1中从感知到行动的连线5©。环境感知信息被用来引导智能体生成行动，以实时与环境交互。这种范式在众多机器人任务中最为常见。例如，在自动驾驶领域，视觉感知及其他感知方式被用于自主导航。许多机器人操作任务也借助视觉感知来生成抓取合成。当前大多数机器感知研究也属于这一类别。

3.6.1 传统视觉操作与导航。在过去的几十年中，传感器和感知算法发展迅速。许多最新的硬件和算法已被集成到机器人平台中。典型的常用传感器包括Kinect、RealSense和事件相机等。此外，用于目标检测、识别、分割和跟踪等传统任务的计算机视觉算法[211, 226]在深度学习时代得到了进一步发展。在此背景下，感知-行动任务得到了极大发展，其中机器人操作和视觉导航是两个代表性任务。

对于机器人操作任务，早期工作主要属于分析方法[13]的范畴，即使用接触模型来计算合适的接触力和扭矩。然而，分析方法需要对象的完整知识，而这在仅有部分且带有噪声的感知信息的情况下很难获得。随着深度学习技术在计算机视觉领域的巨大成功，越来越多的数据驱动方法被提出用于机器人操作[136]。此外，端到端方法（即单个网络直接从视觉输入回归出行动）变得越来越普遍。在视觉导航任务中，智能体需要规划一条合理的路径到达目的地。借助视觉同时定位与建图（SLAM），智能体能够很好地感知和理解其周围环境[22]。近年来，更先进的SLAM算法，如度量-语义SLAM [166]和动态SLAM [195]，已被提出用于处理动态环境。传统的机器人视觉导航通常遵循全局路径规划结合局部运动控制的多阶段范式，这需要大量的先验知识和工程设计工作。与机器人操作类似，越来越多的端到端学习方法被提出，直接将视觉输入映射为运动指令[205]。毫无疑问，感知驱动的行动生成在机器人领域中极为常见。我们仅关注两个重要的新兴方向——多模态融合和语言引导——这两个方向也可以结合成一个统一的、以语言为条件的多模态感知驱动行动生成框架（图15）[204]。

3.6.2 多模态感知驱动的导航与操作。多模态感知被广泛用于导航。一般来说，视觉和深度信息对于移动机器人是必需的。Kinect、RealSense、超声波和激光雷达常用于室内和室外场景[50]。一系列多模态数据集已为研究和工业目的而开发[56, 217]。最近，其他感知模态，如4D毫米波雷达，在一些极端天气条件下展现了潜在应用价值[191]。此外，多模态感知对于某些单感知模态难以解决的任务也至关重要。例如，视觉、触觉和听觉模态常常被融合在一起以识别物体的不同属性。参考文献[14]回顾了在机器人操作中集成多模态感知所取得的进展。参考文献[111]系统地解决了视觉-听觉-触觉模态融合用于材料识别时的弱配对问题。近年来，多模态感知已被用于更广泛和复杂的任务，如精确抓取[194]和手中操作[176]。

3.6.3 语言条件下的导航与操作。另一个重要方向是将语言与感知相结合，从而提供与人类的自然交互界面。一个代表性任务是视觉语言导航（VLN），其中智能体通过将语言与其视觉感知以及生成的导航行动对齐来执行导航指令[53]。智能体需要同时理解导航指令和视觉感知信息，然后生成相应的导航行动。参考文献[3]提出了VLN问题的基本框架，并在MatterPort3D环境中建立了一个基准。当前对VLN任务的研究涉及计算机视觉、自然语言处理和跨模态处理中的许多最新方法，以帮助智能体更好地解决任务。随着VLN的成功，许多工作将此思想扩展到操作场景，形成了所谓的视觉-语言-操作（VLM）任务[220]。从本质上讲，VLM表现出与VLN相似的特征，但可能面临更多挑战，因为操作通常需要更细粒度的行动空间和更复杂的规划。

3.6.4 小结。感知驱动的行动生成任务在机器人技术中非常常见。随着深度学习和计算技术的快速发展，将感知信息直接投影到行动空间的端到端模型已成为解决这类问题的主流方法。此外，多模态感知和语言条件下的行动任务在实际场景中变得越来越流行。然而，将自然语言、多模态感知和复杂行动三者对齐仍然存在巨大挑战。

3.7 行动驱动的感知改进（A → P）

本子节对应于图1中从行动到感知的连线6©，强调感知可以通过有目标的探索得到改进。该领域的研究工作早在20世纪80年代就引起了关注，当时主动感知首次被系统性地讨论[7]。在主动感知中，智能体在智能控制下采取运动，以改进其对环境的感知方式。理论上已经证明，在引入运动之后，传统计算机视觉领域的许多不适定或非线性问题变成了适定和线性问题[2]。从那以后，主动感知被广泛应用于机器人技术，并成为具身智能的重要组成部分[186]。

早期，信息论方法是主动感知的典型方法。例如，参考文献[45]将许多视觉问题归结为状态估计问题，并使用信息论方法来研究状态估计中的最优传感器选择，这为主动感知的贝叶斯方法奠定了基础[147]。这些方法大多使用条件熵或互信息来衡量不确定性，但通常泛化能力较差。近年来，强化学习逐渐成为实现主动感知的重要方法[143]。下面，我们总结几种典型的主动感知任务，并指出将语义和语言融入主动感知任务的最新趋势。

3.7.1 主动视觉感知。任何典型的计算机视觉任务（检测、识别等）都可以通过引入行动转化为相应的“主动”版本。在此我们列举一些典型的主动视觉感知任务。其一是主动目标检测[67]，即待检测的目标不在初始视野内，智能体需要探索环境以发现目标，或者通过某种智能控制策略调整相机位姿，以更好地检测被遮挡或尺度较小的目标。主动目标识别任务[84]旨在当当前视野中提取的特征不足以区分目标时，通过调整相机位姿来获得新的视野。例如，要识别一个人，从正面识别比从后脑勺识别要容易得多。还有一种主动目标跟踪任务[222]。传统的视觉目标跟踪任务需要准确检测视频流中的目标并进行时序关联。当目标移出视野时，跟踪算法就无法再正常工作。为此，主动目标跟踪可以实时调整相机位姿，使运动目标始终保持在视野内。

3.7.2 视觉语义导航。近年来，一个重要的趋势是研究语言条件下的主动感知。这方面最典型的任务是视觉语义导航（VSN）（图17）。与使用较长语言导航指令的VLN不同，VSN仅要求用户提供一个语义目标物体，然后智能体便可在环境中自主搜索该目标。此类语义目标可以通过语义标签[210]或物体图像[225]给出。VSN任务实际上是主动目标检测和识别任务的扩展。由于VSN任务中待检测的目标是用语义信息描述的，这为与人的交互提供了可能。

目前，VSN模型大多在仿真环境中训练，这导致了仿真环境与真实环境之间的差距。参考文献[114]讨论了具身不匹配问题，即实际行动空间与仿真环境中的行动空间不匹配。参考文献[216]利用机器人自身的能力，结合3D感知信息来提高其物体发现能力。参考文献[57]构建了一个实际的物理场景，以全面评估不同方法在仿真环境和物理环境中的性能差异。此外，该研究还指出模块化设计方法显著优于端到端学习方法。

然而，由于场景的先验信息通常能为物体发现带来很大便利，一些方法利用场景先验来实现高效的物体发现[210]。但这些工作忽略了一个重要问题：随着时间的推移，场景本身可能会发生各种意想不到的变化。忽视场景的动态性会严重降低物体发现能力的性能，也给长期部署带来困难。参考文献[224]建立了一种动态时空场景图来解决这个问题，该场景图利用智能体在日常探索过程中收集的信息进行实时更新，从而动态适应环境的变化。参考文献[100]将动态场景图更新形式化为链接预测问题，并设计了一个动态模拟器来生成动态场景。参考文献[106]提出通过监测对话来动态获取和实时预测人员的位置。总的来说，动态场景的处理仍处于相当初步的阶段。当前，主动感知任务正在快速发展。许多新任务，如重排[197]、视听导航[30, 113]和整理[162]等已被提出。视觉、听觉、触觉等多种感知模态也被应用于主动感知任务中[17, 112]。

3.7.3 具身问答。具身问答（EQA）任务[40, 60]是主动感知领域中的一个更高级的课题。在EQA任务中，智能体从3D环境中的随机位置出发，主动探索环境以回答给定的自然语言问题（图18）。然而，当前EQA任务的发展在语言理解、任务规划、视觉感知和行动执行等方面仍面临许多困难。

3.7.4 小结。主动感知是一类典型的具身智能任务，在该任务中，智能体在采取行动的同时改进了感知。它呈现出一种“以时间换空间”的特征（图16），这实际上是一把双刃剑。因此，由于其复杂性和部署难度，其应用仍然相当有限。近年来，语义和语言越来越多地被融入主动感知中，这可能为主动感知的广泛应用提供更多机会。然而，针对动态场景的主动感知仍然极具挑战性。

3.8 行动驱动的具身学习（A → L）

本子节对应于图1中从行动到学习的连线7©。学习是具身智能的基本组成部分，只有当智能体具备自主更新自身知识和技能的能力时，它才能适应不断变化的开放环境。当前，利用丰富的互联网数据构建了各种大规模数据集，预训练的感知模型取得了前所未有的成功。然而，在这种学习范式下，数据采集和模型学习的过程是分离的。一个数据集是否真正适合某个学习任务仍然是一个悬而未决的问题。此外，在训练模型之前必须执行数据清洗和数据标注等操作，这远远不能满足自主学习的要求。

利用具身智能体的行动来改进感知性能，实际上是人类学习的方式。例如，当人类看到一个新物体时，我们会自然地操作该物体或从不同视角观察它以主动探索它，然后我们会意识到，无论从哪个视角看这个物体，它都是同一个物体。我们在这个行动-学习循环中不断学习。探索过程实际上是一个数据采集和标注的过程。受此启发，具身智能体被鼓励去探索那些预训练感知模型可能表现不佳的区域。然后可以收集探索过程中观察到的数据并进行标注，以进一步改进感知模型。这种行动驱动的具身学习范式通常可以分为三个阶段：探索策略学习、训练样本收集和应用部署。它将数据采集和模型学习无缝结合，并能在探索过程中持续提升智能体的能力。它已成为具身智能中一个非常有前景的方向。其主要成果可以分为面向感知的学习和面向表示的学习，具体如下。

3.8.1 通过学习改进感知。参考文献[28]引入了一种语义好奇心奖励，利用当前帧与前一帧语义地图的一致性来引导智能体探索环境，并收集有助于提高模型性能的数据（图19）。参考文献[26]构建了3D全局场景语义地图，该地图可以反投影到2D空间以生成伪标签，从而实现自监督学习。同时，使用3D语义体素的数量作为奖励，以鼓励智能体探索具有更多语义信息的位置。参考文献[190]分析了熟悉样本和不熟悉样本在具身学习过程中的不同作用，并设计了一种新的自监督学习方法。上述所有工作均在仿真环境中实现。进一步地，参考文献[87]基于语义分布的不确定性学习探索轨迹，并尝试进行物理实现。参考文献[219]提出了真实场景中的3D具身数据集，包括视觉数据和密集点云数据。它利用不同视角下3D感知结果的一致性来收集数据。

当前这些工作大多面向一些通用的感知模型，如目标检测和目标分割。具身学习也可以与某些特定任务相结合，以实现一些有目标的特定任务。例如，参考文献[104]提出了一种智能体自动学习构建场景图的通用方法。参考文献[123]提出了具身NeRF，旨在自动收集高质量图像以构建3D场景。

除了直接改进感知模型的性能之外，另一类研究通过自主行为学习直接进行特征表示学习[198]。参考文献[21]从一系列游戏中探索了好奇心驱动的表示学习。参考文献[154]利用机械臂通过简单的触觉传感器与物体进行物理交互，以帮助学习视觉特征，并取得了有希望的结果。参考文献[207]进一步提出了DensePhysNet，通过主动执行一系列动态交互来学习物体的若干物理属性。

3.8.2 小结。可以看出，行动驱动的具身学习能够提供一种学习机制，该机制可进一步用于某些下游任务，如感知或理解。其核心是利用具身智能体的行动进行学习，从而弥合数据采集与模型训练之间的鸿沟。通过这种方式，智能体的具身特性得到了充分利用。

4 讨论

4.1 具身人工智能的优、劣与难

在深度学习技术驱动的离身智能研究中，我们观察到其在感知和学习任务中表现出的优越性能，但由于其黑箱特性和可解释性差，存在安全性问题。此外，其训练过程中的收敛分析仍然是一个难点。在本节中，我们对具身智能的优势（Good）、劣势（Bad）和难点（Ugly）进行全面分析和评估。

4.1.1 优。具身智能最重要的特点是引入了“身体与环境的交互”，从而引入了行动维度。如果能够巧妙地利用身体，许多困难的任务会变得更容易。例如，从背面观察一个人时很难识别出该人。为了解决这个问题，离身智能的典型方法是利用先验知识或数据驱动的方法提取更好的特征，而具身智能的典型方法是移动到一个更好的视角，从而使识别任务变得更容易。此外，适当利用身体形态信息也可以显著简化控制器的设计。例如，合理设计飞机的气动构型可以利用环境实现更灵活的运动，而单纯依赖控制算法的设计则非常困难。

4.1.2 劣。传统的具身智能过分强调身体和环境的作用，而忽视了知识和数据的作用。这样一来，大脑和身体的发展是不平衡的。此外，由于与环境的物理交互，具身智能的安全性也是一个非常具有挑战性的问题。例如，在物体识别任务中，如果模型达到了95%的识别准确率，它可以被部署到一些实际应用中；而在具身智能系统中，即使是1%的失败率（例如在手术中）也可能带来致命的后果。

4.1.3 难。具身智能强调智能产生于环境、身体和大脑的紧密耦合。这一过程需要整合形态、行动、感知、学习，甚至语言理解。由于形态、感知、行动、学习和语言属于不同的领域，且具有显著不同的特性，实现它们之间的对齐非常具有挑战性。然而，具身智能的应用需要环境感知、语言理解、行为控制等各个组件的完美实现。因此，很难以一种优雅的端到端方式来实现它。

4.2 具身智能与机器人学

具身智能与机器人学密切相关，两者在许多情况下被相互混淆。具身智能的核心在于智能产生于身体与环境的交互。这里的“身体”不仅限于机器人。实际上，任何物理实体（例如，詹姆斯·瓦特发明的著名的离心调速器）或非物理实体（例如，数字人和仿真智能体）都是适用的。因此，具身智能更侧重于通用理论、方法和技术的研究，而机器人可以被视为具身智能的一种体现形式。对于机器人本身而言，其智能行为可能来源于具身智能，也可能不是。

然而，我们可以将“具身智能”这个词解读为用“具身的”来修饰“智能”。其中的“智能”通常可以指视觉检测、语言问答等智能任务，这些属于离身智能的范畴。但通过在前面加上“具身的”，我们得到了诸如具身视觉检测和具身问答等新任务。从这个意义上说，具身智能可以理解为离身智能的扩展，旨在向机器人领域迈进。另一方面，在机器人学领域，由于机器人通常具有物理身体，早期人们很少用“具身的”来修饰相关研究工作。当前，机器人学与具身智能领域确实已经深度融合。

5 具身智能前沿

5.1 来自离身机器学习的启示

传统机器学习领域所倡导的有监督学习方法要求训练集和测试集明确分离，并且需要提供准确的标签。这显然会阻碍智能体对动态和开放环境的适应。幸运的是，机器学习领域也意识到了这个问题，并做出了巨大努力来解决它。自监督学习提供了一种新的学习范式来减轻标注压力。通过各种手段为无标签样本构建伪标签，可以在特征学习阶段取得良好效果[86]。此外，终身学习虽然起源于机器人学领域[183]，但近年来在机器学习领域也受到了广泛关注，并在识别和检测等任务中提出了各种克服灾难性遗忘的方法[175]。它也已扩展到强化学习领域，为具身智能体在真实环境中的性能提升带来了巨大机遇。受这些离身机器学习成果的启发，我们认为自监督学习和终身学习的无缝结合也为具身智能提供了一条有前景的路径。

5.2 形态的作用

当前在仿真环境中研究的许多具身导航任务通常只使用简单的行动空间，并未考虑智能体的形态特征[99]。此外，这些任务对环境有较高的约束，通常需要可通行的拓扑地图，并且不考虑避障等问题。如前所述，在具身智能中，形态是产生智能的重要工具，也是体现智能的重要途径。它被视为具身智能的核心。然而，形态计算、形态控制和形态优化等方向尚未成为支撑具身智能发展的重要研究方向。一个重要原因是形态的成功强烈依赖于材料，而材料在选择、驱动和设计方面仍然存在巨大挑战[39]。近年来，软材料在具身智能中得到了广泛应用，因为软体机器人中材料的固有特性能够以刚性机器人无法实现的方式降低机械和算法复杂度。这为未来的工作提供了广阔的研究空间。

5.3 仿真到真实

随着计算机图形学的快速发展，视觉仿真技术可以为具身智能研究提供逼真的平台，并为建立标准化基准奠定良好基础[15]。目前，有许多仿真平台直接应用于具身智能任务，如AI2THOR [43]、Matterport3D [25]、Habitat [163]和iGibson [168]。然而，尽管当前仿真环境中的视觉效果越来越逼真，但仿真环境不可能覆盖真实世界的所有方面。此外，当前仿真环境中的感知信息大多局限于视觉模态。在模拟听觉、触觉等其他感知模态方面仍然存在巨大困难。当我们将仿真中学习到的控制策略迁移到真实世界时，由于难以对具身智能体的动力学进行建模，我们将面临巨大的行为差距。因此，在仿真环境中训练的具身智能体在直接迁移到物理世界时仍然面临严重的迁移问题，这被称为Sim2Real问题。目前，主要有两种方法来解决这个问题。一种方法是使用各种手段丰富仿真环境，例如域随机化[129]；另一种方法是尽可能缩小仿真环境与物理环境之间的感知和行动空间差距。例如，参考文献[27, 115]提出了语义感知方法。参考文献[121]提出了一种环境增强方法以增加训练仿真环境的多样性。参考文献[114]考虑了行动空间的具身不匹配问题。参考文献[115]建立了一种Sim2Real方法，利用语义和高级规划来对齐仿真世界和物理世界。参考文献[221]为可泛化的主动目标跟踪构建了一种结构感知的表示。参考文献[227]同时包含虚拟子集和真实子集用于训练。

5.4 多模态具身智能与语言 grounding

“多模态”在当前具身智能研究中被频繁提及[102]。最近发布的VIMA被称为多模态人工智能系统[85]。但这里的“多模态”通常指视觉、语言、声音等，更侧重于解决视觉环境感知与人类指令和意图之间的关系。从本质上讲，多模态融合仍然局限于离身智能领域。具身智能强调身体与环境的交互。这种交互包括多种不同的模态，如视觉、听觉和触觉。如何有效融合这些异质的多模态信息以实现多模态具身感知，是一个需要关注的重要问题[194]。目前，视觉和听觉是研究相对较多的领域[29, 55, 189]，相应的传感器也在快速发展。触觉感知的研究相对滞后，这严重制约了具身智能的发展，但它对于身体与环境之间的物理交互至关重要[110]。它可以用来确保操作的安全性、稳定性和灵活性，并且能够获取其他感知模态难以捕捉的独特信息。

语言grounding领域也是具身人工智能和机器人学的一个关键领域[61]。Grounding指的是智能体将其内部的语言表示和符号与外部世界中的指称对象以及内部状态进行内在连接的能力。因此，具身机器人必须学会将“红色”和“球”等词与外部玩具（球）及其感知属性（如红色）联系起来。但grounding并不一定需要将内部符号与外部对象直接连接。事实上，即使是抽象词汇也可以间接地与感官运动经验和内在感受相连接[24]。

5.5 用于具身人工智能的大语言模型

近年来，大语言模型受到了广泛关注。特别是GPT等大语言模型的出现，为机器人应用带来了许多新的范式。参考文献[85]开发了一种用于操作任务的多模态提示。参考文献[105]研究了预训练的视觉语言模型如何有益于语言条件下的机器人操作。参考文献[215]和[44]尝试使用大语言模型来解决多机器人协作问题中的任务分配，并展示了有希望的结果。参考文献[91]展示了人工智能生成内容在机器人操作中的一些有趣应用。最近，参考文献[36]通过21个机构的合作，汇集了来自22个不同机器人的数据集，展示了527种技能。所有这些尝试都显示了大语言模型在机器人应用中的强大能力。然而，我们也必须看到，尽管这些技术的引入可能为具身智能的应用带来新的思路和机遇，但具身智能的许多关键挑战并未真正得到解决。特别是，大语言模型更擅长解决高级任务规划和人与计算机的语言交互问题，而对于导航和操作任务中的低级控制，仍然没有理想的解决方案[209]。事实上，大语言模型的出发点与最初的具身智能存在某种程度的矛盾。此外，我们更应该关注如何利用大语言模型来研究具身智能，而不是天真地直接使用大语言模型来实现具身智能。

5.6 多智能体协作

多智能体协作是具身智能不可或缺的一部分。与一些在简单离身环境中学习多智能体协作策略的工作[64, 80]不同，已经涌现出大量在具身视觉环境中学习多智能体协作策略的研究，多智能体强化学习已成为学习多智能体协作策略的主流方法[32, 35]。在参考文献[82, 83]中，两个智能体学习在动作层面协作搬运家具。一些典型的具身任务，如具身问答和具身导航，也已扩展到多智能体设置[181, 188]。然而，大多数多智能体协作任务只考虑同质智能体，但已有工作尝试利用异质智能体的不同能力来处理更复杂的任务[128]。此外，多智能体协作也带来了智能体之间通信机制的挑战。参考文献[145]分析了异质智能体之间的不同通信机制。参考文献[93]将通信信息纳入多智能体强化学习中。值得注意的是，除了多智能体协作外，已有研究表明多智能体之间的竞争也能促进智能体的技能学习能力[77, 203, 223]。随着任务日益复杂，多智能体协作显然将变得越来越重要和必要[51]。

5.7 具身人工智能的安全性与脆弱性

以深度学习为代表的人工智能技术中的安全问题已引起越来越多的关注。一些像素级的攻击会导致整个智能系统识别失败甚至决策失败。对于具身智能系统而言，由于涉及物理行动执行和交互，其安全问题更应该得到重视。一方面，我们看到许多现有的具身感知任务在面对未见过的场景或物体时性能显著下降，并且在仿真环境中训练的策略迁移到物理环境也面临巨大挑战。另一方面，即使在一些成功的应用场景中，具身探索的性能也可能受到某些攻击的影响。例如，参考文献[108]通过向环境添加纹理效果直接降低了具身问答的准确性。参考文献[218]研究了针对视觉语言导航任务的拜占庭鲁棒联邦具身智能体学习。针对视听导航，声源的攻击也可能导致导航任务失败[213]。在具身智能的背景下，出现多少种攻击方式，就会出现多少种防御方式。这将是未来很长一段时间内的重要课题。

6 结论

在本文中，我们回顾了具身智能，特别是具身人工智能的发展历程。从形态、行动、感知和学习的视角，提出了一个统一的具身智能框架，该框架主要关注这些组成部分之间的连接，而非它们本身。根据所提出的框架，我们对现有研究进行了全面的总结和分类。此外，我们还指出了未来研究可以从这些内在联系中获益的领域。由于具身智能是形态、行动、感知与学习的协同作用，学术界既面临着巨大的机遇，也面临着需要整合多个不同学科技术的挑战。

原文：https://dl.acm.org/doi/pdf/10.1145/3717059