AI洞察｜具身智能，开启通往AGI的破局之道（2024年第3期）|163

作者

人工智能与大数据研究中心

关于《AI洞察》

当前，人工智能新一轮产业变革已箭在弦上，无论是生成式AI、具身智能还是人形机器人领域，AI技术的颠覆性创新正持续带来一系列深远的产品革新和应用变革。日新月异、层出不穷的人工智能技术革新将带来什么样的影响和挑战？行业参与者又将如何把握新机遇？赛迪顾问资深分析师基于多年深耕人工智能产业的专业积累，即时以专业视角洞察AI领域新变革，研判发展新趋势，为相关决策提供专业建议和意见！

具身智能将利用深度学习的联结主义方法，实现通用智能。

行业洞察

具身智能强调智能体与物理环境的紧密交互，通过智能体实现感知、决策和行动。

多体协同将是未来发展的重要方向。当前基于形态的具身智能主要集中于单体，今后将面向实际任务构建多个智能体实现种群的共享优化。

形态涌现是未来具身智能实现广泛应用的关键。

一、什么是“具身智能”？

具身智能（Embodied AI）是人工智能的一个重要分支，它强调智能体与其物理环境紧密交互，通过智能实体（如人形机器人）来实现感知、决策和行动。这种结合让人工智能能够通过感官输入（如摄像头、传感器）理解环境，通过执行器（如机械臂、轮子）作用于物理世界，从而实现在物理空间中学习、适应并完成指令任务。

具身智能强调受脑、躯体与环境协同效应,更着重关注智能体与周围环境的互动。因此,在具身智能的研究中,智能体的物理状态与认知、操控的关系至关重要。当前，具身智能的发展融合了机构学的形态与结构知识、机器学习的感知与学习算法，以及机器人学的行为控制技术，共同构成了一个综合且独立的学术分支体系。

图1 具身智能的体系架构

利用形态产生行为

重点强调的是运用具身智能的物理形态特性来促成特定动作，以此途径实现对某些“计算”任务的部分替代。采用形态计算技术，"身体"可以替代脑部完成许多复杂的计算任务，并且该技术能有效利用“身体”与外界环境的直接交互，来诱发适宜的行为反应。它不仅擅长于高保真地模拟物理世界的动态迁移，还致力于实现低能耗、环境可持续的计算模式，因此它被认为是具身智能领域的核心和主要组成部分。近年来，随着精密机械、软件的进步，形态计算技术正在迎来全新的发展时期。

利用行为实现学习

重点强调的是通过发挥具身智能体的主动探索与操作行为潜力，自主地搜集学习实例与标注资料，以此路径达成自主学习的目标。这一领域正处于前沿探索阶段，相关研究成果已经初步形成了完善的应用体系，将会在未来推动产业发展。虽然机器学习已是人工智能的关键构成，其学习核心仍高度依赖于输入数据，往往忽视了数据采集的过程。尽管现有技术，包括机器学习，已在缓解这一挑战上取得进展，但仍未充分解决在与环境动态交互中数据处理的难题。相反，基于智能体的自主学习系统，通过整合数据获取与学习框架，推进了一种更先进的学习模式，即主动学习，真正实现了学习过程与环境互动的闭环。

利用学习提升行为

通过学习来改善行为，以达到形态控制的最终目标。由于各种智能体间因状态空间与动作空间的特异性差异，直接实行策略迁移面临重大挑战。为此，采纳层次化分解策略方法，可以有效地将高级策略转换为低级策略，从而使它们之间进行耦合。当不同类型的智能体具有明显的底层策略差异时，机器学习可以帮助减少这种差距，从而使各类智能体的底层策略保持一致。

利用行为控制形态

虽然Transformer可以有效地抑制复杂的图结构，使其成为可以实现具有较强的行为控制的有效工具，然而，这种技术也存在着"过平滑"问题，因为它们往往会忽略掉许多关键的信息。通过采取Transformer技术，我们能够构建一个从底层开始的完整的注意力行为模型，它能够在整个神经网络中进行消息的交换，并且能够有效地区别对待各个组成部分的输入输出。通过引入行为控制的形式，我们更好地探究了智能体节点的位置如何影响它们的注意力机制作用。我们把这些形式融入到行为预处理模型中，并使用多种不同的模式来实现协同学习，这样就避免了传统的图像神经网络模型所带来的不均匀性。

利用学习优化形态

随着具身智能技术的发展，越来越多的研究者开始关注如何通过学习来提升机器的性能，这种技术被称作进化机器人或人工神经网络。然而，以往的研究大多只是针对某种特殊的形状和功能，无法改变机器的整个结构和功能。通过使用进化学习框架，我们已经成功地将模型的外观、功能以及操作方式融入了数字系统，从而使得机器人在复杂的环境中，能够有效地找到最适合的外观，并且这种方式已经被越来越多的研究者所采纳。通过采用基于行走能力的适应性函数，我们已经通过300-600次的迭代来达到自动演变的目的，而且还采取了一种商业上的快捷成型方法，将其变换成具体的物体。此外，我们还提出了一种基于组合模式的间接编码策略，它可以有效地构建出复杂的、具备不同尺寸的旋转关节的球体结构，从而使得这种结构的演变得到更好的掌握。

二、具身智能的范式应用现状

具身智能范式应用的本质是借助大模型的能力实现预训练学习。当前，大模型已经展现出一定程度的自主决策，而预训练则意味着进一步的实现知识迁移。如何更好的通过预训练处理，把自主识别、处理、迁移和实现的能力迁移到真实的物理世界，也就是具身智能，将是当前所面临的核心问题。具身智能的应用路径主要包括基础模型、具身实现和数据处理三部分内容。

图2 具身智能的应用范式

基础模型

预训练基础模型是让具身智能适应多样化的数据类型。2022年发布的ChatGPT，展现出了强大的文本处理能力，在此基础上，基础模型从智能处理文本的大语言模型发展到了可以处理多种类型数据的多模态大模型。2022年底Google提出的Gato，首先将离散控制类数据、图片、语言、机器人数据导入同一个模型中训练，是预训练基础模型具备了可以处理多模态任务的能力。自此，适用于具身智能的预训练基础模型从单一的语言类型扩展到了图片、声音等。

具身实现

具身实现是将预训练基础模型的智能应用从比特世界迁移到真实的物理世界，它进一步分为上层任务规划、下层技能实现和下层轨迹生成。2022年4月Google提出的SayCan是首个具身实现的大模型，在优先的列表中做“选择题”，任务规划由两部分组成：一部分是大语言模型，会根据任务指令判断合适的执行时期；另一部分是多模态模型，通过判断环境中的使用工具，选取合适的工具来执行任务。为了实现任务的泛化性，利用基于Transformer的特征提取能力强化网络结构，从而进行下层技能实现和下层轨迹生成，而这一过程是具身智能通过数据进行模仿学习的重要途径。

数据处理

在预训练模型的框架下实现批量化采集高质量数据，从而达到从比特世界到物理世界的自主决策。目前人工采集仍然是数据的主要来源，而Google于2024年1月提出的Auto-RT，在探索半自动化数据采集上做了一些初步尝试。通过让具身机器人在环境中自主探索，由视觉语言模型识别可操作的对象，再由大语言模型自主编排可执行的操作，并判断其中可以自动执行或通过人工智能遥控做辅助执行的任务，半自动化完成数据的采集及多样性的判断。通过半自动化的方式，可以大幅度提高数据采集中的人工效率。但从总体来看，具身智能对数据自动化采集的探索仍处于萌芽阶段。

当前，具身智能在算法层面相对成熟的是Sim-to-real下的刚性物体行走、单类物体的单一操作任务，以及预训练模型下的上层任务规划能力。不管是Sim-to-real范式下的优先泛化操作，还是预训练模型范式下的技能实现、轨迹生成，当前的具身智能技术的成熟度距离产业落地还非常遥远。

图3 具身智能发展路径

三、具身智能的未来展望

未来，具身智能在短期内会优先落地于单任务，并完成任务内的有效泛化问题；在中期，具身智能优先采用任务规划和技能分层实现端到端的算法构建；在长期具身智能则是聚焦于复杂程度较高的智能体之间的多任务协同。具体来说：

从短期来看，具身智能更适合落地的场景是科研，将具身智能交给高校或科研院所进行算法研究，因为科研无需考虑实际场景的PMF和ROI问题，也不需要植入多场景复杂化的操作算法，只需要把软硬件基础设施做好、接口文档管理好，因此科研适合具身智能做单任务的执行，短期内科研应用将成为具身智能的主战场。除了科研之外，具身智能也可以在商业领域一些精度要求不高、相对简单封闭的场景做示范性的落地测试。

从中期来看，随着具身智能算法的不断成熟、硬件设备的不断优化，具身智能有望在工业领域做更加丰富的场景落地应用。比如在工业领域，具身智能可以完成一些对精度和柔性有一定要求的任务，在特定工序上达到与人接近的水平。

从长期来看，具身智能可以在商业服务、家庭服务等场景发挥更高价值。在商业服务方面，具身智能的机器人可以真正与人类社会融合，从事各类社会岗位；在家庭服务方面，具身智能将以人形的形态出现，成为全能型家庭助手，进一步地成为家庭成员，为用户提供情绪价值。

图4具身智能的未来场景应用