炫完“大模型”，“具身智能”将引爆下一波AI浪潮？|ai|人工智能|具身智能|大模型|机器人|神经网络

AI向左，机器人向右，具身智能站在交叉点。

如果说，大模型给人的印象是抽象和理性，那么以具身智能为内核的人形机器人则更显性感。

在大模型的普及和GPT-4等前沿模型的推动下，我们似乎见证了人工智能领域的一个新时代，人机交流也变得前所未有的流畅和无缝。

从今年的世界人工智能大会到世界移动通信大会，人形机器人几乎已成为必备元素。有它们在的地方，就会聚集相当多的人气，是当之无愧的“流量密码”。

《自然》网站报道称，人工智能和机器人技术的“联姻”，可能是一场将彼此推向新高度的“双向奔赴”。

AI技术的集大成者

从符号主义到联结主义，智能体与真实世界的交互得到日益重视。上世纪50年代的达特茅斯会议之后的一段时期内，对人工智能的研究主要限于符号处理范式。符号主义的局限性很快在实际应用中暴露出来，并催动了联接主义的发展，形成了包括多层感知机、前向神经网络、循环神经网络，直至今日风靡学术界与产业界的深度神经网络等多种方法。

这种用人工神经网络模拟认知过程的方法在适应、泛化与学习方面的确取得了很大的进展，但并未真正解决智能体与真实物理世界交互的难题。要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

针对以上问题，“具身智能”（Embodied AI）概念应运而生。1950年，“计算机之父”图灵（Alan Turing）在他的论文《Computing Machinery andIntelligence》结尾展望了人工智能可能的两条发展道路：一条路径是聚焦抽象计算（比如下棋）所需的智能，另一条路径则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路逐渐演变成了如今的非具身智能和具身智能。

其中，具身智能指的是一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。它包含人工智能领域几乎所有的技术，包括计算机视觉、自然语言理解、认知和推理、博弈伦理、机器学习等，横跨多个学科方向，是人工智能的集大成者。

2023年，是生成式AI的爆发之年，也被业内称为“机器人觉醒之年”，ChatGPT等生成式AI与人形机器人行业结合，开启了具身智能时代。

这一年，具身智能领域的几项关键性技术都取得了突破性进展。李飞飞团队发布了具身智能新成果VoxPoser，能从3D空间分析出目标和环境障碍，让真实世界中的机器人在未经培训的情况下直接执行任务。

VoxPoser系统的出现，将大型模型与机器人结合，进一步提升了具身智能体的环境交互能力，使其在完成任务时无须额外的数据和训练。这种深度的人机交互和理解使得具身智能更接近于人类的认知和情感模式，有望实现更深层次的人机共融，也揭示出从具身智能走向超级智能的路径。

DeepMind发布了Robotic Transformer 2(RT-2)，其在训练时模型就同时学习视觉、语言、机器人行为这三种数据，并将这些知识转化为机器人控制的通用指令。RT-2一方面吸收了视觉语言模型的语义推理、问题解决、视觉解释能力，另一方面能够从真实的机器人动作中实现具身任务推理，且两方面能够相互促进。在自然语言输入后，通过模型的运算，直接产生动作的输出，让人类可以通过纯语言命令优化机器人控制。

在ITF World 2023半导体大会上，英伟达创始人兼CEO黄仁勋直言，人工智能下一个浪潮将是具身智能，是能理解、推理、并与物理世界互动的智能系统，AI与机器人的融合，具有很好的想象空间。特斯拉CEO马斯克在日前举行的2024特斯拉股东大会上表示，人形机器人将是今后特斯拉主要的长期价值来源，他也认为，以具身智能机器人为代表的产品有望成为AI的下一浪潮，并且将成为工业主力，数量有望超越人类，预计将达到100亿至200亿台。特斯拉的目标是年产10亿台，占据市场10%以上的份额。

从全球具身智能当前发展看，大致可以分为三个流派：实用派、性能派、学术派。

实用派——以特斯拉、AgilityRobotic和1X Technologies为代表的实用派看重商业化落地的可能性，希望“让一部分人先用起来”。可以接受前期仅在部分场景中替代少量劳动力，在设计初期便拥有明确的商业化落地目标，着重于快速降低成本、推动量产落地。特斯拉于2023年12月中旬发布了第二代人形机器人，提升了行走速度，可完成拿鸡蛋等精细操作，给了市场更多的信心，预计2024年试产，2025年量产，最终目标售价期望低于每台2万美元。

性能派——以波士顿动力为代表的运动性能派，则拥有与军方三十年之久的合作经验，着重于挖掘现有人形形态机器人的运动潜力，不太关注成本，Demo机已拥有完成诸如后空翻、跑酷等高难度动作的能力，有可能在未来战争中起到一定作用，但碍于成本过高，而影响了量产计划。而Apptronik这类公司则拥有深海、太空等极端环境下的产品经验，还与NASA有较多合作开发经验，第一款通用机器人Demo只有上半身，计划在2024年底前实现商业化。

学术派——以李飞飞教授和谷歌团队为代表的学术派则非常追求大模型对于机器人的变革，打造出“RobotGPT”的基座模型，实现零样本或少样本学习，在更复杂乃至陌生的环境中执行任务，实现人形机器人的智能涌现。

在国内，人形机器人产业亦被认为是下一个蓝海市场。据《人形机器人产业研究报告》显示，全球人形机器人行业发展进入黄金时期。预计2026年中国人形机器人市场规模超百亿，达到104.71亿元，2030年有望成长为千亿市场，市场规模达1192.46亿元。

螺旋上升与曲折前进

具身智能这条长坡厚雪的赛道上从不缺少拓疆者。从简单的结构驱动到关节驱动，再到完成跑步、转弯、识别特定人群面孔系统的高度集成，至目前能发挥自主决策等功能的高动态运动阶段，早稻田大学WABOT-1、本田ASIMO、波士顿动力Atlas、特斯拉Optimus、小米CyberOne“铁大”、优必选WalkerS等代表作，不断突破着技术的边界。

在进入生成式人工智能时代之后，大语言模型（LLM）为具身智能赋予了新的“大脑”，结合视觉语言模型（VLM）和视觉导航模型（VNM），推动着机器人在不确定环境中的应变能力，从而为应用端开拓了前所未有的可能性。

但目前仅有大模型技术的创新，还不足以驱动具身智能发展。香港大学机器人与自动化首席教授、新兴技术研究所所长席宁表示，计算机控制机器人必须解决这三个问题：逻辑关系、特殊关系和时间关系。然而，现有的大型语言模型等方法，只能回答其中一个维度的问题。

ChatGPT只是数据驱动的静态智能，未来是时空环境驱动的具身智能，智能载体不是今天的人工神经网络，而是类脑的脉冲神经网络。这需要多模态（文本、语音、图片、视觉、运动等）融合感知、认知、决策和行为生成能力，并基于人工反馈的强化学习完成并快速智能进化。基于具身智能，还将衍化出多智能体协同感知、控制、决策的群体智能，从而实现更广泛的智能体之间的协作交互。

综合来看，具身智能在其发展过程中目前仍面临着多项挑战，这些挑战源自于其发展过程中的复杂性和不断变化的需求。

首先，是要适应非结构化真实环境。与预设规则和模式驱动的传统AI系统不同，具身智能必须在一个充满复杂性和不可预测性的非结构化环境中找到立足点。在这种环境中，信息的稀缺和场景的多变性，要求AI系统具备更加先进和灵活的计算能力，以便能够适应环境的不断变化和不确定性。这不仅是一个数据处理的问题，更是对AI系统感知和适应能力的全面考验。

其次，是要发展更高级的认知策略。在自然界中，生物体通过视觉、听觉和触觉等多种感觉途径获得复杂的感知信息，并在大脑中进行有效的多模态信息融合。具身智能同样需要模仿这种高效的多模态融合过程，以更全面地理解和适应其所处的环境。这包括但不限于对三维空间中物体的精确识别和定位，以及对环境变化和内在联系的动态捕捉。

同时，具身智能还需要超越传统的计算模型对静态数据处理，发展出对事物的动态变化和相互关系的深层次理解。这不仅关系到对时间和空间信息的处理，还涉及到理解其他生物（尤其是人类）的意图和行为动机，从而实现更自然、更智能的人机协同。

此外，涌现式创新与突破的缺乏影响着具身智能的进化程度。生物群体能够展现出令人惊叹的集体智慧，主要归功于其中个体之间的协同作用。对具身智能来说，一个重要的挑战是模仿这种群体智能系统。这意味着需要将智能分散到多个实体中，并通过它们之间的协作，实现更高级别的认知和决策能力。生物群体所展现的自组织和适应性特征，允许它们根据环境的变化和个体之间的差异进行自我调整。具身智能需要发展类似的机制，以实现分工协作和动态任务分配，从而能够更灵活地应对多种情境。

然而，理解和模拟生物群体中的涌现现象，尤其是在计算模型中，仍是一个巨大的挑战。要发展出一个符合生物原理的计算模型，从而使具身智能能够真正实现群体间复杂的交互和创新，显然还有很长的路要走。

最后，具身智能在与真实环境进行交互并充分学习时，势必会收集和处理大量数据。这就引出了一个关键问题：如何在实时交互中确保这些数据的安全性和隐私性。保障数据安全和用户隐私是具身智能发展中不可忽视的重要方面。此外，具身智能在决策时还需要考虑伦理和道德问题。因此，未来的发展不仅需要技术创新，还需要建立更为健全和全面的伦理指南，以指导具身智能在复杂情境中的行为决策，确保其行为符合道德原则和社会价值观。

具身智能的发展不仅是技术革新的过程，更是对人类理解、伦理道德和社会影响的深思，相关研究在推动科技边界的同时，还将深刻影响人类社会的方方面面。

从“实验室”走向“应用场”

具身智能本质上是把人工智能从软件层面与物理世界形成一个具体的交互窗口，人形机器人是最直接能想到的一个形态。

事实上，具身智能可以看作是智能体的大脑，具象化的形态可以多种多样，人形机器人只是具身智能的一个子集，也可以是一个机器狗、自动驾驶汽车或是大型工业设备，只要加上人工智能，都可以成为一个具身智能系统。

实际上，人形机器人的发展历程本质上是对它控制维度和控制能力不断进行升级的过程。以日本早期的机器人为例，像ASIMO这样的模型还没有力矩控制功能，主要依赖位置控制，因此它行走时步伐细小且多在平地上试探性地移动。

波士顿动力是最早采用力矩反馈进行局部运动控制的团队之一，在电机技术尚未成熟时，他们采用液压系统开发了Altas系列人形机器人。如今，随着电机性能的提升，得益于新能源车产业的发展和技术的外溢，像Figure AI这样的人形机器人公司开始推出他们的产品，特斯拉也开始带火市场。

在有些场景，比如说制造业，就不一定都需要人形的形态，一个自动化的设备就能体现具身智能。又比如家庭场景中，则需要更适合跟人类交互的设备和机器，很多现有设施也是为人类需求而设计的，人形就比较合适。

今天具身智能的商业模式是基于机器人作为自动化的节点来形成的，这个模式本质上非常重，不管是从技术层面还是商业模式角度，都在逼着所有的机器人公司去做通用化的智能机器，以实现产品化。

当前的大模型类似于哲学里的“缸中之脑”，它是一个理想化的模型，只输出语言或多模态信息，独立于机器或身体存在。未来它应该连接到什么样的身体或形态，才能完全发挥其通用功能，这是目前投资者和创业者都在探索的问题。

从产业角度看，无论是具身智能还是通用智能机器人，它们的发展主要来自于两个产业的交叉融合。

一方面，是硬件领域，工业化和产业化推动了汽车、机器人等机械结构、电气化和传感器的快速发展，也降低了硬件的成本，使它们更加普及。

另一方面，是软件和数据领域，从早期的电脑和PC到软件，再到互联网，产生了海量数据，结合强大的算力，催生了今天的规模法则和大模型。

在制造业中，具身智能正通过高度自动化的机器人流水线实现生产过程的优化；在医疗领域，具身智能应用在机器人辅助手术和患者护理上；在服务行业，智能机器人正在改变客户服务的面貌……这些具体的应用场景在展示具身智能的广泛适用性之余，还体现了它在提高效率、精度和用户体验方面的巨大潜力。

比如交通领域，车路云一体化不仅可以降低单车的智能化成本，同时在具身智能的加持下，可以赋予道路更加智能的路侧感知系统（MRS），通过融合激光雷达、毫米波雷达、摄像头等多类传感器数据，经过深度神经网络处理，完成包括三维场景下的全景分割、物体检测、场景流估计、运动状态估计、自车位姿修正以及占用体素估计等任务，并形成运动物体未来5秒的运动轨迹、车辆行驶意图、自车的决策信息以及自车未来的规划轨迹信息，帮助智能网联汽车进行交通态势分析，提供全局最优路径规划，使其在复杂环境中更加安全、顺畅地运行。

智力革命已经打响，就像工业革命解放生产力，电力革命解决能源流通，是全新生态的构建。未来嵌入具身智能的机器人、自动驾驶汽车、自动化设备等，不仅是对人类智能的延伸，更是一个通用人工智能诞生和发展的舞台，为超越人类智能水平的人工智能提供了理想的试验场和成长空间。或许，这也是各大科技公司对具身智能寄予厚望的深层次原因。

这预示着，一个更加智能、更加互联的未来正向我们走来。