秋凤空间 | 从春晚机器人，看汽车的“机器人”化|动作|机器人|汽车|真实世界|秋凤空间|编程

作者 | 王秋凤

这次春节假期的重要收获，就是看到更广泛的、具身智能与汽车融合机遇。本次春晚，多家企业机器人用不同形式，很大程度上遏制了这个国民年度晚会影响力不断下滑的趋势。

大家可能都觉得《武BOT》很好看，很新奇。实际上可能也如此，连续花式翻桌跑酷、弹射空翻、单脚起跳连续翻、蹬墙后空翻、连续大回旋，前所未见。更难的是将人类和机器人同场协同、群体跑位穿插、熟练操弄器械，都是以往很难想象的。

深度学习的产物

有些舆论似乎试图贬低这场表演的价值，认为不过是封闭场景下预编程的产物。

这当然是偏见。封闭和开放的标准，在于场景本身的“可控性”，而非通常理解的，场地有没有被“圈起来”。

舞台灯光快速变化，环境的微小变化（弹射台和临时墙的位置、姿态）、棍剑的瞬时相对运动，都很难事先精确策划。这需要赋予机器人高度自主控制权，通过物理互动反馈调节。不能像牵线木偶一样，每个细节都通过事先编程或者遥控器来实现。这恰恰反映了具身智能的基本定义和原理。

数十个机器人在舞台上无需外部动捕辅助，依靠机载激光雷达等多种传感器实时扫描环境、自主构建空间坐标、动态规划路径，并能在跑偏或受干扰后全自动恢复每一台机器人都以“第一人称视角”感知舞台。它们知道自己在哪儿、队友在哪儿、道具在哪儿，并根据实时感知调整自身行为。

动作也是如此，和人类表演节目一样，大动作组合一定是事先编排的。人类具体实现（如耍棍、跳跃、空翻），则依靠训练固化肌肉记忆。而机器人则需要先物理建模，在仿真环境中进行大规模强化学习（比如上亿次），让机器人“学习”对机械的动态感知和力矩控制。学的到底是什么？在虚拟空间中，穷举所有可能的位置、姿态、速度偏差、重心偏移、外力扰动（当然是在特定的分辨率下），最终形成控制能力。这种训练，和人类训练肌肉记忆，恰好对应。

边缘计算和本地决策

真正到现场表演环节，绝不仅仅是“控制能力”或者肌肉记忆那么简单，至少包含了刚才所说的预学习（先验知识构建），融合感知的定位和预测、个体纠偏。比如队友跑位和动作不断遮挡激光雷达的视野，因此一定是多传感器融合，与本体感知定位模块（惯性器件、关节编码器等）再融合。对环境和物理互动的实时计算，对算力要求比较高。

在节目中我们看到，机器人并非所有动作都是完美的，比如个别机器人在腾空落地瞬间的趔趄，但都能瞬间调整恢复姿态。而且任何动作，都不会与其他机器人、同场的人类产生冲突。这种个体自治+群体协同，意味着在动态环境中强化学习，能够连续执行“自身状态—目标状态—队友状态”的联合计算和纠偏。

既然纠偏（有些纠偏动作肉眼难以识别）很连贯，展示了毫秒级机体控制能力。那么就引来了新问题，它们到底是用什么网络来连接所有设备，而不出现延迟？只要有延迟，大概率会出现机器人“叠叠乐”，现场将一塌糊涂。

背后的技术支撑，应是通信同步技术，也是所有集群控制中必备的核心技术（比如上万架无人机的协同）。

现在已经有非常成熟的方案，就是边缘网+本地决策的混合架构。控制台（云端）通过5G网下发的是“目标点轨迹与连续动作序列”指令，但不是具体运动指令。每台机器收到指令后，在本地调用走位运控算法，追踪目标轨迹，在规定时间内到达目标终点。再调用事先写好的运控算法，精准完成动作序列。

显然，整个过程中，真正的实时控制，发生在机器人本地的边缘算力上，云端只负责动作编排和宏观指挥。

硬件上，现场5G通信保障是必须的，轨迹控制时间精度大概在0.1秒的量级，边缘计算的频率更高，大概在10毫秒级别，而关节运动控制则是亚毫秒级别。云-边-端分层架构，可以解决实时性问题。

这种“算力下沉”使得机器人能够在通信中断或延迟波动时，依然依靠本地感知和决策维持稳定运行。

这是典型的时敏型场景。为确保数十台机器人动作同步、彼此及与人类不发生冲突，控制指令端延迟必须稳定在毫秒级。其核心是让网络具备确定性延迟能力，不是尽量快，而是可预测地快。

长任务和短任务

这里面也凸显了具身智能与汽车不同之处。当前汽车行驶是一个“短任务”——目的和过程都比较单一；而具身智能则需要面临长序列任务，比如《武BOT》，需要技能组合，并按照时间序列依次实现。技能拼接、随着时间推移，会因扰动、指令分布偏移，误差逐渐积累，最终因偏差太大导致任务失败。

我们不知道宇树是如何解决该问题的，但可以猜一下。目前看，机器人所有技能（如行走、跳跃、抓取、舞动）都通过低层控制器执行，技能切换的时候不改变控制方，从而避免不稳定性。集群控制的核心，就是统一控制接口，分发任务，然后由本地算力，将任务分解成具体多个动作，调用相应技能模块（软件）来实现。

在VLA领域，有些公司宣称，机器人在做串行长序列任务（倒咖啡、清洁橱柜、整理寝具）中，成功率“非常高”。其关键点在于，引入了世界模型的条件驱动。说白了，还是世界模型对于未来时态和互动的预测，作为决策条件，提升系统稳定性。

而这一能力，恰恰也是某些车企和自动驾驶供应商，应对复杂场景选择的技术路线，即预测-决策-检测-调整闭环，防止误差积累。

当然不是说，长任务都能搞定，短任务更不在话下。汽车的短任务，场景是不断变化的，上述执行闭环能力，仍需要实践检验。

汽车如何拥有具身智能

对于正在布局具身智能的车企而言，两者不仅技术相通，而且具备明显的迁移价值。所谓“迁移”，不是把具身智能作为车的某些功能，而是让车成为机器人。这就要求，车不仅拥有感知-决策-执行闭环，还必须具备与环境物理互动能力。

多传感器融合定位和空间感知能力，可以直接复用到地库、家充场景，自动泊入（不依赖卫星定位）充电，与家庭共享空间坐标信息。

而物理交互，在汽车上的典型应用是路面的“交互”，比如冰雪路面、越野脱困、极限避障。传统ESP/ABS基于固定规则触发，而强化学习训练的“AI司机”可以在仿真环境中穷举千万种路面摩擦系数、侧滑角度，最终形成超越人类的精细控制能力。在实际极端环境中，具备“全线控底盘”和“全主动悬架”的车辆，依赖毫秒级响应的力矩控制能力，可以自主应对。人类司机几乎不用操作，或者只需简单操作，和平常的场景一样处理就行。

而云-边-端计算分工，在交通场景即将走向现实。云端指挥交通，只是下发宏观协调指令，具体到车的驾驶决策，一定是本地产生的，不能依赖云端。而某些荒郊野外，5G网弱或者没有，隧道环境没有卫星信号，车辆的边缘算力和本地决策，才能确保自身安全。在网络和卫星定位信号丢失的情况下，照样能够实现高等级驾驶和自动泊车。

如果每一辆车都具备协同能力，在路口通行、匝道合流等复杂场景中的具体协同，将不再依赖中心调度，分布式决策自己就能搞定默契和共识。

简单说，车与机器人的技术底座已经实现技术合流。而供应链合流，也在某种程度上实现了，更别提在生产场景中具身智能的应用。

产业化分野

顺便说一句，有些批评者很喜欢拿波士顿动力来杠。不提被多次甩卖无法实现商业化的背景，也不提废掉多年液压方案改电驱的尴尬，即便没有技术代差，其他国家所有的机器人公司都有类似的问题：摔不起。

比如，用于运动控制的谐波减速电机原来好几万元，后来降到几千、几百，只有依托中国供应链才能实现。训练中摔坏某些器件是常有的事。中企这边马上调库存换一波，事实上手头上会有一大堆机器人，根本无须担心零部件供应不上。而特斯拉的Optimus、波士顿动力的Atlas如果遭遇同样情况，就可能面临停工。因为库存太浅，用完了就只能等着从中国订货，耗时个把月。

为什么不自己建立供应链，为什么其他国家就没有一大堆供应商快速响应、备件无限量供应呢？这就涉及到产业链集群效应、成本控制能力，再往前就是整个工业基础的问题。而资本的风险管理能力，美国那边是没问题的，而且更具优势。

结语

至今还认为具身智能用途限于表演、预编程的认知，恐怕严重落后于现实。具身智能和自动驾驶一样，都正在走向产业化。而且两者融合的速度和深度，都超过此前的预料。

这一进程，将重演电池产业的演进：技术启蒙和PPT美国人做得好，一到产业实现环节，中国就吊打全球对手。春晚节目再次揭示了这一点。技术和技术工程化，有时候是一回事，有时候完全不是一回事。

- E N D -

秋凤空间

无肇因之始，无自限之垣

品茗聚友，坐而论道。