打开网易新闻 查看精彩图片

作者 | 王秋凤

这次春节假期的重要收获,就是看到更广泛的、具身智能与汽车融合机遇。本次春晚,多家企业机器人用不同形式,很大程度上遏制了这个国民年度晚会影响力不断下滑的趋势。

大家可能都觉得《武BOT》很好看,很新奇。实际上可能也如此,连续花式翻桌跑酷、弹射空翻、单脚起跳连续翻、蹬墙后空翻、连续大回旋,前所未见。更难的是将人类和机器人同场协同、群体跑位穿插、熟练操弄器械,都是以往很难想象的。

打开网易新闻 查看精彩图片

深度学习的产物

有些舆论似乎试图贬低这场表演的价值,认为不过是封闭场景下预编程的产物。

这当然是偏见。封闭和开放的标准,在于场景本身的“可控性”,而非通常理解的,场地有没有被“圈起来”。

舞台灯光快速变化,环境的微小变化(弹射台和临时墙的位置、姿态)、棍剑的瞬时相对运动,都很难事先精确策划。这需要赋予机器人高度自主控制权,通过物理互动反馈调节。不能像牵线木偶一样,每个细节都通过事先编程或者遥控器来实现。这恰恰反映了具身智能的基本定义和原理。

数十个机器人在舞台上无需外部动捕辅助,依靠机载激光雷达等多种传感器实时扫描环境、自主构建空间坐标、动态规划路径,并能在跑偏或受干扰后全自动恢复每一台机器人都以“第一人称视角”感知舞台。它们知道自己在哪儿、队友在哪儿、道具在哪儿,并根据实时感知调整自身行为。

动作也是如此,和人类表演节目一样,大动作组合一定是事先编排的。人类具体实现(如耍棍、跳跃、空翻),则依靠训练固化肌肉记忆。而机器人则需要先物理建模,在仿真环境中进行大规模强化学习(比如上亿次),让机器人“学习”对机械的动态感知和力矩控制。学的到底是什么?在虚拟空间中,穷举所有可能的位置、姿态、速度偏差、重心偏移、外力扰动(当然是在特定的分辨率下),最终形成控制能力。这种训练,和人类训练肌肉记忆,恰好对应。

打开网易新闻 查看精彩图片

边缘计算和本地决策

真正到现场表演环节,绝不仅仅是“控制能力”或者肌肉记忆那么简单,至少包含了刚才所说的预学习(先验知识构建),融合感知的定位和预测、个体纠偏。比如队友跑位和动作不断遮挡激光雷达的视野,因此一定是多传感器融合,与本体感知定位模块(惯性器件、关节编码器等)再融合。对环境和物理互动的实时计算,对算力要求比较高。

在节目中我们看到,机器人并非所有动作都是完美的,比如个别机器人在腾空落地瞬间的趔趄,但都能瞬间调整恢复姿态。而且任何动作,都不会与其他机器人、同场的人类产生冲突。这种个体自治+群体协同,意味着在动态环境中强化学习,能够连续执行“自身状态—目标状态—队友状态”的联合计算和纠偏。

既然纠偏(有些纠偏动作肉眼难以识别)很连贯,展示了毫秒级机体控制能力。那么就引来了新问题,它们到底是用什么网络来连接所有设备,而不出现延迟?只要有延迟,大概率会出现机器人“叠叠乐”,现场将一塌糊涂。

背后的技术支撑,应是通信同步技术,也是所有集群控制中必备的核心技术(比如上万架无人机的协同)。

现在已经有非常成熟的方案,就是边缘网+本地决策的混合架构。控制台(云端)通过5G网下发的是“目标点轨迹与连续动作序列”指令,但不是具体运动指令。每台机器收到指令后,在本地调用走位运控算法,追踪目标轨迹,在规定时间内到达目标终点。再调用事先写好的运控算法,精准完成动作序列。

显然,整个过程中,真正的实时控制,发生在机器人本地的边缘算力上,云端只负责动作编排和宏观指挥。

硬件上,现场5G通信保障是必须的,轨迹控制时间精度大概在0.1秒的量级,边缘计算的频率更高,大概在10毫秒级别,而关节运动控制则是亚毫秒级别。云-边-端分层架构,可以解决实时性问题。

这种“算力下沉”使得机器人能够在通信中断或延迟波动时,依然依靠本地感知和决策维持稳定运行。

这是典型的时敏型场景。为确保数十台机器人动作同步、彼此及与人类不发生冲突,控制指令端延迟必须稳定在毫秒级。其核心是让网络具备确定性延迟能力,不是尽量快,而是可预测地快。

打开网易新闻 查看精彩图片

长任务和短任务

这里面也凸显了具身智能与汽车不同之处。当前汽车行驶是一个“短任务”——目的和过程都比较单一;而具身智能则需要面临长序列任务,比如《武BOT》,需要技能组合,并按照时间序列依次实现。技能拼接、随着时间推移,会因扰动、指令分布偏移,误差逐渐积累,最终因偏差太大导致任务失败。

我们不知道宇树是如何解决该问题的,但可以猜一下。目前看,机器人所有技能(如行走、跳跃、抓取、舞动)都通过低层控制器执行,技能切换的时候不改变控制方,从而避免不稳定性。集群控制的核心,就是统一控制接口,分发任务,然后由本地算力,将任务分解成具体多个动作,调用相应技能模块(软件)来实现。

在VLA领域,有些公司宣称,机器人在做串行长序列任务(倒咖啡、清洁橱柜、整理寝具)中,成功率“非常高”。其关键点在于,引入了世界模型的条件驱动。说白了,还是世界模型对于未来时态和互动的预测,作为决策条件,提升系统稳定性。

而这一能力,恰恰也是某些车企和自动驾驶供应商,应对复杂场景选择的技术路线,即预测-决策-检测-调整闭环,防止误差积累。

当然不是说,长任务都能搞定,短任务更不在话下。汽车的短任务,场景是不断变化的,上述执行闭环能力,仍需要实践检验。

打开网易新闻 查看精彩图片

汽车如何拥有具身智能

对于正在布局具身智能的车企而言,两者不仅技术相通,而且具备明显的迁移价值。所谓“迁移”,不是把具身智能作为车的某些功能,而是让车成为机器人。这就要求,车不仅拥有感知-决策-执行闭环,还必须具备与环境物理互动能力。

多传感器融合定位和空间感知能力,可以直接复用到地库、家充场景,自动泊入(不依赖卫星定位)充电,与家庭共享空间坐标信息。

而物理交互,在汽车上的典型应用是路面的“交互”,比如冰雪路面、越野脱困、极限避障。传统ESP/ABS基于固定规则触发,而强化学习训练的“AI司机”可以在仿真环境中穷举千万种路面摩擦系数、侧滑角度,最终形成超越人类的精细控制能力。在实际极端环境中,具备“全线控底盘”和“全主动悬架”的车辆,依赖毫秒级响应的力矩控制能力,可以自主应对。人类司机几乎不用操作,或者只需简单操作,和平常的场景一样处理就行。

而云-边-端计算分工,在交通场景即将走向现实。云端指挥交通,只是下发宏观协调指令,具体到车的驾驶决策,一定是本地产生的,不能依赖云端。而某些荒郊野外,5G网弱或者没有,隧道环境没有卫星信号,车辆的边缘算力和本地决策,才能确保自身安全。在网络和卫星定位信号丢失的情况下,照样能够实现高等级驾驶和自动泊车。

如果每一辆车都具备协同能力,在路口通行、匝道合流等复杂场景中的具体协同,将不再依赖中心调度,分布式决策自己就能搞定默契和共识。

简单说,车与机器人的技术底座已经实现技术合流。而供应链合流,也在某种程度上实现了,更别提在生产场景中具身智能的应用。

打开网易新闻 查看精彩图片

产业化分野

顺便说一句,有些批评者很喜欢拿波士顿动力来杠。不提被多次甩卖无法实现商业化的背景,也不提废掉多年液压方案改电驱的尴尬,即便没有技术代差,其他国家所有的机器人公司都有类似的问题:摔不起。

比如,用于运动控制的谐波减速电机原来好几万元,后来降到几千、几百,只有依托中国供应链才能实现。训练中摔坏某些器件是常有的事。中企这边马上调库存换一波,事实上手头上会有一大堆机器人,根本无须担心零部件供应不上。而特斯拉的Optimus、波士顿动力的Atlas如果遭遇同样情况,就可能面临停工。因为库存太浅,用完了就只能等着从中国订货,耗时个把月。

为什么不自己建立供应链,为什么其他国家就没有一大堆供应商快速响应、备件无限量供应呢?这就涉及到产业链集群效应、成本控制能力,再往前就是整个工业基础的问题。而资本的风险管理能力,美国那边是没问题的,而且更具优势。

结 语

至今还认为具身智能用途限于表演、预编程的认知,恐怕严重落后于现实。具身智能和自动驾驶一样,都正在走向产业化。而且两者融合的速度和深度,都超过此前的预料。

这一进程,将重演电池产业的演进:技术启蒙和PPT美国人做得好,一到产业实现环节,中国就吊打全球对手。春晚节目再次揭示了这一点。技术和技术工程化,有时候是一回事,有时候完全不是一回事。

- E N D -

秋凤空间

无肇因之始,无自限之垣

品茗聚友,坐而论道。