自从在春晚上,机器人展示了各种吹拉弹唱技能之后,很难让人不做进一步想象:搞快点,传说中的家务机器人能不能再搞快点。

就是这个三月,人形机器人公司 Figure 发布了一段新视频,没有跳舞,没有翻跟头,就是展示家务技能。

打开网易新闻 查看精彩图片

一台 Figure 03 机器人走进一间散乱的客厅,环顾四周一圈,然后开始干活:把地上的玩具捡起来丢进收纳箱,拿起喷雾剂喷在茶几上再用毛巾擦干净,把沙发上的抱枕拍松扔回原位,甚至拿起遥控器按下关机键把电视关掉。全程没有任何人类指令,没有遥控操作,一镜到底。

这段视频在社交媒体上迅速传播,比起各种「酷炫」的机器人 demo,它做的事情很平凡——都是你每天回家后不想做、但又不得不做的事。

这正是 Figure 想要传达的信号。

不是新硬件,是新「大脑」

特别的是,Figure 并不是发布一台新机器人,硬件仍然是去年 10 月发布的 Figure 03。这次带来升级变化的,是一套全新的 AI 控制系统 Helix。

Helix 02 的核心突破在于一个概念:全身自主性(full-body autonomy)。此前的人形机器人,包括 Figure 自己的上一代系统 Helix,大多只能控制上半身,能站在原地伸手抓东西已经算不错了。走动的时候,系统需要先停下手上的动作、稳定身体、迈步、再停下来、再伸手。

打开网易新闻 查看精彩图片

这种「走-停-做-停-走」的模式意味着机器人但凡做点什么,可能需要花上你自己做的十倍时间,完全本末倒置。

Helix 02 把这个过程彻底打通了。它用一个单一的神经网络同时控制行走、平衡和操作,机器人可以一边走路一边端着碗,可以在手上拿着东西的时候用胯关门,甚至可以在双手被占用时用脚把洗碗机的门踢开。

这听起来像是人做家务时最自然不过的动作,但对机器人来说,这是一个困扰了学术界和工业界数十年的难题,loco-manipulation,即移动与操作的统一控制。

连马斯克都不禁要来问:真是自主吗?

打开网易新闻 查看精彩图片

为家庭而生的硬件

Helix 02 的架构分为三层,可以类比人类的思考方式:

System 2(慢思考)负责语义理解:看一眼客厅,判断哪些东西是乱的、应该放哪儿去、先做什么后做什么。这一层处理的是「理解」和「规划」。

System 1(快思考)负责把理解转化为动作:以每秒 200 次的频率将视觉、触觉、本体感知等所有传感器的数据转化成全身关节的目标位置。这一层处理的是「决策」。

System 0(本能层)是这次最大的新增。它以每秒 1000 次的频率运行,负责平衡、接触和全身协调。Figure 用超过1000 小时的人类运动数据和模拟环境中的强化学习训练出了这个底层控制器。用 Figure 的话说,这个 10M 参数的神经网络替代了原来 109,504 行手写 C++代码。

这个三层结构的结果就是:机器人看起来不再像一个在执行预编程指令的机器,而更像一个正在「做家务」的人——动作连贯、有节奏、偶尔还会做出一些看起来很「聪明」的临时决策(比如把杯子挪开检查污渍)。

打开网易新闻 查看精彩图片

Helix 02 之所以能做到这些,也离不开 Figure 03 这个硬件平台的配合。这台机器人身高 5 英尺 8 英寸(约 168 厘米),体重 61 公斤,一次充电可以工作 5 小时。相比上一代的 Figure 02,它有几个关键变化:

手掌摄像头和触觉传感器。每只手的掌心都内嵌了一个广角摄像头,在主摄像头被遮挡时(比如伸手进柜子里摸东西)提供近距离视觉反馈。每个指尖都有触觉传感器,灵敏到可以感知 3 克的力。这使得机器人能从一堆散乱的小物件中精准地拾取单个目标,甚至能用注射器精确推出 5 毫升液体。

全身覆盖软性材料。不再是冷冰冰的金属外壳,而是可拆卸、可清洗的软面料,战略性地放置了多密度泡沫来防止夹伤。

无线充电。脚底内嵌感应线圈,站上充电底座即可以 2 千瓦功率充电。不需要人去插线,机器人可以自己走去充电。

打开网易新闻 查看精彩图片

这些细节指向一个明确的产品定位:Figure 03 不是一台实验室样机,而是一台为了进入家庭而设计的消费品。

年初底发布时,Figure 把演示场景选在了厨房,机器人自主完成了一个长达 4 分钟的完整任务。

打开网易新闻 查看精彩图片

走到洗碗机前、打开门、取出碗碟、走到橱柜前放好、再走回来装载脏碗碟、关门启动。全程 61 个连续动作,无中断。Figure 称这是「人形机器人迄今为止完成的最长时间、最复杂的自主任务」。

3 月这次的演示,则把难度往上推了一层,来到了客厅。厨房虽然复杂,但物品摆放相对固定、动作路径相对可预测。客厅则是一个每天都在变的空间。

打开网易新闻 查看精彩图片

玩具散落的位置不同,沙发垫的状态不同,茶几上的杯子数量不同。软性物品(毛巾、抱枕)的物理行为难以预测。家具之间的通道狭窄,需要侧身通过。很多动作需要双手配合,另一些则需要在任务进行中临时腾出一只手。

而且这次演示还加入了工具使用——喷雾瓶 + 擦拭、遥控器按键——这要求机器人不仅理解物品「是什么」,还要理解物品「怎么用」。

Figure 强调了一个关键点:从厨房到客厅,Helix 02 没有更换任何算法,也没有做任何专项工程优化,仅仅是增加了训练数据。同一套通用架构,喂更多数据就能学会新技能。

打开网易新闻 查看精彩图片

这暗示了一个令人兴奋的扩展逻辑:如果收拾客厅只需要「多看几遍示范」,那收拾卧室、整理衣柜、浇花、喂猫呢?大有可为啊。

「家用机器人时代」真的来了吗?

先泼一盆冷水。

目前 Figure 03 的估计售价在 5 万到 10 万美元之间。即便 Figure 提出了订阅制(robot-as-a-service)的商业模式,每台机器人年均产生约 5000 美元收入,这个价格也远非普通家庭可以承受。而且,演示视频和真实家庭环境之间还是存在差距。

另外,视频中的客厅虽然看起来很「日常」,但它仍然是一个受控场景。真实家庭有宠物、有小孩、有堆满快递盒的角落、有你三周没洗的衣服堆。

打开网易新闻 查看精彩图片

但换一个角度看,Helix 02 的意义不在于它今天就能上岗,而在于它证明了一个路径的可行性:用单一通用 AI 架构 + 更多数据 = 更多家务技能。

这和大语言模型的 scaling law 有异曲同工之处,ChatGPT 不是被专门编程来写诗或写代码的——它只是在更多文本上训练,就涌现出了这些能力。

Helix 02 展示的是同样的逻辑在物理世界的映射:一个神经网络,不需要为每个新任务重新工程,只需要更多的运动数据。

打开网易新闻 查看精彩图片

如果这个逻辑成立,那么人形机器人的进化速度将不再取决于工程师写了多少行代码,而取决于它「看过」多少种家务场景。而家务场景的数据采集,恰恰是最容易规模化的——毕竟,每个人的家里每天都在产生这些数据。

Figure 目前的制造工厂 BotQ 已经具备年产万台的能力,目标是四年内累计生产 十万台。每一台出货的机器人都是一个数据采集终端,它们在不同家庭中遇到的每一个新场景,都会通过 10Gbps 毫米波无线回传变成下一版 Helix 的训练素材。

用 Brett Adcock 的话说,制约他们出货的不是需求,恰恰是 AI 还不够通用。而 Helix 02 的客厅演示,让「够通用」这个目标又近了一步。

从跳舞到收拾客厅, Helix 02 迈出的这一步,可能比任何后空翻都更接近未来。机器人不再需要证明自己有多酷,它需要证明自己有多有用。

打开网易新闻 查看精彩图片