时隔一年,最新具身模型Helix 02登场。
作者 |许丽思
编辑 |漠影
机器人前瞻1月28日报道,今天,Figure发布了最新具身模型Helix 02,能够用单一的神经网络实现全身长程自主控制。
Helix 02让机器人连续执行了一个涉及61个移动操作动作的长程洗碗任务,Figure强调,这不是遥操,是完全的端到端自主,机器人还能像人一样把臀部、脚也变为完成任务的工具。
Helix 02在感知侧新增掌心相机与高灵敏度指尖触觉传感器,其中掌心相机用于弥补操作过程中因自遮挡导致的视野缺口,指尖触觉则提供更精细的力反馈,从而支持更稳定的抓握控制与多指精细操作,像旋转瓶盖、捏取药片、操作注射器等任务。
01.
耗时四分钟,无遥操,
端到端自主操作洗碗机
在一个标准大小的厨房里,Figure让机器人完成了长达四分钟的操作洗碗机的任务。
Figure称,这个任务涉及61个移动操作动作,将行走、操作与平衡进行整合,全程无需重置、无人类干预,是迄今为止由人形机器人自主完成的、时间跨度最长且最复杂的任务。
机器人行走姿态非常拟人,先用手打开洗碗机,拿出餐具。
在拿着易碎餐具行走时,全程行走状态比较稳定,能够把已经清洗完的餐具放到橱柜里,最后用双手把柜门关上。
紧接着,机器人把水池中的餐具放到洗碗机中。
有意思的是,当腾不出手的时候,机器人会用臀部关上抽屉、用脚抬起洗碗机门,把整个身体当作工具使用,而不是只依赖双手。
Figure还展示了机器人通过触觉感知、掌心相机,来执行灵巧操作任务的情况:一手稳住瓶身、一手持续拧动瓶盖;像人用指腹一样地精准捏取药片;用注射器精准推出5ml等。
02.
引入System 0,
能够下达更长、步骤复杂的连续任务
Helix 02 原有的System 1,、System 2的架构之上,加入了一个新的基础层:System 0。
System 0:来自人类数据的类人全身控制
S0是一个用于类人全身控制的基础模型,能够描述人在维持平衡与稳定时如何运动,确保机器人的每一个动作都能平滑、安全且稳定地执行。
S0 在训练思路上放弃了传统做法中为“走路、转向、下蹲、伸手”等动作分别手工设计奖励函数的方式,而是直接让模型从大量、多样的人类运动数据中学习人是怎么动的。
通过模仿与跟踪人类动作,S0逐步学会在不同动作之间协调发力、调整姿态,并在完成“通用行走-操作”这类复杂行为时持续保持平衡与稳定。
S0的训练以超过1000 小时的关节级重定向人类运动数据为基础;在架构上,它采用了一个约1000万参数的神经网络,以全身关节状态与底座运动作为输入,并以1 kHz的频率输出关节级执行器指令。
在训练方式上,S0完全在仿真中完成,覆盖超过200000个并行环境并采用大量域随机化,从而实现向真实机器人的直接迁移,并具备良好的泛化能力。
System1:控制机器人全身关节
在Helix 01中,S1可以控制上半身,并从关节状态与图像中读取信息。在Helix 02中,它连接上了所有传感器,能够控制整台机器人。
S1在输入侧接入头部相机、掌心相机、指尖触觉传感器以及全身本体感知;在输出侧则实现对整台机器人的完整关节级控制,覆盖腿部、躯干、头部、手臂、手腕及每一根手指等全身部位。
据介绍,这使得 S1能将机器人自身状态与外部环境作为一个耦合系统进行统一推理。掌心相机与触觉传感器属于Figure 03 新增的硬件能力,Figure称这是其首次展示依赖上述模态的神经网络策略。
掌心相机可以在目标被头部相机遮挡时提供手中视觉反馈;指尖触觉传感器嵌入于每个指尖,能够检测回形针大小的接触力,以支持具备接触意识、可进行力调制(force-modulated)的抓取,从而能够处理需要多指抓握、精细运动控制的复杂操作任务。
System 2:负责场景、语言理解
S2依旧承担语义推理层的角色,主要负责看懂场景、理解语言指令,并把高层意图转化为可执行的目标交给下一级系统。
相比此前只能下达类似“捡起番茄酱”这类较短、单一步骤的指令,Helix 02 将S2可指定的行为范围进一步拓展到更长、更连贯的任务,比如“走到洗碗机前并打开它”“把碗搬到台面上”“回到上层架并拿起杯子”等,指令更接近日常家务的表达方式。
在实现上,S2不需要规划具体的步伐,其生成的语义指令由S1解释并由S0最终执行。
03.
结语:人形机器人加快迈向长时程任务新阶段
一年前,Helix还仅能通过神经网络控制机器人的上半身;如今,Helix 02已将控制能力拓展至全身,使行走、操作与平衡不再是被机械拼接的独立环节,而是融合为一套更为连贯、闭环的智能系统。
这意味着人形机器人正从短暂的片段式演示,加快走向真正胜任长时程、多步骤的复杂任务。通过软硬件深度整合与感知-决策-执行的闭环迭代,具身智能正在快速演进,为机器人在开放、动态场景中的规模化应用铺平道路。
热门跟贴