机器人前瞻1月20日报道,今天, Being Beyond发布跨本体VLA模型Being-H0.5,并已在GitHub、HuggingFace上进行完整开源。
Being Beyond不仅公开了预训练与后训练的全部模型参数,还提供完整的训练与评估代码,以及一套可复现1000+ GPU小时训练的详细配方。未来,其还将逐步开源真机部署代码与接口。
Being-H0.5通过整合数万小时人类视频以及当前全球几乎所有主流机器人构型的操作数据,在视觉‑语言‑动作(VLA)任务中展现出较强的跨本体泛化能力——无论硬件形态如何差异,模型皆能快速适应、稳定执行。
Being-H0.5基于human-centric learning,涵盖30种不同本体(是π0.5的5倍),能够实现超强跨本体泛化,对同样一批任务,只需训练一次,就能部署在5个不同本体上。
性能方面,Being-H0.5在大规模预训练加持下,即使只微调2%的模型参数也能达到90%以上的相对performance;其在LIBERO和RoboCasa达到SoTA,还实现了全球最快的端侧部署速度,在Orin-NX上达到实时。
一、构建全球规模最大的训练数据集,总时长超3.5万小时
UniHand2.0数据集总时长超过3.5万小时,囊括14,000 小时的机器人操作数据, 16,000 小时的人类视频数据,以及5000小时通用多模态数据,总训练 token 数突破 1200 亿。这是全球首次在机器人领域进行如此大规模、跨本体的数据整合尝试。
与以往仅基于“轮式底盘 + 双臂夹爪”范式的研究(如 π 系列工作)不同,UniHand2.0 首次实现了跨本体的大规模数据融合,汇集了超过30种不同硬件构型的多样化数据,涵盖了从桌面机械臂到双足机器人在内几乎所有已知的机器人形态。
▲UniHand与现有VLA数据集规模对比:超3.5万小时和30余本体,在规模和多样性上提升了3倍以上
在Being‑H0.5 之前,尚未有研究尝试将如此多异构本体数据统一用于训练——其核心挑战在于,不同机器人的状态空间与动作空间差异巨大,直接混合训练极易引发“数据冲突”,导致模型难以收敛或泛化。
为解决上述难题,BeingBeyond 团队提出了 统一动作空间框架,将双足人形、轮式底盘、桌面机械臂、夹爪、灵巧手等形态各异的机器人,映射到同一特征表示空间中,从而有效支撑跨本体联合训练与知识迁移。
二、以人为中心的训练范式
当前具身行业,无论是机器人设计、数据采集方案(如 UMI、传统遥操作),还是任务设计,本质上都在模仿人类,以人为中心。而人类本身,就可被视为所有下游机器人的“原型模板”。
针对人类视频普遍缺乏高质量标注的痛点,团队还设计了一套名为 UniCraftor 的便携、可扩展、低成本的人类视频采集系统:
在统一动作空间的基础上,Being‑H0.5 提出了一套完整的以人为中心的预训练范式。具体包括:
统一序列化建模:不再为人类演示、机器人轨迹和视觉文本数据设立独立的训练流水线,而是将它们转化成统一的多模态token序列。在这个序列中,视觉和文本负责提供背景信息,而统一的“状态/动作”Token 则承载物理交互信号。
混合监督(多目标优化):在同一个序列上根据数据特点应用不同的损失函数。如针对文本数据(如 VQA、运动描述)的Next-token Prediction;针对离散人类动作的Masked Token Prediction,针对连续人类和机器人数据,则在统一空间内进行动作预测(Action Prediction)等。
这种融合的预训练方式能让模型能在从人类行为中提取高层级的、可迁移的交互逻辑(先验)的同时,从机器人数据中提炼高精度的运动控制知识。
三、面向跨本体的模型架构升级
传统的VLA,尤其是近期流行的基于flow-matching架构的模型,其模型容量由于参数大小存在限制,这导致VLA在混合异构数据进行预训练时的性能下降,同时也阻碍了模型泛化到各种复杂下游任务的能力。为了克服这个问题, 团队针对性地进行了一系列架构创新。
首先,受大模型 MoE 架构启发,团队设计了 Mixture-of-Flow(MoF) 架构,将动作专家(action expert)解耦为负责学习通用的运动原语(如:物体如何运动)的共享专家,以及通过机器人感知路由,负责特定形态精准执行的特化专家。
此外,针对现实部署中的抖动和延迟问题,团队引入了 流形保持门控(Manifold-Preserving Gating, MPG)以确保在感知模糊时模型能退回到鲁棒的先验分布;以及通用异步分块(Universal Async Chunking, UAC)技术,使同一个模型能完美适配不同控制频率和延迟的机器人硬件。
四、跨本体复杂任务执行能力强,基准测试超越π0.5、GR00T
为验证 Being‑H0.5 的跨本体能力,研究团队在 PND、G1、Franka 等不同构型的人形机器人、机械臂本体上进行了大量真机实验。
在海量、多源数据的加持下,模型展现出较强的跨本体与复杂任务执行能力,甚至能够完成 “用按压喷壶浇花” 这类以往夹爪式机器人难以实现的操作。
在四组任务上展开的定量评测实验中,Being-H0.5无论是generalist(多本体数据混合训练,难度更大)还是specialist(单一本体数据分开训练,较简单),性能表现都远优于仅能依托单一本体训练的 π-0.5模型。同时,Being-H0.5-generalist模型在平均性能表现上和specialist持平,展现出其跨本体维度上的强大泛化能力。
为定量评估模型性能,团队在 LIBERO、RoboCasa 等广泛使用的评测基准上进行了测试。在仅依赖模仿学习与纯 RGB 视觉输入的条件下,模型平均取得了 98.9% 与 54% 的成功率,不仅超越了 π0.5、GR00T 等所有已知 VLA 模型,甚至优于部分借助强化学习与 3D 模态的方案,展现出较强的SOTA性能和竞争力。
▲RoboCasa对比结果,Being-H显著超过π0.5、GR00T等先进VLA
结语:依托以人为中心的技术范式,降低具身智能研发门槛
Being-H0.5的推出,为具身智能领域提供了一种新的技术范式思路:高质量训练数据并非必须源于自建的高成本机器人集群。针对“如何高效适配多元本体、低成本获取优质训练数据”这一核心行业挑战,Being-H0.5将视角转向人类本身这一最丰富、最自然的数据源泉。
这一技术路径在一定程度上降低了具身智能技术的研发门槛,使得企业无需投入巨额资金构建数据“护城河”,便可依托以人为中心的学习范式(human-centric learning),开发适配多元本体的通用算法。
热门跟贴