当20万个小时的人类视频,被压缩进一块端侧芯片,会意味着什么?
或许这代表着第一个可端侧部署、可商用的具身世界模型,真的来了。
这也是人类视频路线的开创者BeingBeyond,在这个具身世界模型走向分水岭时,所交出的满分答卷。
当机器人从Demo表演走向真实环境,难以真正理解环境、理解任务,更难在变化中持续做出判断。越来越多的人意识到——机器人学习行动的方式,本身就值得重来一遍。
作为基于大规模人类行为数据训练、能够在不同机器人之间迁移,并在真实环境中执行复杂任务的具身智能世界模型,Being-H0.7,正是BeingBeyond对这个问题的最新回答。
Being-H0.7放弃了高算力、高延迟、难以部署的视频生成式方案,转而用一种更接近人类物理直觉的隐空间推理方式,在模型内部直接完成对未来状态和动作结果的判断。
这也使得Being-H0.7能够进一步把世界模型压进端侧硬件与实时运行场景,成为业内首个可在端侧部署,可商用的世界模型。
而BeingBeyond作为业内首个提出人类视频预训练的玩家,在过去不长的时间内,即对外展现了人类视频预训练、模型部署和数据采集闭环全栈技术体系。
这套闭环的技术体系正在让具身智能由通用基座+专家能力的两级跃迁,成为行业可规模化落地的契机所在。对于一个长期停留在展示层面的行业来说,BeingBeyond作为深耕具身大脑模型的代表性玩家,巨大的商业价值正在被看见。
论文链接:
https://research.beingbeyond.com/projects/being-h07/being-h07.pdf
理解世界的另一条路
具身智能走到今天,行业其实已经默认了一套相对主流的技术推进逻辑:先让机器人能动起来,再让它准确地动,最后再去逼近更复杂的任务理解与执行能力。
沿着这条思路,过去几年行业逐渐形成了几种主流方法。第一类是VLA,第二类是世界模型,第三类是直接通过遥操作采集真机数据,它们分别对应三种不同的期待:VLA希望解决“理解”,世界模型希望解决“预测”,遥操作希望解决“落地”。
这些方法都有价值,也推动了机器人能力的快速进展。问题在于,它们大多建立在训练数据主要来自机器人本体本身,这一相对有限的前提。这意味着,模型学到的能力很容易被锁定在特定硬件、特定任务和特定场景里。
尤其是世界模型这条路,到了真实部署阶段,问题会暴露得更明显。
英伟达的Cosmos Policy、DreamZero等方案,仍然在沿着预测下一步画面的方式,希望通过想象未来的视频帧来辅助当前动作决策。但一方面,视频生成本身对算力要求高,很难做到端侧实时运行;另一方面,图像终究是二维信息,对流体、柔性物体、复杂接触等三维动力学过程的表达非常有限,很多时候只能生成看起来合理、但却难以支撑真实操作的动作。
在这个节点,BeingBeyond给出了另一种判断。在他们看来,如果机器人最终要面对的是人类世界,那么训练它的数据也不应该只是机器人自己产生的数据,而应该是规模更大、分布更接近真实世界的人类行为数据。
比起让机器人反复学习“某一只手怎么抓某一个物体”,更关键的可能是先让它理解,人类在真实世界里是如何完成动作、组织任务、处理交互的。
这也是BeingBeyond选择从人类视频出发的原因。相比依赖真机和遥操作,人类视频的规模更大、场景更多、任务更丰富,能够为模型提供一种更接近真实分布的行为先验。沿着这条路径,机器人有机会学到跨场景、跨任务、跨本体迁移的行动能力。
基于这种思路,Being-H0.7没有继续沿着视频生成式世界模型往前推,而是转向了一条更接近人类物理直觉的路线。Being-H0.7在模型内部引入一块隐空间,用来压缩当前观察、任务目标和对未来变化的判断,再由这块中间表示直接指导动作生成。
这种做法更像人类在现实中的反应方式。打乒乓球时,运动员不会先在脑子里生成下一秒的完整画面,再决定怎么挥拍;更多时候,依赖的是长期经验积累下来的快速判断,知道物体会怎么运动、受力之后会发生什么、什么动作大概率会失败。Being-H0.7试图让模型学到的,正是这种接近“潜意识”的物理直觉。
为了让这种判断真正成立,BeingBeyond又往前补了一层基础:超过20万小时的人类视频预训练。海量人类行为数据的意义,不只是规模大,更在于其中天然包含了大量隐含的物理规律和任务结构。模型在这些数据里学到的,也不只是动作本身,而是动作背后的条件、结果和约束。
在实验结果上,Being-H0.7在6项榜单上H0.7综合排名全球第一(其中4项登顶),成为当前覆盖能力范围最广的具身世界模型之一。
最终,Being-H0.7把世界模型的信息压缩了至少百倍,开始真正进入端侧硬件和实时运行场景,Being-H0.7可在端侧计算平台Orin NX(约75TOPS)上进行实时部署。这意味着,BeingBeyond也成为业内首个在同等算力芯片上部署世界模型实时运行的团队。
机器人的下一步进化
在具身智能这样一个高度工程导向的领域里,路径分歧往往来自一个并不“技术”的源头——团队如何定义问题。
机器人本体,是中国大多数团队的起点,毕竟这是中国团队更擅长、也更容易落地的一条路径。顺着这个起点,大家往往围绕具体硬件优化控制策略,通过遥操作积累数据,再在单一本体上反复打磨模型能力。
这种方式既是能力结构的延续,也是一条更容易走通的路径,在很长一段时间里推动了机器人能力的快速提升。但它也在无形中强化了一个前提——数据来自机器人本体本身,能力也随之被锁定在具体硬件和场景之中。
BeingBeyond的起点与大多数中国团队并不相同,这种差异,很大程度上来自创始人卢宗青看待问题的方式。和许多围绕具体本体反复打磨控制策略的团队不同,作为科学家,卢宗青更习惯先追问一个更前置的问题:如果目标是通用能力,模型究竟应该从什么样的数据里学习?
对于多数机器人团队来说,数据首先是遥操作、是真机、是和具体硬件强绑定的;但对他来说,机器人最终要面对的是人类所处的物理世界,那么更接近真实任务分布的数据,未必只存在于机器人本体上,也可能首先存在于人类行为本身。
基于这种认知,BeingBeyond最早在业内提出了以人类视频进行模型预训练,并以此构建了一套模型训练、部署、数据采集的闭环技术能力体系。
沿着这一思路,团队逐步发展出以人类行为为核心的训练范式。一方面,通过大规模人类视频构建行为先验,让模型不再从零学习动作;另一方面,通过统一动作空间,将不同机器人本体映射到同一表达体系中,使这些先验能够在不同硬件之间迁移。再结合多模态建模能力,将视觉、语言与动作统一到同一序列中进行训练,形成所谓的human-centric learning路径。
Being-H系列模型是这一认知路径的自然延伸。
稍早的Being-H0.5已经验证了一个关键假设,即在足够规模的人类行为数据与多本体数据共同作用下,模型可以在不同机器人之间迁移,并在复杂任务中保持稳定表现。通用模型第一次在跨本体维度上接近专用模型的能力边界。
Being-H0.7,则开始强化在真实环境中的稳定性与任务完成度——包括在更复杂场景下的连续操作能力、多步骤任务中的误差控制,以及不同本体之间更高效的适配能力。
H0.5证明human-centric learning能走通,而H0.7证明了这条路能真正走进现实场景。
在这套体系里,Being-H系列解决的是最上层的问题:即机器人如何获得通用能力。Being-Dex处理的是更贴近业务的一层——这些能力如何在具体场景中快速落地;而U1则把问题再往前推一步,回答高质量数据从哪里来、如何持续获得。
三者对应的是一个相对清晰的结构:模型层提供通用具身智能的基座能力,适配层把新任务的学习周期压缩到30分钟级,数据层则通过灵巧手数据采集系统,将数据范式从过去的夹爪操作,推进到更接近真实人类操作的表达方式。BeingBeyond搭建了从数据采集,到模型训练,再到任务部署的生产链。
这样的闭环,在过去很长一段时间里很难见到。原因在于,具身智能的三个关键要素长期是割裂的:数据难以规模化获取,模型能力不足以支撑跨场景泛化,而部署又高度依赖具体本体。
全新产业结构下的机会
最近几年,能够观察到业内一个明显的趋势是,本体与具身大脑开始分化,并且整个市场的目光包括资本,开始越来越多的聚焦在具身大脑板块。
这种趋势建立在几个前提之上:
一是数据的变化。以人类视频为代表的海量数据,让具身模型第一次拥有了可以持续扩展的训练来源;二是模型能力的变化,大模型在多模态建模上的进展,使视觉、语言和动作的统一建模成为可能;三是工程体系的变化,数据、训练和部署逐渐形成闭环,开始能够在真实环境中反复迭代。
这进一步带来的变化是,越来越多机器人本体公司,选择把智能外置。
从商业角度看,自研模型的成本依然很高。一套完整的具身模型体系,意味着持续的数据投入、算力开销和团队建设,年成本往往在千万级别以上,而外部模型一旦具备通用能力,可以在多个场景中复用,边际成本明显更低。
从效率角度看,本体公司更现实的需求,是快速上线新任务、在不同场景中复用能力,同时控制研发投入,而不是从零开始反复训练模型。
当本体和大脑不再必须绑定在一起,分工的空间就出现了。随之而来的一个问题是,什么样的具身大脑公司具备真正的价值?在行业越来越聚焦到落地可行性的当下,毫无疑问的是,距离大规模商业化的距离越近,其价值越能被看见。
目前业内的一个共识是,“通用能力打底、专家能力专精”,则是通往规模化落地的一个最可行路径。
BeingBeyond所构建的人类视频打底,为模型场景及构型的泛化提供基础,即所谓的通用能力;而在垂直落地场景落地的专家能力,U1完美弥合了真实场景数据采集的最后一块拼图,为模型提供大规模高质量的真实场景专家数据。
这种从人类视频路线开始,到数据采集的闭环,让BeingBeyond的行业价值被看见。作为少数同时具备人类视频预训练、模型部署和数据采集闭环全栈自研能力的公司之一,BeingBeyond目前已与国内多家头部具身本体公司建立了合作关系。
变化正在发生。曾经每家具身公司都试图同时做本体、数据和模型,投入重、链条长,也很难快速做出成果;未来,更清晰的具身智能的产业结构或许会逐渐形成,一类公司专注机器人本体和场景落地,另一类公司专注通用智能能力的提供。
从这个角度看,Being-H0.7的出现,更像是一个信号,具身智能开始从各自为战,走向更明确的分工体系。
热门跟贴