BeingBeyond发布最强世界模型，具身行业开启“大脑纪元”|beingbeyond|具身|最强世界模型|本体|机器人|真实世界

当20万个小时的人类视频，被压缩进一块端侧芯片，会意味着什么？

或许这代表着第一个可端侧部署、可商用的具身世界模型，真的来了。

这也是人类视频路线的开创者BeingBeyond，在这个具身世界模型走向分水岭时，所交出的满分答卷。

当机器人从Demo表演走向真实环境，难以真正理解环境、理解任务，更难在变化中持续做出判断。越来越多的人意识到——机器人学习行动的方式，本身就值得重来一遍。

作为基于大规模人类行为数据训练、能够在不同机器人之间迁移，并在真实环境中执行复杂任务的具身智能世界模型，Being-H0.7，正是BeingBeyond对这个问题的最新回答。

Being-H0.7放弃了高算力、高延迟、难以部署的视频生成式方案，转而用一种更接近人类物理直觉的隐空间推理方式，在模型内部直接完成对未来状态和动作结果的判断。

这也使得Being-H0.7能够进一步把世界模型压进端侧硬件与实时运行场景，成为业内首个可在端侧部署，可商用的世界模型。

而BeingBeyond作为业内首个提出人类视频预训练的玩家，在过去不长的时间内，即对外展现了人类视频预训练、模型部署和数据采集闭环全栈技术体系。

这套闭环的技术体系正在让具身智能由通用基座+专家能力的两级跃迁，成为行业可规模化落地的契机所在。对于一个长期停留在展示层面的行业来说，BeingBeyond作为深耕具身大脑模型的代表性玩家，巨大的商业价值正在被看见。

论文链接:

https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

理解世界的另一条路

具身智能走到今天，行业其实已经默认了一套相对主流的技术推进逻辑：先让机器人能动起来，再让它准确地动，最后再去逼近更复杂的任务理解与执行能力。

沿着这条思路，过去几年行业逐渐形成了几种主流方法。第一类是VLA，第二类是世界模型，第三类是直接通过遥操作采集真机数据，它们分别对应三种不同的期待：VLA希望解决“理解”，世界模型希望解决“预测”，遥操作希望解决“落地”。

这些方法都有价值，也推动了机器人能力的快速进展。问题在于，它们大多建立在训练数据主要来自机器人本体本身，这一相对有限的前提。这意味着，模型学到的能力很容易被锁定在特定硬件、特定任务和特定场景里。

尤其是世界模型这条路，到了真实部署阶段，问题会暴露得更明显。

英伟达的Cosmos Policy、DreamZero等方案，仍然在沿着预测下一步画面的方式，希望通过想象未来的视频帧来辅助当前动作决策。但一方面，视频生成本身对算力要求高，很难做到端侧实时运行；另一方面，图像终究是二维信息，对流体、柔性物体、复杂接触等三维动力学过程的表达非常有限，很多时候只能生成看起来合理、但却难以支撑真实操作的动作。

在这个节点，BeingBeyond给出了另一种判断。在他们看来，如果机器人最终要面对的是人类世界，那么训练它的数据也不应该只是机器人自己产生的数据，而应该是规模更大、分布更接近真实世界的人类行为数据。

比起让机器人反复学习“某一只手怎么抓某一个物体”，更关键的可能是先让它理解，人类在真实世界里是如何完成动作、组织任务、处理交互的。

这也是BeingBeyond选择从人类视频出发的原因。相比依赖真机和遥操作，人类视频的规模更大、场景更多、任务更丰富，能够为模型提供一种更接近真实分布的行为先验。沿着这条路径，机器人有机会学到跨场景、跨任务、跨本体迁移的行动能力。

基于这种思路，Being-H0.7没有继续沿着视频生成式世界模型往前推，而是转向了一条更接近人类物理直觉的路线。Being-H0.7在模型内部引入一块隐空间，用来压缩当前观察、任务目标和对未来变化的判断，再由这块中间表示直接指导动作生成。

这种做法更像人类在现实中的反应方式。打乒乓球时，运动员不会先在脑子里生成下一秒的完整画面，再决定怎么挥拍；更多时候，依赖的是长期经验积累下来的快速判断，知道物体会怎么运动、受力之后会发生什么、什么动作大概率会失败。Being-H0.7试图让模型学到的，正是这种接近“潜意识”的物理直觉。

为了让这种判断真正成立，BeingBeyond又往前补了一层基础：超过20万小时的人类视频预训练。海量人类行为数据的意义，不只是规模大，更在于其中天然包含了大量隐含的物理规律和任务结构。模型在这些数据里学到的，也不只是动作本身，而是动作背后的条件、结果和约束。

在实验结果上，Being-H0.7在6项榜单上H0.7综合排名全球第一（其中4项登顶），成为当前覆盖能力范围最广的具身世界模型之一。

最终，Being-H0.7把世界模型的信息压缩了至少百倍，开始真正进入端侧硬件和实时运行场景，Being-H0.7可在端侧计算平台Orin NX（约75TOPS）上进行实时部署。这意味着，BeingBeyond也成为业内首个在同等算力芯片上部署世界模型实时运行的团队。

机器人的下一步进化

在具身智能这样一个高度工程导向的领域里，路径分歧往往来自一个并不“技术”的源头——团队如何定义问题。

机器人本体，是中国大多数团队的起点，毕竟这是中国团队更擅长、也更容易落地的一条路径。顺着这个起点，大家往往围绕具体硬件优化控制策略，通过遥操作积累数据，再在单一本体上反复打磨模型能力。

这种方式既是能力结构的延续，也是一条更容易走通的路径，在很长一段时间里推动了机器人能力的快速提升。但它也在无形中强化了一个前提——数据来自机器人本体本身，能力也随之被锁定在具体硬件和场景之中。

BeingBeyond的起点与大多数中国团队并不相同，这种差异，很大程度上来自创始人卢宗青看待问题的方式。和许多围绕具体本体反复打磨控制策略的团队不同，作为科学家，卢宗青更习惯先追问一个更前置的问题：如果目标是通用能力，模型究竟应该从什么样的数据里学习？

对于多数机器人团队来说，数据首先是遥操作、是真机、是和具体硬件强绑定的；但对他来说，机器人最终要面对的是人类所处的物理世界，那么更接近真实任务分布的数据，未必只存在于机器人本体上，也可能首先存在于人类行为本身。

基于这种认知，BeingBeyond最早在业内提出了以人类视频进行模型预训练，并以此构建了一套模型训练、部署、数据采集的闭环技术能力体系。

沿着这一思路，团队逐步发展出以人类行为为核心的训练范式。一方面，通过大规模人类视频构建行为先验，让模型不再从零学习动作；另一方面，通过统一动作空间，将不同机器人本体映射到同一表达体系中，使这些先验能够在不同硬件之间迁移。再结合多模态建模能力，将视觉、语言与动作统一到同一序列中进行训练，形成所谓的human-centric learning路径。

Being-H系列模型是这一认知路径的自然延伸。