智元机器人发布机器人4D世界模型|动作|大模型|智元机器人|模态

在具身智能领域，如何让机器人在任务指引和实时观测的基础上规划未来动作，是一项备受关注的核心课题。

这一问题的复杂性主要源于以下两大挑战：

近期，一些研究尝试将视频生成与动作规划相结合，利用无动作标签的海量视频数据进行训练，取得了一定的进展。

然而，这些方法大多仅将现有通用视频生成模型简单应用于具身场景，未充分考虑具身任务的特殊需求。

为此，智元机器人具身算法团队推出了EnerVerse架构，以自回归扩散模型（autoregressive diffusion）为核心，通过生成未来具身空间来引导动作规划。

团队设计了一种稀疏记忆（Sparse Memory）机制，用于维持长程任务的上下文逻辑，并提出了自由锚定视角（Free Anchor View, FAV），灵活地表达4D空间。

实验表明，EnerVerse拥有卓越的4D生成能力，并在动作规划任务中达到了当前SOTA。

1、逐块扩散生成：Next Chunk Diffusion

EnerVerse采用逐块生成的自回归范式（chunk-wise autoregressive generation），通过扩散模型为未来具身空间建模。其关键技术如下：

扩散模型架构：基于结合时空注意力的Unet结构，每个空间块（chunk）内部通过卷积与双向注意力建模；块与块之间通过单向可见的因果逻辑（causal logic）保持任务的时间一致性。
稀疏记忆机制：参考大模型（LLM）的上下文记忆，作者发现稠密的连续视觉记忆会导致模型泛化能力下降。因此，EnerVerse在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列。这不仅降低了计算开销，还显著提升了生成长程序列的逻辑合理性。
任务结束逻辑：为适应具身任务的特殊需求，EnerVerse在训练时通过特殊的结束帧（EOS frame）实现对任务结束时机的监督，并在推理阶段通过阈值判断精确终止生成过程。

2、灵活的4D生成：Free Anchor View（FAV）

在自动驾驶领域，基于BEV（鸟瞰视角）场景感知已被验证为有效方案。

然而，在具身操作中，由于遮挡关系复杂，难以构建完美的全局视角。

为此，EnerVerse提出了灵活的自由锚定视角（FAV）方法，核心特点包括：

自由设定视角：FAV允许根据场景灵活重置锚定视角，避免固定多视角（fixed multi-anchor view）在狭窄空间中的局限性。例如，在厨房等场景，FAV可以轻松适应动态的遮挡环境。
跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse使用视线方向图（ray direction map）作为视角控制条件，同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力（cross-view spatial attention），确保生成的多视角视频在几何上保持一致。
Sim2Real Adaption：虽然仿真环境中可通过虚拟相机轻松生成FAV真值，但真实场景中无法直接获取。EnerVerse通过在仿真数据上微调的4D生成模型（EnerVerse-D）与4D高斯泼溅（4D Gaussian Splatting）交替迭代，构建了一个数据飞轮，为真实场景下的FAV生成提供伪真值支持。