目标更重要？国内公司超越Generalist，进化到动作中心世界模型|世界模型|动作|原理|推理|新论文|机器人

机器之心发布

最近，具身智能圈被 Generalist CEO 的一篇长文《Going Beyond World Models & VLAs》刷屏。文章抛出了一个看似振聋发聩的观点：目标远比工具标签更重要。与其陷入 “我们到底是在做 VLA（视觉 - 语言 - 动作模型）还是世界模型（World Model）” 的教条之争，不如回归本源：让机器高效、准确地作用于物理世界。

目标固然重要，但这只说对了一半。喊出 “回归目标” 的口号很容易，但如果仅仅停留在 “目标驱动” 的思维层面上，而没有在底层架构上做出与之匹配的决断与取舍，那所谓的 “突破边界” 也不过是空中楼阁。Generalist 试图用 “完全掌控基础模型、从零训练” 来解决一切问题，这是一种大力出奇迹的粗暴解法。但在算力与数据均受限的真实物理世界里，我们需要的不仅是宏大的目标，更是极具穿透力的架构设计。

巧合的是，在这场关于 “目标驱动（Goal-Driven）” 与 “理念驱动（Idea-Driven）” 的探讨中，国内最早布局世界模型的公司极佳视界，他们没有停留在概念的争辩上，而是直接切中物理世界的约束，提出并开源了 “以动作为中心的世界模型” GigaWorld-Policy。这不仅仅是一次架构的微调，而是对具身智能底层逻辑的重构。

项目主页：https://gigaai-research.github.io/GigaWorld-Policy/

目标的本质

从 “理解世界” 到 “作用于世界”

在探讨 GigaWorld-Policy 之前，我们必须先理清当前世界模型在机器人领域的尴尬处境。过去一年，让机器人 “先想象，再行动” 几乎成了世界模型标配思路：模型在推理时同步生成未来的视频帧，再从这些高维视觉表征中提取或规划动作。

这种做法在直觉上很美妙，但在工程实践中却暴露出了两个致命缺陷：

目标错位：视频生成是手段，而高频、精准的动作输出才是目的。将手段当成目标，不可避免地会导致模型架构的臃肿和计算资源的错配。
现实约束：渲染高维像素的计算开销极大，不仅带来了难以忍受的推理延迟，视频预测的误差还会沿着时间步传递给动作序列，最终导致物理交互的崩溃。

极佳视界的判断是：如果一个设计在推理时必须做大量与最终目标无关的计算，那它一定不是最优解。真正的具身智能，需要的不是一个能在脑海中完美回放 4K 视频的 “幻想家”，而是一个对物理规律拥有 “潜意识” 般直觉反应的 “实干家”。

就像顶尖的乒乓球运动员，在击球的瞬间绝不需要在脑海中渲染出球的完整运动轨迹，而是依靠肌肉记忆和物理直觉直接做出最优动作。

GigaWorld-Policy

让视频生成从 “场上选手” 转为 “幕后教练”

基于对 “目标” 和 “现实约束” 的重新思考，GigaWorld-Policy 在架构层面做出了一个极具颠覆性的改变：让视频生成在推理时变为可选项。

在这个架构中，视频生成模块的角色发生了根本性的转变：

训练时的 “严师”：模型在训练阶段同时接受 “动作预测” 和 “视频生成” 的双重监督。海量的互联网视频数据在这里发挥了巨大的价值，视频生成作为一个严苛的辅助任务，强迫模型深入学习并内化符合真实物理规律的动态表征（Dynamics Representation）。
推理时的 “Action-Only” 模式：一旦部署到物理世界，视频生成模块便彻底退居幕后。模型可以一键切换至纯动作输出模式，直接下发高频控制指令。

这种设计甩掉了渲染高维像素的算力包袱。理解物理规律，不再等同于必须渲染出物理画面。只有当架构本身与目标实现完全对齐时，“目标驱动” 才不再是一句空话。

数据效率

在现实约束下寻找最优解

Generalist 在文章中提到，面对机器人领域数据稀缺的问题，他们的选择是 “从零训练”，并坚信当数据足够充足时，完全掌控基础模型能更快突破边界。这是一个典型的 “富人思维” 陷阱，也违背了机器学习的基本规律。在产业落地的现实中，“缺乏 web-scale 的机器人动作数据” 是一道绕不过去的坎。指望靠海量真机数据硬生生喂出一个 “从零训练” 的基础模型，在经济性和时间成本上都是不可接受的。

要真正解决数据效率问题，必须回归第一性原理。OpenAI 提出的 Transfer Scaling Law（迁移缩放定律）为我们指明了方向：它揭示了预训练模型在目标任务上的性能，并不只取决于模型大小，更取决于预训练数据（源域）与目标任务数据（目标域）之间的分布对齐程度。简而言之，你喂给模型再多的通用数据，如果它的表征结构不适合直接输出 “动作”，这种知识迁移的损耗将是极其惊人的。

极佳视界的解法，正是对 Transfer Scaling Law 的一次教科书级别的工程实践。因为 GigaWorld-Policy 从底层架构上就确立了 “以动作为中心”，这使得模型在预训练阶段提取的物理表征，天然地与最终的 “动作输出” 任务高度对齐。这就大大降低了知识迁移的损耗（Transfer Penalty）。

在第一性原理的指导下，GigaWorld-Policy 跑通了 “三段式高效训练 Pipeline”：

建立物理常识（源域预训练）：利用海量互联网视频，让基座模型学习广泛的通用物理常识和视觉表征。
聚焦时空演变（跨域适配）：引入涵盖第一人称视角、真实机器人操作及仿真环境的多源视频，专攻具身场景下的时空动态演变，拉近源域与目标域的分布距离。
精准对齐（目标域微调）：仅需少量的带标签真机动作数据，即可完成最终的控制策略对齐。

实验数据极具说服力：GigaWorld-Policy 仅用 10% 的真实机器人数据，就能达到传统 VLA 方案使用 100% 数据的效果。这种分层范式，相比传统 VLA 实现了高达 10 倍的训练效率提升。

推理延迟

物理世界的硬约束

在物理世界中，时间就是生命。毫秒级的延迟差异，往往就是 “稳稳抓住” 与 “打翻水杯” 的区别。“慢吞吞” 的端到端大模型，在真实的物理交互中毫无用武之地。

抛弃了视频生成的包袱后，GigaWorld-Policy 在推理效率上迎来了质的飞跃。在 A100 GPU 上，其推理速度达到了惊人的360 毫秒 / 步。相比之下，相较 Motus，GigaWorld-Policy 实现了更少的推理显存占用以及 10 倍推理速度提升。
更关键的是，这种速度的提升直接转化为了控制性能的跃升。在真实世界的任务评测中，GigaWorld-Policy 的平均成功率达到了 83%，不仅比 Motus 快 9 倍，成功率更是高出 7 个百分点。