打开网易新闻 查看精彩图片

机器之心发布

最近,具身智能圈被 Generalist CEO 的一篇长文《Going Beyond World Models & VLAs》刷屏。文章抛出了一个看似振聋发聩的观点:目标远比工具标签更重要。与其陷入 “我们到底是在做 VLA(视觉 - 语言 - 动作模型)还是世界模型(World Model)” 的教条之争,不如回归本源:让机器高效、准确地作用于物理世界。

目标固然重要,但这只说对了一半。喊出 “回归目标” 的口号很容易,但如果仅仅停留在 “目标驱动” 的思维层面上,而没有在底层架构上做出与之匹配的决断与取舍,那所谓的 “突破边界” 也不过是空中楼阁。Generalist 试图用 “完全掌控基础模型、从零训练” 来解决一切问题,这是一种大力出奇迹的粗暴解法。但在算力与数据均受限的真实物理世界里,我们需要的不仅是宏大的目标,更是极具穿透力的架构设计。

巧合的是,在这场关于 “目标驱动(Goal-Driven)” 与 “理念驱动(Idea-Driven)” 的探讨中,国内最早布局世界模型的公司极佳视界,他们没有停留在概念的争辩上,而是直接切中物理世界的约束,提出并开源了 “以动作为中心的世界模型” GigaWorld-Policy。这不仅仅是一次架构的微调,而是对具身智能底层逻辑的重构。

打开网易新闻 查看精彩图片

  • 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/

目标的本质

从 “理解世界” 到 “作用于世界”

在探讨 GigaWorld-Policy 之前,我们必须先理清当前世界模型在机器人领域的尴尬处境。过去一年,让机器人 “先想象,再行动” 几乎成了世界模型标配思路:模型在推理时同步生成未来的视频帧,再从这些高维视觉表征中提取或规划动作。

这种做法在直觉上很美妙,但在工程实践中却暴露出了两个致命缺陷:

  1. 目标错位:视频生成是手段,而高频、精准的动作输出才是目的。将手段当成目标,不可避免地会导致模型架构的臃肿和计算资源的错配。
  2. 现实约束:渲染高维像素的计算开销极大,不仅带来了难以忍受的推理延迟,视频预测的误差还会沿着时间步传递给动作序列,最终导致物理交互的崩溃。

极佳视界的判断是:如果一个设计在推理时必须做大量与最终目标无关的计算,那它一定不是最优解。真正的具身智能,需要的不是一个能在脑海中完美回放 4K 视频的 “幻想家”,而是一个对物理规律拥有 “潜意识” 般直觉反应的 “实干家”。

就像顶尖的乒乓球运动员,在击球的瞬间绝不需要在脑海中渲染出球的完整运动轨迹,而是依靠肌肉记忆和物理直觉直接做出最优动作。

GigaWorld-Policy

让视频生成从 “场上选手” 转为 “幕后教练”

基于对 “目标” 和 “现实约束” 的重新思考,GigaWorld-Policy 在架构层面做出了一个极具颠覆性的改变:让视频生成在推理时变为可选项。

打开网易新闻 查看精彩图片

在这个架构中,视频生成模块的角色发生了根本性的转变:

  1. 训练时的 “严师”: 模型在训练阶段同时接受 “动作预测” 和 “视频生成” 的双重监督。海量的互联网视频数据在这里发挥了巨大的价值,视频生成作为一个严苛的辅助任务,强迫模型深入学习并内化符合真实物理规律的动态表征(Dynamics Representation)。
  2. 推理时的 “Action-Only” 模式: 一旦部署到物理世界,视频生成模块便彻底退居幕后。模型可以一键切换至纯动作输出模式,直接下发高频控制指令。

这种设计甩掉了渲染高维像素的算力包袱。理解物理规律,不再等同于必须渲染出物理画面。只有当架构本身与目标实现完全对齐时,“目标驱动” 才不再是一句空话。

数据效率

在现实约束下寻找最优解

Generalist 在文章中提到,面对机器人领域数据稀缺的问题,他们的选择是 “从零训练”,并坚信当数据足够充足时,完全掌控基础模型能更快突破边界。这是一个典型的 “富人思维” 陷阱,也违背了机器学习的基本规律。在产业落地的现实中,“缺乏 web-scale 的机器人动作数据” 是一道绕不过去的坎。指望靠海量真机数据硬生生喂出一个 “从零训练” 的基础模型,在经济性和时间成本上都是不可接受的。

要真正解决数据效率问题,必须回归第一性原理。OpenAI 提出的 Transfer Scaling Law(迁移缩放定律) 为我们指明了方向:它揭示了预训练模型在目标任务上的性能,并不只取决于模型大小,更取决于预训练数据(源域)与目标任务数据(目标域)之间的分布对齐程度。简而言之,你喂给模型再多的通用数据,如果它的表征结构不适合直接输出 “动作”,这种知识迁移的损耗将是极其惊人的。

极佳视界的解法,正是对 Transfer Scaling Law 的一次教科书级别的工程实践。因为 GigaWorld-Policy 从底层架构上就确立了 “以动作为中心”,这使得模型在预训练阶段提取的物理表征,天然地与最终的 “动作输出” 任务高度对齐。这就大大降低了知识迁移的损耗(Transfer Penalty)。

在第一性原理的指导下,GigaWorld-Policy 跑通了 “三段式高效训练 Pipeline”:

  1. 建立物理常识(源域预训练):利用海量互联网视频,让基座模型学习广泛的通用物理常识和视觉表征。
  2. 聚焦时空演变(跨域适配):引入涵盖第一人称视角、真实机器人操作及仿真环境的多源视频,专攻具身场景下的时空动态演变,拉近源域与目标域的分布距离。
  3. 精准对齐(目标域微调):仅需少量的带标签真机动作数据,即可完成最终的控制策略对齐。

打开网易新闻 查看精彩图片

实验数据极具说服力:GigaWorld-Policy 仅用 10% 的真实机器人数据,就能达到传统 VLA 方案使用 100% 数据的效果。 这种分层范式,相比传统 VLA 实现了高达 10 倍的训练效率提升。

推理延迟

物理世界的硬约束

在物理世界中,时间就是生命。毫秒级的延迟差异,往往就是 “稳稳抓住” 与 “打翻水杯” 的区别。“慢吞吞” 的端到端大模型,在真实的物理交互中毫无用武之地。

  • 抛弃了视频生成的包袱后,GigaWorld-Policy 在推理效率上迎来了质的飞跃。在 A100 GPU 上,其推理速度达到了惊人的360 毫秒 / 步。相比之下,相较 Motus,GigaWorld-Policy 实现了更少的推理显存占用以及 10 倍推理速度提升。
  • 更关键的是,这种速度的提升直接转化为了控制性能的跃升。在真实世界的任务评测中,GigaWorld-Policy 的平均成功率达到了 83%,不仅比 Motus 快 9 倍,成功率更是高出 7 个百分点。

打开网易新闻 查看精彩图片

开源精神与产业的未来

与其在概念的迷宫中打转,或是空谈 “目标驱动”,不如用代码和落地效果说话。就在前段时间,极佳视界宣布 GigaWorld-Policy 全面开源:

  • 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/
  • 代码:https://github.com/open-gigaai/giga-world-policy
  • 论文:https://arxiv.org/pdf/2603.17240

在此之前,他们的 GigaWorld-1 不仅在世界模型权威基准 WorldArena 中登顶全球第一(综合得分突破 60 分,超越谷歌、英伟达、阿里等国际顶尖团队),其开源代码和数据集在 Huggingface 上的下载量也已突破 2.4 万次:

  • 代码:https://github.com/open-gigaai/CVPR-2026-Workshop-WM-Track
  • 数据:https://huggingface.co/datasets/open-gigaai/CVPR-2026-WorldModel-Track-Dataset

无论是 Generalist 的深思,还是极佳视界的破局,都在向整个行业传递一个明确的信号:具身智能已经走过了 “概念验证” 的阶段。未来的主战场,属于那些真正理解物理约束、敢于在架构上断舍离的实干者。而 “以动作为中心” 的世界模型,或许是通往物理 AGI 之路上,一座极具里程碑意义的进步。

世界模型无疑是 2026 年至今整个科技圈最热议题之一。它正推动 AI 从“感知当下”,走向对时空和动态变化的“预测与推演”。在这条充满想象力却又极具挑战的赛道上,技术突破与实践应用走到了哪一步?

4 月 15 日 19:00-21:00,机器之心将联手黄大年茶思屋,邀请 5 位产学研顶尖专家,从技术突破到产业实践,深度解析世界模型的最前沿。

欢迎关注机器之心视频号预约直播

*如有疑问,欢迎添加小助手微信,搜索:jiqizhixinsh

打开网易新闻 查看精彩图片