732M模型超越7B！机器人操控新范式：从视频中「悟」物理|动作|新论文|机器人|物理量|真实世界|离散化|运动学

新智元报道

编辑：LRST

【新智元导读】机器人操控的「数据困境」一直是行业痛点：要让机器人学会精细操作，传统方法需要大量人工标注的动作演示数据，成本高昂、周期漫长。这个瓶颈能否被突破？

大型视频生成模型在海量视频上训练，已经隐式地学会了物理世界的运行规律：物体如何运动、力如何传递、空间关系如何演化。

这些知识与机器人操控所需的物理直觉高度一致。

关键问题是：能否把这些视频模型已经掌握的物理先验，转移到机器人控制上？

中山大学王广润教授给出了一个创新答案：不靠海量动作数据，直接从视频生成模型中「借」物理直觉。从PAR（物理自回归模型）到其进阶版本PhysGen（从预训练视频模型中学习物理），两项工作一脉相承，共享同一套「物理自回归」核心框架，并与英伟达今年2月发布的DreamDojo在核心思路上高度重合——当两条独立探索的路线收敛到同一个方向，这或许意味着某种底层规律正在被揭示。

PAR论文链接：https://arxiv.org/abs/2508.09822

项目主页：https://hcplab-sysu.github.io/PhysicalAutoregressiveModel

论文发表时间：2025年8月13日

PhysGen论文链接：https://arxiv.org/abs/2603.00110

论文发表时间：2026年2月18日

传统方法把「看环境」和「做动作」分成两个任务。

PAR反其道而行之：把视频帧和机器人动作编码成同一种「物理token」，让模型在同一个自回归过程中，既预测「世界接下来会变成什么样」，也同步输出「机器人该做什么动作」，这与人类「眼手协调」的直觉高度吻合。

这样做的好处是：动作不再是孤立的指令序列，而是与环境演化深度绑定的联合预测。

图1：物理token自回归的运作方式：预测未来的帧与动作联合体，与真实环境同步演化

三个技术要点

连续表示，不离散化：帧与动作都用连续向量表达，避免离散量化带来的精度损失
隐式逆运动学：通过特殊的因果掩码设计，让模型在「看到未来画面」后再决定当前动作
高效推理：借鉴LLM的KV-Cache技术，实现实时控制

效果如何？

在ManiSkill基准测试中：

PushCube任务达到100%成功率
总体平均成功率74%，居所有方法第二，仅次于需要大规模动作预训练的RDT（84%）
在PickCube与StackCube任务上，同样超过或接近需要动作预训练的强基准方法
额外引入参数仅30M

图2：ManiSkill基准成功率对比（零动作预训练，媲美SOTA）

PhysGen

对物理自回归路线的深化

PhysGen在2026年2月公开发布，是PAR路线的延续。它完整保留了PAR的核心架构（物理token、连续表示、因果掩码），并在此基础上做了三处关键改进。

三项升级

① 前瞻规划（Lookahead-MTP）让模型每次预测时「多看几步」——同时预测未来3个token，训练时全监督，推理时只执行第一个。这相当于给机器人配了「短期规划能力」。

② 高效训练（LoRA微调）用参数高效的方式微调大模型，训练成本大幅降低——单张A100显卡，60小时内完成训练。

③ 真实世界验证不止在仿真环境，PhysGen在Franka Panda真实机械臂上完成了四项任务测试，包括抓取透明物体这种高难度场景。

效果有多强？

LIBERO仿真基准：

图3：732M参数、在零大规模动作预训练的前提下，Physgen取得平均90.8%成功率

真实世界任务：

图4：真实机器人实验性能对比

在最考验物理感知的透明物体抓取任务中，PhysGen反超了需要大规模预训练的π0模型——这说明从视频学到的物理直觉，在处理「视觉欺骗性强」的场景时更有优势。

与英伟达DreamDojo的深度同源

今年2月，英伟达发布了DreamDojo——一个基于大规模视频训练的通用机器人世界模型。对比PAR/PhysGen与DreamDojo，会发现两条路线在核心技术理念上惊人一致。

两个系统的本质目标完全一致：预测未来的「物理量」——也就是未来的动作和视频的联合体。

这个设计背后的哲学是：机器人操控不是「先看画面，再决定动作」的串行过程，而是「世界如何演化」与「机器人如何行动」的联合预测问题。动作和视频不是两个独立变量，而是物理世界演化的共同结果。

架构共识：自回归建模

在如何预测这个「未来物理量」的问题上，两个系统不约而同地选择了自回归架构。

为什么是自回归？因为物理世界的演化是序列性、因果性的——当前时刻的状态决定下一时刻的状态，下一时刻又影响再下一时刻。自回归模型天然契合这种「逐步展开」的物理过程。

表示共识：连续空间建模

在如何表达「物理量」的问题上，两个系统都选择了连续表示，而非离散化。

这是一个关键决策：物理世界本质上是连续的（位置、速度、力都是连续量），离散化会引入量化误差，这些误差在长时序预测中会累积放大。连续表示则能保持物理量的原生精度。

训练共识：零动作预训练

两个系统都验证了同一个重要结论：不需要大规模机器人动作数据预训练，就能实现强大的操控能力。

这背后的逻辑是：视频数据本身已经包含了丰富的物理先验（物体运动规律、力学关系、空间推理），这些先验可以直接迁移到机器人控制任务上。

时间线印证

中大团队的PAR在2025年8月公开，PhysGen在2026年3月公开，DreamDojo在2026年2月发布。

三者独立推进，却在四个核心决策上同步收敛：

① 预测目标：未来动作+视频联合体（物理量）② 架构选择：自回归逐步展开（契合物理因果）③ 表示方法：连续空间建模（避免量化误差）④ 训练范式：零动作预训练（视频物理先验迁移）

这不是偶然的相似，而是对同一底层规律的共同发现。

其中最核心的洞察是：

世界模型不是为了「看起来好」，而是为了「指导动作」

这是PAR/PhysGen与传统视频生成模型的根本区别。

传统视频生成模型（如Sora、Runway）追求的是视觉保真度——生成的视频要「看起来真实」、「美观流畅」。

但对于机器人操控而言，世界模型的根本目的不是生成一段视觉上美观的未来视频，而是希望生成的未来视频能对下一步的物理动作起到实质性的前瞻与指导作用。

核心哲学总结

对世界模型的理解，可以归结为一句话：

世界模型的价值不在于生成「好看的视频」，而在于生成「对动作有指导意义的物理预测」。视频只是物理演化的可视化载体，真正重要的是其中蕴含的物理因果关系——这些因果关系决定了「做什么动作会导致什么结果」，而这正是机器人决策的核心依据。

这也是为什么PhysGen能用732M参数超越7B级模型——它没有把算力浪费在「让视频更美」上，而是专注于「让物理预测更准」。

从PAR到PhysGen，正在验证一条清晰的技术路线：把机器人操控问题重新定义为「预测未来物理量」——未来的动作和视频联合体，并用自回归模型在连续空间中逐步展开这个预测过程。

更重要的是，明确了世界模型的根本目的：不是生成视觉上美观的未来视频，而是生成对下一步物理动作有实质指导作用的物理预测。这个理念体现在物理token联合建模、因果掩码逆运动学、前瞻多步规划、真实世界物理挑战验证等一系列设计中，并通过732M参数超越7B级模型的效率，以及透明物体抓取超越π0的效果，得到了实践检验。

而英伟达DreamDojo在预测目标、架构选择、表示方法、训练范式四个核心决策上的同步跟进，则从另一个侧面印证了这一方向的潜力。

作者介绍

王广润系国家海外高层次青年人才基金及华为战略人才基金获得者，中山大学计算机学院青年研究员、博士生导师，拓元智慧首席科学家。华为「天才少年计划」最高级别入选者；曾赴英国牛津大学担任Research Fellow，师从英国皇家科学院院士、皇家工程院院士 Philip H.S. Torr 教授。

主要从事新一代AI架构、大物理模型与世界模型、多模态生成式AI方向研究。获吴文俊人工智能优秀博士论文奖（全国仅9人）、《Pattern Recognition》全球当年唯一最佳论文、全球AI华人新星榜（当年机器学习领域全球仅25人）；担任多个CCF A类会议领域主席；在多项国际竞赛中获得金牌；研究成果被图灵奖得主Yann LeCun引用。

参考资料：

https://arxiv.org/abs/2603.00110