随着视频生成技术的飞速发展,能够模拟未来可能性的“世界模型”正逐渐成为机器人学和规划领域的关键工具。然而,如何为这些模型指定精确的目标仍然是一个巨大的挑战。在真实物理交互场景中,目标本身并不好表达,文本提示也过于抽象,难以描述具体的力和运动趋势,目标图像又往往无法覆盖真实任务中的动态过程。

针对这一问题,研究团队提出了一种名为 Goal Force 的新型框架,允许用户通过显式的力矢量(Force Vectors)和中间动力学来定义目标,这极大地模仿了人类构思物理任务的方式。通过在富含因果关系的(如弹性碰撞和多米诺骨牌)数据集上进行训练,模型学会了如何从目标结果反推前因动作。尽管训练数据相对简单,但该模型在工具操作和多对象因果链等复杂的真实场景中表现出了卓越的零样本泛化能力。该工作的核心贡献在于,它把视频模型的控制形式从直接指定动作,推进到了指定目标物理结果,并验证了这种形式可以带来跨场景的零样本规划能力。

打开网易新闻 查看精彩图片

论文题目: Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals 文章链接: https://arxiv.org/abs/2601.05848 代码仓库: https://github.com/brown-palm/goal-force 项目主页: https://goal-force.github.io/
一、研究背景

近来一段时间,视频生成模型已经从较为粗糙的短视频生成,发展到可以渲染复杂动态过程的阶段。这使得越来越多研究开始把它们视作世界模型,并希望据此来完成机器人规划、决策推理和交互控制等复杂任务。对这类任务而言,一个自然设定是给定当前状态和目标状态,让模型生成一段从当前走向目标的过程。但在涉及真实的物理交互时,现有基于目标指定的方法仍然存在明显不足:

(1)文本过于抽象。以足球射门为例,真正的意图并不只是把球踢进门,而是让球以某个方向和力度运动。仅靠文本信息,很难把这种连续的物理量表达清楚

(2)目标图像不现实。对包含碰撞、工具使用或多步行为的任务而言,要求用户直接给出一张目标帧往往代价很高,有时甚至不可行

(3)现有方法大多只能指定动作本身,而不是指定动作后的物理结果。无论是轨迹控制、光流控制,还是直接力控制,本质上都更接近给模型一个原因,再让它生成结果。

(4)传统物理规划常常依赖外部物理模拟器,但这通常需要准确的 3D 几何和物理参数,在真实图像场景中并不容易获得。

在此基础上,作者提出了 Goal Force 这一新任务。它不再要求用户直接指定某个动作,而是要求用户在目标物体上给出一个期望达到的力。模型需要反推出准确的前置动作和因果链,来让这个目标力真正发生。

二、 本文方法

本文方法的核心目标,是让视频模型在给定目标力时生成其对应的前因动作,而不是直接把目标物体渲染成受力后的状态。给定起始图像 和文本提示 ,用户在某个目标物体上指定一个目标力,模型需要输出一段视频,使得视频中存在某个局部前因动作,最终让该目标力在这个物体上实现。

打开网易新闻 查看精彩图片

上图展示了 Goal Force 的整体形式。用户给出输入图像和目标力后,模型生成一段视频,视频中包含一个局部施力事件,它会导致目标物体产生所要求的运动结果。这种目标指定方式比纯文本更精确,也比直接给出目标图像更加自然。

2.1 三通道物理控制信号

为了把目标力输入给视频模型,作者设计了一个三通道物理控制张量:

打开网易新闻 查看精彩图片

其中 是帧数, 和 是空间分辨率。第 0 个通道表示直接力(Direct Force)。它编码的是某个物体受到的即时外力,即物理事件中的原因。论文沿用了“移动高斯斑块”的表示方式[1],让斑块的轨迹长度、持续时间和方向与力的大小、方向对应。

打开网易新闻 查看精彩图片

第 1 个通道表示目标力(Goal Force)。它和直接力使用同样的编码方式,但语义不同。这里给出的不再是已经发生的动作,而是用户希望目标物体最终获得的力及其运动趋势。上图展示了目标力和直接力之间的区别。

第 2 个通道表示质量(Mass)。作者用静态高斯斑块来表示相对质量,并把它放在物体中心位置。这个信号是可选的,用来给模型提供更细粒度的物理属性。如果用户没有给出质量,模型就需要依赖视频模型本身学到的物理先验去估计

2.2 从目标到原因的训练方式

Goal Force 的训练数据由三部分组成,共 12000 段视频。第一部分是 3000 段多米诺骨牌视频,由 Blender 生成,用来表示由直接力触发的链式反应。第二部分是 6000 段滚球碰撞视频,同样由 Blender 生成,其中 4500 段包含碰撞,1500 段不发生碰撞。第三部分是 3000 段花朵摆动视频,由 PhysDreamer 生成,用来补充更复杂的非刚体动力学作者的基本假设是,只要模型先学会这些简单因果关系,就有机会把这种能力迁移到更复杂的真实场景中。

打开网易新闻 查看精彩图片

上图展示了一些示例视频,在这些数据里,球碰撞和骨牌碰撞都提供了一组明确的直接力和目标力配对。围绕这一点,作者采用了一个很关键的随机掩码策略。对于每个训练视频,模型只会看到直接力或目标力中的一个,另一个被置零。对于没有碰撞的样本,比如部分滚球样本和全部植物样本,则只提供直接力。

基于这种设置,模型在训练过程中会被迫学习两种推理范式。第一种是 Goal → Plan,也就是给定目标力,推断并生成前置的施力事件。第二种是 Action → Outcome,也就是给定直接力,模拟碰撞和二次受力的后续结果。质量通道在训练中也会被随机掩码,这样模型既能在有质量信息时利用它,也能在没有显式质量输入时依赖自身学到的物理先验。

2.3 模型结构与训练细节

在具体实现方面,Goal Force 建立在 Wan2.2 上[2]。Wan2.2 是一个 Mixture-of-Experts 视频扩散模型。作者使用 ControlNet 来注入物理控制信号,并且只对 high-noise expert 对应的 ControlNet 分支进行微调,该专家主要负责全局结构和低频动力学,这与物理规划任务需要建模的大尺度因果关系较为一致。ControlNet 复制了预训练 Wan2.2 的前 10 层 DiT,并通过 zero-convolution 的形式将控制分支的输出送回到冻结的基础模型中。目标力提示先经过冻结的 Wan2.2 编码器,再经过一个随机初始化的 patch embedding 层,随后进入 ControlNet 的 DiT 层。作者在 4 张 A100(80GB) 上训练 3000 步,有效 batch size 为 4,整个过程不到 48 小时。训练与推理都使用 81 帧、16 FPS 的视频。

三、实验结果

论文的实验主要围绕三个问题展开:目标力是否比纯文本更适合指定任务,模型生成的规划是否符合物理约束,以及这些规划是否具有多样性并能够利用质量信息

3.1 与纯文本基线进行对比

作者首先构造了一个新的基准,其中包含 25 个具有挑战性的场景,图像来自网络收集图片和生成模型。随后他们进行了人类调查实验,参与人数为 10。对比对象有两个,一个是零样本的 Wan2.2 文本模型,另一个是在同样合成数据上训练、但把物理控制信号全部置零的文本模型。在进行评估时,作者把场景分成四类,分别是两个物体碰撞、多物体碰撞、人和物体交互、工具和物体交互。参与者需要从三个维度评价生成结果,分别是目标力是否完成、运动是否真实、视觉质量是否足够好。

打开网易新闻 查看精彩图片

上表为最终的人类偏好结果,从目标力完成角度来看,Goal Force 在四类任务上都明显优于两个文本基线。比如在工具-物体交互上,相比零样本文本模型,Goal Force 的偏好比例是 96.7%,相比微调后的文本模型,这个比例仍有 70%。在人-物交互上,这两个数值分别是 77.8% 和 57.8%。这说明仅靠文本信息并不足以解决任务,目标力这一显式物理控制信号确实提供了额外信息。同时,这种提升并没有带来明显的运动真实性和视觉质量下降。上表中这两项指标大多仍与文本基线接近。

3.2 规划是否符合物理约束

此外,作者也测试了模型能否在存在自然阻挡物的情况下,准确的识别动作发起者。

打开网易新闻 查看精彩图片

上图展示了一个示例,在上面的台球场景中,橙色球虽然离目标更近,但它的路径被球杆挡住了,因此只有白球是正确的发起者。在下面的橡皮鸭场景中,也只有没有被混凝土障碍挡住的那只鸭子,才能真正触发目标力。

打开网易新闻 查看精彩图片

作者对每个场景都生成了 50 段视频。为了避免基础视频模型自身的随机伪影干扰预测,首先剔除了明显出现物体幻觉等视觉退化的样本,然后在有效样本上统计正确率。上表展示了统计结果,其中 Pool 场景的准确率达到了 97.96%。此外,作者也表明,许多失败样本并不是因为模型选错了物体,而是目标物体出现了自发运动。这说明模型的大部分误差并不来自因果判断本身,而更多来自视频生成过程中的随机性

3.3 规划的多样性与质量信息的有效性

如果一个目标存在多种可行方案,那么模型不应该总是重复同一种起始动作。为此,作者设计了一个包含 6 块骨牌的任务,要求模型让最右边的第 6 块骨牌倒下。由于前 5 块骨牌都可能作为起点,这个任务可以用来测试模型是否会出现模式塌缩的情况

打开网易新闻 查看精彩图片

上表展示了该任务的实验结果,对于骨牌任务,作者使用基于 Jensen-Shannon 散度定义的多样性指标 。如上表所示,Goal Force 的分数是 0.6577,明显高于确定性baseline 0.3900。这说明模型没有总是击打同一块骨牌,而是在多个有效解之间采样。

打开网易新闻 查看精彩图片

此外,作者还测试了模型是否会利用质量信息。在固定目标力的球碰撞任务中,若目标球更重,合理的规划应当让发起球运动得更快(若发起球更重,则它可以用更低速度实现同样的目标力)。实验结果如上图所示,模型在分布内场景中满足了全部四组预期速度关系,在分布外场景中满足了三组,剩下一组也非常接近正确关系。

四、总结

本文提出的 Goal Force,核心创新在于将视频模型的目标指定方式从文本和直接动作,推广到了目标力层面。围绕这一点,作者设计了三通道物理控制信号,并通过合成的因果关系数据训练模型学习 Goal → Plan 和 Action → Outcome 两种推理模式。实验结果表明,这种训练方式不仅能提升目标完成度,还能让模型在自然阻挡、多解规划和质量变化等场景中表现出一定的物理一致性。整体来看,本文证明了,视频模型在合适的控制形式下,确实可以表现出初步的因果规划能力。

参考

[1] Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, and Chen Sun. Force prompting: Video generation models can learn and generalize physics-based control signals, 2025.

[2] Wan: Open and Advanced Large-Scale Video Generative Models. arXiv:2503.20314. https://arxiv.org/abs/2503.20314

Illustration generated by AI.

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈