打开网易新闻 查看精彩图片

「以棱镜之思,折射 AI 研究的多维光谱」——学术棱镜是 CSDN 旗下 AI 科技大本营推出的精品论文栏目,专注遴选全球顶会顶刊及产业前沿的优质研究成果。我们相信,每一篇扎实的论文都是照亮技术未来的光束,而棱镜,让光芒绽放出应有的色彩。

责编 | 梦依丹

出品丨AI 科技大本营(ID:rgznai100)

视频生成模型这两年跑得太快了:Sora、Veo、Kling 以及一批开源模型,把“像不像”这件事做到了几乎能以假乱真。画面越来越清晰,镜头越来越顺滑,风格也越来越可控。

但一旦把问题换成“对不对”,裂缝就会冒出来——那些看起来合理的动态过程,往往经不起最基本的物理常识:物体无接触变速、下落无视重力、碰撞没有反作用、液体不涨液面、切削不留凹槽、颗粒不堆积……

在 VideoPhy-2 这类面向物理常识的视频评测里,即便当前最强模型,联合准确率也只有 32.6%。这意味着:视频生成离“世界模拟器”,还隔着一条关键鸿沟。

NEWTON(Neural Agentic World-Aware Tool-Orchestrated Navigation)给出的判断很尖锐:问题未必出在生成器不够大,而在于输入本身就不足以唯一确定一段物理自洽的视频。

打开网易新闻 查看精彩图片

  • NEWTON由浙江大学、香港理工大学、树根科技与三一集团联合提出,论文地址:https://arxiv.org/abs/2605.18396

  • 项目主页:https://newton026.github.io/newton/

打开网易新闻 查看精彩图片

一句话 Prompt,决定不了一个物理世界

文本提示词是对物理世界的高度压缩——一句“把啤酒倒进杯子直到装满”,省掉的却可能是决定动态的关键变量:容器形状、泡沫生成、液面上升速度等。信息不够,模型就只能用“幻觉式补全”把空白填满:单帧漂亮,但一到时间维度,就处处露馅。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不把物理硬塞进权重:把“NEWTON”请进工具箱

于是 NEWTON 把路径反过来走:与其把物理硬塞进生成器的权重,不如把生成器“降级”为工具箱里的一件工具,让一个会规划、会调用物理工具、会自查自纠的 Agent 来组织整个生成过程。它把视频生成从“单轮输入—单次输出”,改成一个多轮循环:

打开网易新闻 查看精彩图片

  • Planner 先判断缺什么物理信息、该调用哪些工具;

  • Executor 去执行工具调用与生成;

  • Verifier 评估结果的物理合理性,把反馈写回下一轮规划。

生成器不再是唯一主角,真正负责“把过程跑顺”的,是可训练的 Planner。

NEWTON 的工具库覆盖互补的物理维度:

  • 一类是关键帧生成工具,用来补齐时间边界条件(例如规定抛物线运动在中间帧到达最高点,或让倒酒时液面随时间逐步上升);

  • 一类是科学计算工具,在沙盒 Python 环境里显式计算轨迹、动量守恒、旋转动力学等数值结果,把人类熟悉的物理推理写进生成上下文;

  • 还有提示词优化工具,把材料属性、动作阶段、因果关系重写成生成器更容易“听懂”的条件。

更关键的是,它不需要改动底层视频生成模型:

无论用 LTX-Video 还是 Veo-3.1,生成器保持冻结,系统真正训练的是 Planner,并通过 Flow-GRPO 在真实的多轮工具调用流程中做 on-policy 优化,逐步学会“什么时候该算物理、什么时候该生成关键帧、什么时候该改写描述、什么时候才触发视频生成”。

这种设计带来一种很现实的好处:物理能力不再被困在某个模型内部,而被抽成可组合、可检查、可迁移的 Agent 行为。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在 VideoPhy-2 基准上,NEWTON 的提升也印证了这一点:接入 LTX-Video,联合准确率从 21.4% 提升到 29.7%;接入 Veo-3.1,在选取测试集上从 30.7% 提升到 37.4%。提升不是来自重训生成器,而是来自 Planner 对“补齐物理规格”和“生成后验证修正”的组织能力。

更直观的对比出现在具体案例里:

  • 倒啤酒时,NEWTON 能让杯子随注入逐渐被填满,而基线会出现“杯子早就满了却还在倒”“怎么倒都倒不进去”“泡沫长在液面上不动”等荒诞画面;

  • 刀刻木头时,只有 NEWTON 同时刻出凹槽和木屑;

  • 吹泡泡、LEGO 橄榄球交接等镜头也类似——基线常常是“动作发生了,但世界状态没变”,而 NEWTON 能把液面上升、材料移除、颗粒堆积、受力反弹这些因果链条补完整。

NEWTON 最有分量的地方,不只是把指标往上推了一截,而是把“世界模拟器”这件事从一场对参数规模的赌局,改写成一套可操作的方法论:当任务涉及真实世界的动态规律时,系统得知道信息缺口在哪里、该调哪些工具、如何验证结果,以及失败后如何重新规划。它给视频生成提供了一条更务实的路——让 Agent 带着物理知识,一步步把视频生成得更真实、更可信。

很多人缺的不是想法,

而是迈出第一步的资源。

现在,

100 小时 AI 算力免费开放领取。

从学习到实践,从模型到 Agent,

扫码免费领取

打开网易新闻 查看精彩图片