倒酒不涨液面、切木头没凹槽：NEWTON 想治视频生成这些“荒诞细节”|newton|新论文|棱镜|液面|调用

「以棱镜之思，折射 AI 研究的多维光谱」——学术棱镜是 CSDN 旗下 AI 科技大本营推出的精品论文栏目，专注遴选全球顶会顶刊及产业前沿的优质研究成果。我们相信，每一篇扎实的论文都是照亮技术未来的光束，而棱镜，让光芒绽放出应有的色彩。

责编 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

视频生成模型这两年跑得太快了：Sora、Veo、Kling 以及一批开源模型，把“像不像”这件事做到了几乎能以假乱真。画面越来越清晰，镜头越来越顺滑，风格也越来越可控。

但一旦把问题换成“对不对”，裂缝就会冒出来——那些看起来合理的动态过程，往往经不起最基本的物理常识：物体无接触变速、下落无视重力、碰撞没有反作用、液体不涨液面、切削不留凹槽、颗粒不堆积……

在 VideoPhy-2 这类面向物理常识的视频评测里，即便当前最强模型，联合准确率也只有 32.6%。这意味着：视频生成离“世界模拟器”，还隔着一条关键鸿沟。

NEWTON（Neural Agentic World-Aware Tool-Orchestrated Navigation）给出的判断很尖锐：问题未必出在生成器不够大，而在于输入本身就不足以唯一确定一段物理自洽的视频。

NEWTON由浙江大学、香港理工大学、树根科技与三一集团联合提出，论文地址：https://arxiv.org/abs/2605.18396
项目主页：https://newton026.github.io/newton/

一句话 Prompt，决定不了一个物理世界

文本提示词是对物理世界的高度压缩——一句“把啤酒倒进杯子直到装满”，省掉的却可能是决定动态的关键变量：容器形状、泡沫生成、液面上升速度等。信息不够，模型就只能用“幻觉式补全”把空白填满：单帧漂亮，但一到时间维度，就处处露馅。

不把物理硬塞进权重：把“NEWTON”请进工具箱

于是 NEWTON 把路径反过来走：与其把物理硬塞进生成器的权重，不如把生成器“降级”为工具箱里的一件工具，让一个会规划、会调用物理工具、会自查自纠的 Agent 来组织整个生成过程。它把视频生成从“单轮输入—单次输出”，改成一个多轮循环：

Planner 先判断缺什么物理信息、该调用哪些工具；
Executor 去执行工具调用与生成；
Verifier 评估结果的物理合理性，把反馈写回下一轮规划。

生成器不再是唯一主角，真正负责“把过程跑顺”的，是可训练的 Planner。

NEWTON 的工具库覆盖互补的物理维度：

一类是关键帧生成工具，用来补齐时间边界条件（例如规定抛物线运动在中间帧到达最高点，或让倒酒时液面随时间逐步上升）；
一类是科学计算工具，在沙盒 Python 环境里显式计算轨迹、动量守恒、旋转动力学等数值结果，把人类熟悉的物理推理写进生成上下文；
还有提示词优化工具，把材料属性、动作阶段、因果关系重写成生成器更容易“听懂”的条件。

更关键的是，它不需要改动底层视频生成模型：

无论用 LTX-Video 还是 Veo-3.1，生成器保持冻结，系统真正训练的是 Planner，并通过 Flow-GRPO 在真实的多轮工具调用流程中做 on-policy 优化，逐步学会“什么时候该算物理、什么时候该生成关键帧、什么时候该改写描述、什么时候才触发视频生成”。

这种设计带来一种很现实的好处：物理能力不再被困在某个模型内部，而被抽成可组合、可检查、可迁移的 Agent 行为。

在 VideoPhy-2 基准上，NEWTON 的提升也印证了这一点：接入 LTX-Video，联合准确率从 21.4% 提升到 29.7%；接入 Veo-3.1，在选取测试集上从 30.7% 提升到 37.4%。提升不是来自重训生成器，而是来自 Planner 对“补齐物理规格”和“生成后验证修正”的组织能力。

更直观的对比出现在具体案例里：

倒啤酒时，NEWTON 能让杯子随注入逐渐被填满，而基线会出现“杯子早就满了却还在倒”“怎么倒都倒不进去”“泡沫长在液面上不动”等荒诞画面；
刀刻木头时，只有 NEWTON 同时刻出凹槽和木屑；
吹泡泡、LEGO 橄榄球交接等镜头也类似——基线常常是“动作发生了，但世界状态没变”，而 NEWTON 能把液面上升、材料移除、颗粒堆积、受力反弹这些因果链条补完整。

NEWTON 最有分量的地方，不只是把指标往上推了一截，而是把“世界模拟器”这件事从一场对参数规模的赌局，改写成一套可操作的方法论：当任务涉及真实世界的动态规律时，系统得知道信息缺口在哪里、该调哪些工具、如何验证结果，以及失败后如何重新规划。它给视频生成提供了一条更务实的路——让 Agent 带着物理知识，一步步把视频生成得更真实、更可信。

很多人缺的不是想法，

而是迈出第一步的资源。

现在，

100 小时 AI 算力免费开放领取。

从学习到实践，从模型到 Agent，

扫码免费领取