Physion-Eval给Sora们出难题：会拍视频≠懂物理

像素与芯片

2026-04-03 16:35 ·北京

AI视频越来越像真的，但"像"和"懂"是两件事。

就像一个人能模仿钢琴家的手势，不代表他真会弹琴。现在的视频生成模型，本质上是在"表演"物理——它们记住了物体该怎么动，却没理解为什么该这么动。

Physion-Eval这个测试集，专门用来拆穿这种表演。它给模型出的是小学科学题：球会不会滚进洞里？积木塔会不会倒？水倒进杯子会怎么流？人类觉得理所当然的事，AI却可能栽跟头。

测试结果显示，主流模型在"违反物理规则"的场景面前集体露怯。它们能生成流畅的画面，却判断不了"这个画面在物理上对不对"。换句话说，模型学会了视觉的语法，没学会物理的逻辑。

这解释了为什么有些AI视频看着别扭——杯子里的水没晃动，碰撞的球穿模而过，爆炸的碎片违反动量守恒。观众说不清哪里不对，但直觉知道"这不对"。

Physion-Eval的作者说，他们设计测试时参考了发展心理学的实验方法。人类婴儿几个月大就能建立基本的物理直觉，而今天的AI，可能还在这个起点附近徘徊。

有研究者试过后吐槽：模型在"预测物体 permanence"（物体恒存性）这一项的得分，让他想起自家猫追着激光点跑的样子——热闹，但和真正的理解无关。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴