打开网易新闻 查看精彩图片
AI视频越来越像真的,但"像"和"懂"是两件事。
就像一个人能模仿钢琴家的手势,不代表他真会弹琴。现在的视频生成模型,本质上是在"表演"物理——它们记住了物体该怎么动,却没理解为什么该这么动。
Physion-Eval这个测试集,专门用来拆穿这种表演。它给模型出的是小学科学题:球会不会滚进洞里?积木塔会不会倒?水倒进杯子会怎么流?人类觉得理所当然的事,AI却可能栽跟头。
测试结果显示,主流模型在"违反物理规则"的场景面前集体露怯。它们能生成流畅的画面,却判断不了"这个画面在物理上对不对"。换句话说,模型学会了视觉的语法,没学会物理的逻辑。
这解释了为什么有些AI视频看着别扭——杯子里的水没晃动,碰撞的球穿模而过,爆炸的碎片违反动量守恒。观众说不清哪里不对,但直觉知道"这不对"。
Physion-Eval的作者说,他们设计测试时参考了发展心理学的实验方法。人类婴儿几个月大就能建立基本的物理直觉,而今天的AI,可能还在这个起点附近徘徊。
有研究者试过后吐槽:模型在"预测物体 permanence"(物体恒存性)这一项的得分,让他想起自家猫追着激光点跑的样子——热闹,但和真正的理解无关。
热门跟贴