打开网易新闻 查看精彩图片

这项突破性研究来自中央佛罗里达大学、新加坡国立大学和威斯康星大学麦迪逊分校的联合团队,由刘欣欣、徐兆潘、李明、王凯、李永才和尚语章等研究者共同完成,于2025年11月发表在arXiv预印本平台,论文编号为arXiv:2511.13853v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你看到一个迷宫时,大脑会做什么?它不会像计算机一样列出一串坐标,而是在脑海中"看到"一个小球从起点滚向终点的完整路径。这种视觉化的思考过程,正是人类解决问题的独特方式。如今,最新的人工智能视频生成模型似乎也开始具备这种能力了。

想象一下,如果AI不再局限于文字推理,而是能够像人类一样通过"观看"连续的画面来思考问题,那会是什么样子?这正是当前AI领域最令人兴奋的发展方向之一。传统的AI推理就像一个只会写数学公式的学者,虽然逻辑严密,但无法真正"看到"物理世界的运作过程。而新兴的视频AI则像一个能够在脑海中模拟现实的天才,它们通过生成一帧帧连贯的画面来"思考"问题。

这种被称为"链式帧推理"的新方法,正在彻底改变我们对AI能力的认知。就像人类通过想象来规划行动一样,这些视频模型开始能够通过生成画面序列来解决复杂问题。比如,当面对一个物理操作任务时,它们不再只是输出"用撬棍打开木箱"这样的文字描述,而是真正生成一段视频,展示机器人如何抓取工具、施加力量、处理障碍物的完整过程。

然而,尽管这些展示令人印象深刻,一个关键问题始终悬而未决:这些AI真的在"思考"吗,还是只是在进行精巧的模式匹配?现有的评估方法主要关注视频质量和准确性,却无法测量真正的推理深度。这就像只看一个学生的作业字迹是否工整,而不考察他是否真正理解了数学原理。

为了解决这个评估难题,研究团队开发了一个全新的测试基准,专门用于系统性地评估视频AI的推理能力。这个被称为Gen-ViRe的测试框架,就像为AI设计的一套综合性智力测验,涵盖了从基础感知到高级规划的六大认知维度。

一、重新定义AI的思考方式:从文字到画面的推理革命

传统AI的思考过程就像一个数学家在黑板上写方程式。当你问它如何解决一个迷宫问题时,它会给出一串坐标:"从(3,1)移动到(2,1)再到(1,1)..."这种方法在逻辑推理方面确实强大,就像GPT-o1和DeepSeek-R1这样的模型,它们能够进行复杂的符号推理,甚至在数学和编程任务上表现出色。

然而,这种基于文字的推理方式有一个根本性的局限:它无法真正模拟物理世界的连续动态过程。当面对"机器人如何打开一个钉死的木箱"这样的问题时,传统AI只能告诉你"使用撬棍,施加杠杆力",但它无法验证这个计划在物理上是否可行。比如,机器人的夹爪能否真正抓住撬棍?施力的角度是否合适?周围是否有障碍物干扰?这些问题都需要通过连续的视觉模拟才能得到答案。

链式帧推理的出现彻底改变了这一状况。这种新的推理方式不再局限于文字符号,而是通过生成连续的视频帧来"思考"问题。每一帧画面都代表了推理过程中的一个步骤,就像人类在脑海中想象事物运动轨迹一样。当AI解决视频数独拼图、规划迷宫路径或者设计多步骤工具操作时,生成的每一帧都是一个物理上合理、时间上连贯的推理步骤。

这种方法的革命性在于,推理过程本身就成为了可见的、可验证的。传统AI的思考过程对我们来说是个黑箱,而链式帧推理则让AI的"思维过程"变得透明可见。当一个视频模型生成一段机器人操作的画面时,我们能够看到它是否理解了重力、摩擦力、物体碰撞等基本物理原理。

当前的视频生成技术已经展现出了惊人的潜力。Sora、Kling、Veo-3等大型模型不仅能生成高质量的视频内容,更重要的是它们开始表现出对物理世界的隐性理解。比如,当你要求Veo-3生成"篮球从楼梯上弹跳"的视频时,它能够产生符合重力定律、动量守恒和碰撞变形的真实画面。这表明这些模型通过观察海量视频数据,已经内化了许多物理世界的运行规律。

然而,令人困惑的是,这些展示虽然在视觉上令人印象深刻,但我们仍然不知道它们的推理深度到底如何。就像看到一个人能够完美模仿专家的动作,但我们不确定他是否真正理解了其中的原理。现有的视频评估基准主要关注画质清晰度、内容一致性等表面特征,完全无法测量模型的实际推理能力。

二、构建AI智力测验:六大认知维度的全面评估

为了系统性地评估视频AI的推理能力,研究团队设计了一个全面的认知能力测试框架。这个框架不是凭空想象出来的,而是建立在两个坚实的基础之上:认知科学的理论基础和实际应用的需求。

认知科学告诉我们,人类的智能可以分解为几个核心维度,从最基础的感知能力到最高级的抽象思维。同样,随着AI系统越来越多地进入物理世界,比如自动驾驶汽车、机器人助手等,它们也需要具备相应的认知能力。基于这些考量,研究团队将生成视觉推理能力分解为六个互补的维度,每个维度都对应着特定的智能水平。

感知推理能力可以说是所有智能活动的基础。这不是简单的"看到",而是能够主动推理视觉属性之间的逻辑关系。研究团队设计了类似儿童智力测试的任务,比如颜色关联、形状匹配、数量对应和整体分析等。关键在于,AI不能只是识别出答案,还必须通过生成连接线、标记符号等动作来展示它的推理过程。这就像要求学生不仅要写出答案,还要展示解题步骤一样。

空间时间推理能力考验的是AI对运动、因果关系和变化的理解。这是构建真实世界模型的核心能力。测试任务包括自动驾驶场景中的路径规划、机器人操作中的障碍物导航、以及复杂环境中的空间移动等。AI必须生成时间上连贯、物理上合理的动作序列,就像在脑海中预演整个操作过程一样。

规划推理能力涉及更高层次的认知功能,要求AI能够将复杂目标分解为有序的子任务。研究团队设计了四类测试场景:工具选择和使用、多步骤任务分解、层次化数字规划、以及有物理约束的组装任务。比如,在更换灯泡的任务中,AI需要自动识别出需要关闭电源、准备梯子、取下旧灯泡、安装新灯泡等步骤,并且这些步骤必须按照正确的顺序执行。

类比推理能力测试的是AI的关系抽象能力。这采用了经典的视觉类比任务格式:A与B的关系等于C与什么的关系。AI必须首先通过比较A和B发现隐藏的变换规律,然后将这个规律应用到对象C上。这个过程需要两阶段的推理:规律发现和规律应用,是测试抽象思维能力的有效方法。

算法逻辑推理能力考验AI遵循正式规则和约束的能力。测试任务包括视觉数独、图形遍历、几何证明和填字游戏等。这些任务要求AI理解抽象规则,并在视觉环境中正确应用这些规则。比如在数独任务中,AI不仅要知道每行、每列、每个小方格内不能有重复数字的规则,还要能够通过逻辑推理找出正确答案。

抽象推理能力是最高级的认知功能,测试AI识别和外推抽象模式的能力。这与人类的"流体智能"密切相关。测试任务包括对称性识别、二维三维规律外推、以及瑞文标准推理矩阵等。成功完成这些任务意味着AI不仅仅是在进行模式匹配,而是真正发现了数据中的生成性原理。

这六个维度构成了一个完整的认知能力谱系,从基础感知到高级抽象,每个层次都是理解和模拟真实世界所必需的。更重要的是,这个框架不仅在理论上完备,在实践中也与当前AI应用的实际需求紧密相关。

三、精心设计的测试方法:从数据收集到自动评估

构建一个有效的AI推理能力测试基准,就像为奥运会设计比赛项目一样,需要确保每个测试都公平、准确、有代表性。研究团队采用了多源数据收集策略,确保测试内容既多样化又具有挑战性。

数据收集过程采用了三种互补的方法。网络和学术资源为基础数据来源提供了丰富的素材。研究团队使用目标关键词在谷歌等搜索引擎中收集候选图片,同时从相关学术论文中提取高质量的图表和示例。特别值得一提的是,为了测试感知推理能力,他们还收集了大量儿童智力测试题,这些题目在逻辑上清晰明确,非常适合作为AI能力评估的基准。所有收集的材料都经过了严格的人工筛选和编辑,确保它们完全符合测试任务的逻辑和视觉要求。

现有数据集的整合为特定领域的测试提供了专业化的评估材料。研究团队从多个公开数据集中提取或改编了相关任务,比如从GUI导航数据集中获取规划推理的测试材料,从几何数据集中选择算法逻辑推理的题目,从KiVA数据集中借用类比推理任务。特别重要的是,为了测试高级抽象推理能力,他们还整合了ARC-AGI基准测试中的挑战性任务,这个数据集被广泛认为是评估流体智能的金标准。

生成式数据创建解决了许多测试场景缺乏现成数据的问题。对于规划推理类别中的许多任务,比如工具选择和使用,市场上并没有大规模、逻辑一致的现成数据集。受到链式帧推理开创性工作的启发,研究团队定义了这些高级推理任务的生成规则和底层逻辑,然后利用先进的文本到图像模型创建了全新的视觉谜题。这种方法的优势在于可以系统性地控制任务难度、组合复杂度和泛化要求,这是被动收集现有数据无法实现的。

测试提示的设计遵循了最小提示原则,这一点至关重要。研究的目标是评估模型的自主推理能力,而不是它们遵循复杂指令的能力。因此,所有提示都刻意简化,只提供高级目标,而不包含具体的操作步骤。比如,在机器人空间障碍任务中,AI只会被告知"这是机器人的第一人称视角,任务是去厨房水槽拿纸巾",而不会提到如何处理路径上的障碍物。成功的输出要求AI自主推理出隐含的物理和空间约束。

提示验证采用了严格的迭代同行评议流程。每个任务提示都由一名标注员起草,然后提交给至少一名其他独立标注员审查。审查过程重点关注任务的清晰度、潜在歧义以及标准答案是否唯一确定。任何被标记的问题都会返回团队讨论和修订。这个过程特别注重解决"歧义引用"问题,这是模型错误的常见来源。标注团队经过培训,能够识别和纠正模糊的语言表达,用精确的描述替换含糊的代词和指代词。

评估方法采用了混合视觉语言模型辅助的创新方案。评估管道的核心是为每个任务子类别制定详细的评估标准。这个制定过程结合了视觉语言模型协助和多轮人工完善。首先,团队为每个任务起草初步评估标准,然后将这些标准连同相应的输入图像、文本提示和任务目标一起提供给Gemini 2.5 Pro模型。该模型的作用是基于完整的任务上下文,将初步标准细化为更详细、严格和可操作的评估准则。最后,这些模型生成的详细标准会经过团队的最终多人审查和完善,确保绝对的准确性和一致性。

自动评估过程利用了强大的视觉语言模型作为自动评判员。研究团队使用Gemini 2.5 Pro作为统一的视觉语言模型评判员,根据任务要求灵活运用其不同的模态能力。对于主要依赖最终视觉输出的任务,比如类比推理或几何推理,使用图像模式的Gemini 2.5 Pro进行评判。对于需要评估整个生成过程的复杂动态任务,比如规划和空间时间推理,则使用视频模式的Gemini 2.5 Pro进行评估。

评估的关键在于,每个任务的指定评判员都会获得详细的、子类别特定的评估标准。评判员会根据这些标准逐项分解和评估模型输出,为每个评判决策提供独立的评分。这种标准导向的方法确保了整个基准测试的一致性和严格性。

四、全面实验揭示现状:七大模型的推理能力大检验

为了全面了解当前视频生成模型的推理能力,研究团队对七个最先进的视频生成系统进行了大规模评估实验。这次实验的规模前所未有,涵盖了72个不同的推理提示,每个模型针对每个提示生成5个实例,总计每个模型生成360个视频,整个实验产生了超过2500个视频样本。

参与测试的模型代表了当前视频生成技术的最高水平。其中既包括Kling-v1、Veo-3.1和Sora-2这样的商业顶级系统,也包括Seedance-1.0-Pro、Wan-2.5和Hailuo-2.3等不同技术路线的模型。这些模型在视频生成的各个方面都有着不同的特色和优势,为全面评估提供了理想的样本集。

实验结果显示了一个清晰的性能层级结构。Sora-2以0.560的总分位居榜首,在最具挑战性的认知领域表现尤为突出:抽象推理得分0.604,算法逻辑推理0.472,感知推理0.496。这些成绩表明Sora-2在处理高级认知任务方面确实具备了相当的能力。

紧随其后的是第二梯队的三个模型,它们的表现非常接近。Hailuo-2.3得分0.493,在规划推理方面表现最为出色,得分高达0.778,显示出卓越的序列决策能力。Wan-2.5得分0.490,在类比推理方面领先,得分0.500,表明它在关系抽象方面具有优势。Veo-3.1得分0.486,在多个维度都有均衡的表现,算法逻辑推理排名第二(0.451),规划推理也位列第二(0.722)。

性能较低的模型则暴露了当前技术的局限性。Kling-v1和Seedance-1.0-Lite的得分分别为0.198和0.279,与领先模型存在显著差距,表明在推理能力方面还有很大的改进空间。

更为重要的是,实验揭示了一些有趣的发现。通过对具体案例的深入分析,研究团队发现了当前模型的几个关键特征。在类比推理方面,模型的表现与任务的抽象复杂程度直接相关。对于简单的属性匹配任务,比如颜色类比,Sora-2和Veo-3.1都能轻松解决。但面对抽象的规则变换任务,比如旋转类比,这些模型就显得力不从心,无法识别和应用抽象的旋转规律。

在空间时间推理方面,实验揭示了模型在物理现实模拟方面的根本性缺陷。Sora-2在生成过程中出现了一些令人困惑的错误:让狗穿过封闭的玻璃门(违反物体永续性原理),凭空产生纸巾而不是展示连续的获取过程,以及展示隔空取物的"超能力"。这些错误表明,尽管模型在视觉质量方面表现出色,但在理解和遵循基本物理定律方面仍有重大缺陷。

在算法逻辑推理方面,实验发现了一个有趣的现象。在几何任务中,模型经常无法正确识别图像中的抽象符号。比如,当要求连接点C和点D时,Sora-2和Veo-3.1都未能识别图像中已存在的点D,而是自行创造了一个新的点D并连接到错误的位置。这反映了模型在处理符号密集任务时的一个关键弱点:它们倾向于将抽象符号视为装饰性的视觉噪声,而不是可操作的逻辑组件。

然而,并非所有结果都是负面的。在数独任务中,Sora-2展现了令人鼓舞的类人思维过程。模型使用问号作为未知值的占位符,这表明它能够维持问题的内部状态。更重要的是,它生成了数字"移动"到正确位置的动画序列,这种行为表明模型正在模拟遵循数独规则的问题解决过程,而不仅仅是匹配最终答案的模式。

这些发现揭示了一个重要的洞察:抽象逻辑推理能力和物理现实模拟能力是两种不同的认知技能。一个模型可能在前者表现出色,但在后者方面仍然存在重大缺陷。这对于理解和改进当前的视频生成模型具有重要意义。

五、深度分析:AI推理的优势与局限

通过对大量实验数据的深入分析,研究揭示了当前视频生成模型在推理能力方面的复杂图景。这些发现不仅让我们更好地理解了AI的当前能力边界,也为未来的改进方向提供了清晰的指引。

最令人印象深刻的发现之一是模型在不同认知任务上的表现差异巨大。就像一个学生可能在数学方面天赋异禀,但在体育运动上表现平平一样,这些AI模型也展现出了明显的能力偏向性。在相对简单的感知任务和某些算法任务上,它们的表现相当可观,但在需要物理世界理解和复杂规划的任务上,则暴露出了显著的不足。

模型的符号理解能力呈现出有趣的二元性特征。在一些情况下,比如数独游戏,AI表现出了惊人的符号操作能力。它不仅理解了数字的含义和约束规则,还能够通过生成连续的"思考"过程来展示问题解决步骤。这种表现表明模型确实具备了一定程度的抽象推理能力,能够在内部维持问题状态并进行逻辑推演。

然而,在几何证明等其他符号密集的任务中,同样的模型却表现得令人困惑。它们似乎无法将图像中的字母标记识别为可操作的逻辑实体,而是将它们视为无意义的视觉装饰。这种不一致性表明,当前模型的符号理解能力还不够稳定和通用,很大程度上依赖于任务的具体形式和训练数据的分布。

物理世界建模能力的缺陷可能是最令人担忧的发现。尽管这些模型在视觉呈现方面已经达到了令人印象深刻的水平,但它们对基本物理定律的理解仍然存在根本性的问题。从让物体穿越固体屏障,到无中生有地产生物品,再到展示违反因果关系的超自然现象,这些错误表明模型缺乏对物理世界一致性和连续性的深度理解。

这种缺陷的根源可能在于训练数据和学习目标的局限性。当前的视频生成模型主要通过观察大量视频数据来学习,但这种学习方式可能更多地关注视觉模式的统计规律,而不是底层的物理原理。就像一个只通过观看魔术表演来学习物理学的学生,可能会认为物体确实可以凭空消失和出现。

类比推理能力的表现揭示了另一个有趣的模式。模型在处理简单属性匹配任务时表现良好,这表明它们具备了基本的模式识别和关系映射能力。但当任务涉及更抽象的变换规则时,比如旋转或更复杂的几何变换,模型的表现就急剧下降。这种差异表明,当前模型的类比能力主要停留在表面特征的层面,还没有达到真正的关系抽象。

规划能力方面的差异也很明显。在一些结构化程度较高的任务中,比如更换灯泡的标准流程,模型能够生成合理的步骤序列。但在需要临时应对复杂环境约束的开放性规划任务中,它们往往显得束手无策。这表明模型可能更擅长执行记忆中的标准程序,而不是进行真正的动态规划和问题解决。

评估结果还揭示了一个重要的方法论问题:传统的视频质量评估指标与实际推理能力之间存在显著脱节。一个在视觉保真度和内容一致性方面得分很高的模型,在推理任务上可能表现糟糕。这表明,如果我们要开发真正智能的视频AI系统,就必须超越表面的视觉质量,专注于评估和改进底层的认知能力。

这些发现对AI研究和应用都具有重要意义。它们表明,尽管当前的视频生成模型在某些方面已经展现出了令人鼓舞的能力,但在成为真正的"世界模拟器"之前,还有很长的路要走。更重要的是,这些发现为未来的研究指明了具体的方向:需要更好的物理世界建模、更稳健的符号理解、更灵活的抽象推理,以及更有效的评估方法。

六、未来展望:迈向真正的AI世界模拟器

这项研究不仅揭示了当前视频AI的能力现状,更重要的是为整个领域的未来发展奠定了科学基础。通过建立第一个专门评估链式帧推理的综合基准,研究团队为这个新兴领域提供了急需的测量工具和评估标准。

从技术发展的角度来看,这项研究指出了几个关键的改进方向。首先,需要更好地整合物理知识到视频生成模型中。当前模型主要通过统计学习来理解世界,但真正的世界模拟器需要对基本物理定律有深度理解。未来的研究可能需要探索如何将物理仿真引擎的知识与神经网络的学习能力相结合。

其次,符号推理能力的一致性和稳定性需要显著改善。理想的AI系统应该能够无缝地在视觉感知和符号操作之间切换,就像人类在解决复杂问题时自然地结合直觉和逻辑思维一样。这可能需要新的架构设计和训练方法,以确保模型在不同类型的符号任务上都能保持稳定的表现。

抽象推理能力的提升可能是最具挑战性的目标。当前模型在处理表面模式方面已经相当出色,但真正的抽象推理需要识别和操作深层的结构关系。这可能需要借鉴认知科学和神经科学的最新发现,开发新的学习算法和表征方法。

从应用前景来看,真正具备推理能力的视频AI系统将在多个领域产生革命性影响。在机器人技术方面,这样的系统可以帮助机器人更好地理解和预测环境变化,制定更有效的行动策略。在自动驾驶领域,具备视觉推理能力的AI可以更好地处理复杂的交通场景,预测其他车辆和行人的行为。在教育领域,这种AI可以生成个性化的视觉教学内容,帮助学生通过动态演示理解抽象概念。

然而,这些应用的实现还需要解决许多技术挑战。计算效率是一个重要考虑因素,因为复杂的推理过程通常需要大量的计算资源。如何在保持推理质量的同时提高计算效率,将是未来研究的重要方向。安全性和可靠性也是关键问题,特别是当这些系统被用于安全关键的应用场景时。

评估方法的持续改进同样重要。随着AI系统能力的不断提升,评估基准也需要相应地演化和扩展。未来可能需要开发更加动态和适应性的评估框架,能够随着技术进步自动调整难度和复杂性。

从更广阔的科学角度来看,这项研究代表了AI研究范式的一个重要转变:从关注单一任务的性能优化,转向对通用认知能力的科学测量和理解。这种转变对于推动AI向真正的通用智能发展具有重要意义。

研究还突出了跨学科合作的重要性。视频AI的推理能力评估涉及计算机科学、认知科学、神经科学、物理学等多个学科的知识。只有通过不同领域的深度合作,才能真正理解和改进这些复杂的AI系统。

说到底,这项研究为我们描绘了一个激动人心的未来图景:AI系统不再只是被动地响应指令或简单地模仿人类行为,而是能够主动地观察、思考和推理,真正理解世界的运行规律。虽然实现这个目标还需要克服许多挑战,但这项研究已经为我们提供了清晰的路线图和科学的测量工具。随着技术的不断进步和研究的深入发展,真正的AI世界模拟器可能比我们想象的更早到来。

在这个过程中,持续的科学评估和客观分析将发挥关键作用。只有通过严格的测试和诚实的分析,我们才能真正了解AI系统的能力和局限,从而指导未来的技术发展方向。这项研究在这方面做出了重要贡献,为整个领域建立了新的标准和期望。

Q&A

Q1:Gen-ViRe基准测试评估AI视频模型的哪些能力?

A:Gen-ViRe评估六大认知维度:感知推理(颜色形状匹配等基础逻辑)、空间时间推理(物体运动和路径规划)、规划推理(多步骤任务分解)、类比推理(关系抽象和规律应用)、算法逻辑推理(遵循正式规则解决问题)、以及抽象推理(识别和外推复杂模式)。这些维度从基础感知到高级思维全面覆盖AI的认知能力。

Q2:当前最强的视频生成模型在推理测试中表现如何?

A:Sora-2表现最佳,总分0.560,在抽象推理方面尤其突出。但所有模型都存在明显缺陷:在物理定律模拟方面出现违反常识的错误(如物体穿墙、凭空出现物品),在复杂符号任务中无法正确识别抽象标记,在需要深度规划的开放性任务中表现不佳。整体而言,视觉质量与实际推理深度存在显著脱节。

Q3:链式帧推理与传统AI推理方式有什么区别?

A:传统AI推理基于文字符号,像数学家写公式一样输出坐标或文字描述,无法模拟连续的物理过程。链式帧推理通过生成连续视频帧来"思考",每一帧代表一个推理步骤,能够展示完整的动态过程。这种方式让AI的思维过程变得可见可验证,更接近人类通过想象来解决问题的方式。