打开网易新闻 查看精彩图片

谷歌DeepMind终于放出了Veo 3论文《Video models are zero-shot learners and reasoners》,这篇文章对Veo 3模型进行了定性和定量研究,得出的结论是Veo 3模型已经涌现出了通用视觉能力,有点像NLP领域的GPT-3时刻,下一步只需要“指令微调”就可能会出现视频领域的ChatGPT

打开网易新闻 查看精彩图片

具体来说研究人员通过对 Veo 3 模型进行广泛测试,展示了其在未经过特定训练的情况下,能够完成物体分割、边缘检测、物理属性理解、工具使用模拟乃至迷宫求解等一系列复杂任务。这些涌现出的能力表明,视频模型正在成为理解、建模和操纵视觉世界的统一平台,预示着机器视觉领域即将迎来一次类似 NLP 领域的范式转变

Veo 3 的四层能力剖析

为了系统性地评估视频模型作为通用视觉基础模型的潜力,研究人员对 Veo 3 的能力进行了一次全面的定性调查。他们将这些涌现出的能力组织成一个四层递进的层次结构,每一层都建立在前一层的基础之上。这个框架不仅清晰地展示了模型的能力边界,也揭示了其解决复杂问题的内在逻辑。例如,要解决一个迷宫问题,模型首先需要感知迷宫的布局,然后对其状态(墙壁与通道)进行建模,最后通过操纵一个物体(如一个圆点)在迷宫中移动来完成任务

打开网易新闻 查看精彩图片

1. 感知:作为理解视觉信息的基础能力

2. 建模:在物体感知基础上构建视觉世界的模型

3. 操控:对感知和建模后的世界进行有意义的改变

4. 推理:在连续操控步骤中跨越时空进行逻辑推演

打开网易新闻 查看精彩图片

第一层:Perception (感知) - 理解视觉信息的基础

计算机视觉的传统任务,如分割、物体检测和边缘检测,长期以来都依赖于专门设计的模型。这些模型虽然在特定任务上表现优异,但泛化能力有限,难以在没有额外训练的情况下迁移到新任务。Veo 3 的出现正在改变这一现状

1.经典视觉任务

在没有任何针对性训练的情况下,Veo 3 能够零样本执行一系列经典的计算机视觉任务。这包括:

边缘检测:准确地勾勒出图像中物体的轮廓

分割:将图像中的不同实体区分开来

关键点定位:识别物体或人体的关键节点

超分辨率:提升低分辨率图像的清晰度

盲去模糊 (Blind deblurring) 与去噪 (Denoising):修复模糊或充满噪点的图像

低光增强:提亮在昏暗环境中拍摄的图像

2.复杂感知任务

Veo 3 的感知能力不止于此,还延伸到了更复杂的认知层面。它能够处理需要整合多重信息或理解模糊信息的任务,例如:

连接搜索:在众多干扰项中,根据颜色和形状的组合来寻找目标

解读模糊图像:成功识别经典的达尔马提亚狗错觉图、纹理与形状线索冲突的图像,以及罗夏墨迹测试 (Rorschach test) 中的彩色斑点

除了去噪任务与扩散模型的训练目标天然相关外,上述绝大多数感知能力都不是视频模型在训练中被明确教导的。这表明,Veo 3 已经涌现出了远超其训练任务本身的零样本感知能力。正如 LLMs 取代了任务特定的 NLP 模型一样,一旦视频模型变得足够廉价和可靠,它们很可能会取代计算机视觉领域中大多数定制化的模型

第二层:Modeling (建模) - 构建对物理与抽象世界的认知

在感知视觉世界的基础上,视频模型开始对其进行建模。理解世界运行的规则,例如物理定律,是进行有效预测和行动的关键一步。

1.直观物理学 (Intuitive physics):Veo 3 展示了对物理世界基本规律的掌握。它能够模拟刚体和柔体的动态行为及其表面交互,理解物体的物理属性,例如:

可燃性:知道某些物体遇火会燃烧

空气阻力:模拟物体在不同环境(如地球和月球)下坠落速度的差异

浮力:判断物体(如石头和瓶盖)在水中的沉浮

光学现象:模拟光的折射和反射,以及加色法与减色法的混色效果

物理稳定性:在视觉叠叠乐 (Visual Jenga) 任务中,能够以物理上可行的方式移除物体

空间容纳:能够判断哪些物体可以被放进一个背包里。

2.抽象关系与记忆:除了物理特性,Veo 3 还能理解抽象概念和关系。例如,它能区分玩具和笔记本电脑这类不同类别的物体。在受 Omniglot 数据集启发的任务中,Veo 3 展示了识别模式、生成变体以及将整体解析为部分的能力。此外,它还能在视频的上下文中,跨越时间和相机移动,保持对世界状态的记忆

第三层:Manipulation (操纵) - 对视觉世界进行有意义的改变

基于感知和建模能力,Veo 3 能够对视觉世界进行有意义的操纵。这使其成为一个强大的零样本图像和视频编辑工具,并能进行富有想象力的模拟

1.图像编辑: Veo 3 可以执行多种编辑任务,包括:

背景移除 (Background removal)、风格迁移 (Style transfer)、上色 (Colorization)、图像修复 (Inpainting) 和图像扩展 (Outpainting)

文本元素操纵和基于涂鸦指令的图像编辑

2.3D 世界理解与想象:Veo 3 对 3D 世界的理解使其能够:

场景合成:从独立的组件构建出完整的场景

新视角生成:从不同角度渲染物体和角色

平滑变换:将一个物体流畅地变成另一个物体

外观重塑:通过改变视角、光照和外观,将一张自拍照变成一张专业的证件照。

3.模拟复杂交互:这种修改场景的能力使其可以想象复杂的互动,例如模拟灵巧的物体操纵(如开罐子、扔东西)、解读物体功能可见性 (affordances)、演示如何绘制一个形状,甚至模拟卷一个墨西哥卷饼的过程

第四层:Reasoning (推理) - 跨越时空的视觉问题求解

当感知、建模和操纵能力融为一体时,便催生了视觉推理能力。语言模型通过符号链进行推理,而视频模型则通过改变真实世界的维度(时间和空间)来实现推理。这种在生成视频中逐帧应用变化的过程,与 LLMs 中的思维链 (chain-of-thought, CoT) 非常相似,论文作者将其称为 帧链 (chain-of-frames, CoF)

早期推理迹象:研究人员在 Veo 3 中观察到了这种能力的早期迹象,它能够解决需要跨时空进行逐步推理的视觉问题:

图与树的遍历:生成有效的图遍历路径,或在树结构上执行视觉广度优先搜索

序列与模式补全:完成视觉序列、连接匹配的颜色、将形状填入孔中

逻辑与解谜:对数字进行排序、解决简单的数独和视觉谜题

工具使用与导航:利用工具完成视觉任务、解决迷宫和导航问题。

规则外推:从视觉示例中推断并应用规则

尽管这些能力尚不完美,但模型能够以零样本的方式解决这些问题,这为未来更先进的视觉推理和规划指明了激动人心的方向。逐帧的视频生成与语言模型中的思维链相平行。正如思维链使语言模型能够对符号进行推理一样,帧链使视频模型能够跨越时间和空间进行推理

从定性到定量:Veo 3 性能的严格评估

在展示了 Veo 3 广泛的定性能力后,研究人员进一步对七个具有代表性的任务进行了定量评估,涵盖了感知、操纵和推理等多个维度。为了全面衡量模型的性能,他们采用了一种细致的评估策略

评估方法

最佳帧 (Best frame) vs. 最终帧 (Last frame):对于每个生成的视频,他们分别报告了表现最好的那一帧的性能和最后一帧的性能。最佳帧代表了模型的性能上限,即它有能力达到的最优解,但这个最优解出现在哪个时刻是未知的。而最终帧的性能则更具实际意义,因为它是一个预先确定的、可直接使用的结果

多次尝试 (pass@k):他们为每个样本生成 10 个视频,并报告在 k 次尝试内成功解决任务的概率 (pass@k)。这可以衡量通过多次采样来获得正确答案的难易程度。性能通常会随着 k 的增加而显著提升,这表明即使单次生成不完美,一个好的解决方案也往往能在合理的尝试次数内找到

基准比较:在适用的情况下,他们将 Veo 3 的性能与 Veo 2、最先进的图像编辑模型 Nano Banana 以及强大的多模态模型 Gemini 2.5 Pro 进行比较

Perception (感知) 任务评估

1.边缘检测 (Edge Detection)

任务:在 BIPEDv2 数据集的 50 张测试图像上进行边缘检测

指标:最佳可区分尺度下的信息增益 (Optimal Information Scale, OIS)

结果:Veo 3 的性能 (pass@10 时 OIS 达到 0.77) 虽未达到任务专用的 SOTA 模型 (0.90),但作为零样本模型已相当出色,并且远超 Veo 2 (0.57)。一个有趣的发现是,Veo 3 生成的边缘图在很多情况下比数据集的真值还要精细,例如它能准确勾勒出树叶和轮胎的纹理,而这些细节在人工标注中被忽略了。这表明,有时数据集的局限性反而会拉低模型的评分

2.分割 (Segmentation)

任务:在 LVIS 数据集的一个子集(包含 1-3 个大对象的 50 张简单图像)上进行类别无关的实例分割

指标:平均交并比 (mean Intersection over Union, mIoU)。

结果:Veo 3 在最佳帧上的 mIoU (pass@10 时为 0.74) 与 Nano Banana (0.73) 相当,再次展示了其强大的零样本分割能力。研究人员还发现,提示词对结果影响巨大:当提示要求将背景变为绿色时,性能 (0.74) 显著优于变为白色 (0.66),这可能与绿幕在视频制作中的广泛使用有关

Manipulation (操纵) 任务评估

1.物体提取 (Object Extraction)

任务:在一个包含 1 到 9 只动物的自定义数据集上,提取所有动物并将它们排成一列

指标:通过计算最终帧中连通组件的数量来判断提取的动物数量是否正确 (Pass@k)

结果:Veo 3 表现出色,pass@10 的成功率达到了 93% ,而 Veo 2 的表现则接近随机水平

2.图像编辑 (Image Editing)

任务:在 Emu-edit 数据集的 30 个样本上根据文本指令编辑图像

指标:由三位人类评估员对编辑的保真度 (fidelity, 编辑是否正确) 和精确度 (precision, 编辑正确且无非预期改动) 进行评分

结果:Veo 3 在保留细节和纹理方面表现尤为出色。然而,由于其作为视频模型有强烈的动画偏好,常常会引入不必要的相机移动或使静态人物动起来。如果能更好地控制这些非预期的变化,视频模型有望成为功能强大的 3D 感知图像和视频编辑器

Reasoning (推理) 任务评估

1.迷宫求解 (Maze Solving)

任务:在不同尺寸(5x5, 7x7, 9x9, 不规则)的迷宫中,将一个红色圆点从起点移动到绿色终点,且不能穿墙

指标:路径是否完全合规 (Pass@k %)

结果:Veo 3 展示了显著的零样本迷宫求解能力,性能远超 Veo 2。在 5x5 的迷宫中,Veo 3 的 pass@10 成功率达到 78%,而 Veo 2 仅为 14%。与其它模型相比,Nano Banana 能很好地处理矩形迷宫,但完全无法解决不规则迷宫。Gemini 2.5 Pro 在接收迷宫的 ASCII 文本表示时表现优于 Veo 3,但在接收图像输入时则表现不佳。这凸显了在视觉媒介中以视觉方式(即逐帧生成)解决视觉任务的优势

2.视觉对称性求解 (Visual Symmetry Solving)

任务:在一个自定义数据集(包含形状和随机图案)上,沿中心垂直轴镜像填充图案。

指标:所有单元格是否被正确填充 (Pass@k %)

结果:Veo 3 的性能远超 Veo 2 和 Nano Banana。该任务还被用于系统性地分析提示词的影响,结果发现,最好和最差的提示词之间,在形状图案上的 pass@1 性能差异高达 40 个百分点,在随机图案上更是高达 64 个百分点,再次证明了视觉提示工程的重要性。

3.视觉类比补全 (Visual Analogy Completion)

任务:在一个 2x2 的网格中,根据 A 到 B 的变换关系,推断出 C 应该变换成什么,并填充缺失的第四格

指标:填充是否正确 (Pass@1 %)

结果:这是 Veo 3 表现相对较差的任务。虽然它能正确处理颜色 (color) 和缩放 (resize) 类型的类比,但在处理反射 (reflect) 和旋转 (rotate) 这类更复杂的空间变换时,其性能低于随机猜测的水平 (33%),这表明模型在这些变换上存在系统性的错误偏见

综合来看,尽管远未完美,但 Veo 3 基于其感知、建模和操纵对象的能力,已经展现出了涌现的视觉推理能力

写在最后:通往通用视觉模型的道路还有多远?

谷歌deepmind这篇论文的核心发现是,Veo 3 能够以零样本的方式解决从感知到早期视觉推理的多种任务。尽管其性能尚未达到完美,但从 Veo 2 到 Veo 3 的巨大且持续的性能提升表明,视频模型正走在成为通用视觉基础模型的道路上,就像 LLMs 为语言领域所做的那样

研究人员强调,当前报告的性能只是模型真实能力的下限。一个任务可以用多种方式呈现,例如一个迷宫可以是黑白网格、视频游戏场景或逼真的公寓俯视图。解决方式也可以是画一条线、移动一个物体或生成一条发光的路径。这意味着两点:

1.提示工程至关重要:不仅是文本提示,视觉提示(即初始帧)的设计也同样关键

2.区分表现与能力:我们必须区分模型在特定任务设置下的表现 和其解决该类问题的潜在能力。目前的结果受限于特定的提示方式,更好的提示可能会解锁更强的能力。这也解释了为何模型在一些看似简单的任务中失败,例如为折叠衣物提供视觉指导,或规划如何将沙发搬过一扇窄门

成本问题

目前,生成一段视频比运行一个专用的、任务特定的模型要贵得多。然而,通用模型的经济学发展轨迹是可预测的。根据 Epoch AI 的估算,对于给定的性能水平,LLM 的推理成本每年下降 9 到 900 倍。在 NLP 领域,早期的通用模型如 GPT-3 也曾被认为因其规模而难以部署,但快速下降的推理成本和通用模型的吸引力,最终使其取代了大多数任务专用模型。如果 NLP 的发展可以作为参考,那么同样的趋势也将在视觉领域上演

万事通,无一精?

对于许多任务,Veo 3 的性能确实低于最先进的专用模型。但这与 LLMs 的早期发展阶段非常相似。初代的 GPT-3 在许多任务上的表现也远不如经过微调的专用模型。但这并未阻止语言模型成为基础模型,研究人员认为,视频模型也不会因此停下脚步。原因有二:

1.快速的进步:从 Veo 2 到 Veo 3 的性能飞跃证明了该领域正在快速发展

2.推理时扩展的潜力:pass@10 的性能始终高于 pass@1,且没有出现平台期,这意味着通过增加推理时的尝试次数等方法,可以有效提升性能。此外,结合自动验证器进行后训练等标准优化手段,也有望进一步提高模型的可靠性。目前的 Veo 3,可以看作是一个尚未经过指令微调或人类反馈强化学习 (RLHF) 的预训练语言模型

借鉴 NLP 从专用模型到通用模型的转变,我们有理由相信,同样的变革将通过视频模型在机器视觉领域发生。由其涌现出的零样本执行多样化任务的能力所驱动,我们或许正在见证一个属于视觉领域的 GPT-3 时刻

参考:

https://arxiv.org/pdf/2509.20328