闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
2025最后几天,是时候来看点年度宝藏论文了。
比如,阿里最年轻P10、Qwen大模型技术负责人林俊旸最新转发了一篇名为《Video models are zero-shot learners and reasoners》的研究。
没错,就是谷歌DeepMind提出视频模型“思维链”CoF的那篇入选ICCV 2025的论文。
当时,这篇研究还给出了一个关键信号:视觉领域的“GPT时刻”要来了。
该研究用1.8万组实验数据证明,视频模型正在跳出任务专属的局限,走上LLM的老路——
用一个模型,通过提示,完成几乎所有的视觉任务
并且,推理过程还能被CoF“演”出来。
从NLP到CV
自然语言处理领域的GPT时刻,核心是实现了一个模型通吃所有
在此之前,翻译、写作、问答等任务都各自有专属的模型,而LLM的出现,靠大规模数据训练和生成式架构,让零样本学习成为可能,模型通过文字提示就能完成各种各样的任务。
但计算机视觉领域却还一直深陷于这种碎片化的困境。
比如,要做目标检测得用YOLO,做语义分割依赖SAM,图像超分要找专门模型,3D重建还得换另一套工具。
这些针对不同任务的模型架构差异很大,不仅开发成本高,还严重限制了视觉AI的泛化能力,导致视觉AI的进步一直是单点突破。
比如这个模型在分割任务上刷新SOTA,另一个模型在检测任务上实现提速,却始终没能解决“多任务统一”的问题。
而这篇论文详解了谷歌DeepMind借鉴LLM的成功路径,让Veo 3成为了一个“视觉通才”。
通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,让模型具备了跨任务的通用能力
而且Veo 3完美复刻了LLM的零样本优势,面对没专门训练过的任务,只要用文字说清需求,模型就能直接输出结果,无需额外调参或数据微调。
这也正是说视觉GPT时刻到来的核心标志。
从生成视频到用视频思考
就像林俊旸提到的那样,这篇论文指出视频模型一个非常关键的变化在于——视频不再只是输出的形式,也开始体现推理的过程。
模型在生成视频的过程中,会逐步展开中间状态,这就让推理不再是完全不可见的黑箱。
论文中将这种现象称为Chain-of-Frames,也就是CoF,类似于语言模型中的CoT,只不过视频模型是通过连续生成的视频帧,把整个推理过程“演”出来。
模型在时间和空间中不断调整画面,用可见的变化替代抽象的符号推理。
因此,无论是解迷宫、做路径规划,还是进行规则外推,模型都不是一次性输出结果,而是在连续的视觉变化中逐步逼近正确解。
推理过程则被隐含地编码在视频序列之中,视频模型开始在过程中思考
正是这种“逐帧生成即推理”的方式,为通用性提供了基础。
因为模型不再围绕某一个具体任务去算结果,转而在统一的生成过程中,不断更新对场景状态的理解。
不同任务之间的差异,不再体现在模型结构或输出形式上,而是被压缩成了“生成过程中关注什么、如何继续生成”的差别。
这种框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,可以被统一到同一套生成机制中。模型始终做的只有一件事:生成下一帧视频
在逐帧生成过程中,它自然完成了感知、推理与决策的协同,这就不再需要为每类任务单独设计模型或系统。
论文进一步观察到,在无需针对具体任务进行专门训练、也不引入额外监督的前提下,视频模型已经能够通过不同形式的提示,在多类视觉任务中展现出一定的零样本泛化能力。
也正因为如此,Veo 3用感知、建模、操控、推理4大核心能力能搞定62种没学过的视觉任务。
现在经过a16z投资合伙人Justine Moore和林俊旸一提醒,回看这篇论文发现,视频模型在视觉领域的的突破,还真有点当年LLM颠覆NLP的味儿了……
论文地址:https://arxiv.org/abs/2509.20328
参考链接:https://x.com/venturetwins/status/2005330176977293743
— 完 —
热门跟贴