CVPR 2026 多模态视觉智能全景梳理：从感知到推理的范式重写|cvpr|推理|智能体|模态|视觉

视觉智能：从单一感知能力，扩展为融合感知、认知与行动的一体化智能形态。

作者丨郑佳美

编辑丨岑峰

如果回看过去十年的计算机视觉发展，其主线其实非常清晰：从早期以 ImageNet classification 为代表的“识别范式”，到以检测、分割为核心的“结构理解”，再到扩散模型推动的“生成范式”，视觉研究始终围绕一个核心目标展开——让机器更准确地“看见世界”。

然而，这一路径在近两年开始出现明显的边界：当模型已经可以在静态图像上达到接近甚至超过人类的感知水平时，“看得更准”本身，正在变成一个边际收益递减的问题。

在这样的背景下，在 CVPR 2026 中的一些相关工作所呈现出的，不再只是性能曲线的继续上扬，而是一种更深层的范式转向：视觉不再被视为终点，而被重新定位为一种中介能力，它服务于更高层的目标，例如推理、决策与交互。

这种变化直接体现在多个层面：一方面，越来越多工作开始质疑以语言为中心的推理路径，尝试让模型在视觉或潜在空间中直接完成结构推理；另一方面，研究者也在反思现有评测体系与数据构建方式，因为如果评价标准本身存在偏差，那么所谓的“进步”很可能只是对 benchmark 的过拟合。

更重要的是，这一届论文并不是在单一方向上推进，而是呈现出一种系统性重构的迹象：推理机制上，从“始终推理”走向“按需推理”，从显式链式推理走向隐式表示推理。

评测层面，从选择题式的便捷评估走向更接近真实能力的开放式验证；模型形态上，从单一任务模型演进为支持图像、视频与定位的一体化多模态系统；而在数据层面，则从零散数据集走向规模化、结构化且任务驱动的数据基础设施。

这些变化背后隐含着一个更深的共识正在形成：视觉智能的瓶颈，已经不再只是模型能力本身，而是“推理方式、评测范式、系统形态与数据供给”之间的协同问题。

基于这样的整体趋势，AI 科技评论对本届具有代表性的工作进行了系统梳理，从推理机制的重构、评测范式的反思、模型系统的演进以及数据基础设施的升级四个关键维度出发，选取了一系列具有标志性意义的论文，试图还原这一轮视觉智能范式转变的核心脉络。

推理，可能一直用错了

如果说过去的多模态研究默认一种路径——无论任务难易，模型都应该通过 Chain-of-Thought 展开逐步推理，那么由 Meta AI、KAUST 以及普林斯顿大学共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》实际上是在动摇这个前提本身。

在视频理解任务中，主流方法往往依赖显式推理来提升性能，但作者通过实验观察到一个并不直观的现象：对于经过强化学习优化的视频模型，直接回答在不少情况下已经可以达到，甚至超过带推理的结果。这意味着问题并不在于模型缺乏推理能力，而在于“每一次都推理”本身可能是低效甚至冗余的。

基于这一点，论文提出了 VideoAuto-R1 框架，与其说是在增强推理，不如说是在重新调度推理。模型在训练阶段采用一种“Thinking Once, Answering Twice”的机制：先生成一个初始答案，再进行推理得到修正后的答案，并同时对这两个输出进行监督学习，使模型既具备快速响应能力，又具备在必要时进行深入推理的能力。

而在推理阶段，模型不会固定执行推理流程，而是根据初始答案的置信度动态决策——如果问题简单，则直接输出结果；如果问题复杂，才触发后续推理。

这种设计把“是否推理”从一个人为设定的流程，转变为模型自身可以学习的决策变量。实验结果进一步说明，这种按需推理的方式不仅没有损失性能，反而在保持当前最优水平的同时，将平均输出长度减少约 3.3 倍。

同时也揭示出一个更细粒度的规律：在感知类任务中，推理的作用相对有限，而在真正需要复杂逻辑的任务中，推理才显得关键。

论文链接：https://arxiv.org/pdf/2601.05175v2

这篇论文的亮点主要体现在三个方面。首先，它提出了一种“按需推理”的新范式，使模型不再固定执行复杂推理流程，从而显著提高效率。

其次，通过“双答案训练机制”，模型在保持高性能的同时减少不必要的推理开销，在实验中将平均输出长度减少约 3.3 倍，同时仍达到当前最优水平。

最后，论文揭示了一个重要现象，即推理并不是在所有任务中都必要，在感知类任务中使用较少，而在复杂推理任务中才更有价值，这为后续多模态模型设计提供了重要启发。

总体来看，这篇论文的核心贡献是提出了一种“按需触发推理”的视频理解框架，使多模态模型在保证性能的同时显著提升效率，从而推动视频理解从“始终推理”向“自适应推理”转变。

如果说 VideoAuto-R1 是在回答“推理是否必须发生”，那么由加州大学伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》则是在追问另一个更隐蔽的问题——即便发生了推理，它是否一定要以语言为中介。

当前多模态模型虽然能够处理视觉输入，但其内部推理过程依然高度依赖语言表示，这在处理拼图、空间对应关系、几何结构等任务时会遇到表达瓶颈，因为这些结构本身很难被线性的文本步骤充分刻画。

同时，已有方法往往依赖人工设计的中间监督信号（例如边界框或裁剪区域），不仅标注成本高，也限制了模型学习更灵活的视觉表示能力。

在这种背景下，LIVR（Latent Implicit Visual Reasoning）提出了一种不同路径：与其显式构造推理步骤，不如让模型在潜在空间中自行形成推理结构。

具体来说，方法在输入中引入一组 latent visual tokens，并通过一种“视觉瓶颈机制”强制模型在预测答案时只能通过这些 token 获取视觉信息，而不能直接访问原始图像特征。这种限制实际上迫使模型将关键信息压缩并编码进这些潜在表示中，从而在 latent 空间中完成信息组织与推理。

训练过程分为两个阶段：首先学习 latent token 如何承载视觉信息，其次恢复完整结构进行联合优化。最终得到的不是一条可读的推理链，而是一种隐式的、内嵌在表示中的推理过程。这种方式不依赖显式中间监督，却在多个视觉任务和不同模型架构上都带来了稳定性能提升，说明这种“去语言化”的推理机制具备较强的泛化能力。

论文地址：https://arxiv.org/pdf/2512.21218

这篇论文的亮点主要体现在三个方面。首先，它提出了一种不依赖显式监督的视觉推理方式，模型可以自动学习中间表示，而不需要人工设计推理步骤。

其次，它将推理从“文本链式推理”扩展到“潜在空间推理”，使模型能够更自然地表达复杂视觉结构。最后，该方法具有很强的通用性，在多个视觉任务和多模型上都能稳定提升性能，说明这种隐式视觉推理机制具有良好的泛化能力。

总体来看，这篇论文的核心贡献是提出了一种基于潜在 token 的隐式视觉推理框架，使多模态模型从依赖语言进行推理，转向在内部表示中进行更高效、更灵活的视觉推理。

而麻省理工学院（MIT）的研究论文《ARC Is a Vision Problem!》则更进一步，直接打破了问题本身的建模方式。ARC（抽象推理基准）长期以来被视为语言推理任务，大量方法依赖大语言模型进行规则归纳与解释，但这篇论文指出，这种处理方式可能从一开始就偏离了问题本质。

与其说 ARC 是一个需要语言推理的问题，不如说它是一个典型的视觉结构变换问题，其核心在于空间关系、对称性以及几何规律，而非语言逻辑。

论文地址：https://arxiv.org/pdf/2511.14761v1

基于这一重新定义，研究将 ARC 建模为一个图像到图像的映射任务：首先将原始网格嵌入到一个“画布（canvas）”中，使其可以像自然图像一样被处理；随后直接使用标准视觉模型（例如 Vision Transformer）学习从输入到输出的空间变换规则。

在推理阶段，方法进一步引入测试时训练（test-time training），使模型能够在看到少量示例后进行快速适应，从而实现跨任务泛化。

值得注意的是，这种方法并不依赖大规模预训练数据，但依然能够在 ARC 上取得接近人类水平的性能，同时显著缩小与大型语言模型之间的差距。其背后依赖的是视觉模型天然具备的归纳偏置，例如空间局部性、平移不变性和尺度不变性，这些特性使模型能够更自然地学习抽象规则，并在少样本场景中展现出更强的泛化能力。

总体来看，这篇论文的核心贡献是将 ARC 问题从“语言推理”重新定义为“视觉建模问题”，并证明基于视觉的方法可以有效学习抽象规则，从而为通用推理模型提供了一种新的方向。

把这几项工作放在一起看，会发现它们并不是简单地提升模型能力，而是在逐步拆解“推理”这一概念本身：如果说过去的路径是默认所有问题都需要通过语言展开推理，那么现在的趋势更像是在重新分工，有些问题本质上是感知问题，可以直接回答。

有些推理可以在潜在表示中完成，而不需要显式展开；还有一些任务甚至需要先被重新定义，才能找到更合适的建模方式。也正是在这种不断打破既有假设、并建立新范式的过程中，多模态模型开始从“始终推理”的范式，转向一种更具适应性的“按需与多形态推理”。

评测，正在误导一切

如果说现有视觉语言模型的评测大多还停留在“看懂了什么”这一层，那么由清华大学电机工程系、清华大学深圳国际研究生院、清华大学交叉信息研究院与理想汽车共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，则把问题推进到了更接近真实世界的一步：模型不仅要看懂环境，还要在多个智能体共同参与的场景中理解合作、竞争与策略选择。

现实任务往往不是单一主体面对静态图像，而是多个智能体在同一环境中相互影响，既可能合作，也可能竞争，还可能处在混合动机之下；但已有基准大多局限于单智能体或纯文本环境，很难真正衡量 VLM 在复杂交互场景中的策略能力。

基于这个缺口，论文提出了VS-Bench（Visual Strategic Benchmark），构建了一个多模态、多智能体的统一评测环境，其中包含 10 个视觉驱动的交互场景，覆盖合作、竞争以及混合动机等任务类型。

论文地址：https://arxiv.org/pdf/2506.02387v3

更重要的是，它没有只看最终答对与否，而是把模型能力拆成三个层次来评估：首先是感知能力，也就是能否识别环境元素；其次是策略推理能力，即能否预测下一步行动；最后是决策能力，也就是模型在整体任务中的实际表现。

这样的拆分让评测结果不再只是一个分数，而能进一步看出模型到底是“没看懂”，还是“看懂了但不会推理”，又或者是“能推理但决策不稳”。

实验中，作者测试了多个主流视觉语言模型，结果显示这些模型虽然在感知层面已经表现较强，但在策略推理和决策上仍然存在明显差距。也就是说，它们很多时候是“看得懂环境”，却还没有真正具备在复杂交互中做出好决策的能力。

这篇工作的价值也正在这里：它首次建立了一个面向多智能体与多模态场景的统一评测框架，弥补了现有基准在复杂交互任务上的空缺；同时又通过感知、推理、决策三层拆解，让 VLM 的能力分析更细致、更可解释。

与其说它只是增加了一个新 benchmark，不如说它把视觉语言模型的评估范围，从单一图像理解扩展到了策略推理与交互决策，从而为后续研究明确指出了一个关键短板：当前模型已经越来越会“看”，但还远没有真正学会在多智能体环境中“谋”。

相比之下中国科学院自动化研究所、中国科学院大学人工智能学院、智源 FlagEval 团队、北京航空航天大学、北京大学、浙江大学共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，则把目光转向了另一个更基础、却同样影响深远的问题：我们现在用来训练和评估多模态模型的题目形式，本身是否可靠。

当前大量视觉问答基准采用多项选择问答（MCQA），这种形式确实方便自动评测，但论文指出，选项本身常常会泄露额外信息，使模型即使没有真正理解图像和问题，也能通过排除法、选项偏差或猜测模式拿到较高分数。换句话说，模型分数看起来变高了，但真实能力可能被系统性高估。

为了解决这个问题，论文提出了ReVeL（Rewrite and Verify by LLM）框架，试图打破对选择题形式的依赖，建立一种“可验证开放问答”的新范式。

论文地址：https://arxiv.org/pdf/2511.17405v2

它的核心做法并不是简单删除选项，而是根据不同问题类型设计对应的重写策略和验证机制，把原本依赖选项的信息重新组织成开放式问答形式，同时保留自动验证答案的能力。这样一来，模型在回答时不能再借助选项进行投机性推理，而必须真正基于视觉内容和问题语义生成答案。

在训练阶段，作者进一步利用这些转换后的数据对视觉语言模型进行强化微调，使训练信号更加接近真实开放场景，也降低了 MCQA 选项偏差带来的干扰。

这篇论文最关键的贡献，是把一个长期被默认接受的评测形式重新问题化了。作者不仅指出 MCQA 存在“虚高”风险，还通过实验量化了这种偏差，发现分数可能被高估多达约 20 个百分点。

在此基础上，ReVeL 又提供了一条从“选择题评测”走向“可验证开放问答”的路径。它既保留了自动评测的可操作性，又迫使模型摆脱对选项线索的依赖，从而提升开放问答能力、数据效率和训练稳健性。

与其说这项工作只是换了一种题型，不如说它在打破多模态评测中“方便评估等于有效评估”的惯性，并建立起一种更接近真实应用的训练与评估方式。

把这两篇放在一起看，会发现它们都在推动视觉语言模型评测从“表面正确”走向“能力真实”。VS-Bench追问的是：模型能否在多智能体环境中完成策略推理与决策；ReVeL追问的是：模型看似答对时，是否真的理解了问题，而不是被选项提示带着走。

前者把评估场景从单一理解扩展到复杂交互，后者把评估形式从多项选择推进到可验证开放问答。它们共同指向的是同一个趋势：未来的多模态模型不能只在静态、封闭、容易打分的任务上取得高分，而必须在更开放、更动态、更接近真实世界的任务中证明自己的理解、推理和决策能力。

不是小修小补，而是整体重建

与不少已经具备图像理解能力的开源视觉语言模型相比，由 Allen Institute for AI 和华盛顿大学共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》则把关注点进一步延伸到了两个更关键的方向：一是视频理解能力，二是语言与视觉之间的精细对齐。

当前主流开源 VLM 虽然在单张图像理解上已经取得不错效果，但在处理视频这种时序信息更复杂的输入时仍然能力有限，同时在将语言描述精确对应到具体视觉区域方面也存在明显不足。

论文地址：https://arxiv.org/pdf/2601.10611v4

更深一层的问题在于“开源”的不彻底：不少模型仅开放部分权重，训练数据、数据来源或训练流程并不透明，甚至依赖闭源模型蒸馏，这使得结果难以复现，也限制了后续研究的可持续发展。

Molmo2 的切入点正是同时回应这两个问题。它不仅扩展了输入形式，从单图、多图进一步覆盖到视频，还在模型中引入了 grounding 能力，使模型能够将语言中的描述精确映射到图像或视频中的具体区域。

这样一来，模型不再只是回答“看到了什么”，而是能够进一步回答“具体在哪里”，在理解与定位之间建立更紧密的联系。

在方法之外，这篇论文的亮点同样瞩目。首先，它提供了一个完全开源的视觉语言模型体系，不仅开放模型，还开放数据和训练流程，这在当前多模态领域中较为少见。

其次，它将能力从图像扩展到视频，并且加入了精细的定位能力，使模型不仅能“看懂”，还可以“指出具体位置”。最后，该工作在开放性和性能之间取得了平衡，为后续研究提供了一个可直接使用和扩展的基础模型框架。

总体来看，这篇论文的核心贡献是构建了一套完全开放、支持视频理解与定位能力的视觉语言模型体系，使多模态模型从“只理解图像”进一步发展为“能够理解视频并进行精细对齐”的统一框架。

不是缺模型，而是缺数据

而由苹果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，则是把焦点放在文本驱动图像编辑里一个基础但长期缺口明显的问题上：模型想要根据自然语言指令修改图像，离不开大规模、高质量、开放且贴近真实场景的数据，但现有数据集往往要么规模有限，要么主要依赖合成图像，难以覆盖真实图像中的复杂内容、多样物体关系和开放场景变化。

Pico-Banana-400K正是围绕这一数据瓶颈构建的。论文基于来自OpenImages的真实图像，利用多模态模型自动生成编辑指令和对应编辑结果，从而形成大规模的“图像 - 指令 - 编辑结果”三元组数据集。