“Think with images”范式,即通过工具调用或代码生成等方法来在思考过程的中间步引入辅助图像(如裁剪、标定、作辅助线等),已经成为增强多模态大语言模型(MLLMs)视觉推理能力的重要范式。这类方案虽然取得了不错的效果,但其对外部工具的依赖性也导致了几个局限性:
- 训练和推理复杂度高:训练时模型需要额外地学习各种工具和函数接口的使用方式,引入了额外的训练难度;同时,多轮的交互式推理增加了推理延迟。
- 操作类型受限:模型的能力受限于工具类型,难以泛化到简单工具无法应对的复杂任务上。
- 难以扩展为通用能力:每增加一类工具,就要重新标注数据、设计接口,模型更像“工具调度中心”,而不是在真正“理解和想象”。
Monet实现了一种训练MLLM直接在连续的隐空间思考的 Think with image 方法,不再依赖外部工具或代码,而是通过生成连续的“隐式视觉嵌入”(latent visual embeddings),像人一样在脑海中“打草稿、画草图、做空间想象”,再给出答案,从而将视觉思考能力真正内化。团队核心成员包括北京大学博士生王启迅、史阳以及来自Amazon AGI SF Lab的王一飞。指导老师包括来自快手可灵团队的张远行和北京大学的英向华、王奕森。该工作已被 CVPR 2026 录用。
- 论文标题:Monet: Reasoning in Latent Visual Space Beyond Images and Language
- 论文链接:https://arxiv.org/abs/2511.21395
- 代码链接:https://github.com/NOVAglow646/Monet
- 模型链接:https://huggingface.co/NOVAglow646/Monet-7B
- 数据集链接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K
多模态模型的隐式推理的训练存在两大难点:
一、隐式嵌入(latent embedding)的监督信号难以获取。一种直观的思路是直接对齐模型生成的隐式嵌入(即模型最后一层的表示)和中间步辅助图像的表示,来让隐式嵌入编码辅助图像信息(如近期的几项工作[1-2])。然而,辅助图像的token数量往往成百上千,直接对齐会引入高昂的计算和存储开销,因此现有工作选择压缩图像token为10个左右,或只取关键区域的少数token进行对齐。这进一步导致了细粒度视觉信息丢失、只能编码裁剪区域的视觉信息而无法编码全图操作的信息。
二、隐式嵌入难以被真正优化。监督微调(SFT)过程中,常规的“预测下一个词”(next-token-prediction)的目标很容易通过“记住”训练数据实现,从而绕过对隐式嵌入的优化;此外,强化学习(RL)过程中,常规的GRPO只能在文本token上计算损失,导致了奖励信号难以直接施加到隐式嵌入上。
方法概览:
监督微调 + 强化学习激发隐式视觉推理能力
为了让模型学会在隐空间进行视觉思考,作者提出了一个监督微调(SFT)+强化学习(RL)的训练框架,以Qwen2.5-VL-7B为基模型进行训练。训练后的模型Monet-7B能在推理过程中自主决定何时启动隐式思考,并生成一个特殊标记(如“
”),此后输出的若干向量,不再对应可读文字,而是被视作一段隐式的视觉嵌入插入思维链中。当隐式嵌入达到预设的长度后,将回到语言推理模式。上述过程可在一次推理中交替进行。
图1左图:Monet的推理过程示意。右图:Monet的三阶段SFT和RL(VLPO为作者提出的全新强化学习算法)过程示意。
SFT数据集构建:Monet-SFT-125K
虽然目前已有不少公开的图文交错的思维链数据集[3-6],但它们存在如下的局限性:
1.某些辅助图像缺乏必要性:问题简单,不用辅助图像就能做对;
2.某些辅助图像不准确:比如裁剪区域与答案无关;
3.缺少对于真正有价值的token的标注:比如与答案最相关的少数关键token等。
为了解决上述缺陷,作者提出了一个多阶段的数据集校正流程。如下图所示,从现有的图文交错CoT第一阶段选出在只给出问题和输入图像时Qwen2.5-VL-7B回答错误的样本以保证使用辅助图像的必要性;
第二阶段在第一轮得到的样本中,筛选出仅给出问题和辅助图像(没有问题图像)时较强模型(Qwen2.5-VL-72B)能回答对的样本,以确保辅助图像的准确性;
第三阶段,使用了闭源模型将对应于辅助图像中的关键视觉信息的文本token标注出来,以作为后续训练的监督信号。
最终得到的Monet-SFT-125K包含多种类型的视觉操作(裁剪、标定、做辅助线、生成新的视觉状态)和任务(以真实世界、图表、OCR任务为主)。
图2Monet-SFT-125K数据集的构建流程
监督微调:
让模型自主将辅助图像中的有价值信息编码进隐式嵌入
SFT分成三个阶段。
SFT第一阶段:预热。先在构建的Monet-SFT-125K上进行预热(warm-up)微调,这一步是为了让模型适应图文交错的推理模式。若没有这一过程,模型将容易忽略思维链中间的辅助图像,如图3所示。该步获取的模型权重将用于后续阶段。
图3 预热微调过程中模型对于训练数据中对应于关键观察的token的预测准确性。蓝色:给出辅助图像。灰色虚线:移除辅助图像。绿色:二者准确率差值。随着预热的进行,使用辅助图像相比不使用时准确率的提升越来越大,说明模型逐步学会利用中间步图像。
SFT第二阶段:获取高质量的隐式嵌入。这一阶段是为了获取产生高质量的隐式嵌入来作为第三阶段的对齐目标。为了避免直接对齐隐式嵌入和辅助图像嵌入所带来的高额开销,作者提出了使用两种监督信号来指导隐式嵌入的生成。首先,为了使隐式嵌入能发挥与辅助图像相似的效果,作者提出对齐给定辅助图像和给定隐式嵌入时后续关键token的模型中间层表示(分别对应于图4中的“Teacher CoT”和“Student CoT”),即,采用如下的对齐损失:
另外,为了使对齐损失确确实实是通过调整隐式嵌入而不是被“走捷径”优化的,作者提出让对齐损失的梯度仅能通过隐式嵌入流向模型参数。实现细节可见原文。
图4 SFT第二阶段示意。包含对齐损失和next-token-prediction损失两部分。其中Teacher CoT为包含辅助图像的图文交错CoT;Student CoT中辅助图像后为生成的隐式嵌入,且辅助图像能且仅能被隐式嵌入可见。
SFT第三阶段:让模型学会“从零开始”隐式思考。由于上一阶段隐式嵌入的产生是在隐式嵌入直接可见辅助图像的情况下的,这与实际应用时存在差异。
为此,在第三阶段中,作者将第二阶段训练后模型产生的高质量隐式嵌入作为目标,让模型在不可见辅助图像情况时产生的隐式嵌入与之对齐,如图5所示。
同时这一阶段仍包含next-token-prediction损失,以让隐式嵌入帮助后续推理。
图5 SFT第三阶段示意。这一阶段的目标为对齐无辅助图像时产生的隐式嵌入和来自第二阶段的高质量目标隐式嵌入。VLPO:专为隐式思考设计的强化学习
为此,作者提出了VLPO(Visual-latent policy optimization),通过估计隐式嵌入的生成概率来将其纳入损失函数的计算之中。
Monet带来了分布内和分布外视觉推理能力的提升
图6 分布内的感知和推理任务上的性能(真实世界、图表、OCR任务)
图7 分布外视觉推理任务上的性能(抽象视觉推理任务)
主要结果:作者在分布内任务(真实世界、图表、OCR)和分布外任务(抽象视觉推理)上测试了Monet-7B。
结果如图6和图7所示,Monet超过了SFT、SFT+GRPO以及现有的think with images和隐式视觉推理的基线。相比基模型,在分布内和分布外任务分别取得了3%~9.75%和2.31%的提升。
图8 消融实验。“Latent-only” BP为SFT阶段二中让对齐损失的梯度仅流向隐式嵌入的设计;“auxiliary img”为SFT阶段二中在student COT中引入辅助图像的操作。
消融实验:作者通过全面的消融实验验证了SFT阶段各组件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基础上带来的进一步提升。
值得注意的是,在Monet-SFT基础上进一步进行GRPO并不能带来稳定的提升,印证了GRPO的局限性。
探究隐式嵌入数量对性能的影响
图9 横轴:测试时隐式嵌入数量。纵轴:测试准确率。三条绿色线为Monet-SFT模型,训练时隐式嵌入数量分别为8、10、12;蓝色为SFT(K=8)+VLPO(K=10);粉色为SFT(K=8)+GRPO.
作者探究了不同的训练时和测试时隐式嵌入数量K对性能的影响。核心观察总结如下:
- 对于分布内任务,使用隐式思考确实相比纯文本思考能带来提升;对于分布外任务,只有经过VLPO训练的模型的隐式思考能相比纯文本带来额外提升。
- 对于分布内任务,Monet-SFT模型展现出了测试时的缩放定律(test-time scaling law):测试时随着隐式嵌入数量(甚至远超训练时所见到的长度)增加性能上升;对于分布外任务,只有VLPO展现出了这一趋势;
- GRPO主要提升非隐式思考的性能(测试时latent size=0),而对于隐式思考(测试时latent size>0)提升不明显。
更多细节请参考原文。
参考文献:
[1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.
[2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.
[3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024
[4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.
[5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025
[6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.
热门跟贴