打开网易新闻 查看精彩图片

本文来自复旦大学和阿里巴巴未来生活实验室,已中稿 ICLR 2026。

目前的视觉推理方法衍生出了多种思考模式,主要有和 LLM 一致的纯文本思考模式以及更加贴近图片的用图思考。两种推理模式在不同的领域各有所长,但现有的工作聚焦于单个思考模式,无法充分利用两个模式之间的互补性。

因此,本文提出了 mixture-of-visual-thoughts,一种自适应的推理范式:目标是将不同推理模式整合到一个模型内部并引导其进行自适应的模式选择。为了让模型学习这样的推理范式,研究者引入了一个两阶段的学习框架 AdaVaR,通过 SFT 学习不同的推理模式,并设计了一个专门的 AdaGRPO 算法来在强化学习设定下引导模型学习如何根据问题选择合适的推理模式。

打开网易新闻 查看精彩图片

  • 论文标题:Mixture-of-Visual-Thoughts:Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
  • 论文链接:https://arxiv.org/pdf/2509.22746
  • 代码链接:https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
  • 3B & 7B模型:https://huggingface.co/collections/ZejunLi/adavar-models

背景:视觉推理的不同思考模式

目前对于 LVLM (large vision-language model) 的视觉推理方法已经有了大量的探索,其中主流推理范式包括以下两种:

打开网易新闻 查看精彩图片

图 1: 两种推理模式的直观对比。

1. 纯文本思考模式:和 LLM 一样,直接用自然语言描述推理过程;

2.Visually-Grounded 思考模式:通过结构化的信息(主要是 bounding box 等坐标)将推理路径中的关键概念与图片中的区域对应起来,进一步还可以将对应局部区域进一步裁剪缩放后输入给模型,帮助其利用局部的信息,即 GPT-o3 中提到的 thinking with images 的概念。

这两种思考模式不同的设计也让它们在不同领域上有不同的优劣表现,以下图几个基于 Qwen2.5-VL-7B 的推理模型为例(正数 / 负数代表相对基座模型有提升 / 下降):

打开网易新闻 查看精彩图片

图 2: 基于 Qwen2.5-VL-7B 的不同推理模式模型相对于基座的提升 / 下降。

1.文本思考模式更善于抽象的视觉问题,比如数学几何题,但可能会带来幻觉,也在视觉搜索的 V * 上表现不佳(存在过度思考和language bias的问题);

2.Grounded 模式则更善于定位和利用视觉信息,抑制幻觉,但是在抽象的数学问题上提升不明显(对于抽象的概念,比如角度,大小等,模型对其进行 grounding 来提供有效的信息)

受启发于此,本文希望探索这样的一个问题:“我们是否可以博采众长,将不同思考模式在不同领域上互补的优势整合起来,来帮助提升通用的视觉推理能力呢?”

Mixture-of-Visual-Thoughts:

自适应的视觉推理范式

基于这样的想法,本文提出了 Mixture-of-Visual-Thoughts(简称 MoVT),一种自适应的视觉推理范式:我们希望一个统一个推理模型(1)能够具有不同思考模式;(2)同时能够根据问题自适应地选择合适的模式。

本文也基于 MoVT 的范式进行了初步的探索,我们提出了 AdaVaR 学习框架,通过两个阶段的训练来构建出具有 MoVT 自适应推理能力的模型:

1. 我们在推理序列的开始给不同模式引入了对应的特殊 prefix token,比如 < text>,

,作为指示符帮助模型区分不同的推理模式,然后通过 SFT 整合数据帮助模型学习不同的思考模式;

2. 我们设计了一个 AdaGRPO 的强化学习算法来引导模型进行模式的选择。i.通过固定模式 prefix token,我们引导模型对同一个问题使用不同的思考模式生成推理 rollout,ii. 并设计了特殊的 advantage 计算方法:同时用 rollout-level advantage 增强模型的推理能力,并计算思考模式之间相对的mode-wise advantage 来引导模型选择更优的思考模式。

具体方法的介绍和细节请感兴趣的读者参阅下面一节。

我们在多个场景的多个数据集上进行了评测,如图 2 所示,不同于单模式的模型只是在特定场景表现突出,我们的 AdaVaR 模型在多个任务上都有一致的提升。从 8 个数据集的平均性能来看,我们的 AdaVaR-3B 能够媲美 Qwen2.5-VL-7B,AdaVaR-7B 甚至要超越 GPT-4o 的性能。

AdaVaR:思维模式的整合和训练方法

通过 Prefix Token 统一不同思考模式

首先我们希望让多个思考模式在同一个模型内共存。为此,我们设计了一种统一的推理序列形式,通过特殊的 mode prefix token 来区分不同模式:

打开网易新闻 查看精彩图片

蓝色部分就是mode prefix token,红色部分则是对应的思考过程。基于自回归的生成设定,我们发现生成这样的推理序列相当于在一次生成中先后完成了(1)根据问题生成 prefix token,完成模式选择;(2)根据选择的模式进行对应的思考。

mode prefix token 的引入帮助模型区分了不同的模式,也支持了后续 RL 算法中对于思考模式的干预。

基于这样统一的形式,我们对两种模式收集了对应的数据来进行 SFT,这样模型就具有了以两种模式思考的能力。

AdaGRPO:引导模型进行模式选择

之后我们希望模型能够自适应地根据问题选择合适的推理模式。我们在强化学习的环境下进行这样的学习,其核心想法是:对同一个问题,模型会分别用两种模式推理 n 次,与其他方法类似,我们以结果的正确性为导向,基于规则判断答案的正确与否作为奖励函数。然后基于 rollout 之间,模式之间的比较,设计双层次的 advantage 计算方式鼓励模型生成更好的推理路径,同时选择更优的思考模式。

打开网易新闻 查看精彩图片

图 3: AdaGRPO 和 GRPO 的比较。

为此我们设计了 AdaGRPO,对 GRPO 做出了如下的优化:

1.Prefix-guided Exploration:GRPO 中的 rollout 生成过程是自由的,可能导致模式之间的不均匀探索,比如对同一个问题生成的 2n 条思考过程都是同一个模式。所以 AdaGRPO 中,我们通过固定 mode prefix,让模型前 n 条 和 后 n 条 rollout 分别来自文本思考和 grounded 思考模式;

2.Adaptive Advantage:GRPO 中只计算了 rollout-level advantageA_i = (r_i - Mean) / Std来提升推理能力,而且给 rollout 里所有的 token 都赋予同样的 advantage。为了显式地引导模式的选择:

a.AdaGRPO 中以相对胜率刻画了两个模式之间相对的优势A_t 和 A_v(A_t = 对于该问题,用文本推理模式得到的 reward 要高于 Grounded 模式的概率,反之亦然);

b. 如上一节中设计的推理序列形式,mode prefix token 和思考过程承担了不同的作用,于是我们也将不同的 advantage赋予不同的 token,将 A_t 和 A_v 赋予 mode prefix token 来鼓励模式的选择,将 A_i 赋予思维过程的 token 来提升模型的推理能力

除此之外我们还设计了一个课程学习的数据构造方法。开始时模型在简单混合的数据上学习(包括几何题和物体计数任务);后续则在多个任务混合的数据上学习。题目也会从简单到难,让模型逐步学习从简单到难的推理以及模式选择。

实验结果

我们基于 Qwen2.5-VL-3B/7B 构造了我们的 AdaVaR-3B/7B,在 8 个数据集上与其他基于 Qwen2.5-VL 的推理模型进行了比较:

打开网易新闻 查看精彩图片

表 1: 不同模型之间的性能。黄色底代表文本推理模型,绿色底为 Grounded 推理,蓝色底为本文的 AdaVaR 模型。

1. 首先评测的结果也支持了之前背景里提到的论述 --只基于单思考模式的推理模型通常是特定领域的专家,很难有通用的提升,具体来说:i. 文本推理模型,比如 VLAA-Thinker-3B 和 OVR-7B,主要在数学任务上表现好,但是物体相关问题回答不好;ii. Grounded 推理模型则在 V * 和 POPE 上都表现不错,但数学任务上不理想,只有 DeepEyes 有提升,其他都很难保持基座模型的数学推理能力;

2. 而 AdaVaR-3B 和 AdaVaR-7B 是仅有的在所有任务上都优于 Qwen2.5-VL 基座的模型,甚至在 MathVista,WeMath,POPE 上都是最优,MMStar 和 MathVision 也是最优 / 次优的表现。

3. 从平均准确率刻画的总体性能来看,AdaVaR-3B/7B 都是在对应组别最优的模型。AdaVaR-3B 是唯一一个达到了 Qwen2.5-VL-7B 水平的 3B 模型,而 AdaVaR-7B 甚至要比 GPT-4o 还好。

深入分析自适应推理的机制

进一步我们还深入探究了自适应推理中的机制,希望能回答:

打开网易新闻 查看精彩图片

表 2: 对于不同模式,不同阶段模型的性能。下标 T 和 G 分别代表固定使用 text 和 grounded 模式。GRD% 代表自适应的模型选择 grounded 模式的比例。

Q1: 在一个模型内是否可以,以及如何学习到不同的模式?

首先我们从表 2 可以看到 AdaVaR 模型在 SFT 和 RL 阶段上,从性能来看,两个模式就展现出了截然不同的表现,类似之前提到的文本模式数学能力强,Grounded 模式善于处理物体导向的问题。

Q1.1: 只用一个模式,提高数据的 diversity 是不是就够了?

A1.1: No。我们用 AdaVaR 相同的数据训练了两个单思考模式的 baselines,Grounded-SFT-RL 和 Text-SFT-RL。两个模型的性能都没有 AdaVaR 好,说明 MoVT 整合两种模式的想法是非常有效的。

Q1.2: 两个模式在同一个模型内部是否会互斥?

A1.2: No。同样比较 Grounded-SFT-RL 和 Text-SFT-RL 和 AdaVaR 的两个模式,我们发现整体上差异并不大,也都相较 SFT 阶段有明显的提升,说明整合到一个模型内并不会抑制单个思考模式的提升。

Q1.3: 是否需要 Mode prefix 来区分不同模式?

A1.3: Yes。参见表 2 的 Mix-SFT-RL baseline,我们去掉了 mode prefix,直接混合两个模式的数据。这样做的性能甚至要比单模式推理的模型还差,说明显式的模式区分是必要的,而且显式的区分支持了后续在 AdaGRPO 里 prefix-guided exploration 对于模式探索的干预。

Q1.4: 两个模式是否是互补的?

A1.4: Yes。表 2 中还计算了 AdaVaR 的 Upper Bound,即任意一个模式做对的准确率,我们可以看到对于所有数据集,即使是数学题这种文本模式明显占优的,Upper Bound 也要明显高于文本模式,这也展示了后续 MoVT 范式的巨大潜力。

Q2: 模型能学到合理的模式选择能力吗,怎么学习到的?

对比表 2 中的单模式和自适应模式的表现,我们发现:

1.SFT 以后的模型对于模式的选择并不是最优,比如 MathVista 上文本模式明显更好,但是 AdaVaR-SFT 还是选择了 31% 的 grounded 模式,说明SFT 阶段很难控制模式的选择;

2. 但是 RL 以后,AdaVaR 的模式选择就比较合理,在数学问题上选择文本模式,V * 和 POPE 上选择 grounded 模式,同时 AdaVaR 在所有任务上,自适应模式都要优于文本 /grounded 的单模式推理,说明了RL 阶段模型学到了合理的模式选择能力。

Q2.1: 模型是怎么学习到这样的能力的?

打开网易新闻 查看精彩图片

图 4: 数学问题上的 (a) 训练 reward 曲线;(b) MathVista 上的表现。

A2.1: 如图 4 所示,以数学问题为例,我们可以看到,图 (a) 中两个模式相对的 reward 高低(表现好坏)引导了图 (b) 中 GRD% 曲线(模式选择)的变化。大概可以分为三个学习阶段:

1. 初期探索阶段:刚开始,因为两个模式之间的相对好坏还不稳定,此时 GRD 模式甚至在一段时间内更优,导致一开始存在一定的波动;

2. 稳定阶段:在 500 步开始,TXT 模式要明显优于 GRD 模式,模型的选择也逐步稳定到以 TXT 模式为主,但此时自适应的 ADA 模式要比文本模式还弱,说明模型还没有学习到具体哪些题目应该使用 GRD 模式

3. 微调阶段:在 1500 步后,因为我们使用了分布更广的数据,帮助模型学习到了更佳精细的推理和模式选择能力,两个模式都在提高,并且 ADA 模式最终要优于两个单模式。

Q2.2: 对于模式选择的关键因素?

A2.2: 我们还发现,AdaGRPO 中的关键机制,包括 prefix-guided exploration,Adaptive advantage,以及数据的 diversity 和课程学习都非常重要,具体的实验比较可以参见原论文的 Table 3。

结论与未来展望

本文说明了 MoVT 这样,整合多个推理模式的方式能够是一种构建通用推理能力的可行思路,而 AdaGRPO 则是能够有效学习模式选择的算法。更一般来看,MoVT 相当于从思考模式的角度提升了模型生成推理 Rollout 的丰富度,促进了 RL 过程中的 exploration。本文对于自适应推理的探索也存在一定的局限性,希望未来能有相关工作进行研究:

  • 为了保持两种模式 Rollout 的一致性,本文中探索的 Grounded 思考模式并未像一些现有的工作额外引入局部的视觉特征,后续如何在统一的框架里整合差异更明显的思考模式同样值得探索;

  • 本文目前仅考虑了两种推理模式,但 MoVT 的框架也可以容纳更多的模式,也可以用于学习目前主流关心的思考 / 不思考的自适应切换能力,甚至区分长思考,短思考,是否使用工具等等;

  • 对于未来更多种类的思考模式,势必会面对更加严峻的 exploration-exploitation tradeoff:模式越多,为了平衡模式之间的探索,单个模式的推理数量势必更少,也会进一步抑制各个模式内部的提升;

  • 目前 MoVT 采取的是并行的模式选择范式,进一步还可以结合搜索机制,考虑线性的模式切换,比如先进行短思考,再考虑是否进行长思考等等更复杂的逻辑,来提升推理模型的上限。