本文的共同第一作者王禹博,张钧天分别为复旦大学和中国人民大学高瓴人工智能学院的硕士研究生,主要研究方向为多模态大模型和 Reasoning 等,预计 2027 年 6 月毕业,如有多模态大模型 / Reasoning 相关的优质发展机会,欢迎大家联系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通讯作者是刘雨涵,目前在 MBZUAI 担任研究员,研究方向为多模态大模型,Agent 和 Misinformation 等。
近年来,随着思维链(Chain-of-Thought)技术的普及,多模态大模型(VLMs)的多步推理能力得到了显著提升。然而,这种依赖显式文本的推理路径正面临着一个严重的 “信息带宽瓶颈”:在离散的文本分词过程中,连续且丰富的视觉细节往往会被大量丢失。
为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为Laser的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。
研究实验结果显示,Laser 不仅在 6 个主流基准测试中刷新了隐式推理的 SOTA 纪录,更以极致的效率将推理 Token 消耗大幅降低了 97% 以上。这一工作为构建更原生、更高效的多模态智能提供了全新的视角。目前,该论文已被 ACL 2026 Main Conference 正式接收。
- 论文标题: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
- 论文链接: https://arxiv.org/pdf/2601.06803
- 代码仓库: https://github.com/ybb6/laser
- 数据集链接:https://huggingface.co/datasets/wybb/Laser-ScanPath
1. 传统隐式推理的困境:过早的语义坍缩
如前文所述,纯文本的思维链在多模态大模型中不仅面临着视觉细节丢失的 “信息带宽瓶颈”,还存在另一个隐患:语言先验(Language Priors)的干扰。在生成冗长文本推理的过程中,模型往往会过度依赖固有的语言逻辑,从而产生幻觉或忽视了图像本身传递的视觉信息。
为了绕开显式文本带来的这些局限,学界近期开始探索将推理过程转移到高维空间的 “隐式推理(Latent Space Reasoning)”。但现有的隐式推理方法大多依然沿用传统大语言模型的自回归框架。它们在隐空间中强迫模型进行严格的逐点映射 —— 即在每一步推理中,都要求模型去精准预测紧接着的下一个具体概念或视觉特征。
研究团队指出,这种逐点映射与人类真实的视觉感知规律背道而驰。人类在观察复杂图像时,往往遵循 “Forest-before-Trees” 的层级性原则,即先建立对整体画面的宏观语义把控,再逐步聚焦于局部的特定细节。如果强迫模型在尚未完全掌握全局上下文之时,就 “过早地发生语义坍缩”,将其隐状态死死锁定在某个具体的局部概念上,就会引发严重的 “管中窥豹” 效应,使模型难以捕捉更复杂的视觉逻辑关系。
然而,打破这种逐点约束也面临着巨大的技术鸿沟:如果放任隐状态保持模糊的未坍缩状态,在缺乏外部强监督信号的情况下,模型极易迷失方向,导致隐空间发散为毫无意义的高熵噪声。如何在探索全局的概率叠加与精准聚焦的答案收敛之间找到平衡,成为了阻碍隐式推理发展的一大难题,而这也正是 Laser 范式要攻克的核心目标。
2. Laser 核心机制:动态窗口对齐与隐式叠加
基于上述洞察,研究团队提出了Laser(Latent Superposition for Effective Visual Reasoning)。其核心创新在于放弃逐点预测,转而采用动态窗口对齐学习(Dynamic Windowed Alignment Learning, DWAL)。
- 动态语义窗口: Laser 不再只预测紧接着的下一个词,而是让当前的隐状态与一个包含未来潜在语义的动态有效窗口进行对齐。
- 认知流的过渡: 随着推理过程的推进,语义窗口会自然缩小,从而强制模型完成从全局探索到局部精准定位的渐进式过渡。这种机制使得隐状态能够维持一种 “概率叠加” 状态,在编码高层全局语义的同时,将具体细节保留在潜在状态中。
- 自修正与熵正则化干预: 为了在缺乏外部强监督的情况下稳定这种无约束的学习过程,团队设计了自修正叠加机制(Self-Refined Superposition)来构建稳定的软目标。同时,研究引入了熵正则化干预(Entropy-Regularized Intervention),当模型不确定性较高时动态注入硬性引导,而在模型掌握全局上下文时恢复软叠加,形成一种隐式的课程学习。
3. 数据基石:ScanPath 认知轨迹
为了支撑 Laser 的隐式对齐训练,研究团队摒弃了依赖显式边界框(Bounding Boxes)等视觉 COT 的强监督手段,选择通过隐式潜空间对齐来桥接感知与语言。为此研究团队专门构建了包含约 27 万样本的 ScanPath 数据集,为动态窗口对齐(DWAL)提供完美契合 “Forest-before-Trees” 规律的训练载体。团队将 GPT-4o 设定为 “视觉认知引擎” ,基于全局优先假设(Global Precedence Hypothesis)对合成数据施加了极其严格的生成约束:
- 严格的 “全局到局部” 扫描逻辑:要求序列必须从最宽泛的全局锚点起步,逐步将焦点缩小到相关主体,并最终落脚于解答查询所需的关键视觉证据上。
- 演绎轨迹而非静态描述:这一特定的结构确保了数据呈现的是动态的视觉演绎轨迹,而不是对图像表面元素的静态描述。
- 原子化与去语法化:为了提炼出高密度的 “语义锚点”,生成内容被要求必须是原子级别的特定视觉概念,并强制剔除所有的语法修饰词(如 is, the, a 等停用词)。
在这些严苛的要求下,ScanPath 成功将视觉推理过程解构成了一系列离散的语义节点,并在人工评估中取得了 91.5% 的逻辑有效率。这份认知扫描路径数据,为后续模型在隐空间中维持概率叠加提供了最核心的监督目标。
4. 具体方法
动态语义窗口(Dynamic Semantic Windows)
自修正的隐式叠加(Self-Refined Superposition)
在传统的自回归训练中,损失函数强制要求模型在这一步必须 100% 预测唯一的下一个词,这正是导致隐状态发生 “过早语义坍缩” 的罪魁祸首。
熵正则化干预(Entropy-Regularized Intervention)
总体优化目标(Optimization Objective)
整合以上机制,对于隐式推理链,DWAL 损失负责将隐式轨迹与动态语义窗口对齐:
5. 实验结果:以极低算力刷新 SOTA,兼具可解释性
研究团队在 6 个极具挑战性的视觉基准测试上对 Laser 进行了全面评估。结果表明,Laser 兼顾显式思维链的推理深度和隐式推理的高效推理速度。
卓越的推理性能
Laser 在隐式推理方法中确立了新的最优性能(SOTA)。与隐式推理基线模型相比,Laser 的平均性能提升了 5.03%。特别是在测试视觉错觉和幻觉的 HallusionBench 以及感知基准 BLINK 上,Laser 分别取得了 11.36% 和 6.21% 的涨幅。
高效的推理效率
尤为值得一提的是,Laser 在取得性能突破的同时,展现出了极高的运行效率。通过将推理过程从离散文本空间转移到紧凑的隐空间,Laser 成功将推理 Token 的消耗减少了 97% 以上。在 BLINK 基准测试中,其平均 Token 消耗量锐减至仅 6.0 个,远远低于显式推理方法。
破局隐式推理的 “黑盒化”
与传统隐式推理模型中难以解读的连续向量不同,Laser 成功保留了高度的可解释性。得益于其训练过程中维护语义叠加态的窗口对齐机制,Laser 的隐状态可以直接通过语言模型的词表头进行投影解码,从而让研究人员能够直观地可视化出大模型的内部 “认知轨迹”。
6. 消融实验:探索 Laser 的内在机制
为了验证 Laser 各个核心组件的实际贡献,研究团队在论文中进行了详尽的消融实验。结果表明,Laser 的良好表现主要归功于隐式对齐框架的设计,以及对干预机制的精准把控。
6.1 探究 Laser 为何有效:概率叠加与动态窗口
团队首先对动态窗口对齐学习(DWAL)的核心要素概率叠加和动态窗口进行了消融实验。
- 概率叠加防止语义坍缩: 当移除 DWAL 目标,使模型退化为标准的 “预测下一个词” 模式时,模型在细粒度感知基准(如 MMVP 和 BLINK)上的性能出现了显著下降。这表明,在推理过程中维持概率叠加态,对于防止模型过早丢失视觉细节、避免语义坍缩至关重要。
- 动态窗口构建认知层级: 进一步的实验发现,如果取消动态窗口的缩减机制(即使用固定窗口),模型在复杂逻辑推理任务(如 MMStar)上的表现会明显受损。这印证了动态窗口是实现 “Forest-before-Trees” 机制的关键:通过逐步缩小语义范围,强制模型先捕捉全局上下文,再聚焦局部细节。
6.2 熵干预的控制:触发干预的黄金比例
在隐空间中,模型什么时候该自由探索,什么时候该被强制纠偏?这就需要通过熵正则化干预机制中的阈值 η 来控制。实验对不同的熵阈值进行了对比,发现 η=0.6 是最佳的平衡点,此时强制干预的触发比例约为 10%。
- 这个比例意味着,系统大约每 10 个 Token 会进行一次硬性纠偏。如果门槛设定过低(例如 η=0.5,触发比例升至 18%,过于频繁的干预会像传统的强监督一样,限制模型在隐空间中的探索自由,导致逻辑推理(如 MMStar)性能下降。
- 反之,如果门槛设定过高(例如 η=0.8 或 1.0,触发比例低于 2.5%),系统几乎不介入,模型在遇到困惑时就缺乏必要的引导信号,从而影响整体训练效果。
恰好在维持认知灵活性与确保视觉准确性之间找到了最优解。
结语
Laser 的提出,为大语言模型的视觉推理指明了一条兼顾 “高效” 与 “深思” 的新道路。研究团队期待这项工作能够鼓励多模态大模型的研究范式,从传统的显式文本预测,走向更符合直觉的连续隐式视觉推理。
热门跟贴