打开网易新闻 查看精彩图片

本项目主要贡献者包括郑元雷(华中科技大学 VLRLab)、付培(小米大模型 Plus),通讯作者为罗振波(小米大模型 Plus)、陈伟(华中科技大学 VLRLab)

在多页文档理解任务中,一个被广泛接受但很少被质疑的假设是:要理解一篇长文档,模型就应该尽可能多地「看」。

但如果换个角度想:人类阅读一份几十页的报告时,真的会逐页从头看到尾吗?显然不会。我们会先翻目录、扫标题,找到可能相关的部分,然后才精读。真正值得追问的问题是:为什么现有的文档理解模型,不能也这样做?

这正是 Doc-V* 想要回答的问题。

Doc-V* 由小米大模型 Plus 团队和华中科技大学 VLRLab 团队合作提出,一种从「静态阅读」到「主动探索」的多页文档理解新范式,通过交互式视觉推理让模型像人一样有策略地阅读长文档。

从结果上看,这条思路确实带来了实际收益:在统一使用 Qwen2.5-VL 7B 作为 backbone 的设定下,Doc-V* 相比 RAG 变体在多个多页文档问答基准上取得了 49.7% 的提升,且不依赖更大的模型或更长的上下文窗口。

这说明,与其给模型塞更多页面,不如让模型学会「在合适的时机获取合适的页面」。

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/abs/2604.13731v1

重新审视「看全部页面」:静态输入范式的根本矛盾

现有方法在处理长文档时,面临一个根深蒂固的矛盾。

一类方法尝试将所有页面一次性输入模型,以保证信息完整,但随着文档长度增加,计算成本迅速上升,同时模型容易受到「中间信息遗忘」等问题影响。

另一类方法则依赖检索策略,仅选择部分页面作为输入,虽然在效率上有所改善,但其性能高度依赖检索结果 —— 一旦关键页面未被召回,后续推理便难以修正。

从根本上看,这两类方法都采用了一种「静态输入」范式:在推理开始前就固定输入内容,而缺乏在推理过程中动态调整信息获取策略的能力。

这种方式与人类处理长文档的习惯存在明显差异,也限制了模型在复杂多跳推理场景中的表现。

Doc-V* 的方法设计:从「静态阅读」到「主动探索」

Doc-V* 的核心思路可以用一句话概括:不要一次性把所有内容塞给模型,而是让模型自己决定看什么、什么时候看。

第一步是构建 Global Thumbnail Overview。在输入阶段,Doc-V* 并不会直接处理所有高分辨率页面,而是首先将每一页压缩为低分辨率缩略图,并按照网格形式排列。这使模型能够在较低成本下观察文档的整体结构,例如章节分布、图表位置以及高层语义区域。

这种设计的关键在于,它并不试图提供精细内容,而是提供一种结构性导航信号,帮助模型在后续步骤中更有针对性地选择页面。

打开网易新闻 查看精彩图片

图 1:Pipeline 示意,初始输入为 Question+Document Thumbnail。模型先获得文档的全局缩略图视角,再有针对性调用工具对文档作深入的探索。

第二步是两种交互式操作。在获得初步结构信息后,模型可以通过两类操作与文档进行交互:

  • :全局语义检索(粗粒度探索)

打开网易新闻 查看精彩图片

  • :精确页面获取(细粒度证据定位 ⭐)

打开网易新闻 查看精彩图片

基于结构线索的直接定位:从 thumbnail 中看到某几页包含表格 / 图表 / 标题,直接跳转这些页面进行精细分析;

② 邻接信息补全:表格跨页、图文分离、上下文延续,自动获取「前一页 / 后一页」补全语义;

③ 显式页码问题的精确响应:如:「第 3 页的表格中有多少个方法」?

这两种操作在功能上形成互补:前者用于覆盖潜在的相关区域,从全局范围内召回可能有用的页面;后者则更偏向于精细化定位,例如围绕某一已知页面获取其上下相邻页,或依据问题描述以及缩略图中的结构线索,直接定位到具体的证据页面。

打开网易新闻 查看精彩图片

图 2:Doc-V * 的数据构造以及训练方式

第三步是 SFT+GRPO 两阶段训练策略。在训练阶段,Doc-V* 采用了 SFT+GRPO 两阶段策略,使模型学会何时调用哪种操作、如何基于已有证据进行判断。

实验结果

实验结果首先验证了 Doc-V* 在标准多页文档问答任务上的有效性。

从主表结果可以看出,在统一 backbone(Qwen2.5-VL 7B)设置下,Doc-V* 相比基础模型以及其 RAG 变体均取得了稳定提升。RAG Top-5 相比原始模型在各数据集上已有一定增益,说明基于检索的页面筛选确实能够在一定程度上缓解长文档中的噪声问题。

然而,这种提升仍然受限于「静态检索」范式 —— 模型只能基于一次性召回的页面完成推理,一旦关键证据未被包含在 Top-K 中,后续过程缺乏纠错能力。

打开网易新闻 查看精彩图片

图 3:Doc-V * 在各个文档问答 Benchmark 上的结果对比。*

这说明,动态的证据获取机制确实能够弥补静态检索的固有缺陷,让模型在推理过程中持续修正自身判断。

进一步分析不同方法在「输入页面数量 — 性能」之间的关系,可以观察到一个值得关注的现象:对于基于 RAG 的方法,随着输入页面数量的增加,性能通常呈现出「先提升、后下降」的趋势。

初始阶段,增加页面数量能够提高召回率,使模型更有可能接触到正确证据,因此性能有所提升;但当输入页面继续增加时,大量无关或弱相关信息被引入,反而会干扰模型的注意力分配,使有效信号被稀释,最终导致性能下降。

打开网易新闻 查看精彩图片

图 4:不同方法在「输入页面数量 — 性能」关系上的对比。RAG 方法存在明显的性能拐点,随着 K 的增加,性能先升后降,并趋于输入所有页面的性能,而 Doc-V * 则不受 K 的影响。

这一现象在多个数据集(如 SlideVQA、LongDocURL、MMLongBench-Doc)上均有体现,说明其并非特定任务或模型的个例,而是检索式方法在长上下文场景中的普遍特征。

换言之,RAG 方法在「信息覆盖」与「信息干扰」之间存在一个敏感的平衡点,其性能高度依赖于 Top-K 的选择。

相比之下,Doc-V* 并未表现出类似的明显退化趋势。这主要是因为其输入并非一次性确定,而是在推理过程中逐步扩展:模型只在需要时引入新的页面,并结合已有证据进行判断,从而避免了无关信息的过度积累。

打开网易新闻 查看精彩图片

图 5:不同方法在 MMLongBench-Doc 数据集上的不同文档长度的表现对比。

除此之外,本文还对不同方法在不同文档长度上的表现进行了分析。随着文档整体长度增加,无论是 RAG 还是 All Pages 方法,其性能均呈现出整体下降趋势。

这进一步说明,面对越来越长的文档,「给更多内容」并不能解决问题,真正需要的是一种更智能的信息获取策略。

「信息获取 ≠ 信息堆叠」,当无关信息占据上下文时,模型反而更容易被「视觉上显眼但无关」的页面误导,忽略真正关键的证据页。

打开网易新闻 查看精彩图片

图 6:不同方法具体推理过程。

真正需要的是「策略驱动的信息获取」,Doc-V* 在其中做了一件关键的事情 —— 不是盲目读取内容,而是「先判断去哪里看」。

具体表现为一个非常接近人类的过程:先看缩略图(判断哪些页面「看起来可能有用」)→ 直接跳转到最可能包含答案的页面 → 基于最小但最相关的信息完成答案。

这背后其实是一个核心的转变:从「被动接收信息」→「主动决策信息获取路径」,从全局搜索 → 局部确认 → 逐步逼近答案,这正是人类阅读长文档时的真实行为。

从更大的视角看:文档理解的下一步

整体来看,Doc-V* 提供了一种不同于传统方法的视角:将多页文档理解问题从「静态建模」转化为「动态证据获取与整合」的过程。

通过引入缩略图导航、交互式操作以及工作记忆机制,模型能够在推理过程中不断修正自身判断,从而更有效地处理长文档中的复杂信息关系。

这种方法并不依赖于更大的模型或更长的上下文,而是通过更合理的信息使用方式,提高推理效率与结果可靠性。

对文档理解来说,真正重要的,也许从来不是「一次性看完所有内容」,而是能不能像人一样,在阅读过程中不断调整策略、主动寻找证据、逐步逼近答案。