多模态DeepResearch，成了！|多模态|尺度|推理|新论文|视觉|调用|轨迹

DeepResearch 的价值在于把「查资料」变成「做研究」：不是搜到一条就回答，而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编」的风险，特别适合那些信息分散、容易混淆、需要多步推理和多来源佐证的复杂问题。

工业级 deepresearch LLM（如 tongyi-deepresearch、MiroThinker），将文本 DeepResearch 性能从探索级提高到了与闭源模型的 agentic reasoning pipeline 相当的性能，但多模态 DeepResearch 依然处在初期。

图 1A：指出现有多模态深度研究在图像搜索上的两大瓶颈：忽视搜索引擎命中率问题（单次全图 / 实体检索常失败，不同尺度裁剪结果波动大），以及推理深度与检索广度不足（轨迹短、交互少）。图 1B：展示整体流程：自动合成高质量 VQA 与多轮轨迹，并通过 SFT+RL 把深研能力内化到 MLLM 中，使其能进行多轮、多实体、多尺度的视觉与文本搜索。底部结果对比表明：在统一的 agentic 推理设置下，模型以更小参数规模在 6 个基准上达到 SOTA。

在现实世界中，多模态 DeepResearch 有着重要意义，其将研究能力从「只看文字」扩展到「文字 + 图片 / 图表 / 截图等」。现实世界里很多关键信息就藏在视觉内容里：一张照片里的标志、一个产品细节、一页报告截图里的表格、一张地图或示意图。

多模态 DeepResearch 能把这些视觉线索也当成证据来使用：先从图片中抓住关键点，再去查文字资料验证补全，必要时再回到图片继续核对，最后把图文证据一起整合成更可靠、更完整的答案。这样不仅覆盖的信息更全，也更接近人类真实的研究方式。

基于此，作者构建了一个面向真实世界搜索环境的多模态 deep-research 大模型，通过 VQA 数据合成 + 轨迹合成 + 冷启动 + 大规模强化学习，解决当前工作所忽略的引擎命中率问题，将推理轮数提高到数十轮，与搜索引擎交互次数提高到了数百次。

机构：港中文 MMLab，中科大，小红书等
HF daily paper:
https://huggingface.co/papers/2601.22060
https://huggingface.co/papers/2602.02185
Project page: https://osilly.github.io/Vision-DeepResearch/

相比于之前的 multimodal deep-research MLLM 在 6 个主流 benchmark 上几乎翻倍性能，对比例如 gpt5、gemini2.5pro、claude4 等强大闭源模型的 agentic reasoning pipeline，使用 30B-A3B 甚至 8B 参数规模几乎都取得了领先或者相当的性能。

基线对比 Demo：

https://mp.weixin.qq.com/s/E3chyoaLVtaMI1MAL6zAhA?click_id=1

更多 case 展示：

现有一些多模态 DeepResearch 的探索，在真实网页环境里经常卡在两道硬坎，这导致他们缺乏实际应用价值：

命中率问题（hit-rate）被忽视：一张全图 / 一次实体级查询往往被背景噪声带偏；同一实体不同尺度裁剪，检索结果差异巨大。
推理深度与检索广度不足：多数方法轨迹短、工具调用少，难以完成多跳证据聚合与复杂问题的「试错式搜证」。

Vision-DeepResearch 提出新的多模态深度研究范式：把检索从「一次性操作」升级为多轮试探 — 反馈 — 再检索的长期交互过程，支持几十步推理、上百次引擎交互，让模型像人一样在噪声环境中不断缩小范围、验证证据，最终稳定命中关键事实。

方法核心：多尺度视觉检索 + 文本深研接力 + 端到端内化

整体路线是「高质量长轨迹合成 → 冷启动 SFT → 在线高效异步 RL 内化能力」：

多实体 / 多尺度视觉裁剪检索（CIS）：模型先定位与问题相关区域，生成多个 bbox 与不同尺度 crop 并行发起视觉搜索，显著提升命中率。
视觉→网页→摘要→验证的证据管线：视觉搜索返回 URL 后，访问网页并用辅助模型做摘要与图文一致性验证，过滤噪声，提炼可用证据。
桥接文本 DeepResearch 能力：利用强文本 DeepResearch 基础模型生成对应的文本搜索长轨迹，实现跨模态长视野推理迁移。
训练策略：先用约 30K 长轨迹做 SFT 教会「怎么搜、怎么查、怎么写轨迹」，再用在线强化学习在真实在线搜索环境中优化策略（纯准确率奖励 + 多种工程稳定化技巧），把深研行为真正「内化」为模型能力。

图 2 数据管线高质量轨迹数据生成；多跳复杂 VQA 合成

实验：小参数也能打到 SOTA，长视野交互是关键增益来源

性能强大：在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 个基准上：

Vision-DeepResearch-8B 在同等 agent 设置下，相比 Qwen3-VL-8B-Instruct（Agentic）平均提升约 + 10.4%
Vision-DeepResearch-30B-A3B 进一步把整体成绩推到更高水平（平均提升约 + 16.0%），在多个基准上持续扩大优势。超越 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 等强大闭源模型构成的 deep-research 系统的性能。

消融结论明确：

仅全图检索（WIS）收益有限且易受噪声干扰；
多尺度裁剪（CIS）显著提升视觉命中；
CIS + 文本搜索（TS）组合最好，同时满足「视觉锚点精准 + 长尾知识补全」；
RL 进一步把长视野决策做稳：模型学会用更少但更有效的步骤拿到更高回报。

VDR-Bench：重新定义视觉深研评测！2,000 条「必须做视觉搜索」的真实难题，专治文本捷径与全图完美检索

多模态深度研究系统越来越多，但评测却长期「不对题」：很多基准存在两类系统性漏洞：

不够「视觉搜索中心」：答案常被问题文本线索泄露，甚至可用模型先验知识 / 纯文本检索绕过视觉验证，导致分数虚高。
检索场景过于理想化：全图反搜经常命中几乎一模一样的「近重复图片 + 标题元信息」，形成「完美检索（perfect retrieval）」，没测到真实环境下的定位、裁剪、试错与跨模态核验能力。文搜搜索深度太浅，无法反映真实世界的复杂性。